MachineLearning 기초

hxxziix·2024년 7월 8일
post-thumbnail

머신러닝의 종류

  1. 지도학습(Supervised Learning)
  2. 비지도학습(Unsupervised Learning)
  3. 강화학습(Reinforcement Learning)

머신러닝 필수 개념

지도학습(Supervised Learning)

- 정답을 알려주면서 진행되는 학습이며, 학습 시 데이터와 함께 레이블(정답)이 항상 제공되어야 함
- 주어진 데이터와 레이블을 이용해 새로운 데이터의 레이블을 예측해야 할 때 사용
  • 장점: 손쉽게 모델의 성능을 평가할 수 있음
  • 단점: 레이블이 없는 데이터는 레이블을 달기 위해 많은 시간을 투자해야 하는 단점 존재
  • 대표적 예
    • 분류
    • 회귀

비지도학습(Unsupervised Learning)

- 레이블(정답)이 없이 진행되는 학습이며 학습 시 레이블 없이 데이터만 필요함
- 데이터 자체에서 패턴을 찾아내야 할 때 사용
  • 장점: 별도로 레이블을 제공할 필요가 없으므로 시간 절약 가능
  • 단점: 레이블이 없으므로 모델의 성능을 평가하는 데 다소 어려움이 있음
  • 대표적 예
    1. 클러스터링
    2. 차원 축소

분류와 회귀

분류

- 데이터가 입력되었을 때 지도 학습을 통해 미리 학습된 레이블 중 하나 또는 여러 개의 레이블로 예측하는 것
  • 이진 분류: 둘 중 하나의 값으로 분류
  • 다중 분류: 여러 개 중 하나로 분류
  • 다중 레이블 분류: 두 개 이상의 레이블로 분류

회귀

- 입력된 데이터 대해 연속된 값으로 예측
  • 날씨 예측
  • 주가 예측
  • 주택 가격 예측

분류와 회귀의 차이점
  • 분류: 내일 날씨가 추울까 더울까? hot 예측
  • 회귀: 내일 기온은 몇 도 일까요? 32도 예측

과대적합과 과소적합

과소적합(underfitting)

  • 모델 학습 시 충분하지 못한 특징만으로 학습되어 특정 특징에만 편향되게 학습된 것(편향이 높음)
  • 테스트 데이터 뿐만 아니라 학습 데이터에 대해서도 정확도가 낮게 나올 경우 과소 적합된 모델일 가능성이 높음
    • 개선 방법: 학습에 사용된 특징의 개수를 늘리는 방법을 통해 개선

과대적합(overfitting)

  • 학습 데이터에 대한 정확도는 매우 높지만 테스트 데이터 또는 학습 데이터 외의 데이터에는 정확도가 낮게 나오는 것(분산이 높음)
  • 특징이 필요 이상으로 많을 경우 발생
    • 개선 방법: 훈련 데이터를 더 많이 모으거나 학습에 사용된 특징의 개수를 줄이는 방법을 통해 개선

혼동 행렬(뒤에서 부터 읽으면 덜 헷갈림)

  • TP(True Positive): 맞는 것을 맞다고 올바르게 예측한 것
    • 암환자를 암환자로 예측
  • TN(True Negative): 틀린 것을 올바르게 예측한 것
    • 일반인을 일반인으로 예측
  • FP(False Positive): 틀린것을 맞다고 잘못 예측한 것
    • 일반인인데 암환자로 잘못 예측
  • FN(False Negative): 맞는 것을 틀렸다고 잘못 예측한 것
    • 암환자인데 일반인으로 잘못 예측

머신러닝 모델의 성능 평가

정확도(Accuracy)

  • 입력된 데이터에 대해 올바르게 예측한 비율
  • 혼동 행렬 상에서는 대각선을 전체 셀로 나눈 값에 해당
                   TP + TN
정확도 =    ----------------------
            (TP + FN + FP + TN)

정밀도(Precision)

  • 모델의 예측 값이 얼마나 정확하게 예측됐는가를 나타내는 지표
  • False를 True라고 판단하면 안되는 경우 중요
                TP
정밀도 =    ------------
            (TP + FP)

0개의 댓글