머신러닝 정리(1)

강다빈·2025년 12월 8일

머신러닝 공부

목록 보기
1/4

1. 머신러닝이란

  • 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 것
  • 학습 지도 방식에 따른 머신러닝 종류
    • 지도 학습
    • 비지도 학습
    • 준지도 학습
    • 강화 학습
  • 점진 적 학습 가능 여부에 따른 머신러닝 종류
    • 배치 학습
    • 온라인 학습

2. 데이터 학습 및 평가에 사용되는 용어

- 회귀

  • 출력값이 연속된 구간의 숫자 값

- 분류

  • 출력값이 범주 또는 클래스
  • 해당 경우에는 원-핫 인코딩으로 표현

- 원-핫 인코딩(one-hot encoding)

  • 범주 개수만큼의 차원으로 구성된 벡터에서 각 범주에 해당하는 원소 값 하나만 1로, 나머지는 0으로 구성

- 특성 스케일링

  • 특성들을 동일한 범위로 조정
  • 정규화(normalization) : 최대, 최소 값을 이용하여 0~1 범위로 스케일링 조정
    -> 이상치 영향 많이 받음
    -> (x - 최소값)/(최대값 - 최소값)
  • 표준화(standardization) : 평균이 0, 분산이 1이 되도록 조정
    -> 이상치 영향을 덜 받음
    -> (x-평균)/표준편차

- 일반화 오차(Generalization Error)

다음 3가지의 오차 합으로 표현

  • 편향(bias)
  • 분산(variance)
  • 줄일 수 없는 오차(irreducible error)

모델 복잡도up -> 과대적합, 분산up, 편향down
모델 복잡도down -> 과소적합, 분산down, 편향up

- 하이퍼파라미터(hyperparameter)

  • 모델 학습하면서 바뀌는 모델의 파라미터가 아니라 학습 전 미리 지정되어 학습 알고리즘으로부터 영향을 받지 않는 파라미터

- 혼동행렬(오차행렬)(contingency table)

  • 이진 분류 모델의 성능 평가

  • 정확도(accuracy)

    • 예측한 전체 건수 중에 맞춘 건수의 비율
  • 정밀도(precision)

    • 양성이라고 예측한 것 중 맞은 비율
  • 재현율(recall)(= 민감도sensitivity)

    • 실제 양성인 것 중 예측했을 때 맞은 비율
    • ex) 모두 암인 환자를 검진했을 때, 암 환자를 얼마나 맞췄는지
  • F1 점수(F1-Score)

    • 정밀도와 재현율은 트레이드오프 관계
    • 정밀도와 재현율의 조화 평균, 높을수록 좋은 모델

참고

profile
하루살이

0개의 댓글