머신러닝 정리(1)

강다빈·2025년 12월 8일

머신러닝 공부

목록 보기

1/4

1. 머신러닝이란

명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 것
학습 지도 방식에 따른 머신러닝 종류
- 지도 학습
- 비지도 학습
- 준지도 학습
- 강화 학습
점진 적 학습 가능 여부에 따른 머신러닝 종류
- 배치 학습
- 온라인 학습

2. 데이터 학습 및 평가에 사용되는 용어

- 회귀

출력값이 연속된 구간의 숫자 값

- 분류

출력값이 범주 또는 클래스
해당 경우에는 원-핫 인코딩으로 표현

- 원-핫 인코딩(one-hot encoding)

범주 개수만큼의 차원으로 구성된 벡터에서 각 범주에 해당하는 원소 값 하나만 1로, 나머지는 0으로 구성

- 특성 스케일링

특성들을 동일한 범위로 조정
정규화(normalization) : 최대, 최소 값을 이용하여 0~1 범위로 스케일링 조정
-> 이상치 영향 많이 받음
-> (x - 최소값)/(최대값 - 최소값)
표준화(standardization) : 평균이 0, 분산이 1이 되도록 조정
-> 이상치 영향을 덜 받음
-> (x-평균)/표준편차

- 일반화 오차(Generalization Error)

다음 3가지의 오차 합으로 표현

편향(bias)
분산(variance)
줄일 수 없는 오차(irreducible error)

모델 복잡도up -> 과대적합, 분산up, 편향down
모델 복잡도down -> 과소적합, 분산down, 편향up

- 하이퍼파라미터(hyperparameter)

모델 학습하면서 바뀌는 모델의 파라미터가 아니라 학습 전 미리 지정되어 학습 알고리즘으로부터 영향을 받지 않는 파라미터

- 혼동행렬(오차행렬)(contingency table)

이진 분류 모델의 성능 평가
정확도(accuracy)
- 예측한 전체 건수 중에 맞춘 건수의 비율
정밀도(precision)
- 양성이라고 예측한 것 중 맞은 비율
재현율(recall)(= 민감도sensitivity)
- 실제 양성인 것 중 예측했을 때 맞은 비율
- ex) 모두 암인 환자를 검진했을 때, 암 환자를 얼마나 맞췄는지
F1 점수(F1-Score)
- 정밀도와 재현율은 트레이드오프 관계
- 정밀도와 재현율의 조화 평균, 높을수록 좋은 모델

참고

하루살이

다음 포스트

머신러닝 정리(2)

0개의 댓글