교차 검증이란?
검증 : 모델의 학습이 잘 진행되었는지, 즉 일반화 능력이 좋은지를 판단하는 평가 과정
검증 데이터를 선택 할 때 아래와 같은 문제가 발생 가능
교차 검증 (Cross Validation) : 전체 데이터를 여러 개의 하위 데이터로 나누고, 하위 데이터 세트들의 조합을 서로 다른 방법으로 훈련과 검증에 사용하여 모델의 일반화 능력을 측정하는 방법
K-Fold CV -> 기본
계층적 교차 검증 (Stratified Cross-Validation) -> 비율을 맞춘 K-Fold
LOOCV (Leave-One-Out CV) -> 극단적 K-Fold
한 번에 하나의 데이터 포인트만을 검증 데이터로 사용
매우 정확한 검증 방식이지만, 거의 데이터셋의 크기가 작은 경우에만 사용 가능하다
성능평가
머신 러닝 모델의 성능을 객관적으로 측정하고 비교하는 지표 (metric)
metric에는 다양한 종류가 있으며, 목적에 맞는 올바른 metric을 선택해야한다.
추가적인 분류 Metric
Confusion Matrix : 분류 문제에서 모델의 성능을 이해하고 해석하기 위한 중요한 도구
4가지 요소로 구성되어 있다
AUC(Area Under the Curve) 점수
추가적인 회귀 Metric
R square (결정 계수, Coefficient of Determination)
회귀 모델의 성능을 평가하는 통계적 지표
데이터의 변동성을 얼마나 잘 설명하는지를 나타낸다
R square = 1 : 모델이 데이터의 변동성을 완벅하게 설명한다 (모든 데이터 포인트가 회귀선에 정확하게 놓여 있음)
R square = 0 : 변동성을 설명하지 못함
0 < R square < 1 : 일부 변동성을 설명한다