[ML] 모델 일반화 성능 평가 - 교차검증

Minjeong Kim·2025년 11월 28일

인공지능

목록 보기

9/50

모델 일반화 성능을 평가하는 “교차검증”에 대한 페이지입니다.

학습-평가 데이터를 골고루 설정하여 모델의 안정성을 높이고 과대적합을 감소시키는 통계적 기법
- 즉, 모델의 안정성을 확인하기 위한 과정
train 데이터 내에서 다시 학습용(train)과 검증용(validation) 데이터로 분리하여 검증하는 과정
- TIP) test 와 validation 은 다른 것이오 ~ 헷갈리지 마시오 ~ 정리) train (train/validation) / test
5개로 분리된 데이터들이 모두 비슷한 정확도를 보인다면 모델이 일반화 되었다고 판단. 5개의 결과가 차이가 난다면 불안정한 모델이라고 판단.
왜 사용하냐? 한정된 데이터가 있으니까 ㅜㅜ

장점
- 모든 데이터 셋을 학습과 평가에 활용하기 때문에 안정적이고 정확함
  - → 통계적 기법으로 과대적합을 감소시킴 (일반화에 도움이 됨)
- 모델이 훈련 데이터의 변경에 대해 얼마나 민감한지 파악가능
- 데이터 셋의 크기가 충분히 크지 않은 경우에도 유용하게 사용 가능
단점
- 여러 번 학습하고 평가하는 과정을 거치기 때문에 계산량이 많아짐

from sklearn.model_selection import cross_val_score
score = cross_val_score(model, X, y, cv=나눌 개수)
score
# 0.8668 0.8770 0.8750 0.9054 0.8788