교차검증

adam2·2022년 6월 11일
0

학습데이터를 다시 분할하여 학습 데이터와 학습된 모델의 성능을 일차 평가하는 검증 데이터로 나눈다.

검증 데이터 세트로 미리 테스트
검증 데이터 세트를 바꿔서 실제 테스트 데이터 세트에 적용하기 전에 미리 테스트

머신러닝 모델은 데이터에 굉장히 dependency가 강함

k 폴드 교차 검증

일반적인 k 폴드

Stratified K 폴드

  • 불균형한 분포도를 가진 레이블 데이터 집합을 위한 k폴드 방식
    • 신용카드 사기 건수가 2만건중 0.5%라면 이 데이터를 가지고 일반적인 k폴드 방식으로 학습을 시키면 사기 데이터에대해서 충분하게 학습이 되지 않을 수 있음
  • 학습 데이터와 검증 데이터 세트가 가지는 레이블 분포도가 유사하도록 검증 데이터 추출

0개의 댓글