OOF vs k-fold cv

Joo·2024년 1월 29일
0

MLDL 101

목록 보기
9/17
  • cross validation : 데이터 수가 적을 때 모델의 overfitting을 예방하기 위해 사용됨
    ex) K-fold cross validation

    • 의문 : 'Out-Of-Fold'와 'K-fold CV'에서의 'fold'는 같은 것?
      • 답 : 비슷하다. 그러나 OOF 예측은 K-fold cv의 일부로서, 각 fold가 validation set로 사용될 때 얻어지는 예측을 의미함. (OOF 예측은 교차 검증의 각 반복(fold)에서 얻은 validation set에 대한 에측을 모아 전체 데이터셋에 대한 예측으로 볼 수 있음)
  • OOF 방식으로 예측하는 방식 (Kaggle 대회에서 사용하지 실무에서는 잘 사용하지 않는다고 함)

    • validation set의 성적

    • OOF = 누가 누가 더 잘하나

    • 두 가지 유형의 OOF 예측

      • Stacking : 5-fold라면 모델이 5회 번갈아가면서 4/5 학습데이터로 학습, 1/5 학습데이터로 예측해 별도의 학습 데이터를 만든 후, 이걸 다시 메타 모델로 학습해 최종 예측
      • k-fold cv : K-fold로 학습한 후 예측을 테스트 셋에 k번 만큼 수행 뒤, 개별 예측값을 평균해 최종 예측 (아래의 예시임)
    • 4-fold cv의 예시

      • 4번의 교차 검증
      • 각 fold마다 최적화된 파라미터 값은 다 다름 (fold 개수만큼 모델 개수도 생김)
        • 각 모델이 학습한 데이터가 서로 다르기 때문
      • 각 fold(model)를 동일한 test set에 대해 예측하도록 한 후, 이 예측값들의 평균값을 취해 test set에 대한 최종 예측값 산출함 (이 최종 예측값을 OOF 예측이라고 함)
profile
적당히 공부한 거 정리하는 곳

0개의 댓글

관련 채용 정보