[GDSC/ML] Ensemble_K-fold

YOOJIN·2022년 11월 30일

K-fold

모델의 학습 과정에서 모델 생성을 위한 데이터셋을 Train / Validation 데이터를 나눌 때
K개의 데이터 셋을 만든 후 K번만큼 학습과 검증을 수행하는 방법

Validation set을 한 개로 하고, 나머지를 Train set으로 해서 하나씩 모두 검증하는 방식

LOO와 유사한 방법론
Validation set 중 P의 개수만큼 Validation set으로 사용

Stratified K-Fold는 층화된 folds를 반환하는 기존 K-Fold의 변형된 방식
각 집합에는 전체 집합과 거의 동일하게 클래스의 표본 비율이 포함

GroupKFold는 train, test data에서 동일한 그룹이 표시되지 않도록 하는 KFold의 변형 방식

LOO : 하나의 데이터를 검증 데이터로 남겨두고 나머지 데이터로 학습 데이터를 구성
LOGO : 하나의 그룹을 남겨두고 나머지 그룹으로 학습 데이터를 구성

LOGO와 유사한 방법론.
P개의 그룹을 남겨두고 나머지 그룹을 훈련 데이터로 구성

첫 번째 fold는 훈련 데이터 세트로, 두 번째 fold는 검증 데이터 세트로 분할
기존의 교차 검증 방법과 달리, 연속적 훈련 데이터 세트는 그 이전의 훈련 및 검증 데이터를 포함한 상위 집합