데이터 누수 발생!
데이터 누수
- Data Leakage(데이터 누수, 정보 누설)란 미래에 대한 전혀 알 수 없는 대한 정보가 모델 학습에서 사용된 경우를 말함.
- 즉, test 데이터가 모델의 학습에 이용된 경우를 말함.
출처: DACON 톡보드 〈Data Leakage 규칙 관련 상세 설명〉, DACON.GM, 2023-02-01.
링크: https://dacon.io/competitions/official/236055/talkboard/407731
(train, test 데이터 분리 후) 전처리 후 k-fold, k-fold 후 전처리
전처리 후 k-fold하면 안되나?
전처리 후 k-fold
- 교차검증 CV 점수에 누수가 생김.
데이터 분리(train, test) 분리 후 전처리를 하게 되면 전처리된 train 데이터에서 한 번 더 train, validation으로 나눠야 하기 때문에 validation 데이터에 영향을 줌.
k-fold 후 전처리
- 따라서 데이터 분리 후, train 데이터에 대해 train과 validation으로 나눈 후에 전처리를 해야 교차검증 데이터가 영향을 받지 않으므로 누수가 발생하지 않음!
CV 점수
변동 계수 (Coeffcient of Variation, CV)
정의
- CV 값은 데이터의 표준 편차를 평균으로 나눈 값으로, 데이터의 분산 정도를 나타내는 통계 지표
특징
- 일발적으로 백분율로 표현되며, 데이터 세트의 상대적인 변동성을 측정함.
- CV 값이 낮을수록 데이터가 평균에 더 가깝게 분포되어 안정적이라고 간주됨.
- CV 값이 높을수록 데이터가 널리 퍼져 있어 불안정하다고 해석됨.
Numpy - hstack
- H는 Horizontal으로, 가로로 행렬 결합