데이터 누수

HA_·2025년 8월 21일
0

데이터 누수 발생!

데이터 누수

  • Data Leakage(데이터 누수, 정보 누설)란 미래에 대한 전혀 알 수 없는 대한 정보가 모델 학습에서 사용된 경우를 말함.
  • 즉, test 데이터가 모델의 학습에 이용된 경우를 말함.

출처: DACON 톡보드 〈Data Leakage 규칙 관련 상세 설명〉, DACON.GM, 2023-02-01.
링크: https://dacon.io/competitions/official/236055/talkboard/407731

(train, test 데이터 분리 후) 전처리 후 k-fold, k-fold 후 전처리

전처리 후 k-fold하면 안되나?

전처리 후 k-fold

  • 교차검증 CV 점수에 누수가 생김.
    데이터 분리(train, test) 분리 후 전처리를 하게 되면 전처리된 train 데이터에서 한 번 더 train, validation으로 나눠야 하기 때문에 validation 데이터에 영향을 줌.

k-fold 후 전처리

  • 따라서 데이터 분리 후, train 데이터에 대해 train과 validation으로 나눈 후에 전처리를 해야 교차검증 데이터가 영향을 받지 않으므로 누수가 발생하지 않음!

CV 점수

변동 계수 (Coeffcient of Variation, CV)

정의

  • CV 값은 데이터의 표준 편차를 평균으로 나눈 값으로, 데이터의 분산 정도를 나타내는 통계 지표

특징

  • 일발적으로 백분율로 표현되며, 데이터 세트의 상대적인 변동성을 측정함.
  • CV 값이 낮을수록 데이터가 평균에 더 가깝게 분포되어 안정적이라고 간주됨.
  • CV 값이 높을수록 데이터가 널리 퍼져 있어 불안정하다고 해석됨.

Numpy - hstack

  • H는 Horizontal으로, 가로로 행렬 결합

0개의 댓글