sklearn에서 fit과 transform을 나누는 이유

데이터 누수 방지: 테스트 데이터를 fit() 하면 평가 왜곡 . (모델이 미리 정답을 힌트받는 셈)
일관성 유지: 학습된 기준을 재사용해 변환. (훈련 데이터와 테스트 데이터가 같은 기준으로 처리됨)

SeongGyun Hong·2024년 11월 20일

데이터 분석

목록 보기

3/11

훈련 데이터와 테스트 데이터를 서로 다른 기준으로 변환하게 됨.
→ 테스트 데이터에 "정답 힌트"를 주는 것과 동일.
→ 모델이 과적합되고, 실제 성능을 왜곡해서 높은 점수를 부여.
(현실에서는 엉망이지만 테스트에서는 우수하게 보이는 상태)

헤매는 만큼 자기 땅이다.