스케일링은 트레이닝, 테스트 셋 나눈 뒤에 해야 할까?

hyereen·2021년 11월 29일
0

Today I Learned

목록 보기
5/6

정답부터 말하면, 그렇다.

빅데이터분석기사 실기 공부하면서 순서와 코드를 하나씩 되짚어보는 중인데, 부끄럽게도, 갑자기.. 헷갈렸다. 스케일링을 내가 언제 했더라...?




검색 결과에 따르면, 트레이닝, 테스트 셋으로 나눈 뒤에 각각 스케일링을 진행해야 하는데, 그 이유는 데이터 유출(Data leakage)를 피하기 위해서 이다.



데이터 유출(Data leakage)이란?
트레이닝 데이터 셋 외부의 정보(내 생각엔 테스트 셋을 의미하는 것 같다.)가 모델을 만드는 데 사용되는 경우를 말한다. 이 추가 정보를 통해 모델이 알지 못하는 것을 학습하거나, 알 수 있으며 결과적으로 모델의 예상 성능을 무효화할 수 있다.

출처:
https://datascience.stackexchange.com/questions/54908/data-normalization-before-or-after-train-test-split/54909
https://datascience.stackexchange.com/questions/38395/standardscaler-before-and-after-splitting-data
https://stackoverflow.com/questions/49444262/normalize-data-before-or-after-split-of-training-and-testing-data

profile
안녕하세요. 피드백은 언제나 감사합니다.

0개의 댓글