1. Basic data leaks
의도하지 않은 실수나 사고의 결과
(1) Leaks in time series
- split should be done on time
- Even when split by time, features may contain information about future
(2) Unexpected information
- Meta data : 파일 생성일, 이미지 해상도
- Information in IDs : 모델에 id를 넣는 것은 비합리적
- Row order
2. Leaderboard probing and rare data leaks
This is a method to look for dataleaks based on the leader board
(1) Types of LB probing
- ID와 밀접하게 연결된 카테고리는 LB probing에 취약
- ID가 같은 것의 라벨을 넣고 제출해봄으로써 나온 결과로 라벨의 역추적 가능
(2) Adapting global mean via LB probing:
NN1=lnC−ln(1−C)−L−ln(1−C)
(3) Truly Native
- data collection, date proxies가 저장, 추가적인 데이터 수집해 feature 생성
(4) Expedia
- 유저가 예약할 호텔 그룹 예측, distance feature에 data leak 발생
- reverse engineering으로 호텔 좌표 추정
(5) Flavours of physics
- signal이 인위적으로 시뮬레이션 됨.
- reverse engineering으로 signal 추정
(6) Pairwise tasks
- data leakage in item frequencies
- similarities from connectivity matrix
(7) End card
3. Programming Assignment
- The key to discover data leakages is careful EDA.
- Programming assignment tip : EDA를 통해 firstId와 secondId가 의미하는 바가 무엇이며,
어떻게 데이터를 전처리해야 prediction이 가능한지 여부를 생각해볼 것.
- all_ones 데이터셋과 all_zeros 데이터셋을 만들고 해당 확률과 어떻게 달라질 수 있을지 고민해볼 것.