[Coursera]How to win a data science competition - 2주차 3강

환공지능·2021년 7월 7일
0
post-thumbnail

1. Basic data leaks

의도하지 않은 실수나 사고의 결과
(1) Leaks in time series

  • split should be done on time
  • Even when split by time, features may contain information about future

(2) Unexpected information

  • Meta data : 파일 생성일, 이미지 해상도
  • Information in IDs : 모델에 id를 넣는 것은 비합리적
  • Row order

2. Leaderboard probing and rare data leaks

This is a method to look for dataleaks based on the leader board
(1) Types of LB probing

  • ID와 밀접하게 연결된 카테고리는 LB probing에 취약
  • ID가 같은 것의 라벨을 넣고 제출해봄으로써 나온 결과로 라벨의 역추적 가능

(2) Adapting global mean via LB probing:

N1N=Lln(1C)lnCln(1C)\frac {N_{1}}{N} = \frac {-L-ln(1-C)}{lnC -ln(1-C)}

(3) Truly Native

  • data collection, date proxies가 저장, 추가적인 데이터 수집해 feature 생성

(4) Expedia

  • 유저가 예약할 호텔 그룹 예측, distance feature에 data leak 발생
  • reverse engineering으로 호텔 좌표 추정

(5) Flavours of physics

  • signal이 인위적으로 시뮬레이션 됨.
  • reverse engineering으로 signal 추정

(6) Pairwise tasks

  • data leakage in item frequencies
  • similarities from connectivity matrix

(7) End card

3. Programming Assignment

  • The key to discover data leakages is careful EDA.
  • Programming assignment tip : EDA를 통해 firstId와 secondId가 의미하는 바가 무엇이며,
    어떻게 데이터를 전처리해야 prediction이 가능한지 여부를 생각해볼 것.
  • all_ones 데이터셋과 all_zeros 데이터셋을 만들고 해당 확률과 어떻게 달라질 수 있을지 고민해볼 것.
profile
데이터사이언티스트 대학원생

0개의 댓글