[캐글] Courses - Data Cleaning(1)

HO94·2021년 7월 11일
0

캐글

목록 보기
13/17

2021.07.11

1. Handling Missing Values


How many missing data points do we have?

  • isnull().sum()

Figure out why the data is missing

  • 결측치를 처리할 때 가장 중요한 질문

Is this value missing because it wasn't recorded or because it doesn't exist?

  • 값이 애초에 존재하지 않아 비어있는 경우, 어떻게 처리할지 고민할 필요가 없음
  • 전가 : 값이 기록되지 않아 누락된 경우, 열과 행의 다른 값을 기반으로 추측

Drop missing values

  • 급하거나 누락된 이유를 파악할 필요가 없다면 누락된 값이 있는 행, 열을 삭제
  • .dropna()
  • .dropna(axis=1)
    열을 기준으로 결측치가 있는 열 제거

Filling in missing values automatically

  • .fillna(0)
    결측치를 0으로 채움
  • .fillna(method='bfill')
    ffill은 위값을 아래방향으로 bfill은 아래값을 위방향으로 결측치를 채움

0개의 댓글