[데이터 전처리] 결측치 - 근처값으로 대체

Bpius·2023년 10월 16일
0

데이터 EDA & 전처리

목록 보기
32/46
post-thumbnail

결측치

데이터에 결측치가 있어 모델 학습이 되지 않는 문제가 발생할 때,

  • NaN : 값이 없는 결측으로 대체, 추정, 예측으로 처리
  • None : '값이 없는 것'이 값인 결측으로 새로운 값으로 정의하는 방식으로 처리
  • 해당 도메인 지식이 있으면 좀 더 정확하게 대처 가능.

상황에 따른 처리 방법 : 근처값으로 대체

'시계열 변수'인 경우에는 결측이 바로 이전 값 혹은 이후 값과 유사할 가능성이 높다.
결측값을 채워넣을 때에는 반드시 인덱스의 정렬이 '시간 순서대로 정렬' 이 되어 있어야 한다.

DataFrame.fillna()
주요인자

  • value : 결측치를 대체할 값
  • method:
    ffill : 결측치 이전의 유효한 값 가운데 가장 가까운 값으로
    bfill : 결측치 이후의 유효한 값 가운데 가장 가까운 값으로

다음과 같이 시간 순서대로 나열된 특정 데이터가 있다.

먼저 결측치가 있는지 확인해보자.

날짜별 순서대로 정렬이 되어 있기에 fillna()를 활용하여 데이터의 결측치를 채워보자.

'ffill'은 이전 데이터의 값을 가져오기에 인덱스 첫 데이터가 결측치라면 값이 채워지지 않을 수 있다. 그때는 'bfill'을 써서 뒤의 값으로 값을 채운다.

profile
데이터 굽는 타자기

0개의 댓글