데이터에 결측치가 있어 모델 학습이 되지 않는 문제가 발생할 때,
'시계열 변수'인 경우에는 결측이 바로 이전 값 혹은 이후 값과 유사할 가능성이 높다.
결측값을 채워넣을 때에는 반드시 인덱스의 정렬이 '시간 순서대로 정렬' 이 되어 있어야 한다.
DataFrame.fillna()
주요인자
- value : 결측치를 대체할 값
- method:
ffill : 결측치 이전의 유효한 값 가운데 가장 가까운 값으로
bfill : 결측치 이후의 유효한 값 가운데 가장 가까운 값으로
다음과 같이 시간 순서대로 나열된 특정 데이터가 있다.
먼저 결측치가 있는지 확인해보자.
날짜별 순서대로 정렬이 되어 있기에 fillna()를 활용하여 데이터의 결측치를 채워보자.
'ffill'은 이전 데이터의 값을 가져오기에 인덱스 첫 데이터가 결측치라면 값이 채워지지 않을 수 있다. 그때는 'bfill'을 써서 뒤의 값으로 값을 채운다.