결측치 처리

XTHK·2025년 3월 20일

Anaysis

목록 보기
6/23

결측값 시각화

pip install missingno

import missingno as msno

매트리스 형태로

msno.matrix(df1)

heatmap 형태로

msno.heatmap(df1)


결측값 확인

  • 각 컬럼별 결측값 확인
p2.isnull().sum()

결측값 처리

  • 제거 : 존재하는 모든 결측값을 없앰
p3.dropna()
  • 대치 : 다른 값으로 결측값 대체
    • ()안에 대체할 값 지정 : 0, 평균, min, max ... 모두 가능
    • ffill() : 전방대치
    • bfill() : 후방대치
p3.fillna(0)
  • 보간법 (time series 시계열)
    • 선형보간법을 통해 값 대체
p3.interpolate(method='linear')

시간 데이터 보간법

# 시간 데이터 형식 변경
df1['Year'] = df1['Datetime'].dt.year
df1['Month'] = df1['Datetime'].dt.month
df1['Day'] = df1['Datetime'].dt.day

df1['요일'] = df1['Datetime'].dt.dayname()
  • 중간 일자의 내용이 비어있는 경우 (결측치인 경우)

날짜 데이터 처리

날짜 데이터 처리

  • resample
    • 시간 데이터 처리에 따라 타 연속형 데이터도 수정
p1.resample('1D').mean()
# 하루 단위로 통합하면서, 연속형 변수들은 하루 단위의 평균으로 대체
profile
Analyse the world

0개의 댓글