[Python] 결측치 처리 및 시각화

황종수·2020년 12월 23일
0

코드 저장소

목록 보기
7/8

1. 예시 데이터 확인

import pandas as pd

process = pd.read_csv('/content/drive/MyDrive/DACON/국회 입법/data/process.csv')
process

2. 결측치 확인

  • isnull()
process.isnull()

  • notnull()
process.notnull()

3. 조건식에 결측치 활용하기

process[process['ANNOUNCE_DT'].isnull()] # ANNOUNCE_DT 변수가 결측인 행 확인

4. 결측치 제거

  • index 조건 활용
process[process['ANNOUNCE_DT'].notnull()]
  • dropna 함수 활용
    • 결측치가 있는 행 제외
process.dropna()
# process.dropna(inplace = True) # inplace를 True로 설정하면 데이터프레임에 바로 적용

5. 결측치 대체

  • fillna 함수 활용
process['ANNOUNCE_DT'].fillna('공포되지않음')

6. 결측치를 포함한 통계량 계산

  • sum(), mean()의 함수는 자동으로 결측치를 제외하고 계산해줌
process['VOTE_TCNT'].mean()

# 결측치를 제외하지 않고 싶을 때
process['VOTE_TCNT'].mean(skipna = False)

skipna = False를 적용할 때,
결측치가 있다면 계산 결과를 nanreturn

7. 간단한 결측치 유무 시각화

missingno 모듈 사용

# 모듈 설치
!pip install missingno
  • matrix
import missingno

missingno.matrix(process)

  • heatmap
missingno.heatmap(process)

  • dendrogram
missingno.dendrogram(process)

profile
호앙조옹스우

0개의 댓글