import pandas as pd
process = pd.read_csv('/content/drive/MyDrive/DACON/국회 입법/data/process.csv')
process
isnull()
process.isnull()
notnull()
process.notnull()
process[process['ANNOUNCE_DT'].isnull()] # ANNOUNCE_DT 변수가 결측인 행 확인
index 조건
활용process[process['ANNOUNCE_DT'].notnull()]
dropna 함수
활용process.dropna()
# process.dropna(inplace = True) # inplace를 True로 설정하면 데이터프레임에 바로 적용
fillna 함수
활용process['ANNOUNCE_DT'].fillna('공포되지않음')
sum()
, mean()
의 함수는 자동으로 결측치를 제외하고 계산해줌process['VOTE_TCNT'].mean()
# 결측치를 제외하지 않고 싶을 때
process['VOTE_TCNT'].mean(skipna = False)
skipna = False
를 적용할 때,
결측치가 있다면 계산 결과를 nan
로 return
missingno
모듈 사용
# 모듈 설치
!pip install missingno
matrix
import missingno
missingno.matrix(process)
heatmap
missingno.heatmap(process)
dendrogram
missingno.dendrogram(process)