우선 넘파이 라이브러리로 null 값이 있는 데이터프레임을 만든다.
df = pd.DataFrame(
{'a' : [4, 5, 6, np.nan],
'b' : [7, 8, np.nan, 9],
'c' : [10, np.nan, 11, 12]},
index = pd.MultiIndex.from_tuples(
[('d',1), ('d',2), ('e',1),('e', 2)],
names=['n', 'v']))
pd.isnull(df)
null값이 아닌지 확인하고 싶으면
df.notnull(df) 을 하면 null값이 아닌 곳이 True로 출력된다.
결측치가 있는 행을 삭제해버리고 싶다면?
df_notnull = df.dropna()
df_fillna = df.fillna(0) #결측값을 모두 0으로 대체
결측치를 그 값이 존재하는 열의 평균값, 또는 중앙값으로 대체하고 싶다면
df.fillna(df.mean()) # 결측값을 각 열의 평균값으로 대체
df.fillna(df.median()) # 결측값을 각 열의 중앙값으로 대체
df.fillna(df['a'].mean()) # a 열의 평균값으로 대체