[Pandas 기초] 결측치 다루기

soyyeong·2023년 2월 15일
0
post-thumbnail

우선 넘파이 라이브러리로 null 값이 있는 데이터프레임을 만든다.

df = pd.DataFrame(
    {'a' : [4, 5, 6, np.nan],
     'b' : [7, 8, np.nan, 9],
     'c' : [10, np.nan, 11, 12]},

     index = pd.MultiIndex.from_tuples(
         [('d',1), ('d',2), ('e',1),('e', 2)],
         names=['n', 'v']))

1. null 값인지 확인하기

pd.isnull(df)
null값은 True로 나온다.

null값이 아닌지 확인하고 싶으면
df.notnull(df) 을 하면 null값이 아닌 곳이 True로 출력된다.

2. null 값이 있는 행 삭제 | dropna()

결측치가 있는 행을 삭제해버리고 싶다면?

df_notnull = df.dropna()

3. null 값을 특정 값으로 대체하기

3-1) 결측치를 특정 값으로 대체하기

df_fillna = df.fillna(0)  #결측값을 모두 0으로 대체

3-2) 결측치를 평균값으로 대체하기

결측치를 그 값이 존재하는 열의 평균값, 또는 중앙값으로 대체하고 싶다면

df.fillna(df.mean())   # 결측값을 각 열의 평균값으로 대체
df.fillna(df.median()) # 결측값을 각 열의 중앙값으로 대체

df.fillna(df['a'].mean()) # a 열의 평균값으로 대체
profile
블로그 이전 중입니다 : https://soyeong-blog.netlify.app/

0개의 댓글