결측치 취급

최민석·2021년 7월 26일
0

data science

목록 보기
4/12

## 결측값 대체
데이터를 다롤 때 비어있는 데이터시트가 있는 경우가 있다, 이 때 상황에 맞게 결측치를 대체하거나 혹은 삭제하여


1. 결측치 대체

1.1 fillna 통한 결측치 채우기

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.rand(4,5))
df

# 결측값 만들기
df.loc[[0,0],'A'] = None
df.loc[3,'D'] = np.nan
df

	- 결측치를 0으로 채우기
#0으로 채우기
df.fillna(0, inplace= True)
df

1.2 데이터의 평균 값으로 채우기

df.fillna(df.mean()), df.where(df.notnull(df), 
	  df.mean(), axis='columns', inplace=True)
df


2. 결측치를 포함한 row 제거

데이터 중에 분포를 벗어난 데이터가 있을 때, 해당 부분을 제거하고 분석을 진행하기도 한다

아래 DataFrame에서 결측치가 포함된 row를 제거

# 결측치 포함된 열을 제거
df.dropna(axis=0, inplace=True)
df

출처 : https://rfriend.tistory.com/263

profile
학습기록

0개의 댓글