데이터 전처리 - 결측값 제거 (Python pandas)

CHOI CHOI·2023년 12월 25일
0

파이썬 중급

목록 보기
12/30

Python pandas의 dropna() method를 사용해서

 - 결측값이 들어있는 행 전체 제거
(delete row with missing values), 
- 결측값이 들어있는 열 전체를 제거
(delete column with missing values)
- 특정 행 또는 열 만을 대상으로 결측값이 들어있으면 제거
(delete specific row or column with missing values)

하는 방법을 소개하겠습니다.

관측값이 아주 많고 결측값이 별로 없는 경우에는 결측값이 들어있는 행 전체를 삭제하고 분석을 진행해도 무리가 없고 편리할 수 있습니다.

혹은 특정 변수의 결측값 비율이 매우 높고, 결측값을 채워넣을 만한 마땅한 방법이 없는 경우에는 분석의 신뢰성 확보를 위해서 그 변수(행, 칼럼)을 삭제하고 분석을 진행할 필요도 있습니다.

이때 dropna() method 를 사용하면 됩니다.

(1) 결측값이 들어있는 행 전체 삭제하기(delete row with NaN) :

df.dropna(axis=0)

(2) 결측값이 들어있는 열 전체 삭제하기 (delete column with NaN) :

df.dropna(axis=1)

(3) 특정 행 또는 열을 대상으로 결측값이 들어있으면 제거 (delete specific row or column with missing values) : 

df[ ].dropna()

DataFrame의 행 또는 열을 indexing 한 후에 dropna() method를 적용하면 됩니다.  dropna() 와 dropna(axis=0)은 동일합니다 (즉, axis=0 은 생략 가능).

profile
뭐가 됐든 데이터분석가

0개의 댓글