Python pandas의 dropna() method를 사용해서
- 결측값이 들어있는 행 전체 제거
(delete row with missing values),
- 결측값이 들어있는 열 전체를 제거
(delete column with missing values)
- 특정 행 또는 열 만을 대상으로 결측값이 들어있으면 제거
(delete specific row or column with missing values)
하는 방법을 소개하겠습니다.
관측값이 아주 많고 결측값이 별로 없는 경우에는 결측값이 들어있는 행 전체를 삭제하고 분석을 진행해도 무리가 없고 편리할 수 있습니다.
혹은 특정 변수의 결측값 비율이 매우 높고, 결측값을 채워넣을 만한 마땅한 방법이 없는 경우에는 분석의 신뢰성 확보를 위해서 그 변수(행, 칼럼)을 삭제하고 분석을 진행할 필요도 있습니다.
이때 dropna() method 를 사용하면 됩니다.
(1) 결측값이 들어있는 행 전체 삭제하기(delete row with NaN) :
df.dropna(axis=0)
(2) 결측값이 들어있는 열 전체 삭제하기 (delete column with NaN) :
df.dropna(axis=1)
(3) 특정 행 또는 열을 대상으로 결측값이 들어있으면 제거 (delete specific row or column with missing values) :
df[ ].dropna()
DataFrame의 행 또는 열을 indexing 한 후에 dropna() method를 적용하면 됩니다. dropna() 와 dropna(axis=0)은 동일합니다 (즉, axis=0 은 생략 가능).