Missing Data (결측치) - 전처리

괴도소녀·2021년 7월 8일
0

데이터

목록 보기
4/14

이번 포스팅에선 Missing Data, 즉 결측치를 다루는 법에 대해 알아볼 것이다.

결측치를 처리할 때 데이터마다의 특성을 반영해야하며,
결측치를 처리하는 방법은 크게 2가지가 있다.

  • 결측치가 있는 데이터를 제거
  • 결측치를 어떤 값으로 대체

isnull, any

isnull()any()를 써서 null값이 들어간 데이터를 추출할 수 있다.

  • DataFrame.isnull()은 데이터마다 결측치 여부를 True, False로 반환.
  • DataFrame.any(axis=1)는 행마다 하나라도 True가 있으면 True,
    그렇지 않으면 False를 반환.

위 2개를 조합해서,
DataFrame.isnull().any(axis=1)은 데이터 중 null값이 있는 데이터들만 추출한다.

df.isnull().any(axis=1)

len를 사용해서 결측치를 구하는 방법도 있다.

len(df) - df.count()

dropna

DataFrame의 dropna는 결측치를 삭제한다.

  • subset : 특정 컬럼들을 선택한다.
  • how
    • all : 선택한 컬럼 전부가 결측치인 행을 삭제한다.
    • any : 하나라도 결측치인 경우
  • inplace : 작업한 데이터를 내부에 다시 적용한다.

df.dropna(how='all', subset=["지출금액", "수출금액"], inplace=True)

0개의 댓글