[data science] 결측값(NaN) 찾기

덴장·2026년 4월 22일

data

목록 보기
33/55

Garbage in Garbage out

  1. 데이터 전처리의 중요성: 데이터의 품질이 분석 결과에 직접적인 영향을 미치므로, 깨끗하지 않은 데이터를 그대로 사용하면 예상 밖의 결과나 오류가 발생할 수 있다.

  2. 결측값 탐색: 원본 데이터를 분석하기 전에 결측값을 확인하는 것이 중요한데, pandas의 여러 함수를 통해 결측값을 쉽게 탐색할 수 있다.

  3. info 함수: DataFrame의 각 컬럼별로 결측값이 아닌 데이터 수를 확인할 수 있어, 결측값의 유무를 파악하는데 유용하다.

  4. isna 및 sum 함수: isna 함수는 DataFrame에서 결측값 여부를 Boolean 형태로 나타내며, sum 함수를 사용하여 컬럼별 결측값의 개수를 계산할 수 있다.

  5. 결측값 위치 확인: isna 함수와 any 함수를 조합하여 각 row에 결측값이 있는지 여부를 판별하고, 이를 통해 결측값이 있는 데이터만 따로 볼 수 있다.

import pandas as pd
airbnb_df = pd.read_csv('data/airbnb.csv')
airbnb_df

  • info()
airbnb_df.info()

  • isna()
airbnb_df.isna() #결측값이 있으면 True, 아니면 False

airbnb_df.isna().sum() #결측값의 갯수를 보여줌

airbnb_df.isna().any(axis=1) # 결측값이 하나라도 있으면 True, 아니면 False

airbnb_df[airbnb_df.isna().any(axis=1)] # series. 결측값이 있는 데이터만 출력

profile
개발자

0개의 댓글