[Pandas] 데이터전처리- 중복값 찾기, 처리하기

정만·2025년 4월 1일

데이터분석

목록 보기
38/61

데이터의 중복값을 찾고 처리하는 방법에 대해 학습했다.

* 원본 데이터

  1. 중복값 찾기
airbnb_df.duplicated()

  1. 중복된 로우 수 확인하기
airbnb_df.duplicated().sum()

=> 2

  1. 컬럼별 중복값 찾기 (예.id)
airbnb_df[airbnb_df.duplicated(subset = 'id')]

  1. 모든 중복값들을 확인하기.
airbnb_df[airbnb_df.duplicated(subset = 'id', keep = False)]

* 중복값 삭제( drop_duplicates())

airbnb_df.drop_duplicates()

  • 중복값에서 가장 첫번째만 남기고 삭제하는 경우
airbnb_df.drop_duplicates(subset = 'id', keep = 'first')
  • 중복값에서 가장 마지막번째만 남기고 삭제하는 경우
airbnb_df = airbnb_df.drop_duplicates(subset = 'id', keep = 'last')
  • 중복값 처리 확인
airbnb_df.duplicated().sum()

profile
멋있는 어른이 되고싶은 정만이의 벨로그

0개의 댓글