[EDA] 중복 데이터 삭제하기

이민아·2023년 10월 28일
0

EDA

목록 보기
4/5

🖤 Pandas - drop_duplicates()

: 중복 데이터 삭제.

drop_duplicates(subset=None, *, keep='first', inplace=False, ignore_index=False)[source]
  • subset - 열 레이블 또는 레이블 순서 [선택 사항]
    : 중복을 식별하기 위해 특정 열만 고려하고 기본적으로 모든 열을 사용합니다.

  • keep - 유지 , 기본값 'first'
    : 유지할 중복 항목(있는 경우)을 결정합니다.

'first' : 첫 번째 발생을 제외하고 중복 항목을 삭제합니다.
'last' : 마지막 발생을 제외하고 중복된 항목을 삭제합니다.
False: 모든 중복 항목을 삭제합니다.

* 예시

df_filtered = df_copy1.drop_duplicates(
    subset=df_copy1.columns.difference(['컬럼명1', '컬럼명2']), keep='first')
    
df_filtered

설명
: 제외선택: .columns.difference([])를 이용하여 제외할 컬럼 나열
: 컬럼명1,2를 제외하고 모든 컬럼의 사용하여 중복데이터를 조회하고 첫 번째 발생을 제외하고 중복 항목을 삭제.

profile
IT업계 종사자

0개의 댓글

관련 채용 정보