[EDA] 중복 데이터 삭제하기

이민아·2023년 10월 28일

EDA

목록 보기

4/5

: 중복 데이터 삭제.

drop_duplicates(subset=None, *, keep='first', inplace=False, ignore_index=False)[source]

'first' : 첫 번째 발생을 제외하고 중복 항목을 삭제합니다.
'last' : 마지막 발생을 제외하고 중복된 항목을 삭제합니다.
False: 모든 중복 항목을 삭제합니다.

df_filtered = df_copy1.drop_duplicates(
    subset=df_copy1.columns.difference(['컬럼명1', '컬럼명2']), keep='first')
    
df_filtered

설명
: 제외선택: .columns.difference([])를 이용하여 제외할 컬럼 나열
: 컬럼명1,2를 제외하고 모든 컬럼의 사용하여 중복데이터를 조회하고 첫 번째 발생을 제외하고 중복 항목을 삭제.

IT업계 종사자