: 중복 데이터 삭제.
drop_duplicates(subset=None, *, keep='first', inplace=False, ignore_index=False)[source]
subset - 열 레이블 또는 레이블 순서 [선택 사항]
: 중복을 식별하기 위해 특정 열만 고려하고 기본적으로 모든 열을 사용합니다.
keep - 유지 , 기본값 'first'
: 유지할 중복 항목(있는 경우)을 결정합니다.
'first' : 첫 번째 발생을 제외하고 중복 항목을 삭제합니다.
'last' : 마지막 발생을 제외하고 중복된 항목을 삭제합니다.
False: 모든 중복 항목을 삭제합니다.
df_filtered = df_copy1.drop_duplicates(
subset=df_copy1.columns.difference(['컬럼명1', '컬럼명2']), keep='first')
df_filtered
설명
: 제외선택: .columns.difference([])를 이용하여 제외할 컬럼 나열
: 컬럼명1,2를 제외하고 모든 컬럼의 사용하여 중복데이터를 조회하고 첫 번째 발생을 제외하고 중복 항목을 삭제.