Drop Duplicate Rows (#06)

nooooy·2025년 2월 1일

IntroToPandas

목록 보기

6/9

import pandas as pd

def dropDuplicateEmails(customers: pd.DataFrame) -> pd.DataFrame:
    return customers.drop_duplicates(['email'], keep='first')

중복 행 제거 (.drop_duplicates)

df.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
subset : 기준이 되는 열(column). 지정하지 않을 시 모든 열을 기준으로 검사한다.
keep : 중복일 때 남길 행을 지정. first면 첫값을 남기고 last면 마지막 값을 남긴다.
inplace : 원본 dataframe을 변경할지 여부. True면 변경한다.
ignore_index : 기존 index를 무시할지 여부. True일 경우 0,1,2, ... , n으로 인덱스가 새롭게 부여된다.

중복 행 확인

DataFrame.duplicated(subset=None, keep='first')
중복이 아닌 열은 False로, 중복인 열은 True로 출력된다.

0    False
1    False
2    False
3    False
4     True
5    False
dtype: bool

반환 타입은 Series이다.

이거 뭐 함수 모르면 못 푸는 문제자나..

nooooy

이전 포스트

Create a New Column (#05)

다음 포스트

Drop Duplicate Rows (#06)

IntroToPandas

중복 행 제거 (.drop_duplicates)

중복 행 확인

Create a New Column (#05)

Drop Missing Data (#07)

0개의 댓글