
import pandas as pd
def dropDuplicateEmails(customers: pd.DataFrame) -> pd.DataFrame:
return customers.drop_duplicates(['email'], keep='first')
df.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
subset : 기준이 되는 열(column). 지정하지 않을 시 모든 열을 기준으로 검사한다.
keep : 중복일 때 남길 행을 지정. first면 첫값을 남기고 last면 마지막 값을 남긴다.
inplace : 원본 dataframe을 변경할지 여부. True면 변경한다.
ignore_index : 기존 index를 무시할지 여부. True일 경우 0,1,2, ... , n으로 인덱스가 새롭게 부여된다.
DataFrame.duplicated(subset=None, keep='first')
중복이 아닌 열은 False로, 중복인 열은 True로 출력된다.
0 False
1 False
2 False
3 False
4 True
5 False
dtype: bool
반환 타입은 Series이다.
이거 뭐 함수 모르면 못 푸는 문제자나..