데이터프레임 에서 각 행은 분석 대상이 갖고 있는 모든 속성에 대한 관측값을 뜻한다. 하나의 데이터셋에서 동일한 관측값이 2개 이상 중복되는 경우 동일한 대상이 중복으로 존재하는 것이므로 분석 결과를 왜곡하기 때문에 중복 데이터를 찾아서 삭제해야 한다.
동일한 관측값이 중복되는지 여부, 즉 행의 레코드가 중복되는지 여부를 확인하려면 duplicated() 메소드를 이용해야한다.
import pandas as pd
df = pd.DataFrame({ 'c1': ['a','a','b','a','b'],
'c2' : [1,1,1,2,2],
'c3' : [1,1,2,2,2]
})
print(df)
print('\n')
df2 = df.drop_duplicates()
print(df2)
실행결과
c1 c2 c3 0 a 1 1 1 a 1 1 2 b 1 2 3 a 2 2 4 b 2 2 c1 c2 c3 0 a 1 1 2 b 1 2 3 a 2 2 4 b 2 2