16. 중복 데이터 처리

따또·2021년 7월 20일
0

Pandas DA

목록 보기
16/31
post-thumbnail

1) 중복 데이터 확인

import pandas as pd

df = pd.DataFrame({'c1' : ['a', 'a','b','a','b'],
                  'c2' : [1,1,1,2,2],
                  'c3' : [1,1,2,2,2]})

print(df)
df_dup = df.duplicated()
# 데이터 중에서 중복값 찾기

print(df_dup)

2) 중복 데이터 제거

df2 = df.drop_duplicates()

subset 옵션을 통해 중복 데이터 제거 가능
데이터 중복 여부를 판단할 때, subset 옵션에 해당하는 열을 기준으로 판단

df3 = df.drop_duplicates(subset = ['c2', 'c3'])
# c2 열과 c3열을 기준으로 데이터 중복 판단
profile
따또의 DA 벨로그

0개의 댓글