16. 중복 데이터 처리

따또·2021년 7월 20일

Pandas DA

목록 보기

16/31

1) 중복 데이터 확인

import pandas as pd

df = pd.DataFrame({'c1' : ['a', 'a','b','a','b'],
                  'c2' : [1,1,1,2,2],
                  'c3' : [1,1,2,2,2]})

print(df)
df_dup = df.duplicated()
# 데이터 중에서 중복값 찾기

print(df_dup)

2) 중복 데이터 제거

df2 = df.drop_duplicates()

subset 옵션을 통해 중복 데이터 제거 가능
데이터 중복 여부를 판단할 때, subset 옵션에 해당하는 열을 기준으로 판단

df3 = df.drop_duplicates(subset = ['c2', 'c3'])
# c2 열과 c3열을 기준으로 데이터 중복 판단

따또

따또의 DA 벨로그

이전 포스트

15. 누락 데이터 처리

다음 포스트

16. 중복 데이터 처리

Pandas DA

1) 중복 데이터 확인

2) 중복 데이터 제거

15. 누락 데이터 처리

17. 데이터 표준화

0개의 댓글