[Python] : df.duplicated(), 중복 행 확인, 중복 데이터를 처리해야 하는 경우

김대현·2024년 7월 9일

분석 가이드라인

목록 보기

3/3

df.duplicated():

이 코드는 데이터프레임의 중복된 행을 확인한다.
중복된 행이 있는 경우 True, 그렇지 않은 경우 False를 반환한다.
아래는 처음 10개의 행에 대한 중복 여부를 보여준다.

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9    False
dtype: bool

이 결과는 처음 10개의 행 중 중복된 행이 없다는 것을 의미한다.

🔈 중복된 데이터를 처리해야 하는 경우

중복된 데이터를 처리하는 것은 데이터 전처리에서 중요한 단계 중 하나이지만, 항상 중복 데이터를 제거해야 하는 것은 아니다. 중복된 데이터를 처리해야 하는 경우와 그렇지 않은 경우를 구분할 필요가 있다.

1. 중복 데이터를 처리해야 하는 경우

(1) 의도하지 않은 데이터 수집 중복:

데이터 수집 과정에서 동일한 데이터가 여러 번 수집된 경우.
예: 시스템 오류로 인해 동일한 고객의 주문이 여러 번 기록된 경우.

(2) 데이터 클렌징:

분석의 정확도를 높이기 위해 중복된 데이터를 제거하는 경우.
예: 설문조사 데이터에서 동일한 응답자가 여러 번 응답한 경우. 또는 중복된 주문 번호를 가진 거래가 여러 행에 걸쳐 기록된 경우.

(3) 데이터 정규화:

중복 데이터가 분석에 불필요하거나 왜곡을 일으키는 경우.
예: 동일한 제품이 여러 행으로 나뉘어 기록된 경우.

2. 중복 데이터를 처리하면 안되는 경우

(1) 중복이 의미 있는 데이터:

중복 자체가 의미가 있고, 데이터의 중요한 특성인 경우.
예: 제품 구매 데이터에서 동일한 제품이 여러 번 구매된 경우.

(2) 시계열 데이터:

시계열 데이터에서 중복된 데이터가 중요한 의미를 가지는 경우.
예: 주식 거래 데이터에서 동일한 시간에 동일한 주식이 여러 번 거래된 경우.

(3)데이터 무결성 유지:

중복을 제거하면 데이터의 무결성이 손상되는 경우.
예: 병원 기록 데이터에서 동일 환자의 여러 진료 기록.

(4) 실제 발생한 반복 데이터:

동일 고객이 동일 제품을 여러 번 구매한 경우.
예: 특정 제품의 재구매 빈도를 분석하려는 경우.

(5) 반복 발생 데이터 패턴 분석:

고객의 구매 주기와 패턴을 분석하는 경우.
예: 동일 고객이 월별로 반복 구매하는 경우, 이를 통해 정기 구독 패턴을 파악할 수 있다.

데이터 분석 스쿨 블로그 입니다.

이전 포스트

매출 데이터 분석

0개의 댓글