df.duplicated():
-
이 코드는 데이터프레임의 중복된 행을 확인한다.
-
중복된 행이 있는 경우 True, 그렇지 않은 경우 False를 반환한다.
-
아래는 처음 10개의 행에 대한 중복 여부를 보여준다.
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
dtype: bool
- 이 결과는 처음 10개의 행 중 중복된 행이 없다는 것을 의미한다.
🔈 중복된 데이터를 처리해야 하는 경우
중복된 데이터를 처리하는 것은 데이터 전처리에서 중요한 단계 중 하나이지만, 항상 중복 데이터를 제거해야 하는 것은 아니다. 중복된 데이터를 처리해야 하는 경우와 그렇지 않은 경우를 구분할 필요가 있다.
1. 중복 데이터를 처리해야 하는 경우
(1) 의도하지 않은 데이터 수집 중복:
- 데이터 수집 과정에서 동일한 데이터가 여러 번 수집된 경우.
- 예: 시스템 오류로 인해 동일한 고객의 주문이 여러 번 기록된 경우.
(2) 데이터 클렌징:
- 분석의 정확도를 높이기 위해 중복된 데이터를 제거하는 경우.
- 예: 설문조사 데이터에서 동일한 응답자가 여러 번 응답한 경우. 또는 중복된 주문 번호를 가진 거래가 여러 행에 걸쳐 기록된 경우.
(3) 데이터 정규화:
- 중복 데이터가 분석에 불필요하거나 왜곡을 일으키는 경우.
- 예: 동일한 제품이 여러 행으로 나뉘어 기록된 경우.
2. 중복 데이터를 처리하면 안되는 경우
(1) 중복이 의미 있는 데이터:
- 중복 자체가 의미가 있고, 데이터의 중요한 특성인 경우.
- 예: 제품 구매 데이터에서 동일한 제품이 여러 번 구매된 경우.
(2) 시계열 데이터:
- 시계열 데이터에서 중복된 데이터가 중요한 의미를 가지는 경우.
- 예: 주식 거래 데이터에서 동일한 시간에 동일한 주식이 여러 번 거래된 경우.
(3)데이터 무결성 유지:
- 중복을 제거하면 데이터의 무결성이 손상되는 경우.
- 예: 병원 기록 데이터에서 동일 환자의 여러 진료 기록.
(4) 실제 발생한 반복 데이터:
- 동일 고객이 동일 제품을 여러 번 구매한 경우.
- 예: 특정 제품의 재구매 빈도를 분석하려는 경우.
(5) 반복 발생 데이터 패턴 분석:
- 고객의 구매 주기와 패턴을 분석하는 경우.
- 예: 동일 고객이 월별로 반복 구매하는 경우, 이를 통해 정기 구독 패턴을 파악할 수 있다.