데이터 분석 74일
✅ 오늘 팀끼리 진행한 프로젝트 진도와 과정
- ebay_US_final, ebay_GB_final, ebay_AU_final → 각각 주요 컬럼별 결측치 개수 확인
- 결측치가 많아 불필요한 컬럼 삭제
- buyingOptions (리스트 형태)
- leafCategoryIds (리스트 형태)
- shipping_shippingCost_0
- shipping_minEstimatedDeliveryDate
- shipping_maxEstimatedDeliveryDate
- ItemId 중복 제거 처리 → 총 785,672 rows 확보
- (기존) ebay_final.csv 에서 categories 컬럼 복원하여
- ebay_final(1).csv 를 df로 선정
- 기존 union 시 국가별로 category_main_name, category_main_id 일치하지 않아
- 미국(US)의 카테고리명을 기준으로 UK/AU 카테고리명, id 통일 결정
- -> 메인이 되는 us dict 구축 및 mapping 적용
🚨어려웠던 문제 & 해결 시도
⚠️ Issue: category_main_id 결측치 발생 (41,326 rows)
- 원인:
- cross-border 판매 (ex. AU currency인데 GB 카테고리 사용)
- 기존 코드에서 categories 컬럼 기반으로 매핑이 불완전했음
- L1 category 기준 수집했으나 카테고리 매칭이 미세하게 다름 (국가별 차이 존재)
- 해결시도:
- categories 컬럼 복원 → 해당 컬럼에서 US 기준으로 재매핑 적용
- US 카테고리 기준으로 UK, AU에 통일 매핑 적용 → Union 후에도 정합성 유지
- mapping 후 category_main_id, category_main_name 정상화
⚠️ Issue: 국가별 category id 와 이름이 미묘하게 다름
- 발견사항:
- 동일한 category id인데 국가별 name이 다름
- 일부 카테고리는 특정 국가에만 존재하는 경우를 발견
- 해결시도:
- 뜻이 중복된 id 혹은 세부 카테고리를 US 대분류(L1) 기준의 name / id dict 생성
- UK / AU 데이터를 US 기준의 dict로 통일
- US에 없는 카테고리 존재 시 → 신규 US 카테고리로 추가 결정 (Wholesale & Job Lots 1개)