최종 프로젝트 Day5

hyun-jin·2025년 6월 9일

데이터 분석

목록 보기
78/100

데이터 분석 74일

✅ 오늘 팀끼리 진행한 프로젝트 진도와 과정

  • ebay_US_final, ebay_GB_final, ebay_AU_final → 각각 주요 컬럼별 결측치 개수 확인
  • 결측치가 많아 불필요한 컬럼 삭제
    - buyingOptions (리스트 형태)
    - leafCategoryIds (리스트 형태)
    - shipping_shippingCost_0
    - shipping_minEstimatedDeliveryDate
    - shipping_maxEstimatedDeliveryDate
  • ItemId 중복 제거 처리 → 총 785,672 rows 확보
  • (기존) ebay_final.csv 에서 categories 컬럼 복원하여
  • ebay_final(1).csv 를 df로 선정
  • 기존 union 시 국가별로 category_main_name, category_main_id 일치하지 않아
  • 미국(US)의 카테고리명을 기준으로 UK/AU 카테고리명, id 통일 결정
  • -> 메인이 되는 us dict 구축 및 mapping 적용

🚨어려웠던 문제 & 해결 시도

⚠️ Issue: category_main_id 결측치 발생 (41,326 rows)

  • 원인:
    - cross-border 판매 (ex. AU currency인데 GB 카테고리 사용)
    - 기존 코드에서 categories 컬럼 기반으로 매핑이 불완전했음
    - L1 category 기준 수집했으나 카테고리 매칭이 미세하게 다름 (국가별 차이 존재)
  • 해결시도:
    - categories 컬럼 복원 → 해당 컬럼에서 US 기준으로 재매핑 적용
    - US 카테고리 기준으로 UK, AU에 통일 매핑 적용 → Union 후에도 정합성 유지
    - mapping 후 category_main_id, category_main_name 정상화

⚠️ Issue: 국가별 category id 와 이름이 미묘하게 다름

  • 발견사항:
    - 동일한 category id인데 국가별 name이 다름
    - 일부 카테고리는 특정 국가에만 존재하는 경우를 발견
  • 해결시도:
    - 뜻이 중복된 id 혹은 세부 카테고리를 US 대분류(L1) 기준의 name / id dict 생성
    - UK / AU 데이터를 US 기준의 dict로 통일
    - US에 없는 카테고리 존재 시 → 신규 US 카테고리로 추가 결정 (Wholesale & Job Lots 1개)

0개의 댓글