최종 프로젝트 Day7 - Category 늪

hyun-jin·2025년 6월 11일

데이터 분석

목록 보기
80/100

데이터 분석 76일

결측치 처리 3일차

- krw_price 컬럼 생성 (한국 통화 변경)

  • price컬럼의 화폐 단위를 원화로 환산

- shipping_shippingCost_convertedFromValue & convertedFromCurrency

  • shippingCost_converted는 구매자의 국가 화폐에 맞게 환산된 배송비 데이터
  • shippingCost라는 판매자의 배송비 데이터가 존재
  • 배송비 또한 원화(KRW)로 환산할 예정이기에 convertedFromValue는 삭제
  • convertedFromCurrency는 구매자의 국가를 추정할 수 있으므로
    → customerCountry 라는 새로운 컬럼 생성

- buyingOptions

  • buyingOptions의 원래 구조
    ['FIXED_PRICE', 'BEST_OFFER']
  • 모든 행이 FIXED_PRICE를 포함하고 있기 때문에, BuyingOption_2의 내용을 FIXED_PRICE에 덮어씌워서 진행

- shipping_shippingCostType

  • shippingCostType의 결측값을 다른 요소로 특정할 수 없기 때문에 unknown으로 대치

- image 결측치

  • image의 경우, 데이터 결측이 있어도 분석에 영향을 미칠 것 같지 않기 때문에 unknown으로 대치

⚠️ Issue: 또 다시 category 지옥에 빠졌다...

leafCategoryId가 소분류 아이디인데 아이디명이 또 다르고 너무 소분류라... 이걸 어떻게 해야 할지... 중분류가 있으면 좋을텐데... 또 나라도 3국가이상의 category라 다 합하면 3만개가 넘는다... 일일이 지정을 해줄수는 없는거라

  • 오늘의 마무리: 좀 더 해보고 정말 안되면 그냥 아이디는 놔두고 그냥 아이디명만 통일 시켜서 사용하자!!

0개의 댓글