데이터 분석 76일
결측치 처리 3일차
- krw_price 컬럼 생성 (한국 통화 변경)
- shipping_shippingCost_convertedFromValue & convertedFromCurrency
- shippingCost_converted는 구매자의 국가 화폐에 맞게 환산된 배송비 데이터
- shippingCost라는 판매자의 배송비 데이터가 존재
- 배송비 또한 원화(KRW)로 환산할 예정이기에 convertedFromValue는 삭제
- convertedFromCurrency는 구매자의 국가를 추정할 수 있으므로
→ customerCountry 라는 새로운 컬럼 생성
- buyingOptions
- buyingOptions의 원래 구조
['FIXED_PRICE', 'BEST_OFFER']
- 모든 행이 FIXED_PRICE를 포함하고 있기 때문에, BuyingOption_2의 내용을 FIXED_PRICE에 덮어씌워서 진행
- shipping_shippingCostType
- shippingCostType의 결측값을 다른 요소로 특정할 수 없기 때문에 unknown으로 대치
- image 결측치
- image의 경우, 데이터 결측이 있어도 분석에 영향을 미칠 것 같지 않기 때문에 unknown으로 대치
⚠️ Issue: 또 다시 category 지옥에 빠졌다...
leafCategoryId가 소분류 아이디인데 아이디명이 또 다르고 너무 소분류라... 이걸 어떻게 해야 할지... 중분류가 있으면 좋을텐데... 또 나라도 3국가이상의 category라 다 합하면 3만개가 넘는다... 일일이 지정을 해줄수는 없는거라
- 오늘의 마무리: 좀 더 해보고 정말 안되면 그냥 아이디는 놔두고 그냥 아이디명만 통일 시켜서 사용하자!!