최종 프로젝트 Day9

hyun-jin·2025년 6월 13일

데이터 분석

목록 보기
82/100

데이터 분석 78일

이상치 처리 및 지역 분류

- krw_price 이상치

  • 각자 400개 정도 url를 하나씩 들어가서 확인해보고 너무 이상한 것들만 삭제 함.

- itemLocation (출고지)

  • itemLocation 에서 이상치가 있는지 확인하려 함
  • listingMarketplaceId(판매자 마켓 플레이스)별로 확인해도, 다른 형태의 출고지가 섞여있음을 확인
    • 미국의 zipcode 는 5자리의 숫자만 있어야 하지만, 알파벳이 있거나 4자리의 zipcode가 존재
  • sellerAccountType를 기준으로 이상치 확인
    • sellerAccountType : BUSINESS 22% / INDIVIDUAL 4% / unknown 74%

      • BUSINESS seller
        • 출고지가 반드시 그 마켓 플레이스에만 존재할 거란 보장이 없음
        • BUSINESS 로 보는 것 자체가 의미가 없으니 제외
      • INDIVIDUAL seller
        • 보통 본인 거주 국가에서 출고하는 가능성이 높을 것
    • 국가별로 BUSINESS or INDIVIDUAL의 상태 확인
      - 호주의 BUSINESS, INDIVIDUAL이 아예 존재하지 않음
      - 미국의 BUSINESS는 존재하지 않고, INDIVIDUAL도 전체의 1%만 존재

      → sellerAccountType으론 이상치 확인 불가

! 우선은 itemLocation에 있는 zipcode로 지역을 특정해 오기로 함.


오늘은 금요일~ 시간 무지 빨리간다... API로 데이터를 가져오다 보니 데이터 전처리가 무지무지 힘들다. 끝났다 싶으면 또 하나가 튀어 나오고... 그래도 다 같이 하니까 어떻게는 해결해 나가고 있기는 하다. 빨리 EDA 하고 싶다...

0개의 댓글