최종 프로젝트 Day8

hyun-jin·2025년 6월 12일

데이터 분석

목록 보기
81/100

데이터 분석 77일

결측치 처리 및 이상치

- leafCategory 처리: 3차 시도 (성공)

  • 이베이에서 제공하는 카테고리 계층 구조를 수정하여 진행
  • 각 leafCategoryId에 해당하는 상위 카테고리 L3를 추적
  • L2는 그대로 유지, L1은 제외
  • L3를 리프 카테고리로 사용 시, 물품의 종류 파악이 좀 더 원활
  • GB, US, AU 국가를 반복 작업 후에도 생기는 결측치는 다시 그 나라에 맞는 category structure를 가져와서 다시 작업해줌
  • 그리고 IT(이탈리아), FR(프랑스), DE(독일) 과 같은 영어권 나라가 아닌 카테고리명들은 영어로 번역해주는 코드를 돌려 변역해줌.
    • deep-translator 라이브러라 사용!

- 컬럼 정리

  • 결측 처리완료하여 컬럼명과 사용할 컬럼 정리 및 정렬함.
  • 컬럼 info() 하여 id 컬럼들은 숫자로 되어 있어 float보다는 int가 좋을거 같아 변경해줌

- 드디어 이상치 시작

  • 먼저 가격을 기준 확인해 봄
  • ebay 특성상 가격제한이 없어 판매자가 원하는데로 가격을 올리기 때문에 기준이 참 애매하다...
  • 이상치 기준을 어떻게 잡아야 할지 모르겠음
  • 우선은 하나씩 url에 들어가서 확인해 보는 방법으로 시작해 보기로 함...

산넘어 산이다... 이게 프로젝트 끝날때까지 반복되겠지?! 그래도 화이팅!!:)

0개의 댓글