데이터 분석 77일
결측치 처리 및 이상치
- leafCategory 처리: 3차 시도 (성공)
- 이베이에서 제공하는 카테고리 계층 구조를 수정하여 진행
- 각 leafCategoryId에 해당하는 상위 카테고리 L3를 추적
- L2는 그대로 유지, L1은 제외
- L3를 리프 카테고리로 사용 시, 물품의 종류 파악이 좀 더 원활
- GB, US, AU 국가를 반복 작업 후에도 생기는 결측치는 다시 그 나라에 맞는 category structure를 가져와서 다시 작업해줌
- 그리고 IT(이탈리아), FR(프랑스), DE(독일) 과 같은 영어권 나라가 아닌 카테고리명들은 영어로 번역해주는 코드를 돌려 변역해줌.
- deep-translator 라이브러라 사용!
- 컬럼 정리
- 결측 처리완료하여 컬럼명과 사용할 컬럼 정리 및 정렬함.
- 컬럼 info() 하여 id 컬럼들은 숫자로 되어 있어 float보다는 int가 좋을거 같아 변경해줌
- 드디어 이상치 시작
- 먼저 가격을 기준 확인해 봄
- ebay 특성상 가격제한이 없어 판매자가 원하는데로 가격을 올리기 때문에 기준이 참 애매하다...
- 이상치 기준을 어떻게 잡아야 할지 모르겠음
- 우선은 하나씩 url에 들어가서 확인해 보는 방법으로 시작해 보기로 함...
산넘어 산이다... 이게 프로젝트 끝날때까지 반복되겠지?! 그래도 화이팅!!:)