데이터 분석 84일
⚠️비상비상!!
크롤링 다시....
- 78만개 크롤링을 완료했는데... eda를 하다보니 이사한 점을 발견함.
- 데이터에서 확인했을때는 sold_quantity가 1개 인데 URL을 확인해 보니 1,345개가 나옴
- 왜 이런가 코드를 다시 확인해 봤더니 콤마(,)가 있을 경우 콤마 앞 숫자만 가져오는 걸로 되어 있었다.
- 2천개 이상인데 2개만 나오고 그런식이라 이건 안되겠다 싶어 다른 방법을 생각했다.
- 1)다시 78만개를 크롤링 하냐, OR
2) sold quantity 1~10인경우만 뽑아서 다시 크롤링 돌려서 그 데이터로만 사용할까...?
그러면 너무 많은 데이터가 날라가니까 아깝다.
결론: marketing 컬럼에 데이터가 있는 것들이 있는데 이것 들만 뽑아서 따로 분석을 하려고 했으니 없는 데이터들로 marketing 있는것과 같은 행 수를 샘플링 해와서 비교 분석을 하자
- 원래 데이터(available_quantity, sold_quantity 데이터 없는거)
- marketing컬럼에 데이터 있는 행들을 모은 데이터 (quantity 데이터 있음)
- marketing컬럼에 데이터 없는 행들로 marketing있는 데이터 셋과 동일한사이즈로 샘플링으로 뽑아온 데이터(quantity 데이터 있음)
(2,3번은 다시 크롤링 하기로 결정!)
다시 해보자!! 그래도 살길은 있다.

L3카테고리별 수익 확인해보다 이슈 발견함...
다음엔 코드 잘 확인하자...