최종 프로젝트 Day15

hyun-jin·2025년 6월 23일

데이터 분석

목록 보기
88/100

데이터 분석 84일

⚠️비상비상!!

크롤링 다시....

  • 78만개 크롤링을 완료했는데... eda를 하다보니 이사한 점을 발견함.
  • 데이터에서 확인했을때는 sold_quantity가 1개 인데 URL을 확인해 보니 1,345개가 나옴
  • 왜 이런가 코드를 다시 확인해 봤더니 콤마(,)가 있을 경우 콤마 앞 숫자만 가져오는 걸로 되어 있었다.
  • 2천개 이상인데 2개만 나오고 그런식이라 이건 안되겠다 싶어 다른 방법을 생각했다.
  • 1)다시 78만개를 크롤링 하냐, OR
    2) sold quantity 1~10인경우만 뽑아서 다시 크롤링 돌려서 그 데이터로만 사용할까...?
    그러면 너무 많은 데이터가 날라가니까 아깝다.

결론: marketing 컬럼에 데이터가 있는 것들이 있는데 이것 들만 뽑아서 따로 분석을 하려고 했으니 없는 데이터들로 marketing 있는것과 같은 행 수를 샘플링 해와서 비교 분석을 하자

  • 최종적으로는 3가지 데이터셋이 생기는거다.
  1. 원래 데이터(available_quantity, sold_quantity 데이터 없는거)
  2. marketing컬럼에 데이터 있는 행들을 모은 데이터 (quantity 데이터 있음)
  3. marketing컬럼에 데이터 없는 행들로 marketing있는 데이터 셋과 동일한사이즈로 샘플링으로 뽑아온 데이터(quantity 데이터 있음)
    (2,3번은 다시 크롤링 하기로 결정!)

다시 해보자!! 그래도 살길은 있다.


L3카테고리별 수익 확인해보다 이슈 발견함...
다음엔 코드 잘 확인하자...

0개의 댓글