현재 프로젝트에서 쿠팡 사이트의 카테고리별 제품 목록을 크롤링하는 작업에 있다. 84개의 카테고리, 약 4만건이다. 크롤링 시 고려할 문제점은 뭐가 있는지, 사이트 차단을 방지하면서 시간을 어떻게 하면 단축 시킬 수 있을 지를 고려하고자 한다.크롤링 하고자 하는 사이트
크롤링을 한사이트에서만 하는게 아닌 여러 사이트에서 데이터를 수집할 예정이다. 할 수 있는 한도 내에서 최대한 데이터 정합성을 맞추기 위해 Airflow를 통해 전체적인 작업을 스케줄링하고자 한다.전체적인 설계는 다음과 같다.수집할 쿠팡 카테고리 아이디를 미리 수집해두