웹사이트에서 필요한 데이터를 추출하는 오픈소스 프레임 워크
비동기 네트워킹 라이브러리 Twisted 기반
selenium 처럼 Xpath, CSS표현식으로 HTML소스에서 데이터 추출이 가능
webdriver 사용하지 않는다.
지정된 url만 조회
selenium보다 가볍고 빠르다.
다운로드 타임아웃, request 사이의 random한 텀 두기 등 다양한 옵션
scrapy를 사용하기 위해서는 scrapy 기반 프로젝트를 생성
spider를 작성해 크롤링
spider
어떤식으로 크롤링할 것인지 로직을 정의 하는 클래스, Structured data 추출 정의
scrapy 에서 크롤링을 하는 실제 크롤러
한개 사이트에서 여러 페이지 돌아다니며 핸들링 , javascript 영향이 적을 때 selenium보다 빠르고 가벼워서 가능 할 듯 하다.
💬 아직 사용해보지 않았지만 미리 특징 알아두기