scrapy

Simba_b·2022년 10월 27일

scrapy란?

웹사이트에서 필요한 데이터를 추출하는 오픈소스 프레임 워크

Scrapy 특징

비동기 네트워킹 라이브러리 Twisted 기반
selenium 처럼 Xpath, CSS표현식으로 HTML소스에서 데이터 추출이 가능
webdriver 사용하지 않는다.
지정된 url만 조회
selenium보다 가볍고 빠르다.
다운로드 타임아웃, request 사이의 random한 텀 두기 등 다양한 옵션
scrapy를 사용하기 위해서는 scrapy 기반 프로젝트를 생성
spider를 작성해 크롤링
spider

어떤식으로 크롤링할 것인지 로직을 정의 하는 클래스, Structured data 추출 정의

scrapy 에서 크롤링을 하는 실제 크롤러

Scrapy 단점

javascript지원 힘들다.
ajax/pjax로 데이터가 갱신되는 웹페이지라면 원하는 데이터를 추출하는 게 어렵다.

한개 사이트에서 여러 페이지 돌아다니며 핸들링 , javascript 영향이 적을 때 selenium보다 빠르고 가벼워서 가능 할 듯 하다.

💬 아직 사용해보지 않았지만 미리 특징 알아두기

이전 포스트

Elasticsearch (python)

다음 포스트

celery & redis

0개의 댓글