scrapy

Simba_b·2022년 10월 27일
0
post-thumbnail

scrapy란?

웹사이트에서 필요한 데이터를 추출하는 오픈소스 프레임 워크

Scrapy 특징

  • 비동기 네트워킹 라이브러리 Twisted 기반

  • selenium 처럼 Xpath, CSS표현식으로 HTML소스에서 데이터 추출이 가능

  • webdriver 사용하지 않는다.

  • 지정된 url만 조회

  • selenium보다 가볍고 빠르다.

  • 다운로드 타임아웃, request 사이의 random한 텀 두기 등 다양한 옵션

  • scrapy를 사용하기 위해서는 scrapy 기반 프로젝트를 생성

  • spider를 작성해 크롤링

  • spider

    어떤식으로 크롤링할 것인지 로직을 정의 하는 클래스, Structured data 추출 정의

    scrapy 에서 크롤링을 하는 실제 크롤러


Scrapy 단점

  • javascript지원 힘들다.
  • ajax/pjax로 데이터가 갱신되는 웹페이지라면 원하는 데이터를 추출하는 게 어렵다.

한개 사이트에서 여러 페이지 돌아다니며 핸들링 , javascript 영향이 적을 때 selenium보다 빠르고 가벼워서 가능 할 듯 하다.


💬 아직 사용해보지 않았지만 미리 특징 알아두기

0개의 댓글