Web Crawling with Python - BS4 & Selenium

Jade J·2021년 3월 2일

Wonderful World of Web

목록 보기
3/3

웹의 프론트는 안에 정보가 모두 들어있다.

html 문서에서

분석하여

원하는 데이터만 가져오기

크롤링은

단순 스크래핑에서 나아가서

어떻게 잘 분석할 것인가

라는 개념이 추가되었다고 생각하면 된다.


파이썬으로 만들어진 패키지중에서는 web crawling에 매우 유용한 것들이 많다.

여기서는 BeautifulSoup4 와 Selenium 을 이용해 본다.


BeautifulSoup

주소+태그 속성등으로 정보를 가져와서 변수에 담음.

요즘은 JS와 리액트로 SPA 가 많기때문에
url 이 변동이 없을때가 많다..( 아이템 스크롤 무한 다운 etc)

그래서 Selenium 을 사용하면 된다.

Selenium

매크로다.

내가 하나하나 페이지 새로 들어가서 할 수 없으니
그걸 자동화 해줌.

webdriver 를 설치, import 후
브라우저 실행시켜 연동


데이터의 저작권 문제

사이트 주소 뒤에

/robots.txt

를 입력해서 들어가보면
Allow:뒤에 나오는 경로에 있는 데이터는 긁어와도 된다.

https://toscrape.com/

크롤링연습하기 좋은 사이트이다.

과정

  1. <http + 주소 >로 http request 를 보낸다.
profile
개발의 길을 걷자

0개의 댓글