파이썬으로 웹 스크래퍼 만들어보기
requests, BeautifulSoup 패키지 이용
BeautifulSoup
from bs4 import BeautifulSoup
soup = BeautifulSoup(data.text, 'html.parser')
data는 대상 url을 requests.get
으로 받아온 것
html.parser
이용해서 BeautifulSoup에게 html이라는 걸 알려주기
select()
soup.select('원하는 정보')
한개 찾을때는 select_one() (복수면 가장 위의 것 선택됨)
원하는 정보에는 css selector 들어감
select는 복수의 그룹 형태로 결과 반환하므로
soup.select('원하는 정보')[0]
처럼 필요한 부분 지정해주거나 반복문으로 작업
<태그>정보<태그>
이렇게 싸여있음soup.select('원하는 정보').text
<img src="~~" alt=정보>
soup.select('원하는 정보')[0]['alt']
BeautifulSoup
, selenium
차이BeautifulSoup 으로 하려니 안되는 사이트가 꽤 많았다.
그래서 찾아보니 BeautifulSoup은 JS로 그때그때 만들어주는 동적인 웹사이트에는 못쓴다고..
웹 크롤링할때 주로 쓰이는 패키지 두가지 차이점
BeautifulSoup
selenium