웹 크롤링이란 웹의 정보를 자동으로 수집하는 것을 의미하며 이런 목적을 위해 만든 프로그램을 웹 크롤러라고 말한다.
html 페이지를 가져와서, html/css등을 파싱하고 필요한 데이터만 추출하는 기법이다.
필요 라이브러리
2가지의 라이브러리가 필요하다.
라이브러리가 없을 경우, pip install을 통해 설치해주자.
사용법
res = requests.get(url)을 통해 res 객체에 HTML 데이터가 저장되고 res.content로 데이터를 추출할 수 있다.
Html 페이지를 파싱하는 bs4
soup = BeautifulSoup(res.content , 'html.parser')
필요한 데이터 검색
item = soup.find('태그명')
데이터 추출
print(item.get_text())
다양한 추출 방법
HTML 언어를 기반으로 추출을 한다.
ex) p태그 문장이 두 개인데 이중에 하나를 선택하려면
p태그를 전부 가져오려면