웹 페이지로부터 데이터를 추출하는 행위
파이썬에서 크롤링할 때 주로 사용되는 패키지
HTML,XML 문서로부터 원하는 정보를 추출할 수 있다.
# 패키지 설치 : `!pip install 패키지이름`
!pip install beautifulSoup4
# bs4(beautifulSoup4)라는 패키지로부터 BeautifulSoup라는 모듈을 임포트
from bs4 import BeautifulSoup
# BeautifulSoup 인스턴스 생성. 첫번째 매개변수는 분석할 문서, 두번째 매개변수는 분석할 분석기(parser)의 종류.
soup1 = BeautifulSoup(html, 'html.parser')
soup1.select('태그명')
: 태그를 입력으로 사용할 경우soup1.select('.클래스명')
: 클래스를 입력으로 사용할 경우soup1.select('#아이디')
: ID를 입력으로 사용할 경우soup1.select('상위태그명 하위태그명')
:soup1.select('상위태그명 > 하위태그명')
:# html 문서의 a태그를 가져온다.
soup1.a
# 출력결과
<a href="http://www.google.com"> 바로가기 </a>
# 하이퍼링크 속성의 값을 가져온다.
soup1.a.get('href')
# 출력결과
http://www.google.com