안녕하세요! 오늘은 beautifulsoup을 활용한 크롤링 패턴 코드를 연습하려고 합니다.
1. 라이브러리 임포트
request: 웹페이지 가져오기
bs4(BeautifulSoup):웹페이지 분석 라이브러리
import requests
from bs4 import BeautifulSoup
2. 웹페이지 가져오기
URL 요청을 하고, HTML을 받는다. requests.get() 함수로 요청한다.
res.status_code가 200이면 성공이다.
#'https://news.v.daum.net/v/20201230200156918'
res = requests.get('https://news.v.daum.net/v/20201230200156918')
#200이면 성공
res.status_code
3. 웹페이지 파싱하기
파싱이란 문자열의 의미를 분석하는 것이다
soup = BeautifulSoup(HTML내용, 파서종류)
soup에는 구조화된 데이터가 들어간다
soup = BeautifulSoup(res.content, 'html.parser')
soup
4. 필요한 데이터 추출하기
get_text()함수로 태그가 품고 있는 텍스트를 가져온다.
soup.select_one('#mArticle > div.head_view > h3').text