[BeautifulSoup] 크롤링 패턴 코드 연습하기

리냥·2023년 7월 23일

안녕하세요! 오늘은 beautifulsoup을 활용한 크롤링 패턴 코드를 연습하려고 합니다.

1. 라이브러리 임포트

request: 웹페이지 가져오기

bs4(BeautifulSoup):웹페이지 분석 라이브러리

import requests
from bs4 import BeautifulSoup

2. 웹페이지 가져오기

URL 요청을 하고, HTML을 받는다. requests.get() 함수로 요청한다.
res.status_code가 200이면 성공이다.

#'https://news.v.daum.net/v/20201230200156918'

res = requests.get('https://news.v.daum.net/v/20201230200156918')

#200이면 성공
res.status_code

3. 웹페이지 파싱하기

파싱이란 문자열의 의미를 분석하는 것이다

soup = BeautifulSoup(HTML내용, 파서종류)

soup에는 구조화된 데이터가 들어간다


soup = BeautifulSoup(res.content, 'html.parser')
soup

4. 필요한 데이터 추출하기

soup.select('태그명.css>태그명')로 추출하고자 하는 태그와 css이름을 조합해서 추출한다.

get_text()함수로 태그가 품고 있는 텍스트를 가져온다.

soup.select_one('#mArticle > div.head_view > h3').text

안녕하세요. 일로 인해 잠시 쉽니다 :)