LIT_7 Beautiful Soup

여재우·2023년 10월 26일
0

LIT

목록 보기
8/21

LIT(Learn I Today) 내가 오늘 배운 것들에 대한 정리


Beautiful Soup

Beautiful Soup이란 bs4라 불리는 HTML, XML 문서들의 구문을 분석 해주는 Python 패키지


HTML 정보 분석

  1. request를 통해 웹 사이트의 정보를 가져온다.
  2. bs4의 HTML parser에 전달한다.
import requests
from bs4 import BeautifulSoup

res = requests.get("http://www.example.com")

soup = BeautifulSoup(res.text, "html.parser")

요소 하나 찾기

  • .find()
h1 = soup.find("h1")
>>> <h1>Example Domain</h1>

요소들 찾기

  • .find_all()
soup.find_all('p')
>>> [<p>This domain is for use in illustrative examples in documents. You may use this
     domain in literature without prior coordination or asking for permission.</p>,
 <p><a href="https://www.iana.org/domains/example">More information...</a></p>]
 #  리스트 형태로 반환
profile
꾸준히 학습하고 기록하기 위한 log

0개의 댓글