BeautifulSoup4는 웹 크롤링(Web Scraping)을 위한 파이썬 라이브러리입니다. 웹 페이지의 HTML 및 XML 문서를 파싱하고, 원하는 데이터를 쉽게 추출할 수 있게 도와줍니다.
웹 페이지에서 특정 요소 추출:
from bs4 import BeautifulSoup
import requests
# 웹 페이지 요청
url = 'https://example.com'
response = requests.get(url)
# BeautifulSoup 객체 생성
soup = BeautifulSoup(response.text, 'html.parser')
# 특정 태그 찾기
title = soup.title.string
print(title)
특정 클래스 또는 ID로 요소 찾기:
# class 속성이 'my-class'인 요소 찾기
element = soup.find(class_='my-class')
# id 속성이 'main'인 요소 찾기
element = soup.find(id='main')
여러 요소 찾기:
# 모든 'a' 태그 추출
links = soup.find_all('a')
for link in links:
print(link.get('href')) # 링크 URL 출력
pip install beautifulsoup4
robots.txt 파일을 확인하고, 크롤링 규칙을 준수하는 것이 중요합니다.time.sleep())을 두는 것이 바람직합니다.BeautifulSoup4는 웹 크롤링에서 매우 유용한 도구입니다. HTML/XML 데이터를 파싱하여 필요한 정보를 쉽게 추출할 수 있게 해주며, 웹 개발 및 데이터 분석에 널리 사용됩니다.