📕Week2 day2(웹스크래핑 기초)

박준희·2023년 8월 29일

python 프로그래머스

프로그래머스

목록 보기

9/28

HTML분석기 - BeautifulSoup

BeautifulSoup 라이브러리

HTML 코드를 분석해주는, HTML Parser

from bs4 import BeautifulSoup

# BeautifulSoup객체를 만들어봅시다.
# 첫번째 인자로는 response의 body를 텍스트로 전달합니다.
# 두번째 인자로는 "html"로 분석한다는 것을 명시해줍니다.

soup = BeautifulSoup(res.text,"html.parser")

# title 가져오기
soup.title

# head 가져오기
soup.head

# body 가져오기
soup.body

# <h1> 태그로 감싸진 요소 하나 찾기
h1 = soup.find("h1")

# <p> 태그로 감싸진 요소들 찾기
soup.find_all("p")

# 태그 이름 가져오기
h1.name

# 태그 내용 가져오기
h1.text

원하는 요소 가져오기 I

# 스크래핑에 필요한 라이브러리를 불러와봅시다.

import requests
from bs4 import BeautifulSoup

# 예시 사이트에 요청을 진행하고, 응답을 바탕으로 BeautifulSoup 객체를 만들어봅시다.

res = requests.get("http://books.toscrape.com/catalogue/category/books/travel_2/index.html")
soup = BeautifulSoup(res.text,"html.parser")# res.text 와 res.content의 차이

# <h3> 태그에 해당하는 요소를 하나 찾아봅시다

book = soup.find("h3")

# <h3> 태그에 해당하는 요소를 모두 찾아봅시다

h3_results = soup.find_all("h3")
h3_results[0]

찾아온 데이터들은 모두 객체이므로, 저희가 익숙한 방식대로 데이터를 추출할 수 있습니다.

HTML의 Locator로 원하는 요소 찾기

태그는 자신의 이름 뿐만 아니라 고유한 속성 또한 가질 수 있습니다.
이 중에서 id와 class는 Locator로서, 특정 태그를 지칭하는 데에 사용됩니다.

tagname: 태그의 이름
id: 하나의 고유 태그를 가리키는 라벨
class: 여러 태그를 묶는 라벨

id를 이용한 태그 찾기

## id가 results인 div 태그를 찾아봅시다.

soup.find("div", id = "results")

class를 이용한 태그 찾기

# class가 "page-header"인 div 태그를 찾아봅시다.

find_results = soup.find("div", "page-header")

💡웹 스크래핑을 통해 찾은 데이터들이 객체로 적용된다는 점이 신기했고, 이를 이용해 여러 데이터 가공을 편리하게 할 수 있을 것 같다.

박준희

게을렀던 프로그래밍 공부

이전 포스트

📕Week2 day1(웹스크래핑 기초)

다음 포스트