TIL_221201

KIXIAM·2022년 12월 1일

목록 보기

5/22

벌써 2022년의 마지막 달 12월의 시작
야심차게 1월부터 달려서 여기까지 오기까지 시간이 정말 빨랐지만 많이 얻었다고 생각한다. 자기 주도적 학습에 처음엔 적응이 안되어 많이 힘들었지만 그래도 포기하지 않고 꾸준히 한걸음 나아가고 있다. 아직 앞이 잘 보이지는 않지만 멈추지 말자

TIL_221201

오날 Python을 언어를 사용하여 웹 페이지 스크래퍼 만드는 것을 연습했다. Beautifulsoup python library를 사용하여 웹페이지를 parsing 하여 원하는 데이터를 가공해서 가져오는 내용이었다.

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
# soup 이라는 변수에 beautifulsoup 함수를 넣었다.
soup.find_all("a", class_="sister")
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
 # find_all은 리스트 형식으로 값을 가져온다. 그냥 find는
 # 단일값을 가져온다.
 # 즉 class가 "sister"인 anchor 를 모두 가져온다.
 # class 뒤애 _가 들어간다.
soup.find_all("a", attrs={"class": "sister"})
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
# 위와 같은 기능을 한다.

KIXIAM

Project Oriented Learning 🔥

이전 포스트

TIL_221130

다음 포스트

TIL_221201

TIL

TIL_221201

TIL_221130

TIL_221202

0개의 댓글