03.정적 크롤링의 도구

jeong_hyeon·2022년 1월 21일
0

웹 크롤링

목록 보기
3/8

1. requests

requests 라이브러리는 파이썬에서 HTTP와 관련된 작업을 편하게 할 수 있도록 도와주는 라이브러리입니다

-get()함수
웹 페이지의 내용을 요청하는 함수

url ="url.com"
browser = requests.get(url)

위의 결과를 print 했을때 <Response[200]>결과가 나오면 응답이 잘되었다는 뜻입니다

위의 결과를 눈으로 보고 싶다면 browser.text를 사용하면 텍스트 형식으로 볼수있다.

2.BeautifulSoup

BeautifulSoup 라이브러리는 HTML문서를 탐색해서 원하는 부분만 추출 할수있게 해주는 라이브러리 입니다.

-BeautifulSoup
browser.text는 그냥 문자열 타입의 HTML코드를 의미 함으로 실제 HTML코드로 변화해주는 작업이 필요하며 이때 사용되는 함수가 BeautifulSoup()입니다.

soup = BeautifulSoup(browser.text, 
'html.parser')

-find & find_all

1)find
find()함수는 원하는 결과값을 하나만 찾아준다

2)find_all
find_all()함수는 원하는 모든것을 가져온다

상황에 맞게 적절하게 사용해야 한다.

*출처 동행복권

이러한 코드가 있을때
find()를 사용해 큰틀인<div class="nums">
를 선택할수있지만 숫자가 들어있는 <span>태그는 값이 여러개 임을 볼수읶고 이때는 find_all()을 사용한다.

0개의 댓글