크롤링(crawling) 혹은 스크레이핑(scraping)은
웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위다.
크롤링하는 소프트웨어는 크롤러(crawler)라고 부른다.
서버 검색이 막혔을때
##단, requests를 import시 header을 저장 안해도 가능했다.!!->(이유모름)
3. html = requests.get(url, headers=header).text
< 정리 > 클롤링 라이브러리의 차이.
request = .urlopen(url)
requests = get(url).text
from urllib import request는
url="https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%ED%94%84%EB%9E%91%EC%8A%A4"(프랑스라는 뜻)
import requests는
words = '프랑스'
url=f"https://search.daum.net/search?w=news&nil_search=btn&DA=NTB&enc=utf8&cluster=y&cluster_page=1&q={words}"
파이썬 BeautifulSoup은 HTML 문서를 분석 할 수 있는 라이브러리 입니다.
이를 이용하여 HTML 태그에 쉽게 접근 하고 데이터를 추출할 수 있습니다.
BeautifulSoup은 find(), select()등 여러가지 있는데,
하나만 제대로 알고 있어도 데이터를 추출하는 큰 어려움이 없습니다.
find
- find:한개만 (첫번째 녀석만)
- find_all: 다 찾는다. (보통 10개)
select
- select_one: 한 녀석만
- select: 다 찾는다.
참조&출처: