웹 상에 존재하는 내용들을 수집하는 행위를 웹 크롤링이라고 부른다.
파이썬에서 웹 크롤링에 많이 쓰이는 유용한 라이브러리들이다. 3rd party 라이브러리들이므로 pip나 conda같은 명령어를 이용해 따로 설치 후 사용한다.
1. requests : 파이썬에서 http, https 웹 사이트에 요청을 하기 위해 만들어진 모듈
import requests
response = requests.get("url주소값") # 해당 url주소에서 html파일 을 get해서 response변수에 담아줌
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
driver = webdriver.Chrome("크롬드라이버 주소") # 크롬을 이용해 크롤링한다고 가정(브라우저별 드라이버가 필요하다)
driver.get("url주소값")
time.sleep(3) # 페이지 로딩이 완전히 되도록 일부러 3초 쉼
search = driver.find_element_by_xpath("내가원하는동적요소찾아줌 ex. 검색input태그, 로그인input태그")
search.send_keys("해당동적요소에 넣어줄 값")
time.sleep(1) # 처리 1초동안 기다리기
search.send_keys(Keys.ENTER) # 엔터로 입력값 넣기
import requests
from bs4 import BeautifulSoup as bs
response = requests.get('https://www.google.co.kr')
html = bs(response.text, 'html.parser') # 뷰티풀수프로 파싱해서 html변수에 저장
a = html.find("타입", "해당값") # 원하는 태그나 요소 찾아서 a변수에 저장