"파이썬에서 제공하는 라이브러리를 통해 크롤링을 하게 된다. 크롤링이란 웹 사이트에서 원하는 정보를 추출하는 것으로서 정보의 바다라고 표현되는 이 시대에 꼭 필요한 기술이다."
import requests
from bs4 import BeautifulSoup // 라이브러리 임포트
response = requests.get("https://www.naver.com") // 웹페이지 가져오기
soup = BeautifulSoup(response.text, "html.parser") // 웹페이지 파싱하기
mydata = soup.find('title') // 필요한 데이터 추출하기
print(mydata.get_text()) // 추출한 데이터 활용하기
request랑 bs4, BeautifulSoup은 어떤 라이브러리야?
requests.get을 통헤 웹페이지 내용이 저장되는거야?
맞다. 가져온 내용을 확인하는 방법은 두가지가 있는데
import requests
res = requests.get('https://www.naver.com')
res.content
'title' 자리에 필요한 데이터를 입력해서 찾을 수 있는거네?
맞다. soup에 HTML파일을 파싱한 정보가 들어가고 soup.find() 함수를 통해 원하는 부분을 지정한다. 변수.get_text() 함수로 추출한 부분을 가져올 수 있다.
오픈 크롬 개발자 모드에서 원하는 부분을 선택한다.
Command + Alt + i (맥)
Ctrl + Shift + i 또는 F12 (윈도우)
mydata = soup.find('p', 'cssstyle')
mydata = soup.find(id='body')
paragraph_data = soup.find_all('p')
for paragraph in paragraph_data:
print(paragraph.get_text())
++ strip() 함수와 split() 함수를 통해 원하는 형태의 출력을 할 수도 있다.