python Crawling

kpl5672·2020년 6월 2일
0

requests module

-http요청을 보내는 모듈

기본사용예제

import requests
URL = 'http://www.tistory.com' 
response = requests.get(URL) 
response.status_code 
response.text 
response.encoding  # -> utf-8

출처: https://dgkim5360.tistory.com/entry/python-requests [개발새발로그]

statue_code는 http상태코드다.
200이면 정상.
아래 사이트에 잘 정리되어있다.
https://developer.mozilla.org/ko/docs/Web/HTTP/Status

BeautifulSoup

-Requests는 문자열만 반환할 뿐 정보를 잘 추출하기 어렵다.
beautifulsoup이 html코드를 pythondl 이 이해하는 객체 구조로 변환하는 parsing역할을 한다.

사용법

import requests
from bs4 import BeautifulSoup
req = requests.get('https://beomi.github.io/beomi.github.io_old/')
html = req.text
soup = BeautifulSoup(html, 'html.parser')

아래 페이지에 매우 잘 정리되어 있다.
https://twpower.github.io/84-how-to-use-beautiful-soup

re

아래 페이지 참조.
https://python.bakyeono.net/chapter-11-2.html

profile
Never stop asking why

0개의 댓글