[python] Building Web-scrapper : Requests 모듈 / BeautifulSoup으로 데이터추출 하는법

rimu·2020년 3월 12일

[ Web-scrapping 이란? ]
웹사이트 상에서 원하는 부분에 위치한 정보를 컴퓨터로 하여금 자동으로 추출하여 수집하는 기술

[ 어떻게 웹스크래퍼를 빌딩할까? ]
1) 파이썬으로 url에 접근하기
2) 몇페이지에 걸쳐서 데이터가 존재하는지 파악하기
3) 페이지에 하나씩 접근하여 데이터 추출하기
4) 엑셀에 데이터 옮기기

Step 1. URL에 접근하기

파이썬에 기본내장된 urlib이라는 모듈이 있지만 더 좋은 모듈이 requests이다.

import requests
URL = 'http://velog.io'
response = requests.get(URL)
텍스트추출: response.text

Perfectly imperfect ✨