웹스크래핑

YU NA Joe·2022년 1월 23일
0

urllib

url과 관련된 여러가지 모듈을 처리하는 package

  1. urllib.request >> for opening and reading URLs

  2. urllib.error >> urllib.request 모듈에 의해 에러가 났을때 에러를 나타내주는 모듈

  3. urllib.parse >> for parsing URLs

  4. urllib.robotparser >> for parsing robots.txt files

url parsing이란 무엇일까?
url를 다른 링크나 서버에 보내기 위해 분석하고 변환하는 과정

from urllib.request import urlopen >> urlopen은 HTML 파일, 이미지 파일, 기타 파일 스트림을 쉽게 열 수 있는 범용적인 함수.

BeautifulSoup

Python 라이브러리로써, web scraping목적으로 HTML이나 XML files의 데이터들을 scraping를 한다.

<실습1>

html.parser()

0개의 댓글