urllib은 파이썬에서 웹과 관련된 데이터를 손쉽게 이용하도록 도와주는 라이브러리다. urllib는 내부에 크게 4개의 모듈이 존재한다.
1. urllib.request 2. urllib.error 3. urllib.parse 4. urllib.robotparser이중 url request 모듈은 웹을 열어서 데이터를 읽어오는 역할을 수행한다. 다음은 request 모듈과 관련된 함수들이다.
urlopen() 함수의 인자는 데이터를 얻고 싶은 웹 페이지의 주소를 입력하면 된다. 입력된 주소에서 urlopen함수는 웹에서 얻은 데이터에 대한 객체를 반환 해 준다.
getheaders() 함수를 사용하면 서버에 대한 정보를 리스트로 반환시켜 준다. 출력된 결과를 통해 운영체제나 날짜, 타입 등 여러가지 정보를 알 수 있으며 이 정보들은 크롤링하려는 홈페이지가 어떤 형식으로 만들어 졌는지 파악할 수 있게 도와준다.
read() 함수를 사용하게 되면 문서의 HTML 코드를 출력한다. 크롤러를 제작 시 read() 함수를 사용한다면 HTML 코드를 불러온 뒤 원하는 데이터만 골라내는 작업을 수행 할 수 있게된다.