TIL DAY 03 Python 관련

김기욱·2020년 7월 11일
0

TIL

목록 보기
3/11

Urllibrequest 🏃‍♂️

urllib은 파이썬에서 웹과 관련된 데이터를 손쉽게 이용하도록 도와주는 라이브러리다. urllib는 내부에 크게 4개의 모듈이 존재한다.

1. urllib.request 2. urllib.error 3. urllib.parse 4. urllib.robotparser

이중 url request 모듈은 웹을 열어서 데이터를 읽어오는 역할을 수행한다. 다음은 request 모듈과 관련된 함수들이다.

  • urlopen() 함수의 인자는 데이터를 얻고 싶은 웹 페이지의 주소를 입력하면 된다. 입력된 주소에서 urlopen함수는 웹에서 얻은 데이터에 대한 객체를 반환 해 준다.

  • getheaders() 함수를 사용하면 서버에 대한 정보를 리스트로 반환시켜 준다. 출력된 결과를 통해 운영체제나 날짜, 타입 등 여러가지 정보를 알 수 있으며 이 정보들은 크롤링하려는 홈페이지가 어떤 형식으로 만들어 졌는지 파악할 수 있게 도와준다.

  • read() 함수를 사용하게 되면 문서의 HTML 코드를 출력한다. 크롤러를 제작 시 read() 함수를 사용한다면 HTML 코드를 불러온 뒤 원하는 데이터만 골라내는 작업을 수행 할 수 있게된다.

profile
어려운 것은 없다, 다만 아직 익숙치않을뿐이다.

0개의 댓글