[CS][Crawling]HTML tag 개념 + python requests 라이브러리로 html 불러오기

건너별·2022년 2월 9일
0

web-crawling

목록 보기
1/5
post-thumbnail

📌HTML

  • 웹페이지의 구조를 나타내기 위한 언어
  • 태그로 구성되어 있다.

태그 (<>)

  • 꺾쇠 괄호로 표시
  • 시작태그종료태그로 만들어짐
  • 태그는 속성명속성값이 있을 수 있다.

ex)

id -> 속성명
title -> 속성값

자주 사용되는 태그 종류들

  • div : 구역 나누기

  • a : 링크

  • h1 : 제목

  • p : 문단

  • ul, li : 목록

부모태그와 자식태그

  • a 태그div 태그의 자식태그, div 태그a 태그의 부모 태그
  • 위의 예시의 경우, a 태그 클릭 시 해당 주솟값으로 이동시켜 주는 태그

requests

  • http 통신을 위한 python library
  • pip install library 하면 됨

보조 개념🤡

http 통신과 request, response 관련 개념은 HTTP Request, Response 포스팅을 찹고해 봅시다.

사용법

import requests

# 주소로 request 하면 response를 get
response = requests.get("https://www.naver.com") 

# .text 애트리뷰트에 html 코드가 들어 있음
html = response.text

print(html)

-> html 파일을 확인할 수 있습니다!

profile
romantic ai developer

0개의 댓글