Web Scrapping 기초

O(logn)·2024년 11월 23일

파이썬 웹크롤링

목록 보기
6/12
post-thumbnail

사진: UnsplashBenjamin Hibbert-Hingston

목차

1.1

  • 인터넷과 웹
  • 웹에서 정보 주고받기
  • HTTP 구조

1.2

  • 웹사이트와 웹 페이지
  • HTML 구조

인터넷과 웹

  • 네트워크: 두 대 이상의 컴퓨터를 연결하는 망
  • 근거리 지역 네트워크(Local Area Network, LAN): 학교, 관공서 등 하나의 기관 내부에서 사용하는 망
  • 인터넷: 범지구적으로 연결된 네트워크
  • WEB(Worldwide Web):인터넷 상에서 정보를 교환하기 위한 시스템

웹에서 정보 주고받기

  • 클라이언트 정보를 요청하는 컴퓨터
  • 서버: 요청을 받아서 정보를 제공하는 컴퓨터

정보를 주고받는 과정

  1. 클라이언트가 정보를 요청한다.
    ex) never.com 홈화면 주세요.
  2. 요청에 대해 서버가 작업을 수행한다.
    ex) 접속 중...
  3. 수행한 작업의 결과를 클라이언트에게 응답한다.
    ex) 그런 사이트 없어용

HTTP 구조

  • HTTP(Hypertext Transfer Protocol): 웹 상에서 정보를 주고받기 위한 약속
  • HTTP Request: HTTP를 활용해서 정보를 요청
  • HTTP Response: HTTP를 통해 요청한 정보 응답

HTTP 구조

  • Header: 보내는사람, 받는사람
  • Body: 내용물

예시 코드

HTTP/1.1 200 OK
.
.
.
<html>...</html>

웹사이트와 웹 페이지

  • 웹페이지: 웹 속에 있는 문서 하나
  • 웹사이트: 웹페이지의 모음
  • 웹브라우저: 서버에 HTML 요청을 보내고, HTTP응답에 담긴 HTML 문서를 우리가 보기 쉬운 화면의 형태로 그려주는(=렌더링하는) 역할(예: 크롬, 사파리...)

HTML 구조

  • HTML(HyperText Markup Language)의 구성요소: 태그(Tag)와 요소(Element)
    -태그: 글의 형식을 지정, 속성을 가짐(색상, 이름 등등)
    -요소: 글의 내용
<!DOCTYPE html> <!--html5라는 뜻 -->
<html>
  <head> <!--Head: 문서에 대한 정보-->
    <title> Example Document </title>
  </head> <!--닫는 태그-->
  <body> <!--Body: 문서의 내용(글, 이미지, 멀티미디어)-->
    <h1> Hello World!</h1>
    <p> My name is UYNIJ</p> <!--p: 문단 태그-->
  </body>
</html>
profile
聞一知十

0개의 댓글