[Crawling] 기초

문승환·2022년 9월 6일
0

PYTHON

목록 보기
5/6

HTML 기초

HTML

  • 웹페이지의 구조를 나타내기 위한 언어
  • 태그로 구성

태그

  • 태그는 꺾쇠 괄호(<>)로 표시
  • 태그는 시작태그종료태그 로 만들어짐
<태그명>내용</태그명>
<h1>HTML 기초</h1>
  • 태그는 속성명속성값이 있을 수 있음
<태그명 속성명=“속성값”>내용</태그명>
<h1 id=“title”>HTML 가초</h1>
  • 크롤링에서 자주 사용되는 태그 종류
  • 태그에는 부모태그자식태그가 있음

PYTHON LIBRARY

requests

  • HTTP 통신을 위한 파이썬 라이브러리
pip install requests
import request

response = requests.get(“https://www.naver.com”)
html = response.text
print(html)

beautifulsoup

  • HTML 분석을 위한 파이썬 라이브러리
pip install beautifulsoup4
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.naver.com")
html = response.text
soup = BeautifulSoup(html, 'html.parser')
word = soup.select_one("#NM_set_home_btn")
print(word.text)

CSS 기초

CSS

  • 웹사이트의 디자인을 표시하기 위한 언어
  • 글자 색 변경, 폰트 크기, 가로 세로 길이 변경 등

CSS 선택자

  • 디자인을 변경할 HTML 태그를 선택하는 것 = 크롤링할 HTML 태그를 선택하는 것

CSS 선택자의 종류

  • 태그 선택자
    태그의 이름으로 선택
    ex) h1, a
  • id 선택자
    id값으로 선택
    ex) #articleBody
  • class 선택자
    class값으로 선택
    ex) .info_group
  • 자식 선택자
    보통 내가 원하는 태그에 별명이 없을 때 사용
    바로 아래에 있는 태그를 선택
    ex) .logo_sports>span
profile
아직 모자란 수학과생

0개의 댓글