[패스트캠퍼스_권장] 기초 2교시

HoRi·2022년 12월 29일
0

FastCampus_WorkSheet

목록 보기
3/5

권장 강의 2교시


크롤링(Crawling)

  • 스크레핑(Scarping)이라고도 하며, 웹페이지를 그대로 가져와서 인터넷 상의 데이터를 추출하는 것
  • 크롤링하는 소프트웨어를 크롤러(crawler)라고 부름

API(Application Programming Inteface)

  • 사람들이 많이 원하는 데이터를 가진 서비스의 경우, API를 제공하는 경우가 있음
  • 누구나 사용할 수 있도록 public하게 오픈한 API를 Open API라고 함

HTML(HyperText Markup Language)

  • 웹 페이지를 구성하는 표준 언어
  • 각 태그들로 계층과 구조를 만듦
<!DOCTYPE html>
<html>
  <head>
    <title>This is a title</title>
  </head>
  <body>
    <div>
      <p>Hello world!</p>
    </div>
  </body>
</html>

크롤링에 사용되는 대표 라이브러리

requests

  • http 요청을 보내는 라이브러리
  • 크롤링에선 주로 html 소스를 가져오는 용도로 사용

BeautifulSoup

  • 가져온 html 코드를 파이썬이 이해하는 객체 구조로 변환하는 라이브러리
  • 파싱(parsing)을 통해 의미있는 정보로 추출이 가능해야 함

위의 대표 라이브러리를 사용하여 아래와 같이 크롤링을 할 수 있다!

import requests
from bs4 import BrautifulSoup

res = requests.get("크롤링할 주소")
print(res.content)

soup = BeautifulSoup(res.content, 'html.parser')
# html.parser는 위에서 가지고 온 html파일을 컴퓨터가 알아들을 수 있도록 잘라주는(구조화 시켜주는) 기능
title = soup.find('title')
# parsing한 값에서 title을 찾아서 저장
print(title.get_text())
# 찾은 title에서 text값을 출력
profile
무지성 작성소

0개의 댓글