[패스트캠퍼스_권장] 기초 2교시

HoRi·2022년 12월 29일

Worksheet fastcampus 복습

FastCampus_WorkSheet

목록 보기

3/5

권장 강의 2교시

크롤링(Crawling)

스크레핑(Scarping)이라고도 하며, 웹페이지를 그대로 가져와서 인터넷 상의 데이터를 추출하는 것
크롤링하는 소프트웨어를 크롤러(crawler)라고 부름

API(Application Programming Inteface)

사람들이 많이 원하는 데이터를 가진 서비스의 경우, API를 제공하는 경우가 있음
누구나 사용할 수 있도록 public하게 오픈한 API를 Open API라고 함

HTML(HyperText Markup Language)

웹 페이지를 구성하는 표준 언어
각 태그들로 계층과 구조를 만듦

<!DOCTYPE html>
<html>
  <head>
    <title>This is a title</title>
  </head>
  <body>
    <div>
      <p>Hello world!</p>
    </div>
  </body>
</html>

크롤링에 사용되는 대표 라이브러리

requests

http 요청을 보내는 라이브러리
크롤링에선 주로 html 소스를 가져오는 용도로 사용

BeautifulSoup

가져온 html 코드를 파이썬이 이해하는 객체 구조로 변환하는 라이브러리
파싱(parsing)을 통해 의미있는 정보로 추출이 가능해야 함

위의 대표 라이브러리를 사용하여 아래와 같이 크롤링을 할 수 있다!

import requests
from bs4 import BrautifulSoup

res = requests.get("크롤링할 주소")
print(res.content)

soup = BeautifulSoup(res.content, 'html.parser')
# html.parser는 위에서 가지고 온 html파일을 컴퓨터가 알아들을 수 있도록 잘라주는(구조화 시켜주는) 기능
title = soup.find('title')
# parsing한 값에서 title을 찾아서 저장
print(title.get_text())
# 찾은 title에서 text값을 출력

HoRi

무지성 작성소

이전 포스트

[패스트캠퍼스_권장] 기초 1교시 - 2

다음 포스트

[패스트캠퍼스_권장] 기초 2교시

FastCampus_WorkSheet

권장 강의 2교시

크롤링(Crawling)

API(Application Programming Inteface)

HTML(HyperText Markup Language)

크롤링에 사용되는 대표 라이브러리

requests

BeautifulSoup

[패스트캠퍼스_권장] 기초 1교시 - 2

[패스트캠퍼스_권장] 기초 3교시 - 1

0개의 댓글