항해99 3기 스터디 2조 4회 (웹스크래핑, 크롤링)

CH_Hwang·2021년 7월 24일

웹 스크래핑은 웹사이트에서 데이터를 가져오는 것으로

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('URL',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

# 코딩 시작

파이썬에서 기본적으로 위와같은 코드를 가진다.(이때 requests 패키지와 beautiful soup 패키지가 설치되어 있어야 한다.
가져오고 싶은 웹사이트의 URL을 위에 URL에 입력하고
가져올 데이터는

data = soup.select('가져올 데이터들의 selector')
data = soup.select_one('가져올 데이터의 selector')

로 입력하면 된다.

크롤링은 나의 경우 mongoDB를 사용하였는데 이를위해서 pymongo 패키지를 따로 설치했다.

예시

# 저장 - 예시
doc = {'name':'bobby','age':21}
db.users.insert_one(doc)

# 한 개 찾기 - 예시
user = db.users.find_one({'name':'bobby'})

# 여러개 찾기 - 예시 ( _id 값은 제외하고 출력)
same_ages = list(db.users.find({'age':21},{'_id':False}))

# 바꾸기 - 예시
db.users.update_one({'name':'bobby'},{'$set':{'age':19}})

# 지우기 - 예시
db.users.delete_one({'name':'bobby'})

CH_Hwang

이전 포스트

항해99 3기 스터디 2조 3회 (jquery, ajax)

다음 포스트

항해99 3기 스터디 2조 4회 (웹스크래핑, 크롤링)

항해99 3기 스터디 2조 3회 (jquery, ajax)

항해99 3기 스터디 2조 4회 (DB)

0개의 댓글