항해99 3기 스터디 2조 4회 (웹스크래핑, 크롤링)

CH_Hwang·2021년 7월 24일
0

웹 스크래핑은 웹사이트에서 데이터를 가져오는 것으로

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('URL',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

# 코딩 시작

파이썬에서 기본적으로 위와같은 코드를 가진다.(이때 requests 패키지와 beautiful soup 패키지가 설치되어 있어야 한다.
가져오고 싶은 웹사이트의 URL을 위에 URL에 입력하고
가져올 데이터는

data = soup.select('가져올 데이터들의 selector')
data = soup.select_one('가져올 데이터의 selector')

로 입력하면 된다.

크롤링은 나의 경우 mongoDB를 사용하였는데 이를위해서 pymongo 패키지를 따로 설치했다.

예시

# 저장 - 예시
doc = {'name':'bobby','age':21}
db.users.insert_one(doc)

# 한 개 찾기 - 예시
user = db.users.find_one({'name':'bobby'})

# 여러개 찾기 - 예시 ( _id 값은 제외하고 출력)
same_ages = list(db.users.find({'age':21},{'_id':False}))

# 바꾸기 - 예시
db.users.update_one({'name':'bobby'},{'$set':{'age':19}})

# 지우기 - 예시
db.users.delete_one({'name':'bobby'})

0개의 댓글