스타벅스로 배우는 웹크롤링

김현우·2020년 8월 2일

TIL WeCode Web Crawling beautifulsoap python selenium

web-crawling

목록 보기

2/2

앞에서는 빌보드 차트로 웹크롤링을 해보았다...!
스타벅스 웹크롤링은 빌보드 차트보다 조금 더 수월하게 느껴졌다.
방식은 거의 동일하니 구현해보도록하자!

이번에는 스타벅스 코리아에 있는 MENU에 음료에 있는 모든 음료의 제목과 이미지를 크롤링해서 csv로 저장해 봅시다.

구성은 아래와 같습니다!

제가 크롤링 할 부분의 개발자 도구로 들어가 html, css을 살펴보도록 하죠!

첫번쨰 메뉴인 나이트로 바닐라 크림을 살펴보면,

li태그와 class menuDataSet을 활용해 볼 수 있겠다는 생각이 듭니다!

자세한 설명은 앞에 포스팅한 빌보드 차트 웹크롤링을 보시고, 지금은 간단하게 살펴보겠습니다.

import

from selenium import webdriver
from bs4 import BeautifulSoup 
import csv

csv파일

csv_filename = "starbuck_menu.csv"
csv_open = open(csv_filename, "w+", encoding='utf-8')
csv_writer = csv.writer(csv_open)
csv_writer.writerow( ('Title', 'ImgUrl') )

웹 드라이더 사용하기

chrome_driver_path = "/home/kimhyunwoo/Downloads/chromedriver"
insert_url = "https://www.starbucks.co.kr/menu/drink_list.do"
browser = webdriver.Chrome(chrome_driver_path) # 크롬 웹드라이버 객체를 얻는다.
browser.get(insert_url) # get 메소드에 원하는 url 경로를 넣어준다

데이터 받아오기

browser.implicitly_wait(5)
html = browser.page_source
# print(html)
bs = BeautifulSoup(html, 'html.parser')

wrap_data = bs.findAll("li", {"class": "menuDataSet"})

for data in wrap_data:
   img_tag = data.find("img")
   src_tag = img_tag.get("src")
   # print(src_tag)
   csv_writer.writerow( (data.text, src_tag)