웹 데이터 크롤링3 (Web Data Crawling)

박지훈·2020년 7월 14일
0

데이터 (전)처리

목록 보기
4/5

과제 : Extract game descriptions

  • 구글 Playstore에서 게임 설명(description)을 크롤링 해보자
  • 세 종류의 game ranking 페이지에서 각 게임의 정보를 제공하는 페이지 url 추출
  • 게임 정보 제공 페이지에서 게임 설명을 추출
from selenium import webdriver
from bs4 import BeautifulSoup

drive_path = "resources/chromedriver"

options = webdriver.ChromeOptions()
options.add_argument("--headless")  # 브라우저 안뜨게 하는 옵션
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

wd = webdriver.Chrome(executable_path=drive_path, options=options)
wd2 = webdriver.Chrome(executable_path=drive_path, options=options)  # 새롭게 접속할 비어있는 웹 객체 생성

# wd에 url 주소 get
wd.get("https://play.google.com/store/apps/collection/cluster?clp=0g4cChoKFHRvcHNlbGxpbmdfZnJlZV9HQU1FEAcYAw%3D%3D:S:ANO1ljJ_Y5U&gsr=Ch_SDhwKGgoUdG9wc2VsbGluZ19mcmVlX0dBTUUQBxgD:S:ANO1ljL4b8c")

# 애니팡4, 마구마구2020 등등 50개의 div 정보들 추출
boxes = wd.find_elements_by_css_selector(".ImZGtf.mpg5gc")

idx = 1
for box in boxes:
    url = box.find_element_by_css_selector("c-wiz div div div a").get_attribute("href") # c-wiz div div div a tag 의 href 값 추출
    print(url)

    wd2.get(url)
    print()
    print(str(idx) + "=======================================================")
    description = wd2.find_element_by_css_selector(".DWPxHb span div").text
    print(description)
    idx += 1

profile
Computer Science!!

0개의 댓글