검색어 받아 뉴스 데이터 여러 페이지 반복 가져오기

하스레·2022년 5월 24일
0

크롤링 스터디

목록 보기
3/5

검색어 받기: pyautogui 라이브러리

간단한 팝업창을 띄워 입력받을 수 있게 하는 마우스, 키보드 매크로 라이브러리

import pyautogui

inputTxt = pyautogui.prompt("검색어를 입력하세요.")

request.get 안 url의 검색어 부분을 inputTxt 변수로 바꿔
교보문고에 대해 가져온 결과 (이전 글 참고)

반복하여 여러 페이지에서 가져오기

다음 페이지들로 넘어가며 url이 어떻게 바뀌는지 확인한다.

import requests
from bs4 import BeautifulSoup
import pyautogui

searchTxt = pyautogui.prompt("검색어를 입력하세요.")
pageLimit = (pyautogui.prompt("몇 페이지까지 가져올까요?"))

for pageNum in range(1, int(pageLimit) * 10, 10): # 1에서 100까지 10씩 증가 (1, 11, 21, ..., 91)
    res = requests.get(f"https://search.naver.com/search.naver?where=news&sm=tab_jum&query={searchTxt}&start={pageNum}")

    htmlCode = res.text

    soup = BeautifulSoup(htmlCode, 'html.parser')

    newsTitleTagList = soup.select('.news_tit')

    for tag in newsTitleTagList:
        newsTitle = tag.text
        newsUrl = tag.attrs['href']
        print(newsTitle)
        print(newsUrl)

https://www.inflearn.com/course/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%ED%81%AC%EB%A1%A4%EB%A7%81-%EA%B8%B0%EC%B4%88/lecture/92372?tab=curriculum&volume=1.00&speed=2

profile
Software Developer

0개의 댓글