파이썬 왕초보 구글 크롤링하기 - 1부 : 일단 해보기

cateto·2020년 12월 16일
0

잼있는파이썬

목록 보기
1/2
post-thumbnail

0. python 및 pip 설치

개발환경 : mac os Mojave, VScode, python 2.7
파이썬 3.x 버전을 사용중이라면 pip3가 이미 설치되어있다.

$ python -V
$ pip3

pip3가 있다면 업그레이드를 시켜준다.

$ pip3 -V

$ pip3 install --upgrade pip

1. 라이브러리 및 드라이버 설치

여기까지 확인이 되었다면, 프로젝트 폴더에 selenium을 설치해보자.

$ pip install selenium

BeautifulSoup도 설치하자..

$ pip install beautifulsoup4

한 가지 더, chromedriver를 설치하자..
크롬드라이버 설치

2. 구글 검색 결과페이지의 크롤링


from urllib.parse import quote_plus
from bs4 import BeautifulSoup
from selenium import webdriver

baseUrl = 'https://www.google.com/search?q='
#구글 검색의 기본 url : 검색 여러번하고 주소창 보면 공통 형식이 보인다.
plusUrl = input('무엇을 검색할까요? : ') 
url = baseUrl + quote_plus(plusUrl)
#quote_plus : 문자열을 인터넷 검색가능한 형식으로 바꿔준다.

driver = webdriver.Chrome('[크롬드라이버를 설치한 절대경로를 여기에 써주자.]')
driver.get(url)

html = driver.page_source
soup = BeautifulSoup(html)

# 검색 했을 때 제목과 breadcrumbs, 접속주소를 가져올 것이다.
list = soup.select('.[제목과 주소를 아우르는 클래스 이름]')
for i in list:
    print(i.select_one('.[제목 부분의 클래스 이름]').text)
    print(i.select_one('.[브레드크럼 부분의 클래스 이름]').text)
    print(i.a.attrs['href'])
    print()
driver.close()

실행시키고 콘솔에서 확인한다. ta da~! ✨

쓰앵님들!!! 감사합니다 (참고링크)

profile
Curious for Everything

1개의 댓글

comment-user-thumbnail
2022년 3월 6일

pip 설치를 따로 해줘야지만 가능한 거군요 ㅎㅎ 좋은 글 감사합니다 :)

답글 달기