🔥 웹 크롤링 (feat. bs4 & selenium)

yeeun lee·2020년 4월 16일

2주에 걸쳐 beautiful soup과 selenium 을 통해 크롤링하는 방법을 배우고 있다. 크롤링할 수 있는 언어가 다양하고 방법이 많아서인지 내 것으로 착 붙지가 않는다 💀💀💀

프레임워크가 사람 생각대로 읽어주지 않아서 답답한 마음도 많은 것 같다. 그래도 하다 보면 내 것이 되니까 의심하지 말고 계속 해봐야겠다. *링크도 참고하기 좋은 사이트인 것 같아 우선 넣었다!

1. setup

우선 아래에서 import한 모듈(bs4, requests 등)을 모두 개발 환경에 있다는 것을 전제로 한다. conda를 쓴다면 crawling용 환경을 따로 만들어 놓는 것이 좋다. csv 파일로 저장할 것이기 때문에 우선 저장할 방법에 대해서 먼저 알아보자.

1.1 csv

csv는 comma separted values의 약자로 각 라인의 컬럼이 콤마로 분리되어 있는 텍스트 파일 포맷이다. 간단한 데이터는 콤마로 split해서 처리하지만, 데이터 내에 콤마가 있을 경우 파이썬에 내장된 csv 모듈을 사용하는 것이 좋다. 뽑아낸 데이터를 엑셀에 기입해서 저장하는 코드를 먼저 알아보자.

참고: 예제로 배우는 파이썬 프로그래밍

import csv 
# "tags.csv" 파일을 쓰기 모드(w+)로 만들고 열어주세요. 
tag_open = open("tag.csv", 'w+', encoding='utf-8', newline='')

# csv.writer를 통해 파일을 객체로 만들었어요 
tag_writer = csv.writer(tag_open)

# 파일 객체에 writerow 메소드를 사용해서 title 열, tags열을 만들어요.
# 이제 뒤에서 리스트 두개 씩 추가하면 아래에 데이터가 저장될거예요. 
tag_writer.writerow(('title', 'tags'))

* newline 옵션

csv 파일을 쓰기 모드로 만들 때, 해당 옵션을 넣지 않고 엑셀 파일에 데이터를 넣게 되면 각 셀에 한 글자만 데이터가 담기는 기이한 현상을 볼 수 있다. newline='' 처럼 newline을 비워주는 인자로 넣어야 작성 후 한줄 바꾸기가 없어진다!

2. beautifulsoup

한국 문서 링크 찾기 어려워서 링크 먼저 넣었다. 여담이지만 selenium과 다르게 beautifulsoup은 element를 뽑아내는 것이 조금 더 직관적이고 빠르다는 평이 있다. 하지만 한글 문서가 너무 거지같고 검색하면 여러 개의 언어가 섞여 있어서 삽질을 하기 굉장히 쉽다 ... 😞

나의 경우에도 한참동안 검색했는데 알고보니 자바스크립트 메소드인 경우도 있었어서 진짜 잘 알고 써야겠다는 생각이 많이 들었다.

2.1 setup

솔직히 처음에는 배운대로 다 import하고, 무슨 의미인지도 몰랐다. 앞으로 크롤링을 많이 하게될지는 모르지만 의미를 알고 쓰기 위해서 부연 설명을 달았다.

from bs4 import BeautifulSoup
from urllib.request import urlopen

import csv 
import requests
import re 

# 내가 데이터를 가져오고자 하는 url
crawling_url = "https://www.billboard.com/charts/hot-100"

# http get request를 통해 url 내에 있는 데이터를 가져온다.
req = requests.get(crawling_url) 

# html 소스 가져오기(request를 통해 가져온 데이터를 문자열 객체str로 반환) 
# HTTP요청 결과로 받아온 HTML, 크롬 개발자 도구의 페이지 소스 내용과 동일
html = req.text

#bs4로 데이터를 python이 이해할 수 있는 구조로 parsing한다.
bs = BeautifulSoup(html, 'html.parser')

아래 두 모듈은 사실 내가 쓴 코드에는 활용 예시가 없는데, 불러온 셋팅으로 배워서 어떤 내용인지 따로 정리했다.

re : 정규 표현식을 컴파일하고, 컴파일된 패턴 객체를 이용해 메소드를 수행할 수 있다. 문자열을 검색 및 치환하여 간단하게 표현하기 위해 사용한다고 한다.
urlopen 함수 (참고: 코딩 도장): urllib.request 패키지의 urlopen 모듈은 URL을 여는 함수인데, URL 열기에 성공하면 response.status의 값이 200이 나온다.

* content 속성

가끔 beautifulsoup 객체를 만들 때 아래와 같이 첫 번째 인자에 content를 붙여주는 경우가 있다. content 속성에는 텍스트 형태의 HTML이 들어있게 된다. 그러니까 위에서 html소스 가져온 부분(.text 붙인)을 요 단계로 추릴 수도 있는 것이다.
response = requests.get("https://www.billboard.com/charts/hot->100")
soup = BeautifulSoup(response.content, 'html.parser')

2.2 element 접근

- object.select()

object라고 쓴 이유는 내가 만든 beautifulsoup 객체 이름에 따라서 해당 부분의 이름이 바뀔 수 있기 때문이다.

아래는 빌보드 top 100 페이지의 순위, 노래, 가수를 뽑아서 csv 파일에 넣는 코드다. 개발자 도구에서 내가 데이터를 뽑고자 하는 element를 inspect해서 해당 class name 안에 있는 모든 텍스트를 for loop으로 돌렸다.

rank_list = bs.select('.chart-element__rank__number')
song_list = bs.select('.chart-element__information__song')
artist_list = bs.select('.chart-element__information__artist')

for item in zip(rank_list, song_list, artist_list):
    rank = item[0].text
    song = item[1].text
    artist = item[2].text

    csv_writer.writerow( (rank, song, artist) )

csv_open.close()

- select의 return

객체의 select 메소드를 통해 나온 결과는 리스트이다. 따라서

인덱스를 지정하여 text로 변환
for loop를 돌려서 요소를 하나씩 꺼내기

위 두 가지 방법을 통해야만 사람이 볼 수 있는 형태로 확인이 가능하다.

2.3 tips

- python shell 활용하기

사실 크롤링할 때 하나씩 돌리면서 맞는지 틀린지 확인하고 결과 안나오면 답답해 하는 부분이 제일 짜증난다. 같이 공부하는 친구에게 들은 팁은 python shell로 돌려보는 거다!

shell에서 모듈을 import하고 url get 등 조건을 만들고 시작하면, 결국 interactive 환경에서 내가 쓰는 메소드가 결과값을 return하는지 잘 확인할 수 있다. 여러 줄을 쓰고 돌리면 어디가 문제인지 모르기 쉬운데, 어느 줄의 결과가 어떤지 즉각적으로 확인할 수 있어 아주 조으다 😍

# Terminal에서 python3 입력 후 엔터 치면 shell에 접속할 수 있어요.

Python 3.7.7 (default, Mar 26 2020, 10:32:53)
[Clang 4.0.1 (tags/RELEASE_401/final)] :: Anaconda, Inc. on darwin
Type "help", "copyright", "credits" or "license" for more information.

from bs4 import BeautifulSoup
from urllib.request import urlopen

import csv
import requests
import re

crawling_url = "https://www.billboard.com/charts/hot-100"

req = requests.get(crawling_url)
html = req.text

bs = BeautifulSoup(html, 'html.parser')

rank_list = bs.select('.chart-element__rank__number')
print(rank_list[0].text) # output : 1

- way to find elements

stackoverflow에서 질문을 찾다가 크롤링에서 nested tag를 찾을 때 참고할만한 내용을 정리해놔서 추가했다. (링크도 덧붙이려고 했는데 까먹어서 길을 잃었..)

예외를 제대로 핸들링하지 못할거라면, 요소의 path를 최대한 구체화시키는게 코드 작동을 쉽게 할 지름길!

The more detail you specify the path to find your element. The easier your code will break if you don't handle the exceptions correctly and actually, the logic you find the path might not be general at all..

일반적인 tag들의 순서를 세면서 접근하기보다 가급적이면 유니크한 id나 class로 요소를 찾아가는 것이 좋다.

Try to locate elements by unique id or classes instead of counting on the order of some general tags.

내가 찾고자 하는 텍스트가 특정 패턴을 따르면, 문법에서 텍스트 자체를 사용한다.

If the text you are trying to collect follow a pattern. you can find it easily using text itself , which is more straightforward for programmer... texts are what people see actually.

3. selenium

동적인 환경에서 크롤링을 해야 한다면 써야 하는 프레임워크. 코드를 통해 자동으로 컴퓨터가 클릭하게 만들거나, 텍스트 입력 엔터 등 브라우저를 제어할 수 있도록 한다. 나는 크롬 브라우저에서 크롤링을 할 것이다.

3.1 setup

import time
from selenium import webdriver
import requests

webdriver api를 통해 브라우저를 제어할 수 있다. 내 크롬 버전을 확인한 뒤에 크롬 드라이버 버전을 맞추어 다운받고, sciprt에 다운받은 경로를 지정해준다.

이 때 Users/yeni 까지만 쓰면 안 되고, 파일 명까지 적어야지 selenium을 인식한다...!
나는 아래처럼 안 쓰고 처음에 chromdriver 빼먹고 썼다가 계속 실행이 안 됐다^^

driver = webdriver.Chrome('/Users/yeni/chromedriver')

위 beautifulsoup에서 bs 객체를 만든 것처럼 아래에 driver라는 객체를 만들었다. 그리고 get method를 통해 url에 접근하고, time.sleep은 페이지에서 내용을 꺼내오는 시간을 고려해서 일정 시간 sleep을 주는 것이다.

driver = webdriver.Chrome('/Users/yeni/chromedriver')
driver.get('https://www.billboard.com/charts/hot-100')
time.sleep(1)

3.2 element 접근

개발자 도구에서 원하는 코드 우클릭하면 내가 긁어오고 싶은 부분의 코드가 있고, 코드에서 우클릭했을 때 copy에서 element, selector, xpath 중 무엇을 가져올 것인지 선택할 수 있다. (참고링크)

find_element_by_name('HTML_name')
find_element_by_id('HTML_id')
find_element_by_xpath('/html/body/some/xpath')
find_element_by_css_selector('#css > div.selector')
find_element_by_class_name('some_class_name')
find_element_by_tag_name('h1')

페이지의 여러 요소들에 접근하는 메소드는, 위의 내용에서 s만 추가해주면(elements) 된다. 솔직히 지금 내 수준에서는 왜 s를 붙이고 떼는 메소드를 만들었는지 좀 이해가 안 간다. 이름이 완전 다른 것도 아니고 s를 붙였는지 아닌지의 차이인데 기능을 다르게 하니까 가끔 이것 때문에 뭐가 안 되면 좀 화딱지가 난다 👿👿👿

그래도 beatifulsoup처럼 메소드 이름이 중구난방인 것보다는 통일성 있어보여서 차라리 쓰기 좋긴 하다... 휴 ;

위 메소드들을 활용시 HTML을 브라우저에서 파싱해주기 때문에 굳이 Python, BeautifulSoup을 사용하지 않아도 된다.

- driver.page_source

브라우저에 보이는 그대로의 HTML, 크롬 개발자 도구의 Element 탭 내용과 동일하다. 페이지의 모든 elements 가져오기 기능으로 보면 될듯! 나는 잘 사용하지 않았지만 알아두면 좋을 것 같아서 우선 정리해놓았다.

html = driver.page_source

- 예시 코드

비마이펫의 페이지에서 게시물 하나하나 들어가서 뒤로 돌아오는 코드를 짜보았다. 우선 리스트 전체를 보여주는 페이지에 들어온 뒤, class를 통해 각 게시물에 접근할 수 있는 변수 places를 만들었다.

그 다음 해당 변수의 길이만큼 반복문을 돌리면서,

장소 클릭
장소 안에 있는 콘텐츠를 가져오는 함수 실행 (요거는 별도 코드로 저장해서 불러오기만)
driver.back() 을 통해 뒤로가기

까지 실행했다. 그리고 거의 하루종일 문제에 봉착했던 두 가지 문제는 아래에서 소개한다^^

driver = webdriver.Chrome('/Users/yeni/chromedriver')
bemypet_url = 'https://mypetlife.co.kr/map/place-listings/' 
driver.get(bemypet_url)

places = driver.find_elements_by_class_name('job_listing-clickbox')

# 페이지 내부 내용을 긁어오는 함수 
def save_contents_in_exel():
    title = driver.find_element_by_class_name('job_listing-title').text
    explanation = driver.find_element_by_css_selector('#listify_widget_panel_listing_content-1').text
    tags = driver.find_elements_by_class_name('ion-pricetag')

    about_writer.writerow([title, explanation])

    for t in tags:
        tag_writer.writerow([title, t.text])

# 페이지를 왔다갔다 할 반복문 
for num in range(len(places)):
        places[num].click()

        save_contents_in_exel()

        driver.back()
        driver.get('https://mypetlife.co.kr/map/place-listings/')
        time.sleep(5)
        places = driver.find_elements_by_class_name('job_listing-clickbox')

3.3 Message: stale element reference: element is not attached to the page document

아침부터 저녁까지 제일 많이봤던 에러 메시지 🤬🤬🤬🤬
요소가 페이지에 없어서 불러올 수 없다는 뜻인데, 정확한 말로 설명할 수는 없지만! 한 뎁스 들어갔다가 뒤로가기를 하게 되면 기존의 페이지가 변경되어서 요소들을 불러올 수 없다고 한다.

- solution 1

그래서 get을 통해 url을 다시 주고, 변수도 다시 정의해줌으로써 같은 사이트에서 같은 요소를 불러올 수 있도록 크롬에게 알려준다.

그래서 다시 돌아와서 원하는 내용을 긁어오기 위한 클릭.click()을 하기 '전'에!!!

get url을 다시 가져오기

변수 재정의 하기

두 개의 작업이 꼭 필요하다. 그것도 아니라면 time.sleep 시간을 늘려서 얘가 읽을 수 있도록 시간을 더 줘야 한다. 코드는 위의 예시 코드를 참고!

- solution 2

그리고 만약 크롤링하는 페이지가 굉장히 구린 페이지라면, 첫번째 페이지에서 두 번째 페이지로 넘어갈 때 endpoint에 페이지 구분이 없을 수가 있다. (예: map/listing/1 이런 식으로 있는게 아니라 그냥 listing으로만 표시)

이럴 때는 두 번째 페이지를 가서 내용을 긁더라도 get url 때문에 다시 첫 번째 페이지로 돌아가는 불상사가 생긴다. 게다가 기존의 코드로는 도저히 처리할 수가 없게 된다.

때문에 그냥 페이지에서 각 게시물의 url만 따다가 저장해서, 왔다갔다 (driver.back)할 필요 없이 리스트에 url을 저장해서 순서대로 접속 후 크롤링을 하도록 로직을 짜면 된다.

link = driver.get('https://mypetlife.co.kr/map/place-listings/')
time.sleep(3)

for page_idx in range(1,7):
	# 페이지에 들어간 다음에 
	page = driver.find_elements_by_xpath('//[@id="main"]/div/nav/ul/li')
	time.sleep(3)

	# 데이터를 추출하고 싶은 요소를 변수에 저장해요.
	places = driver.find_elements_by_class_name('job_listing')
	linkx  = []

	# 해당 변수의 url을 차례대로 빈 리스트에 넣어요. 
	for idx in range(len(places)):
		place = places[idx]
		link  = place.find_element_by_css_selector("a.job_listing-clickbox").get_attribute('href')
		links.append(link)	

# 저장한 링크를 하나씩 꺼내서 봅시다! 
for link in liks:
	page = driver.get(link)

그래도 계속 붙들고 하나씩 해결하니까 뭔가 일주일 전보다는 확연히 는 것 같은 느낌이 든다. beautifulsoup find는 아직 좀 모르겠어서, 다음에는 요거를 정리해야겠다.

yeeun lee

이사간 블로그: yenilee.github.io

이전 포스트

❓ 비밀번호 암호화, 로그인 (bcrypt, jwt)

다음 포스트

stack, queue에 대해

1개의 댓글

프론트개발

2020년 4월 17일

잘 보고 갑니다~~~

답글 달기