# Crawling

19개의 포스트
post-thumbnail

TIL - 위메프 크롤링 + csv로 저장하기

위메프 best section을 크롤링해서 csv파일로 저장해보자.크롤링하는 방법은 여기서 자세히 다루므로 이번에는 csv파일 저장위주로 다뤄보고자 한다.(전체 코드는 맨 아래에서 확인)selector로 끌어온 각각의 price, title, url들을 위와같이 리스트

2일 전
·
0개의 댓글
post-thumbnail

TIL - Add crawler app to django project

get 요청이 오면 크롤링한 데이터를 뿌려주는 app을 만들어보자.웹페이지에서 '뉴스'를 클릭하면 주식과 관련된 실시간 TOP10 기사를 보여주는 페이지가 나온다고 가정해보자. 이 경우 TOP10 기사는 실시간으로 바뀔 것이기 때문에 데이터베이스에 저장하기 보다는 ge

4일 전
·
0개의 댓글
post-thumbnail

Python - Selenium으로 크롤링하기

웬만하면 BeautifulSoup을 이용해 크롤링 할 수 있으면 좋지만 안되는 경우도 가끔 있습니다. 기생충 리뷰에 이어 오스카 홈페이지에서 수상자 명단을 크롤링 해보려 했지만 html에 텍스트 자체가 나오지 않아 브라우져 자동화 툴인 셀레니움을 이용해 봤습니다. &

5일 전
·
0개의 댓글
post-thumbnail

Python - BeautifulSoup으로 크롤링하기

미국 영화 사이트 RottenTomatoes의 기생충 평론가 리뷰를 크롤링 해보겠습니다. 크롤링을 하기 위해서는 Request와 BeautifulSoup 라이브러리가 필요합니다. 크롤링용 가상환경을 세팅하고 필요한 라이브러리르 설치해 사용하면 좋습니다.  

5일 전
·
0개의 댓글

TIL - Methods to extract html

html파일에서 원하는 부분을 끌어오는 대표적인 방법들에 대해서 알아보자.우선 해당 페이지의 url을 읽어와 BeautifulSoup parser의 객체를 soup 인스턴스에 넣어준다.soup.find_all()위의 부분은 indeed홈페이지에서 python을 검색하면

2020년 2월 12일
·
0개의 댓글

TIL - indeed crawling

indeed사이트에 python과 관련된 구인공고의 정보(url, title, location)을 가져와보자.우선 requests와 BeautifulSoup을 import하고 python을 검색한 결과 페이지를 url로 담아주고 requests.get().text로 해

2020년 2월 12일
·
0개의 댓글
post-thumbnail

Django/Python - 크롤링 데이터 CSV로 읽고 쓰기

이번 글은 'Django http & 크롤링 기초 \_ 네이버 블로그 리스트 긁어오기' 에서 진행한 크롤링 데이터를 내가 원하는 곳에 CSV로 저장하고, 또 그걸 읽어서 HTTP로 응답하는 법을 다룹니다.

2020년 2월 12일
·
0개의 댓글
post-thumbnail

TIL - web scraping : billboard hot 100

빌보드 hot100차트의 랭킹, 곡제목, 가수이름을 크롤링해보자.우선 웹사이트로 http request중 get매서드를 보낼 requests 라이브러리를 import해준다.그리고 불러온 http 객체를 해석(parsing)할 bs4라이브러리 중 BeautifulSoup

2020년 2월 11일
·
0개의 댓글
post-thumbnail

Python 웹 크롤링 기초 내용 응용(feat. sqlalchemy를 이용한 크롤링 데이터 저장)

앞서 requests, beautifulsoup 을 이용하여 빌보드 차트를 크롤링 해보는 예제를 진행해 봤다. 이를 응용하여 다른 사이트(마이뱅크 은행별 환율정보 페이지) 에 대해 크롤링을 진행해 보았다.추가로 sqlalchemy를 이용하여 크롤링한 데이터를 저장할 d

2020년 2월 11일
·
0개의 댓글
post-thumbnail

Django http & 크롤링 기초 _ 네이버 블로그 리스트 긁어오기

이전에 배워본 Django http와 크롤링을 동시에 사용해 특정 검색어의 블로그 리스트를 가져옵니다.

2020년 2월 11일
·
0개의 댓글
post-thumbnail

Python package를 사용한 웹 크롤링 기초

웹 크롤링(Crawling)은 웹 사이트에서 특정 키워드로 탐색하여 자료를 수집하는 행위를 뜻한다. 파이썬 어느정도 사용해 봤다면 몇가지 패키지들을 통해 쉽게 웹 크롤링 작업을 진행해 볼 수 있다.python이 설치 된 개발환경(가상환경), pip 패키지 중 reque

2020년 2월 11일
·
0개의 댓글
post-thumbnail

파이썬 - 빌보드 차트 크롤링하기

이번에는 파이썬을 활용해 빌보드 차트의 차트 정보를 크롤링(스크래핑) 해보려고 합니다.

2020년 2월 10일
·
0개의 댓글

flask와 크롤링을 이용한 api서버 만들기

만들게된 계기 프리미어리그 경기 일정 및 결과를 정리해서 보여주는 봇이나, 앱이 있으면 좋겠다는 생각을 하고 있던 찰나, 우연히 예전에 만들었던 python 크롤링 프로그램을 다시보게 되었다. 그리고 프리미어리그 경기 일정 및 결과 알려주는 api를 만들어 보면 어떨까 생각해서 만들게 되었다. 왜 flask 인가? 일단 크롤링 프로그램은 python으로 ...

2020년 1월 15일
·
0개의 댓글

BeautifulSoup 크롤링

파이썬의 크롤링 라이브러리인 "BeautifulSoup"를 이용해서 빌보드 차트 핫100의 랭크/가수이름/곡명을 크롤링 해보자:-)

2019년 12월 18일
·
0개의 댓글
post-thumbnail

🕋초보도 할 수 있는 python으로 네이버에서 실시간 검색어 정보 가져오기! (1)

들어가며 이번 글은 파이썬에 대해 기본적인 수준의 이해를 가진 사람을 대상으로 쓰는 글입니다. module, package에 대한 기본적인 이해가 있으면 좋습니다. 웹 크롤링 시작하기 제 블로그의 저번 글에서 python을 설치하지 않고도 실행할 수 있게 해주는 google colab에 대해서 다뤘었습니다. 파이썬을 설치하지 않고 실행하는 방법...

2019년 12월 16일
·
0개의 댓글

Selenium 따라하기

Selenium ? Selenium 은 웹 애플리케이션을 위한 테스팅 프레임워크 입니다. 자동화 테스트를 위해 여러 가지 기능을 지원합니다. 다양한 언어에서도 사용이 가능합니다. Beautiful Soap 는 웹사이트에서 버튼을 클릭해야 얻을 수 있는 데이터라던가, javascript 에 조건이 충족되어야 만 얻을 수 있는 데이터에 접근하는 것에 한계가 있...

2019년 12월 4일
·
0개의 댓글
post-thumbnail

archiving - crawling

크롤링 기능을 사용하고 싶을 때 참고할 만한 글. https://jongmin92.github.io/2017/05/26/Emily/4-crawling/

2019년 10월 27일
·
0개의 댓글

TIL no.60 - Back End - Crawling 2

Crawling 1 에서는 그냥 데이터를 웹에서 긁어내서 프린트까지만 했는데 이번엔 실제로 데이터베이스에 저장해보도록 하겠습니다. 이를 위해서 sqlalchemy라는 DB Toolkit을 사용하겠습니다. 설치법: https://www.pythoncentral.io/how-to-install-sqlalchemy/ Tutorial: https://docs....

2019년 10월 24일
·
0개의 댓글

TIL no.58 - Back End - Crawling 1

크롤링은 쉽게 말해 웹에서 원하는 정보를 추출하는 것인데 그 방법이 조직화, 자동화된 방법으로 정보를 추출하는 것을 뜻합니다. Python을 이용한 크롤링 예제를 살펴보도록 하겠습니다. 일단, requests와 BeautifulSoup이라는 라이브러리가 필요합니다. request 공식문서(https://realpython.com/python-reques...

2019년 10월 23일
·
0개의 댓글