# crawl

6개의 포스트
post-thumbnail

[Crawl] 네이버 뉴스 크롤링

개요 EC2로 실시간 크롤링하여 데이터를 Kafka를 이용하여 데이터를 전달할 예정 데이터 신문사 주제 시간 뉴스 url 제한사항 실시간 크롤링이므로 1분전인 글만 crawling 나머지들은 continue '.,`"[]?! 등 특수문자 제거 Install Code 결과 selenium & requests가 아닌 bs4 & requests를 사용...

2022년 6월 26일
·
0개의 댓글

Selenium을 이용해 카카오맵 크롤링하기

이전 포스팅에서 네이버 검색 API를 사용하여 식당 정보를 가져오는 크롤링을 해보았다. 이 API를 이용하는 방법으로는 식당의 전화번호, 주소, category, link밖에 못 가져온다는 한계가 있었다. 내가 원하는 정보를 얻기 위해서 구글링을 해보니 흔히 크롤링에

2022년 4월 27일
·
0개의 댓글
post-thumbnail

네이버 검색 API를 이용해 크롤링하기

먼저 test data는 다음과 같이 넣어 두었다.네이버 API를 신청했을때 받은 아이디와 비밀번호를 저장해 두었다.parsing 방법urllib를 이용해 리소스 가져오기성공적으로 리소스를 가져왔다면 아래와 같이 response.read(),response_body.d

2022년 4월 27일
·
0개의 댓글

2. BeautifulSoup

1. BeautifulSoup 웹에서 가져온 데이터에서 원하는 특정 태그나 태그 안의 내용 등을 쉽게 파싱할 수 있도록 도와주는 라이브러리 bs를 사용하면서 중요한 것은 내가 원하는 특정 태그를 찾아서 그 값을 가져오는 것 > HTML을 잘 알아야 함 본 크롤링은 Python을 기반으로 함 1) 설치 2) 기본 사용법 > html의 전체 코드를 가져온...

2022년 3월 19일
·
0개의 댓글
post-thumbnail

1. Crawling

1. 크롤링 (Crawling) 크롤링(Crawling), 스크레이핑(Scraping)은 웹 페이지의 데이터를 추출하는 행위 크롤링 소프트웨어를 크롤러(Crawler)라고 부름 본 크롤링은 Python을 기반으로 함 2. urllib · request 1) 이론 urllib, request 모듈은 다이제스트 인증, 리디렉션, 쿠키등과 같은 URL이나 ...

2022년 3월 19일
·
0개의 댓글
post-thumbnail

[Python & NCS] 0. 개요

파이썬 기반 공공데이터 API 분석모델 구축 _ 00. 개요

2021년 5월 11일
·
0개의 댓글