# 크롤링

52개의 포스트

면접 질문 크롤링

페이지네이션 고려한 크롤링

어제
·
0개의 댓글

[크롤링 기초] 개념 잡기

크롤링 : 여러 사이트들의 데이터를 규칙적인 주기로 대량으로 수집스크래핑 : 웹사이트에서 작은 범위의 명확한 타겟 데이터를 수집 (자동화를 위해 주기 설정하면 크롤링보다 적지만 내가 원하는 데이터를 주기적으로 수집 가능)브라우저를 통해서 HTML tag로 보여지는 언어

7일 전
·
0개의 댓글

Access Denied

파이썬으로 웹 크롤링 할 경우에Access Denied 가 반환되는 경우에, User-Agent(사용자 에이전트)를 사용하면 해결 됨.headers = {"User-Agent":"Mozilla/5.0"}r = requests.get(url, headers=headers

2020년 10월 13일
·
0개의 댓글
post-thumbnail

[네이버 블로그 크롤링] Easy Writing Golden Sentences

EBS Easy Writing 라디오는 매일 영어 5문장을 다룬다.이를 노션 페이지에 입력해두고 학습한다.블로그들이 이 문장들을 포스팅하고있어 이를 크롤링을 하고자 한다.🚨 노션에 바로 입력하려했으나 아직 성공하지 못했다.수많은 블로그들 중 하루도 빼먹지 않고 Eas

2020년 9월 30일
·
0개의 댓글

NodeJS 웹 크롤링 Ch03

엑셀에 이미지를 넣을 수 없으니 이미지를 따로 관리해보도록 하자이미지를 버퍼형태로 가져오고, fs모듈이 버퍼를 파일로 바꿔줌npm i axios이미지 주소를 추출한다음 쿼리스트링을 분석해보는 과정이 필요함지금까지 했던 크롤러를 동작시켜보면 화면이 잘려서 출력됨스크린샷을

2020년 9월 30일
·
0개의 댓글

NodeJS 웹 크롤링 Ch01

코드 예제CRAWL : 기어다니다웹 사이트를 기어다니면서 정보를 수집하는 봇 = 크롤러크롤링한걸 영리적 목적으로 쓸 때 문제가 생길수도 있음.자스로 크롤링하면 생산성이 좋당CSV? comma separated values콤마와 줄바꿈으로 구분된 값npm i csv-pa

2020년 9월 30일
·
0개의 댓글
post-thumbnail

[크롤링 로그인] 노션 메일주소로 로그인하기

.env에 보안이 필요한 정보를 입력해두면 코드가 유출되어도 보안유지 가능.env 파일에 메일주소와 비밀번호 등의 정보 입력사용할 페이지에 dotenv 불러오기아래 형식으로 값 불러와서 사용networkidle0과 networkidle2를 사용해봤는데 사실 차이를 아직

2020년 9월 29일
·
0개의 댓글
post-thumbnail

[nodejs 크롤링] 3장. 이미지와 CSS선택자

제로초 github매일 스크린샷을 찍을 수 있다개별 이미지도 다운 가능링크 주소를 소스에 넣으면 보이지만 남의 이미지 트래픽을 사용하는 것이기때문에 부담을 줄 수 있다직접 다운 받아 사용이미지 요청을 하면 0과 1로 이루어진 buffer형태로 오고 그것을 fs로 읽는다

2020년 9월 26일
·
0개의 댓글
post-thumbnail

[nodejs 크롤링] 2장. puppeteer 크롤링

제로초 github사람인 척 클릭도 하고 로그인도 하는 등 위장하는 크롤러너무 빠르게 페이지에 접근하는 것을 막기 위해 중간중간 잠시 쉬는 것도 설정크로미움 브라우저도 설치용량을 많이 차지한다브라우저에서 서버를 띄워두고 하는 것이기 때문크롬 브라우저의 기반await이

2020년 9월 19일
·
0개의 댓글

크롤링시 수집한 태그 지우기 (puppeteer)

img태그를 돔에서 추출한뒤 parentElement로 한단계 올라가서 그의 자식을 삭제하면됨

2020년 9월 19일
·
0개의 댓글
post-thumbnail

[nodejs 크롤링] 1장. 웹크롤러 파싱

봇을 만들어 웹사이트의 정보를 수집하는 것크롤링 데이타를 영리적 목적으로 사용시 문제가 될 수 있다허락을 맡거나 제공된 API를 사용하는 것을 권장c, c++이 속도가 더 빠르지만node.js가 생산성이 좋다웹을 구성하는 언어 javascript를 사용언어간 전환 비용

2020년 9월 17일
·
0개의 댓글

⛱ 웹 크롤링

어떤 태그는 크롤링이 되고, 어떤 건 seletor이고 어떤 건 그냥 copy고,, 정리를 해보려고 한다. 1. csv파일 생성 크롤링해서 데이터를 뽑았으면 csv파일로 생성해야 DB에 넣을 수 있다. 2. Beautifulsoup4 공식문서 2. 요소 가져오기

2020년 9월 13일
·
0개의 댓글

🧤csv > mysql 업로드

project 파일의 루트 경로(=manage.py가 있는 경로)에 csv 파일 업로드를 위한 file을 생성한다.sql 에서 제대로 확인해보자use test 를 따로 입력하지 않고, 아래와 같이 select 문에데이터베이스 명.테이블명 같이 입력해서 바로 확인가능하다

2020년 9월 11일
·
0개의 댓글
post-thumbnail

📌 웹 크롤링 & 스타벅스 크롤링

위의 라이브러리를 설치 후 웹 크롤링을 진행해보려고 한다.미니콘다 가상환경이 설치되어있다는 가정하에 진행하였다.나는 스타벅스 메뉴 중 '음료'리스트의 품목명과 이미지 주소를 따오려고 한다.개발자도구를 눌러서 살펴보면, img src에 이미지 소스와 alt 태그 안에 음

2020년 9월 6일
·
0개의 댓글

Django 환율 계산 페이지 -2

✨아주대학교 멋쟁이사자처럼 8기 1학기 3주차 수업용으로 제작한 내용입니다.저번주 수업에 이은 내용입니다! 이전에는 그냥 숫자를 입력했다면 이번에는 웹 페이지에서 해당 내용을 직접 가져와보죠.크롤링(crawling) : 웹 상의 페이지를 수집하는 작업파싱(Parsing

2020년 8월 18일
·
0개의 댓글

크롤링(왜 5번 이후로는 안되지...)

클래스101 강의의 상세페이지내의 정보를 가져오긴 위해 위와 같이 스크롤을 내려주었다. 필리때와 다르게 그냥 화면밑으로 스크롤을 내렸더니 자료를 가져오지 않고 그냥 지나치는 경우가 발생했다. 그래서 좀 더 섬세하고 간격을 조정하고 화면이 불러들여질 시간까지 고려하여야

2020년 8월 17일
·
0개의 댓글
post-thumbnail

크롤링 웹 서비스하기(1) - INTRO

크롤링은 기술일까?

2020년 7월 9일
·
2개의 댓글

웹 크롤링: 무한 스크롤 문제 (feat. execute_script)

무한 스크롤을 적용하려고 짠 코드인데, 이상하게 적용이 안 된다. 구글링해보면 다 아래와 같은 방식으로 잘 돌아가는 것 같은데 내 코드에 무슨 문제가 있는걸까?javascript 코드를 실행해주는 함수다. 아래 코드는 페이지에 진입해서 스크롤의 높이를 저장한 뒤에, 스

2020년 6월 29일
·
0개의 댓글
post-thumbnail

Puppeteer를 이용한 웹 크롤링 해보기 (예제 1)

웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위다. 프로그래밍으로 자동화할 수 있다.Puppeteer는 Headless Chrome 혹은 Chromium를 제어하도록 도와주는 라이브러리이다.Headless BrowerHeadless Browser는 CLI

2020년 6월 8일
·
0개의 댓글
post-thumbnail

토이 프로젝트 기획 _ 카카오톡 챗봇

2020년은 코로나의 해로 참 힘든 학기를 맞이하고 있다.학교에 단 한번도 등교한적이 없이 무의미하게 한학기를 마무리하고있다.필자는 대학 학부 3학년 학생으로 올해 공익근무요원 입대를 앞두고있다.방학생활과 공익근무기간에 실행할 몇가지 토이프로젝트를 기획해보려고한다.Py

2020년 6월 2일
·
0개의 댓글