백엔드 복습-Day9

이예음·2022년 12월 6일
0

백엔드 복습하기

목록 보기
9/23
post-thumbnail

스크래핑

: 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것


글의 내용에 http가 포함된 URL이 있다면, 그 사이트에 접속해서 og(open graph)가 있는 내용을 긁어와서 저장

크롤링

스크래핑을 정기적, 주기적으로 여러번 하는 것
⛔️ 다른 사이트를 크롤링하는 것은 주의해야한다.
'여기어때'의 '야놀자' 크롤링 법적 이슈 사례

09-01-cheerio-scraping

오픈 그래프 스크래핑

설치 : yarn add cheerio, yarn add axios

결과

09-02-puppeteer-crawling

여기어때 사이트에서 숙소 정보 가져와보기

설치 : yarn add puppeteer [npm-puppeteer]

index.js


결과

09-03-puppeteer-crawling-iframe

💡 참고

puppeteer가 유용한 경우

  1. 정보를 가져오고 싶은 페이지가 로그인을 해야 볼 수 있는 경우
  2. 다음페이지 넘어가기가 필요한 경우
  3. 클릭해야 나오는 팝업 등에서 긁어오는 경우 등

네이버 주식 크롤링 해보기

[네이버 금융]
시세 가격은 iframe 태그 안에 있다.
iframe 태그 안에 다른 html이 끼워져 있을 때는, 따로 찾아서 들어가야지만 긁어올 수 있다.


결과

09-05-puppeteer-crawling-iframe-with-rest-api

stock.model.js
주식 데이터를 꺼내올 때 사용
crawler 폴더 안에 있는 models 폴더 안에도 복사 붙여넣기 해주기 - crawler 폴더 안에 있는 모델 데이터를 저장할 때 사용하기 됨


crawler - index.js
설치 : yarn add mongoose


backend - index.js


결과

profile
응애

0개의 댓글