: 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것
글의 내용에 http가 포함된 URL이 있다면, 그 사이트에 접속해서og(open graph)
가 있는 내용을 긁어와서 저장
스크래핑을 정기적, 주기적으로 여러번 하는 것
⛔️ 다른 사이트를 크롤링하는 것은 주의해야한다.
'여기어때'의 '야놀자' 크롤링 법적 이슈 사례
오픈 그래프 스크래핑
설치 :
yarn add cheerio
,yarn add axios
결과
여기어때 사이트에서 숙소 정보 가져와보기
설치 :
yarn add puppeteer
[npm-puppeteer]index.js
결과
💡 참고
puppeteer가 유용한 경우
- 정보를 가져오고 싶은 페이지가 로그인을 해야 볼 수 있는 경우
- 다음페이지 넘어가기가 필요한 경우
- 클릭해야 나오는 팝업 등에서 긁어오는 경우 등
네이버 주식 크롤링 해보기
[네이버 금융]
시세 가격은 iframe 태그 안에 있다.
iframe 태그 안에 다른 html이 끼워져 있을 때는, 따로 찾아서 들어가야지만 긁어올 수 있다.
결과
stock.model.js
주식 데이터를 꺼내올 때 사용
crawler 폴더 안에 있는 models 폴더 안에도 복사 붙여넣기 해주기 - crawler 폴더 안에 있는 모델 데이터를 저장할 때 사용하기 됨
crawler - index.js
설치 :yarn add mongoose
backend - index.js
결과