Scraping & Crawling

TEDDY·2022년 11월 22일
0

CODECAMP

목록 보기
17/53
post-thumbnail

스크래핑과 크롤링에 대해서 알아보자
우선 스크래핑과 크롤링은 특정 사이트에서 정보를 가져오는것인데, 이름에서도 볼 수 있듯이 정도나 방법이 다름을 알 수 있다.

Scraping

: 특정 사이트의 원하는 정보를 한번 가져온다.

Scraping으로 가져오는 방법을 알아보자.
우선 터미널에서 axios와 cheerio를 설치하자. => npm(yarn) install axios cheerio
axios는 웹페이지 fetch를 위한 모듈이고, cheerio는 Nodejs에서 유용한 스크래핑 모듈이다.
필요한 정보가 있는 웹사이트의 HTML을 가져온다. => axios.get(필요한 정보가 있는 사이트주소)
axios를 통해서 페이지를 가져오고 cheerio를 통해서 받아온 페이지를 파싱하여 전체 페이지에서 필요한 부분의 정보를 가져올 수있다.

Crawling

: 특정 사이트의 원하는 정보를 꾸준히 가져온다.

Crawling에선 puppeteer을 사용해서 크롤링을 한다.
이것도 우선 puppeteer를 터미널에서 설치해야한다. => yarn add puppeteer
필요한 파일에 임포트해준다. => import puppeteer from 'puppeteer'
그리고 비동기 함수를 만들어주고 크롤링을 하자.

0개의 댓글