Scraping & Crawling

JaySong·2022년 7월 15일
0

TIL

목록 보기
11/34
post-thumbnail

📍 스크래핑

현대 사회에선 데이터가 넘쳐나 빅 데이터라는 단어가 나올 정도로 데이터가 넘쳐 흐른다. 네이버나 유튜브에 들어가서 볼 수 있는 배너나 이미지 또한 데이터라고 할 수 있다.
그렇다면 웹사이트에 있는 데이터를 가지고 올 수 있는 방법은 없을까?

스크래핑(Scraping) 말 그래도 스크랩을 하는 것이다.
친구들에게 카톡으로 링크를 보낼 때 string 타입의 url만 가는 것이 아닌 이미지와 정보들이 같이 가는 걸 흔히 볼 수 있다.

위의 사진이 스크래핑을 활용한 사례이다.

네이버 개발자 도구에 들어가보면 head 태그안에 위의 정보가 있다.

head 태그 안에 meta 태그들이 있고, 그 중에서 property가 og로 시작하는 태그의 내용을 Pupeteer 혹은 Cheerio와 같은 도구를 통해 필요한 정보만 가져오면 된다.

📍 크롤링

크롤링(Crawling)은 스크래핑을 주기적 정기적으로 횟수에 제한 없이 여러번하는 것을 의미한다.

References


https://98yejin.github.io/2020-11-02-crawling-vs-scraping/

profile
Hello World!

0개의 댓글