Scraping 과 Crawling

이예음·2022년 9월 18일
0
post-thumbnail

지금 시대는 데이터들이 넘쳐나고, 사람들은 자신이 원하는 데이터를 얻기 위해 수많은 검색을 한다.

그만큼 많은 플랫폼들이 나오는데 플랫폼들은 고객들을 끌어들이기 위해, 다른 곳보다 더 좋은 데이터와 검색에 맞는 데이터를 보여줘야한다.

이 때 사용되는 기술이 바로 스크래핑과 크롤링이다.

스크래핑

: 특정 웹 사이트의 html을 긁어 오는 것

💡 언제 사용되는지?
링크를 공유하면 밑에 자동으로 사이트 소개와 이미지가 미리보기로 가지고 올 때

유저가 게시글을 작성하고 등록을 클릭하면, 백엔드 api로 글의 내용을 보내준다.
이때, 글의 내용에 http나 https가 포함된 url이 있다면, 그 사이트로 접속해서 og(open graph) 가 있는 내용을 긁어와서 저장한다.

og 스크래핑 사용방법

cheerio를 사용한다.

크롤링

: 스크래핑을 꾸준히 하는 것(정기적으로 가져옴)
💡 언제 사용되는지?
특정 사이트의 가격이나 그 외 정보 등을 꾸준히 가져올 때 사용된다.
위법사례가 있기 때문에 조심해야한다(다른 사이트의 데이터를 크롤링해와서 경제적인 이득을 봤을 때)

크롤링 사용방법

puppeteer를 사용

profile
응애

0개의 댓글