7. Scrapping & Crawling

어니언·2023년 1월 16일
0

Scrapping은 우리가 정한 특정 웹 페이지에서 데이터를 추출하는 것으로 예를들면, 특정주제의 뉴스, 인기검색어로 정보 가져오기, 상품의 가격 모니터링하는 것을 말한다.

Crawling은 url을 탐색해서 반복적으로 링크를 찾아서 가져오는 과정으로, 웹페이지를 찾아 정보를 수집하는 것을 말한다.

스크래핑과 크롤링은 모두 정보를 찾아서 추출해오는 것으로 공통점을 지니고 있지만 타겟 웹페이지의 유무와 중복제거의 실행여부에서 차이가 있다.

스크래핑은 특정웹페이지를 목표로한다, 우리가 원하는 정보를 어디서가져올지 타겟을 선정하고, 그 타겟에서 정보를 추출해낸다. 이와 반대로 크롤링은 특정 웹페이지를 목표로하지 않고, 탐색을 한 후 정보를 가져온다.

두번째로, 스크래핑은 중복제거가 필수가 아니다, 중복된 정보를 가지고 있을 필요는 없다하더라도, 필수적으로 중복제거를 실시하지 않는다, 반면 크롤링은 중복제거가 필수입니다. 중복되거나 불필요한 정보를 가져와서 분류를 복잡하게 할 필요가 없기 때문에 수집한 웹페이지가 중복되지 않도록 서로다른 색인을 남겨놓습니다.

profile
안녕하세요.

0개의 댓글