타 웹 페이지를 가져와 데이터를 추출하는 행위이다.
우리가 정한 특정 웹 페이지에서 데이터를 추출하는 것
특정주제 스포츠 뉴스에 랭킹 1~5위인 데이터, 어떤 물품의 가격등 -> 원하는 데이터 추출
URL을 탐색해 반복적으로 링크를 찾고 가져오는 과정
크롤러 : 데이터를 수집하는 기능
Scraping | Crawling |
---|---|
어디서 정보를 가져올지 정하고 정보를 가져온다. (선결정 후추출) | 탐색후 정보를 가져옴(선탐색 후추출) |
색인을 남김으로써 중복방지(web indexing) |