데이터 스크레이핑(data scraping)은 컴퓨터 프로그램이 다른 프로그램으로부터 들어오는 인간이 읽을 수 있는 출력으로부터 데이터를 추출하는 기법이다.
웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다.
crawling : 기능을 자동화하여 주기적으로 데이터 추출
scraping : 일회성으로 데이터를 추출
Data Scraping | Data Crawling |
---|---|
웹을 포함한 다양한 소스로부터 데이터를 추출하는 것을 포함 | 웹에서 페이지 다운로드 참조 |
모든 규모로 수행 가능 | 대부분 대규모로 수행 |
데이터 중복 제거가 필수적이지 않음 | 데이터 중복 제거가 필수 요소 |
crawl agent 및 parser 필요 | 오직 crawl agent 필요 |
참조