데이터 스크레이핑(data scraping)은 컴퓨터 프로그램이 다른 프로그램으로부터 들어오는 인간이 읽을 수 있는 출력으로부터 데이터를 추출하는 기법이다. -wikipedia
web scraping 이란 웹 상의 특정 정보를 추출하는 기술이라고 생각하면 된다.
특정 사이트에서 정확한 정보를 수집할 수 있어 원하는 확실한 정보를 얻을 수 있다는것이 장점이다.
단점으로는 특정 웹 사이트만 추적한다는 점이다.
웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다.
웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. -Wikipedia
web crawling 이란 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술이라고 생각하면 된다.
scraping과 동일하다 생각될 수 있지만 다른 기술이다.
crawling은 여러 사이트를 돌며 데이터를 수집하고 분류하는것이 특징이다.
많은 양의 정보를 수집할 수 있고 실시간으로 정보를 수집하기에 자주 변하는 데이터 분석에 유용하다.
잘못 사용하는 경우 불법행위로 간주될 수 있으므로 잘 알아보고 사용해야한다.