Web Scraping
- 웹 스크래핑 , 웹 수집 또는 웹 데이터 추출 은 웹 사이트 에서 데이터 를 추출하는 데 사용되는 데이터 스크래핑이다.
- 특정 데이터를 수집하고 웹에서 일반적으로 중앙 로컬 데이터베이스 또는 스프레드 시트 로 복사 하여 나중에 검색하거나 분석한다.
구글에 Web scraping(또는 웹 스크래핑)이라고 검색하면 오른쪽에 나오는 창이다. 이것이 웹 스크래핑이다.
URL을 입력하거나 검색을 할 경우 해당 페이지의 이미지, 내용등과 같은 요약 정보가 뜬다.
페이스북이나 인스타그램에 링크를 올릴 경우 그 링크에 존재하는 이미지와 내용을 요약해서 보여준다.
Web crawling
- 웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다.
- 웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다.
- 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다.
- 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다.
사실 웹 스크래핑과 웹 크롤링을 같은 의미로 보는 경우도 있다. 하지만 조사해 본 결과 웹 크롤링이 조금 더 넓은 의미인 것 같다.
웹 크롤러는 특정 사이트에서 원하는 정보를 크롤링하기 위해 그 사이트와 연결된 다른 링크까지 들어가서 정보를 수집한다. 사람이 일일이 돌아다녀서 정보를 모아도 되지만 소금에 섞인 이물질을 하나씩 골라낼 것인가 채에 받쳐서 걸러낼 것인가 그 차이라고 보면 될 것이다.
작동 방식은 HTML페이지를 가져와서 HTML / CSS / Javascript 등을 파싱하고 필요한 자료만 수집해 온다.