TIL | WEB Scraping - 1

송치헌·2021년 7월 6일

TIL | Python으로 Web Scraper만들기

목록 보기

1/6

Web Scraping과 Web Crawling의 차이

Web Scraping

웹 스크래핑 , 웹 수집 또는 웹 데이터 추출 은 웹 사이트 에서 데이터 를 추출하는 데 사용되는 데이터 스크래핑이다.

특정 데이터를 수집하고 웹에서 일반적으로 중앙 로컬 데이터베이스 또는 스프레드 시트 로 복사 하여 나중에 검색하거나 분석한다.

출처 : wikipedia

구글에 Web scraping(또는 웹 스크래핑)이라고 검색하면 오른쪽에 나오는 창이다. 이것이 웹 스크래핑이다.

URL을 입력하거나 검색을 할 경우 해당 페이지의 이미지, 내용등과 같은 요약 정보가 뜬다.

페이스북이나 인스타그램에 링크를 올릴 경우 그 링크에 존재하는 이미지와 내용을 요약해서 보여준다.

Web crawling

웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다.

웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다.

검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다.

또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다.

출처 : wikipedia

사실 웹 스크래핑과 웹 크롤링을 같은 의미로 보는 경우도 있다. 하지만 조사해 본 결과 웹 크롤링이 조금 더 넓은 의미인 것 같다.

웹 크롤러는 특정 사이트에서 원하는 정보를 크롤링하기 위해 그 사이트와 연결된 다른 링크까지 들어가서 정보를 수집한다. 사람이 일일이 돌아다녀서 정보를 모아도 되지만 소금에 섞인 이물질을 하나씩 골라낼 것인가 채에 받쳐서 걸러낼 것인가 그 차이라고 보면 될 것이다.

작동 방식은 HTML페이지를 가져와서 HTML / CSS / Javascript 등을 파싱하고 필요한 자료만 수집해 온다.

송치헌

https://oraange.tistory.com/ 여기에도 많이 놀러와 주세요

다음 포스트

TIL | WEB Scraping - 1

TIL | Python으로 Web Scraper만들기

Web Scraping과 Web Crawling의 차이

Web Scraping

Web crawling

TIL | WEB Scraping - 2

0개의 댓글