Scrapping

박성운·2022년 8월 25일

웹 스크래핑
Web Scrapping은 위키백과를 따르면, 웹사이트에서 데이터를 추출하는데 사용되는 테이터 스크래핑이다. 웹 스크래핑은 HTTP또는 웹 브라우저를 사용하여 World Wide Wen에 직접 엑세스할 수 있다. 웹 스크래핑은 소프트웨어 사용자가 수동으로 수행할 수 있지만 이용어는 일반적으로 봇 또는 웹 크롤러를 사용하여 구현된 자동화된 프로세스를 나타낸다소 한다.

웹 크롤링과 웹 스크래핑
웹 크롤링과 웹 스크래핑의 역할은 같다. 둘 다 특정 웹사이트에서 HTML을 가져와 필요한 테이터 수집을 할 때 사용하는 것으로 알고 있다. 웹 스크래핑은 웹 크롤링과 혼용되어 사용되고 있지만, 엄연히 따지면 둘은 파이가 있다.

웹 크롤링
-HTML 페이지를 가져화서 필요한 데이터만 추출하는 작업
-웹문서, 이미지 등을 주기적으로 수집하여 자도으로 데이터베이스
-사용자가 키워드를 검색하고 저장 및 가공 과정을 대신해주는 기술

웹 크롤러가 하는 작업, 스파이터링이라고도 부른다. 한 페이지만 방문하는 것이 아니라 관련 링크된 또다른 페이지를 자례대로 방문하고 링크를 따라 여러 웹을 돌아 다닌다. 대체로 방문 사이트의 모든 페이지릐 복사본을 생성하는데 사용되며 검색엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다.

웹 크롤링으로 가져 올 수 있는 정보
-HTML 기반의 웹 사이트, 이미지, 문서

스크래핑 예시
먼저, 정보가 있는 웹사이크의 HTML 전체를 가져와야 한다. Restful API로 GET method를 사용한다.
해당 요청에 대한 response의 log를 배우면, 해당 사이트 웹페이지의 모든 정보가 담겨있다.
해당 웹페이지 HTML정보는 request 밑에 response, response Text에서 확인 할 수 있다.

박성운

tree

이전 포스트

package.json

다음 포스트

Scrapping

package.json

CI/CD

0개의 댓글