Scraping & Crawling

이동현·2023년 3월 28일
0

코드 캠프 블로그

목록 보기
14/50

1. 크롤링과 스크래핑이 대해서

1) 크롤링이란?

웹 크롤링이란 웹상의 정보들을 탐색하고 수집하는 작업을 의미합니다. 인터넷에 존재하는 방대한 양의 정보를 사람이 일일히 파악하는 것은 불가능한 일입니다. 때문에 규칙에 따라 자동으로 웹문서를 탐색하는 컴퓨터 프로그램, 웹 크롤러(Crawler)를 만들었습니다.

크롤러는 인터넷을 돌아다니며 여러 웹 사이트에 접속하며, 그 페이지의 내용과 링크의 복사본을 생성하고 다운로드 하여 요약본을 만든다.

쉽게 말하면 검색 포털 사이트에서 검색을 하면 그 검색한 키워드와 함께 키워드가 속해 있는 URL도 같이 보여주는 식으로 이해하면 편하다.

2)스크래핑이란?

스크래핑은 특정 사이트나 페이지에서 필요한 특정 데이터를 자동으로 추출해 내는 것을 의미한다.
웹 스크래핑은 자동으로 수집된 특정 정보가 필요한 분야에서 다양하게 활용되고 있다.

2. 크롤링과 스크래핑의 장점

1)심층 분석과 실시간 정보 제공에 유용한 “웹 크롤링”

웹 크롤링은 웹상을 돌아다니며 방대한 양의 정보를 수집하기 때문에, 특정 키워드에 대한 심층 분석이 필요할 때 유용합니다. 또한 크롤러는 실시간 정보 수집을 위해 계속해서 작동하므로 자주 변화하는 데이터를 파악하기가 좋습니다.

2) 정확한 정보를 요구할 때 쓰이는 “웹 스크래핑”

웹 스크래핑은 특정 사이트나 페이지에 대한 정보를 찾는데 집중하므로 데이터 포인트를 정확히 잡고 확실한 정보만을 수집할 수 있다는 점에서 유용합니다. 장기적으로 서비스 대역폭이나 비용을 절약할 수 있다는 장점이 있습니다.

3. 웹 크롤링과 웹 스크래핑의 차이점

0개의 댓글