beginner's luck

beginner's luck

웹크롤링vs웹스크래핑

혜쿰·2023년 11월 1일

python_analysis

웹 크롤링과 웹 스크래핑은 웹에서 데이터를 추출하고 정보를 수집하는 데 사용되는 두 가지 주요 기술이다. 웹 크롤링과 웹 스크래핑은 종종 혼용되어 사용하지만, 약간의 차이점을 가지고 있다.

💡 웹 크롤링 (Web Crawling)

목적: 웹 사이트의 대규모 데이터를 수집하는 데 사용된다. 일반적으로 검색 엔진 및 대형 웹 사이트에서 사용된다.
범위: 크롤러(또는 스파이더)는 여러 웹 페이지를 자동으로 탐색하고 링크를 따라가며 데이터를 수집한다.
자동화: 크롤러는 자동화된 프로세스로 여러 웹 페이지를 방문하고 데이터를 추출한다.
데이터 양: 대량의 데이터를 수집할 수 있으며 주로 웹 사이트의 구조를 파악하는 데 사용된다.
저작권과 법적 문제: 웹 크롤링은 대량 데이터를 수집할 수 있으므로 저작권 및 법적 문제에 노출될 수 있다.
용도: 웹 크롤링은 대규모 데이터베이스를 구축하거나 웹 색인을 작성하는 데 사용되며, 검색 엔진 및 대형 웹 서비스에서 중요한 역할을 한다.

💡 웹 스크래핑 (Web Scraping)

목적: 특정 웹 페이지 또는 몇 개의 웹 페이지에서 원하는 정보를 추출하는 데 사용된다.
범위: 특정 웹 페이지의 HTML 또는 다른 마크업 언어를 분석하고 데이터를 추출한다.
수동 조작: 웹 스크래핑은 일반적으로 수동으로 설정되며, 데이터를 수집하기 전에 대상 웹 페이지의 구조를 이해해야 한다.
데이터 양: 작은 규모의 데이터를 수집하며 특정 정보에 초점을 맞춘다.
저작권과 법적 문제: 웹 스크래핑은 특정 정보만을 추출하므로 법적 문제가 상대적으로 적다.
용도: 웹 스크래핑은 주로 작은 규모의 데이터 수집 및 특정 정보 추출에 사용된다.

요약하면, 웹 크롤링은 대규모 데이터 수집 및 웹 사이트의 구조 파악을 목적으로 하며 자동화된 프로세스로 동작한다. 반면 웹 스크래핑은 특정 정보를 추출하고 필요한 데이터를 수집하는 데 사용되며 주로 수동 설정과 분석을 필요로 한다.

이미지 출처 : https://elice.io/newsroom/data_analysis

이전 포스트

폴더 vs 패키지

다음 포스트

numpy

0개의 댓글