Scraping & Crawling

turnaroundwoo·2023년 3월 2일

11st Blogs

목록 보기

28/52

01. Scraping & Crawling

scraping(스크래핑) 은 특정 웹사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 작업으로, 해당 사이트의 HTML을 긁어오는 것을 말합니다. 웹 스크래핑은 자동으로 수집된 특정 정보가 필요한 분야에서 다양하게 활용되고 있습니다. 예를 들어, 스크래핑 기술을 활용하여 뉴스 정보를 수집하거나(금융 및 주식 분야), 기업 재무제표 정보를 수집하거나(투자 분야), 경쟁사 상품의 정보 수집하거나, 가격 변동 이슈를 파악하거나(전자상거래 시장), 다양한 분야에서 활용되고 있습니다.

crawling(크롤링) 은 웹상의 정보들을 탐색하는 수집하는 작업으로, 스크래핑을 주기적으로 여러번하는 것을 말합니다. 다만, 다른 사이트를 크롤링하는 것은 법적 이슈도 있기 때문에 사용할 때 어느정도 주의가 필요하기도 합니다.

02. 차이점

Scraping 과 Crawling 은 데이터를 긁어온다는 점이 비슷하여 의미가 자주 혼용이 되곤 하는데, 기술적으로도 함께 사용되는 경우가 많아서 더욱 헷갈리기도 합니다. 하지만 scraping(스크래핑) 의 경우, 데이터 추출을 원하는 대상이 명확하여 특정 웹 사이트만 추적할 수 있지만, Crawling(크롤링) 은 웹 페이지의 링크를 타고 계속해서 탐색을 이어나간다는 점에서 차이점이 존재합니다. (그 외 차이점은 아래표 참고)

Crawling	Scraping
웹에서 페이지 및 링크 다운로드	웹을 포함한 다양한 소스에서 데이터 추출
( 웹 기반으로 작동 )	( 반드시 웹과 관련된 것은 아님 )
중복제거 필수적	중복제거 반드시 필요한 것은 아님
내가 찾는 키워드와 연관된 링크 모아서 볼 수 있음	원하는 데이터가 명확하여 흩어져있는 해당 데이터를 자동 추출 후 전달함

🗒 출처

https://blog.codef.io/crawling_vs_scraping/ - blog | JUNGYEON
10일차 노션 강의 자료 참고 - codecamp

turnaroundwoo

이전 포스트

package.json란?

다음 포스트