웹 크롤링(Crawling) & 웹 스크래핑(Scraping)

·2024년 1월 31일

프로젝트

목록 보기
4/57

웹 크롤링이란?

  • 웹상의 정보들을 찾아 수집하는 작업
  • 규칙에 따라 웹 크롤러가 자동으로 웹 문서를 탐색 함
  • 자주 변화하는 데이터 파악하기 좋음

웹 스크래핑이란?

  • 특정 웹 사이트나 페이지에서 필요한 데이터를 추출하는 작업
  • 스크래퍼 봇이 특정 웹 사이트의 콘텐츠 다운로드 요청을 보낸 후 응답에 따라 데이터를 추출 함
  • 특정 사이트에서 정보를 찾기에 확실한 정보만을 수집 가능, 장기적으론 비용 절약

웹 크롤링과 웹 스크래핑의 공통점

  • 원하는 데이터를 모을 수 있는 점이 비슷함

웹 크롤링과 웹 스크래핑의 차이점

  • 크롤링은 웹 페이지의 링크를 계속해서 탐색을 하고 이어나가지만, 스크래핑은 특정 웹사이트만을 추적 함
  • 크롤링은 내가 찾는 키워드와 연관 된 링크들을 모아 볼 수 있고, 스크래핑은 상품의 가격, 주식정보, 뉴스 등 흩어져있는 데이터를 추출
  • 크롤링 : 페이지 및 링크 다운로드 / 중복제거 필수
  • 스크래핑 : 다양한 소스에서 데이터 추출 / 중복 제거가 반드시 필요하지 않음

크롤링 툴

  • 파이썬 : Beautiful Soup 라이브러리
  • 자바 : JSoup
  • 브라우저 : Selenium

크롤링 대상

  • 정적인 문서 -> 비교적 수월
  • API와 같은 서비스 -> 주기적 업데이트필요

크롤링 단점

  • 모든 데이터를 가져오기 때문에 서버의 자리를 많이 차지함

출처1
출처2
출처3

profile
hello world

0개의 댓글