
웹 크롤링이란 웹상의 정보들을 탐색하고 수집하는 작업을 의미합니다.
크롤러는 인터넷을 돌아다니며 여러 웹 사이트에 접속합니다.
웹 스크래핑은 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것을 의미합니다.
원하는 정보를 추출하기 위해스크래퍼 봇이 특정 웹 사이트에 콘텐츠를 다운로드하기 위한 HTTP GET 요청을 보냅니다. 사이트가 이에 응답하면 스크래퍼는 HTML 문서를 분석하여 특정 패턴을 지닌 데이터를 뽑아냅니다.
웹 크롤링은 웹 페이지의 링크를 타고 계속해서 탐색을 이어나가지만,웹 스크래핑은 데이터 추출을 원하는 대상이 명확하여 특정 웹 사이트만을 추적한다는 차이점이 있습니다.
A:
웹 크롤링(Web Crawling)과 웹 스크래핑(Web Scraping)은 모두 웹에서 데이터를 수집하는 기술이지만 그 목적과 방식에서 차이가 있습니다.
웹 크롤링은 웹페이지의 링크를 따라다니며 구조적으로 페이지를 수집하는 과정으로, 전체 웹사이트나 특정 도메인의 구조를 탐색하는 데 사용됩니다. 예를 들어, 네이버 뉴스에서 모든 기사 링크를 모으는 작업이 웹 크롤링에 해당합니다.
반면 웹 스크래핑은 이렇게 수집한 페이지에서 원하는 데이터만 추출하는 과정으로, 특정 페이지에서 제목, 본문, 날짜 등 필요한 정보를 가공해서 얻는 데 사용됩니다.
즉, 크롤링은 어디에 무엇이 있는지 찾아다니는 것, 스크래핑은 찾은 곳에서 필요한 것만 뽑아오는 것이라고 정리할 수 있습니다.
웹 크롤링웹 스크래핑A:
네이버 뉴스에서 딥페이크 관련 뉴스 데이터를 가져오려면 웹 크롤링과 웹 스크래핑 둘 다 사용해야 합니다.
먼저 웹 크롤링이 필요합니다! 딥페이크 관련 뉴스들이 여러 페이지에 흩어져 있기 때문에, 네이버 뉴스 검색 결과에서 여러 뉴스 기사들의 URL을 수집해야 하기 때문입니다. 이 과정이 바로 크롤링입니다. 예를 들어, 아래와 같은 검색어로 나온 결과 페이지를 돌면서 기사 링크들을 모읍니다.

그다음 웹 스크래핑이 필요합니다. 수집한 각 뉴스 기사 페이지에 들어가서, 제목, 날짜, 본문, 기자 이름 등 필요한 정보를 추출합니다!