real coding

seongmin0302·2025년 5월 22일
post-thumbnail

웹 크롤링이란 웹상의 정보들을 탐색하고 수집하는 작업을 의미합니다.
크롤러는 인터넷을 돌아다니며 여러 웹 사이트에 접속합니다.


웹 스크래핑은 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것을 의미합니다.
원하는 정보를 추출하기 위해 스크래퍼 봇이 특정 웹 사이트에 콘텐츠를 다운로드하기 위한 HTTP GET 요청을 보냅니다. 사이트가 이에 응답하면 스크래퍼는 HTML 문서를 분석하여 특정 패턴을 지닌 데이터를 뽑아냅니다.

웹 크롤링은 웹 페이지의 링크를 타고 계속해서 탐색을 이어나가지만, 웹 스크래핑은 데이터 추출을 원하는 대상이 명확하여 특정 웹 사이트만을 추적한다는 차이점이 있습니다.

Q. 웹 크롤링과 웹 스크래핑의 차이

A:

웹 크롤링(Web Crawling)웹 스크래핑(Web Scraping)은 모두 웹에서 데이터를 수집하는 기술이지만 그 목적과 방식에서 차이가 있습니다.

웹 크롤링은 웹페이지의 링크를 따라다니며 구조적으로 페이지를 수집하는 과정으로, 전체 웹사이트나 특정 도메인의 구조를 탐색하는 데 사용됩니다. 예를 들어, 네이버 뉴스에서 모든 기사 링크를 모으는 작업이 웹 크롤링에 해당합니다.

반면 웹 스크래핑은 이렇게 수집한 페이지에서 원하는 데이터만 추출하는 과정으로, 특정 페이지에서 제목, 본문, 날짜 등 필요한 정보를 가공해서 얻는 데 사용됩니다.

즉, 크롤링은 어디에 무엇이 있는지 찾아다니는 것, 스크래핑은 찾은 곳에서 필요한 것만 뽑아오는 것이라고 정리할 수 있습니다.


  • 웹 크롤링
    보통 시작 URL에서 출발해 링크들을 따라가며 사이트 전체를 탐색
  • 웹 스크래핑
    크롤링으로 모은 페이지나 특정 URL에서 HTML 구조를 분석해 필요한 요소(예: 제목, 날짜, 이미지 등)만 추출

Q. 딥페이스 관련된 뉴스 데이터를 가져오려면 뭐를 사용?

A:
네이버 뉴스에서 딥페이크 관련 뉴스 데이터를 가져오려면 웹 크롤링웹 스크래핑 둘 다 사용해야 합니다.

먼저 웹 크롤링이 필요합니다! 딥페이크 관련 뉴스들이 여러 페이지에 흩어져 있기 때문에, 네이버 뉴스 검색 결과에서 여러 뉴스 기사들의 URL을 수집해야 하기 때문입니다. 이 과정이 바로 크롤링입니다. 예를 들어, 아래와 같은 검색어로 나온 결과 페이지를 돌면서 기사 링크들을 모읍니다.

그다음 웹 스크래핑이 필요합니다. 수집한 각 뉴스 기사 페이지에 들어가서, 제목, 날짜, 본문, 기자 이름 등 필요한 정보를 추출합니다!

profile
컴튜터공학과 재학중

0개의 댓글