패스트캠퍼스 한 번에 끝내는 파이썬 웹 개발 초격차 패키지 pt3 - 크롤링이란?

정영찬·2022년 2월 11일
0

크롤링

  • 웹 크롤러가 하는 작업을 뜻한다.

그럼 웹 크롤러는 뭘 하는데?

  • 대체로 방문한 사이트의 모든 페이지의 복사본 생성
  • 링크 체크나 HTML 코드 검증가 같은 웹사이트의 자동유지 관리 작업
  • 자동 이메일 수집과 같은 웹페이지의 특정형태의 정보를 수집하는 데 사용

웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다.

※ 영상자료 - 검색은 어떻게 이루어지는가?
google how search works

구글 한국 블로그에서 구글의 검색에 관련 내용을 인용하자면 아래와 같다.

"구글은 ‘구글봇’이라고 하는 일련의 컴퓨터 프로그램이 있습니다. 구글봇은 매일 끊임없이 웹상에 존재하는 수십만 개의 페이지를 ‘방문’합니다. 이 과정을 ‘크롤링(crawling)’이라고 하는데 모두 정교한 알고리듬으로 짜여 있습니다. 다시 말해 어떤 사이트를 크롤할 지, 얼마나 자주 할지 또 각 사이트에서 얼마나 많은 페이지를 방문할 것인가에 대한 프로그램이 짜여 있습니다.

구글봇의 여정은 웹페이지 주소(또는 URL) 리스트에서부터 시작됩니다. 웹사이트를 찾아 다니면서 각 페이지에 있는 링크를 찾아내고 이들 링크를 다음 크롤할 페이지 리스트에 추가합니다. 구글봇은 크롤한 각 페이지의 복사본을 만든 다음 이 페이지를 각 구성 요소로 분해합니다. 이를 통해 구글봇이 인식하는 각 단어에 대해 거대한 인덱스를 컴파일합니다. 이 리스트는 또한 각 단어가 어느 페이지에서 나오는 것인지도 가르쳐 줍니다. 사용자가 검색어를 입력하면 구글의 로봇은 검색어에 맞는 페이지를 찾고자 인덱스를 찾게 되고, 사용자에게 가장 관련이 있는 결과를 보여주게 됩니다."

마냥 웹사이트에서 데이터를 추출하는것이 크롤링이 아니다.

profile
개발자 꿈나무

0개의 댓글