웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다.
※ 영상자료 - 검색은 어떻게 이루어지는가?
google how search works
구글 한국 블로그에서 구글의 검색에 관련 내용을 인용하자면 아래와 같다.
"구글은 ‘구글봇’이라고 하는 일련의 컴퓨터 프로그램이 있습니다. 구글봇은 매일 끊임없이 웹상에 존재하는 수십만 개의 페이지를 ‘방문’합니다. 이 과정을 ‘크롤링(crawling)’이라고 하는데 모두 정교한 알고리듬으로 짜여 있습니다. 다시 말해 어떤 사이트를 크롤할 지, 얼마나 자주 할지 또 각 사이트에서 얼마나 많은 페이지를 방문할 것인가에 대한 프로그램이 짜여 있습니다.
구글봇의 여정은 웹페이지 주소(또는 URL) 리스트에서부터 시작됩니다. 웹사이트를 찾아 다니면서 각 페이지에 있는 링크를 찾아내고 이들 링크를 다음 크롤할 페이지 리스트에 추가합니다. 구글봇은 크롤한 각 페이지의 복사본을 만든 다음 이 페이지를 각 구성 요소로 분해합니다. 이를 통해 구글봇이 인식하는 각 단어에 대해 거대한 인덱스를 컴파일합니다. 이 리스트는 또한 각 단어가 어느 페이지에서 나오는 것인지도 가르쳐 줍니다. 사용자가 검색어를 입력하면 구글의 로봇은 검색어에 맞는 페이지를 찾고자 인덱스를 찾게 되고, 사용자에게 가장 관련이 있는 결과를 보여주게 됩니다."
마냥 웹사이트에서 데이터를 추출하는것이 크롤링이 아니다.