지난 포스팅 글에서 SEO를 설명하는 과정 중 검색 엔진이 크롤링을 통해 정보 수집을 진행한다고 작성했는데요, 여기서 크롤링이 뭔지를 자세하게 안다뤘습니다. 오늘은 들어보기만 했던 크롤링에 대해 알아보려고 합니다.
📖 크롤링(Crawling)이란?

-
크롤링은 엎드려 기다 라는 뜻의 Crawl에서 유레된 단어입니다. 우리가 느낌적으로 알고 있는 크롤링과는 사뭇 반대되는 개념인데요, 사실 크롤링은 웹 크롤링이라고 불립니다.
-
웹은 정보의 끈들이 거미줄과 같다 하여 웹이란 이름이 붙여졌고, 이런 웹을 기어다니며 정보를 수집하기에 웹 크롤링이라고 이름이 붙여지게 된 것이죠. (웹을 탐색하는 모습이 거미가 기어 다니는 듯한 모습을 연상시켜 스파이더, 웹 스파이더로 불리기도 합니다.)
📖 크롤링 VS 스크래핑

-
크롤링을 공부할 경우 스크래핑과의 관계를 명확하게 알아야 합니다. 크롤링은 웹을 돌아다니며 정보를 탐색하는 것이 중점이지만, 스크래핑은 정보를 추출하는 것이 중점이지요.
-
예시로 하나의 페이지가 있다고 가정합시다. 크롤링은 여기서 웹 링크를 반복적으로 찾고 가져오는 행위라면, 스크래핑은 웹 페이지의 정보를 가지고 오는 행위인 것이죠. 크롤링 없이 스크래핑을 진행할 수 있지만, 스크래핑 없이 크롤링은 할 수 없습니다. 크롤링에서는 웹 링크를 스크래핑하기 떄문입니다.
-
스크래핑이라는 용어가 크롤링으로 통용되고는 있지만 이러한 차이가 있다는 것을 알고 여기서는 크롤링이라는 단어로 통일하여 사용하도록 하겠습니다.
📖 크롤링의 다양한 쓰임
🔒 검색 엔진 인덱싱
- 검색 엔진은 웹 크롤러를 사용하여 인터넷 상의 다양한 웹 페이지를 탐색하고, 그 내용을 인덱싱하여 검색 결과를 생성합니다.
🔒 데이터 수집
- 비즈니스, 연구, 분석 등등 다양한 목적으로 웹 상에서 데이터를 수집하는 경우에 사용됩니다.
🔒 뉴스 및 블로그 모니터링
- 특정 주제나 키워드에 관련된 새로운 정보를 추적하고 모니터링하기 위해 사용됩니다.
🔒 정보 수집 및 분석
- 온라인에서 사용자 의견, 트렌드 등을 파악하여 비즈니스 전략을 수립하는 곳에 활용할 수 있습니다.
🔒 웹 사이트 변경 감지
- 특정 웹 사이트의 변경사항을 모니터링하고 새로운 콘텐츠를 감지하여 업데이트를 수행할 경우 사용됩니다.
📖 크롤링을 접하는 경우
🔒 가격 비교 사이트

- 크롤링을 사용하는 대표적인 예로는 가격 비교 사이트가 있습니다. 가격 비교 사이트는 여러 쇼핑몰에 흩어져 있는 제품 정보를 수집해서 최저가로 판매하는 사이트를 찾아줍니다. 이 과정에서 여러 사이트에서 제공하는 제품 정보를 크롤링을 통해 수집 및 분석하는 것이죠.
🔒 코로나 19 확진자 수 사이트

- 국가에서 제공하는 공공데이터 포털을 이용하면 코로나 19 확진자 수, 날씨, 교통 정보 등등 실생활에 유용한 정보를 쉽게 크롤링 가능합니다.
🔒 고객의 소리

- 기업은 웹 상에 올라와 있는 제품이나 서비스의 품질 향상을 위해 크롤링을 하여 고객의 피드백을 수집합니다.
📖 사용자에게 정보를 제공하는 과정들

1. 크롤링
- 검색 서비스들은 크롤러를 이용해 다른 웹 사이트에 있는 정보들을 수집합니다. 이때 'robots.txt'에 작성된 규칙을 준수합니다. robots.txt란 크롤러에게 웹 페이지의 정보를 수집하도록 허용하거나 제한하는 국제 권고안입니다.
2. 수집된 정보 색인화
- 크롤링된 정보들은 색인화해서 저장해 놓습니다. 색인화란 특정 내용이 들어 있는 정보들을 쉽게 찾아볼 수 있도록 표시하거나 일정한 순서에 따라 배열해 놓는 것을 말합니다. 잘 정리된 도서관을 생각하면 이해하기 쉽습니다.
3. 자료 순위 매기기
- 검색 서비스들은 높은 품질의 서비스를 제공하기 위해 사용자의 정보 + 입력한 검색어를 조합하여 사용자에게 알맞은 정보를 제공하려 노력합니다. 이때 잘 정리된 도서관에서 책을 가져오는 것 만큼 굉장히 빠른 속도로 검색 결과를 제공해줍니다.