검색어(키워드)가 입력되면 그에 따른 결과물(정보)를 만들어내는 것이다.
컴퓨터 내부의 정보를 검색하는 것이다.
인터넷(월드 와이드 웹, World Wide Web)에서 정보를 찾아주는 것이다.
✔️ 우리가 흔히 쓰는 네이버나 구글 같은 앱/사이트라고 생각하면 된다.
알고리즘에 따라 정보의 순위나 순서를 조정
검색 엔진은 평소에 인터넷 속에서 계속 정보를 수집한다.
→ 이렇게 정보를 업데이트하는 존재가 "검색 로봇(search robot)"이다. 즉 크롤러이다.
이러한 봇은 대부분 검색 엔진이 운영한다. 검색엔진은 웹 크롤러가 수집한 데이터에 검색 알고리즘을 적용함으로써, 사용자의 검색 질의에 대한 응답으로 관련 링크를 제공한다.
이를 통해, Google 또는 Bing 등의 검색 엔진에 검색을 입력하고 나면, 웹페이지 목록이 표시되는 것이다.
Google → Googlebot
Naver → Yeti
비유)
웹 크롤러 봇은, 정리되지 않은 도서관의 모든 책을 검토하고 카드 카탈로그를 구성함으로써, 도서관을 찾는 사용자가 필요한 정보를 빠르고 쉽게 찾을 수 있도록 도와주는 사람과 유사하다. 이 사람은 도서관의 책을 주제별로 분류하고 정렬할 수 있도록, 책의 제목, 요약, 본문 중 일부를 읽어 무엇에 대한 책인지 파악한다.
그러나, 인터넷은 도서관과 달리, 물리적인 책 더미로 구성되지 않기 때문에, 필요한 정보를 모두 적절히 색화화하였는지, 상당한 부분을 간과했는지 판단하는 것이 쉽지 않다.
웹 크롤러 봇은 인터넷이 제공하는 관련 정보를 모두 찾기 위해, 알려진 일련의 웹 페이지에서 시작해 다른 페이지로 연결된 하이퍼링크를 따라가고,또 거기에 다른 페이지로 하이퍼링크를 따라가는 식으로 작동한다.
❗️공개된 인터넷 중 얼마나 많은 부분을 검색 엔진 봇이 실제로 크롤링하는지는 알려져 있지 않다. 정보원의 추정에 따르면, 인터넷의 40-70%만을 검색용으로 색인화한다고 한다. 이것만으로도 수십억 개의 웹 페이지에 해당한다.
if)
크롤러가 마구잡이로 모든 사이트의 정보를 수집하게 되면 특정 사이트에는 검색 엔진에 나오고 싶지 않은 숨기고 싶은 정보가 있을건데 다 공개가 되어버린다.
solution)
검색 엔진은 특별한 약속(robots.txt)이 있다.
크롤러는 웹 사이트를 방문하면서 가장 우선 robots.txt 파일을 읽는다.
- robots.txt 에서 "로봇을 허용한다!"라고 되어 있으면 크롤러가 접근하여 정보를 가져온다.
- robots.txt 에서 "크롤러를 거부한다!"라고 되어 있으면 이 사이트에 접근하지 못한다.
❗️추가적으로) sitemap.xml이라는 파일을 제공할 수 있는데 이는 크롤러가 사이트에 접근했을 때 sitemap이라는 지도를 보고 우리 사이트를 더 정확하고 효율적으로 탐색할 수 있게 만들어 준다.
검색 색인화는 정보를 필요로 하는 사람에게 인터넷의 어디에서 그 정보를 찾을 수 있는지 알려주기 위해 검색 엔진이 만드는 인터넷의 도서관 카드 카탈로그 같은 것이다.
ex) 책의 뒤에 있어서, 특정 항목 또는 문구가 책의 어디에 있는지 알려주는 색인과도 유사하다.
색인화는 주로 페이지에 나타나는 텍스트와 사용
SEO는 검색 엔진 최적화를 의미하며, 웹 사이트가 검색 엔진 결과의 상단에 표시되도록 콘텐츠를 검색 색인화에 맞게 준비하는 방식을 말한다.
스파이더 봇이 웹 크롤러가 웹사이트를 크롤링하지 않으면, 해당 사이트는 색인화되지 않고, 검색 결과에 표시되지 않는다. 그러므로, 웹사이트 소유자 검색 결과를 통한 자연스러운 트래픽을 얻으려면 웹 크롤러 봇을 차단하지 않아야 한다.
트래픽(traffic)이란?
- 트래픽은 전송량이라고 하며 어떤 통신장치나 시스템에 걸리는 부하를 말한다.
- 트래픽 양이 지나치게 많으면 서버에 과부하가 걸려 전체적인 시스템 기능에 장애를 일으킨다.
- 무제한 트래픽은 html, jpg, gif 등의 웹문서 파일에 대한 트래픽을 무제한으로 제공하고 mp3 등 동영상은 별도 트래픽으로 과금된다.
<트래픽 용량 계산 방법>
ex) 텍스트와 이미지로 이루어진 1MB용량의 웹페이지를 하루에 1000명이 접속하여 보았다면?
1MB X 1000(명) = 1000MB 의 트래픽이 발생
참고 블로그
SEO(검색엔진최적화)란?
검색엔진이 이해하기 쉽도록 홈페이지의 구조와 페이지를 개발해 검색 결과 상위에 노출될 수 있도록 하는 작업을 말한다.
예시)
네이버에 강남 피부과라 검색하면 파워링크, VIEW 등 다양한 영역이 나온다.
여러 영역 중에서 이름이 안 붙어져 있고 홈페이지만 나와있는 영역
이 영역 첫 페지에 띄울 수 있게끔 하는게 SEO이다.
<title>
태그에는 사이트 제목을 기재하고, <div>
태그를 사용해 줄을 바꾸고, <strong>
과<em>
태그를 활용해 강조하고 싶은 키워드에 붙이는 등 적절한 HTML 소스로 홈페이지를 구성하는 것은 결과적으로 검색엔진에게도 이해하기 쉬운 웹 문서가 되고, 유사한 내용의 웹 문서가 있을 경우 상대적으로 이러한 문서의 순위가 높아진다.
HTML 문서의 헤더에 들어가는 페이지 제목(title)은 구체적이고 간결하게 구성해, 검색 결과 화면에서 텍스트가 잘리지 않도록 한다.
ex)가비아 - 도메인등록,도메인연장,도메인이전,도메인예약,부가서비스