웹사이트에 웹 크롤러 같은 로봇들의 접근을 제어하기 위한 규약
- 1994년 6월에 만들어진 로봇 배제 규약이나 권고사항이므로 지켜야할 의무는 없음
검진엔진들의 인덱싱 목적으로 크롤러가 사용될 때, robots.tsx 에 ‘안내문 형식’으로 특정 경로에 대한 크롤링을 자제해 줄 것을 권고하는 것. 보통 서버의 트래픽이 한정되어있어 과부하를 방지하거나, 개인 정보가 들어있는 사이트들이 검색엔진에 노출을 원하지 않을 경우 사용된다.
웹페이지의 내용을 가져오는 것. 스크래핑(Scraping)이라고도 한다.
검색어에 대한 출력 페이지가 많아지면서 검색 엔진 사이트들이 검색 속도를 위해 robot 이라는 프로그램을 만들어서 자동으로 웹 페이지들을 크롤링하는 방법을 사용
이름 | User-Agent |
---|---|
Googlebot | |
Google image | Googlebot-image |
Msn | MSNBot |
Naver | Yeti |
Daum | Daumoa |
Bing | Bingbot |
DuckDuckGo | DuckDuckBot |
Nate |
⭐ 폴더명 끝에 / 가 없을 경우 없을 경우 확장자가 없는 파일로 인식하므로 반드시 붙여줘야 한다.
User-agent: *
Allow: /
Disallow
필드가 있어야 한다.Disallow
값을 비워 둘 경우 모든 하위 경로에 대한 접근 허용User-agent: *
Disallow: /
User-agent: *
Disallow: /
Allow : /$
User-agent: Googlebot
Allow: /foo/bar/ 특정 디렉토리 접근 허가
Disallow: /foo/bar/ 특정 디렉토리의 접근을 차단
Disallow: /help /help.html 과 /help/index.html 둘 다 차단
Disallow: /help/ /help.html 허용, /help/index.html 차단
User-agent: Yeti
Disallow: /private*/
Sitemap: http://www.example.com/sitemap.xml 전체 절대경로 URL 표기
/?hauth.start=Yahoo&hauth.time=1405615860
Disallow: /*?hauth.start=*&hauth.time=*
robots.txt 파일을 사용하여 중요한 것을 숨기기X
→ 중요한 정보는 반드시 보안 암호 뒤에 넣거나 웹에서 완전히 빼야한다
<meta name="robots" content="index,nofollow"> // 색인 대상O, 페이지 내 링크 수집X
<meta name="robots" content="noindex,follow"> // 색인 대상X, 페이지 내 링크 수집O
<meta name="robots" content="noindex,nofollow"> // 색인 대상X, 페이지 내 링크 수집X
<meta name="googlebot" content="noindex, nofollow"> // 구글에서만 사이트 노출X