robots.txt 소개와 사용법

Yuri Lee·2022년 3월 12일

Intro

aws에 front 서버를 배포하기 위해 aws s3 에 버킷에 객체를 저장하기 위해, 프로젝트를 build & export 하는 과정을 거쳤다. 이후 export한 파일들 중 public 폴더 내 robots.txt 라는 파일을 발견했다. 본적은 많은데 정작 정확한 의미를 알고 있진 않았다.

robots.txt 란?

인터넷 검색엔진 배제 표준(Robots Exclusion Protocol)이란 보안이 필요한 내용이 검색엔진에 유출되지 못하도록 웹 페이지를 작성하는 방법을 기술한 국제기술 표준이다. 모든 검색로봇이 이 표준을 따르지는 않지만 일반 웹 사이트 개발자들이 손쉽게 적용할 수 있어 이용이 확산되고 있다.

서버관리자가 웹페이지 HTML 작성시 맨 위에 검색로봇을 배제한다는 의미의 'File:robots.txt', 'User-agent: * /' 등을 적어놓으면 검색로봇의 검색 대상에서 제외된다. 일반 웹 페이지에서도 와 같은 메타태그를 입력하면 검색을 피할 수 있다.

robots.txt 사용법

특정 디렉토리의 접근을 허가

User-agent: 제어할 로봇의 User-Agent
Allow: /foo/bar/

특정 디렉토리의 접근을 차단

User-agent: 제어할 로봇의 User-Agent
Disallow: /foo/bar/

모든 문서에 대해 접근을 허가

User-agent: *
Allow: /

https://server-talk.tistory.com/93
https://developers.google.com/search/docs/advanced/robots/robots-faq?hl=ko

Yuri Lee

Step by step goes a long way ✨

이전 포스트

package.json의 틸드(~)와 캐럿(^)

다음 포스트