robots.txt

agnusdei·2024년 7월 27일

robots.txt 파일은 웹사이트의 루트 디렉토리에 위치하는 텍스트 파일로, 검색 엔진 로봇(크롤러)이 해당 웹사이트의 어떤 부분을 크롤링할 수 있는지, 혹은 할 수 없는지를 안내하는 역할을 합니다. 이를 통해 웹사이트 소유자는 검색 엔진이 크롤링할 수 있는 페이지와 그렇지 않은 페이지를 제어할 수 있습니다.

1. robots.txt 파일의 구조

robots.txt 파일은 간단한 구조로 되어 있으며, 주요 구성 요소는 다음과 같습니다:

  • User-agent: 특정 검색 엔진 로봇의 이름을 명시합니다. 예를 들어, Googlebot은 구글의 크롤러입니다.
  • Disallow: 해당 로봇이 크롤링하지 못하도록 할 경로를 지정합니다.
  • Allow: 특정 경로는 크롤링을 허용하도록 지정할 수 있습니다 (주로 특정 하위 폴더에 대해 사용).

2. 기본 예제

아래는 기본적인 robots.txt 파일 예제입니다.

User-agent: *
Disallow: /private/
Allow: /public/
  • 위 예제는 모든 로봇(User-agent: *)에게 /private/ 디렉토리는 크롤링하지 말고, /public/ 디렉토리는 크롤링하도록 허용합니다.

3. 다양한 사용 예

3.1. 특정 로봇 차단

특정 검색 엔진 봇만 차단하고 싶을 때 사용합니다.

User-agent: Googlebot
Disallow: /

위의 예제는 구글의 크롤러가 모든 페이지를 크롤링하지 못하도록 차단합니다.

3.2. 여러 로봇에 대한 규칙

여러 로봇에 대해 각각 다른 규칙을 설정할 수 있습니다.

User-agent: Bingbot
Disallow: /private/

User-agent: Googlebot
Allow: /public/
Disallow: /temp/

이 예시는 Bing의 크롤러에게는 /private/ 디렉토리를 차단하고, 구글의 크롤러에게는 /public/은 허용하되 /temp/는 차단합니다.

3.3. 모든 로봇 허용

모든 로봇이 접근할 수 있도록 설정할 수 있습니다.

User-agent: *
Allow: /

이 경우 모든 페이지에 대해 크롤링이 허용됩니다.

3.4. 특정 파일 차단

특정 파일 형식을 차단할 수도 있습니다.

User-agent: *
Disallow: /*.pdf$

위 예제는 모든 로봇이 .pdf 파일을 크롤링하지 못하도록 차단합니다.

4. robots.txt 파일의 위치

robots.txt 파일은 웹사이트의 루트 디렉토리에 위치해야 하며, URL은 다음과 같습니다:

https://www.example.com/robots.txt

5. 사용 시 주의사항

  • 제한적: robots.txt는 크롤러에게 지침을 제공하는 것이지만, 이를 무시하는 로봇도 있습니다. 따라서 중요한 정보는 다른 방법으로 보호해야 합니다.
  • 공개성: robots.txt 파일은 누구나 접근할 수 있으므로, 민감한 정보나 경로를 포함하지 않도록 주의해야 합니다.

6. robots.txt 파일 검사 도구

많은 검색 엔진은 robots.txt 파일을 검사할 수 있는 도구를 제공합니다. 예를 들어, 구글 서치 콘솔에서는 robots.txt 테스트 도구를 통해 파일의 유효성을 확인할 수 있습니다.

이와 같이 robots.txt 파일은 검색 엔진 최적화(SEO)와 웹사이트 관리에 있어 중요한 도구입니다. 웹사이트의 크롤링 정책을 명확히 하여 원하는 대로 검색 엔진과의 상호작용을 조정할 수 있습니다.

profile
DevSecOps, Pentest, Cloud(OpenStack), Develop, Data Engineering, AI-Agent

0개의 댓글