robots.txt

agnusdei·2024년 7월 27일

robots.txt 파일은 웹사이트의 루트 디렉토리에 위치하는 텍스트 파일로, 검색 엔진 로봇(크롤러)이 해당 웹사이트의 어떤 부분을 크롤링할 수 있는지, 혹은 할 수 없는지를 안내하는 역할을 합니다. 이를 통해 웹사이트 소유자는 검색 엔진이 크롤링할 수 있는 페이지와 그렇지 않은 페이지를 제어할 수 있습니다.

1. robots.txt 파일의 구조

robots.txt 파일은 간단한 구조로 되어 있으며, 주요 구성 요소는 다음과 같습니다:

User-agent: 특정 검색 엔진 로봇의 이름을 명시합니다. 예를 들어, Googlebot은 구글의 크롤러입니다.
Disallow: 해당 로봇이 크롤링하지 못하도록 할 경로를 지정합니다.
Allow: 특정 경로는 크롤링을 허용하도록 지정할 수 있습니다 (주로 특정 하위 폴더에 대해 사용).

2. 기본 예제

아래는 기본적인 robots.txt 파일 예제입니다.

User-agent: *
Disallow: /private/
Allow: /public/

위 예제는 모든 로봇(User-agent: *)에게 /private/ 디렉토리는 크롤링하지 말고, /public/ 디렉토리는 크롤링하도록 허용합니다.

3. 다양한 사용 예

3.1. 특정 로봇 차단

특정 검색 엔진 봇만 차단하고 싶을 때 사용합니다.

User-agent: Googlebot
Disallow: /

위의 예제는 구글의 크롤러가 모든 페이지를 크롤링하지 못하도록 차단합니다.

3.2. 여러 로봇에 대한 규칙

여러 로봇에 대해 각각 다른 규칙을 설정할 수 있습니다.

User-agent: Bingbot
Disallow: /private/

User-agent: Googlebot
Allow: /public/
Disallow: /temp/

이 예시는 Bing의 크롤러에게는 /private/ 디렉토리를 차단하고, 구글의 크롤러에게는 /public/은 허용하되 /temp/는 차단합니다.

3.3. 모든 로봇 허용

모든 로봇이 접근할 수 있도록 설정할 수 있습니다.

User-agent: *
Allow: /

이 경우 모든 페이지에 대해 크롤링이 허용됩니다.

3.4. 특정 파일 차단

특정 파일 형식을 차단할 수도 있습니다.

User-agent: *
Disallow: /*.pdf$

위 예제는 모든 로봇이 .pdf 파일을 크롤링하지 못하도록 차단합니다.

4. robots.txt 파일의 위치

robots.txt 파일은 웹사이트의 루트 디렉토리에 위치해야 하며, URL은 다음과 같습니다:

https://www.example.com/robots.txt

5. 사용 시 주의사항

제한적: robots.txt는 크롤러에게 지침을 제공하는 것이지만, 이를 무시하는 로봇도 있습니다. 따라서 중요한 정보는 다른 방법으로 보호해야 합니다.
공개성: robots.txt 파일은 누구나 접근할 수 있으므로, 민감한 정보나 경로를 포함하지 않도록 주의해야 합니다.