칼럼

robots.txt 작성법 완벽 가이드 | 예제·문법·업로드까지 10분 정리

이번 포스팅에서 다루고자 하는 주제는 “robots.txt”입니다. 이 용어가 낯설게 느껴질 수 있는데요, 검색 엔진 최적화에서 절대 빼놓을 수 없는 요소인 만큼 이해해야 합니다.

robots.txt는 웹사이트 루트 디렉토리에 위치하는 텍스트 파일로, 검색엔진 크롤러에게 사이트의 어떤 페이지를 크롤링할 수 있고 없는지 알려주는 역할을 합니다. 이 파일은 로봇 배제 표준(Robots Exclusion Protocol)에 따른 권고 사항으로, IETF RFC 9309로 공식 표준화되었습니다.

쉽게 비유하면 robots.txt는 웹사이트의 교통 표지판과 같습니다. “이 도로는 진입 금지”, “이 구역은 통행 가능”처럼 검색엔진 봇에게 접근 권한을 안내합니다. 다만 이는 강제 규정이 아닌 권고 사항이므로, 대부분의 정상적인 검색엔진은 이를 준수하지만 악성 봇은 무시할 수 있습니다.

Table of Contents

robots.txt가 SEO에 중요한 3가지 이유

모든 웹사이트에 robots.txt가 필수는 아닙니다. 하지만 다음 세 가지 상황에서 robots.txt는 검색엔진 최적화에 직접적인 영향을 미칩니다.

1. 크롤 버짓(Crawl Budget) 최적화

크롤 버짓이란 검색엔진이 특정 기간 동안 웹사이트에서 크롤링할 수 있는 페이지 수의 한도를 의미합니다. 구글의 경우 사이트 규모, 서버 응답 속도, 콘텐츠 품질에 따라 크롤 버짓을 할당합니다.

실제로 수천 페이지 이상의 대형 사이트에서 크롤 버짓 문제가 자주 발생합니다. 관리자 페이지, 검색 결과 페이지, 필터링된 중복 URL 등 불필요한 페이지가 크롤 버짓을 소모하면, 정작 중요한 상품 페이지나 블로그 글이 크롤링되지 않을 수 있습니다. robots.txt로 가치 없는 페이지를 차단하면 중요한 콘텐츠에 크롤 버짓을 집중시킬 수 있습니다.

2. 서버 부하 방지

검색엔진 크롤러는 사이트를 빠르게 탐색하려고 동시에 여러 요청을 보냅니다. 서버 성능이 낮거나 트래픽이 많은 시간대에 과도한 크롤링이 발생하면 실제 사용자의 접속 속도가 느려질 수 있습니다. robots.txt로 크롤링 범위를 제한하거나, Crawl-delay 지시어(네이버 등 일부 검색엔진 지원)로 요청 간격을 조절할 수 있습니다.

3. 사이트맵 위치 안내

robots.txt 파일 내에 Sitemap: 지시어로 XML 사이트맵 위치를 명시할 수 있습니다. 검색엔진이 사이트를 처음 방문할 때 robots.txt를 먼저 확인하므로, 여기에 사이트맵 경로를 넣으면 새 페이지가 더 빨리 발견될 수 있습니다.

robots.txt 기본 문법과 지시어

robots.txt 파일은 단순한 텍스트 형식으로, 몇 가지 지시어만 알면 누구나 작성할 수 있습니다. 핵심 지시어 4가지를 살펴보겠습니다.

User-agent: 크롤러 지정

User-agent는 규칙을 적용할 크롤러를 지정합니다. 모든 크롤러에 동일한 규칙을 적용하려면 와일드카드(*)를 사용합니다.

주요 검색엔진 및 AI 서비스 크롤러 User-agent 목록
서비스 크롤러 이름 (User-agent) 용도
구글 Googlebot 웹 검색 색인
구글 이미지 Googlebot-Image 이미지 검색
구글 뉴스 Googlebot-News 뉴스 색인
네이버 Yeti 네이버 검색 색인
빙(Bing) Bingbot 빙 검색 색인
다음 Daum 다음 검색 색인
덕덕고 DuckDuckBot 덕덕고 검색
야후 Slurp 야후 검색
바이두 Baiduspider 중국 바이두 검색
OpenAI GPTBot ChatGPT 학습용
Anthropic ClaudeBot Claude AI 학습용
Common Crawl CCBot 웹 아카이브/AI 학습
표 1. 검색엔진 및 AI 크롤러 User-agent 전체 목록 (2025년 기준)

Disallow: 크롤링 차단

Disallow는 크롤러가 접근하지 말아야 할 경로를 지정합니다. 경로는 슬래시(/)로 시작해야 하며, 대소문자를 구분합니다.

Allow: 크롤링 허용

Allow는 Disallow로 차단된 상위 경로 내에서 특정 하위 경로만 허용할 때 사용합니다. 구글, 빙 등 대부분의 검색엔진이 지원하지만, 일부 오래된 크롤러는 무시할 수 있습니다.

💡 Allow/Disallow 우선순위 규칙

구글은 더 구체적인(긴) 경로의 규칙을 우선 적용합니다. 예를 들어 Disallow: /folder/Allow: /folder/page.html이 있으면, /folder/page.html은 허용됩니다. 같은 길이라면 Allow가 우선합니다.

Sitemap: 사이트맵 위치

Sitemap 지시어는 XML 사이트맵의 전체 URL을 지정합니다. 여러 개의 사이트맵이 있다면 각각 별도 줄에 작성합니다. 이 지시어는 User-agent 블록 외부에 작성해도 됩니다.


robots.txt 란?

크롤러가 사이트의 섹션에 액세스하지 못하도록 하려면 적절한 규칙으로 robots.txt 파일을 만들면 됩니다. robots.txt 파일은 어떤 크롤러가 사이트의 어느 부분에 액세스할 수 있는지에 관한 규칙이 포함된 간단한 텍스트 파일입니다. 예를 들어, example.com의 robots.txt 파일은 다음과 같을 수 있습니다.

출처 : 구글 검색 센터
robots.txt-예시사진

“robots.txt”라는 단어는 검색 엔진 최적화에 대해 알아보셨으면 한번 쯤은 들어 보셨을만한 단어입니다.웹 사이트를 운영하면서 알아야 하는 기본 중의 기본입니다. robots.txt는 웹 사이트의 루트 디렉토리에 위치한 텍스트 파일인데요, 이 파일은 웹 크롤러가 사이트를 방문했을 때 무엇을 수집해가도 되는지, 어떤 부분은 절대 건드리지 말아야 하는지를 알려주는 역할을 합니다.


그래서 이 robots.txt 파일은 사이트의 특정 영역을 검색 엔진의 크롤링으로부터 보호할 수 있게 도와주는 중요한 도구라고 볼 수 있습니다.


robots.txt를 적용 해야하는 이유?

온리백링크 robots.txt

“그럼 robots.txt를 왜 써야 하나요?”라고 물을 수도 있습니다. 그러나 우리의 사이트가 어떤 정보를 검색 엔진에게 제공하고, 어떤 정보는 숨길지를 제어하면서 우리의 웹사이트에 대한 검색 결과를 향상시키는 데 있어 중요한 역할을 합니다. 검색 엔진은 robots.txt가 제출 돼있는지 여부를 확인 후 검색 엔진 최적화에 가산점을 부여하기 때문이죠.


예를 들어, 회원 전용 페이지나 개인 정보와 같은 민감한 정보를 포함하는 페이지를 검색 엔진의 인덱싱 대상에서 제외하고 싶을 때, robots.txt를 통해 그런 페이지들을 ‘Disallow’로 설정하면 됩니다. 이렇게 해두면 크롤러들은 그런 페이지를 수집하지 않게 됩니다.


단, 검색 노출을 원하는 페이지에 허용 해놓지 않는 경우가 많아서 꼭 체크해보셔야합니다.


robots.txt 적용 확인 방법

쉽게 확인할 수 있는 방법이 있습니다. 웹 브라우저 주소창에 도메인/robots.txt’를 입력하면 robots.txt 파일의 내용을 확인할 수 있습니다. 예를 들어, ‘https://idearabbit.co.kr/robots.txt’라고 입력했을 때, 여러분의 robots.txt 파일이 제대로 열리면, 그것이 바로 제대로 설정되어 있다는 뜻입니다.


robots.txt 설정 업로드 하는 방법

robots.txt가 제출 돼있지 않으면 업로드를 해야합니다. robots.txt 파일은 사이트의 루트 디렉토리에 위치해야 하며, 대개의 경우 웹 호스팅 서비스의 파일 관리자 (Cpanel) 또는 FTP를 통해 업로드할 수 있습니다.(어려울 경우 개발자의 도움을 받아보세요)


robots.txt 파일의 내용은 간단합니다. ‘User-agent’ 뒤에는 크롤러의 이름이 오고, ‘Disallow’ 뒤에는 크롤링을 막을 경로가 옵니다. 예를 들어, Googlebot(구글의 웹 크롤러)이 특정 페이지를 크롤링하지 못하게 하려면 다음과 같이 작성하면 됩니다.

javascriptCopy codeUser-agent: Googlebot
Disallow: /example-page/
ftp-파일질라

(FTP 업로더 파일질라)

이런 식으로 작성한 robots.txt 파일을 웹 사이트의 루트 디렉토리에 업로드하면, 해당 크롤러는 지정된 경로를 크롤링하지 않습니다. (크롤링을 원하지 않는 페이지에만 / 가 들어가야 합니다)


robots.txt 파일에서 ‘Disallow’ 명령이란?

Disallow 명령은 로봇 제외 프로토콜에서 가장 일반적으로 사용되는 지시어로, 특정 웹 페이지나 디렉터리에 대해 검색 엔진 크롤러의 접근을 제한합니다. 하지만 중요한 점은 Disallow 명령으로 차단된 페이지가 “숨겨지는 것”은 아닙니다. 단지 검색 엔진이 크롤링하지 않도록 요청하는 것이며, 사용자가 URL을 직접 입력하면 여전히 해당 페이지에 접근할 수 있습니다. 따라서 민감한 정보를 보호하기 위한 보안 도구로 사용되기보다는, 검색 엔진이 크롤링할 필요가 없는 페이지를 제외하는 데 주로 활용됩니다.

Disallow 명령의 주요 사용 사례 (robots.txt 크롤링 차단 방법 포함)

특정 페이지 차단

특정 페이지를 검색 엔진 결과에서 제외하려면 Disallow 명령 뒤에 차단할 페이지의 경로를 입력합니다.
예를 들어, /example/page-to-block/라는 페이지를 차단하려면 다음과 같이 설정합니다.

Disallow: /example/page-to-block/

이 설정은 봇이 해당 경로를 크롤링하지 못하도록 지시합니다. 결과적으로, 이 페이지는 검색 엔진 결과에 노출되지 않게 됩니다.

디렉터리 전체 차단

웹사이트의 특정 디렉터리에 포함된 모든 페이지를 차단하려면 해당 디렉터리를 지정합니다. 예를 들어, /private/라는 디렉터리 내의 모든 페이지를 크롤링 대상에서 제외하려면 아래와 같이 작성합니다.

Disallow: /private/

이는 /private/ 경로 아래에 있는 모든 페이지가 크롤링되지 않도록 설정하는 효율적인 방법입니다.

전체 웹사이트 차단

사이트의 모든 페이지를 검색 엔진 크롤링에서 제외하려면 다음과 같은 명령을 사용할 수 있습니다.

Disallow: /

여기서 /는 웹사이트의 루트를 나타냅니다. 이 설정은 검색 엔진이 웹사이트의 어떤 페이지도 크롤링하지 못하도록 차단합니다.

전체 웹사이트 허용

Disallow:

반대로 웹사이트의 모든 페이지에 크롤링을 허용하려면 Disallow 명령을 비워두면 됩니다. 이 설정은 크롤러가 사이트의 모든 경로를 자유롭게 탐색할 수 있도록 허용합니다.

Disallow와 함께 사용할 수 있는 추가 명령

Allow 명령

특정 디렉터리를 차단하면서도 일부 페이지는 허용하려면 Allow 명령을 함께 사용할 수 있습니다.
예를 들어, /private/ 디렉터리는 차단하되, /private/specific-page/는 허용하려면 다음과 같이 설정합니다.

Disallow: /private/
Allow: /private/specific-page/

이 설정은 봇이 /private/ 아래의 모든 페이지를 크롤링하지 못하도록 하되, /private/specific-page/는 예외로 처리합니다.

Crawl-delay 명령

Crawl-delay는 검색 엔진 크롤러가 요청 간에 대기해야 하는 시간을 설정하는 명령입니다. 예를 들어, 크롤러가 요청 사이에 10초를 대기하도록 설정하려면 아래와 같이 작성합니다.

Crawl-delay: 10

하지만 이 명령은 모든 검색 엔진에서 지원되지는 않습니다. Google은 이 명령을 지원하지 않으며, 크롤링 빈도를 조정하려면 Google Search Console을 사용해야 합니다.

Sitemap 프로토콜

Sitemap은 웹사이트의 모든 페이지를 기계가 읽을 수 있는 형태로 정리한 XML 파일입니다.
이를 robots.txt 파일에 추가하여 크롤러가 사이트 구조를 더 잘 이해할 수 있도록 도울 수 있습니다.
예시는 다음과 같습니다.

Sitemap: https://www.example.com/sitemap.xml

Sitemap은 크롤러가 어떤 페이지를 크롤링할지 선택하도록 돕지만, 페이지의 우선순위를 강제하지는 않습니다.

robots.txt 이스터 에그

가끔 웹사이트의 robots.txt 파일에는 이스터에그를 보실 수도 있는데요. 이 파일을 거의 보지 않는 일반 사용자 대신, 크롤러나 개발자를 위한 유머로 활용됩니다. 예를 들어, YouTube의 robots.txt에는 다음과 같은 문구가 포함되어 있습니다.

#90년대 중반 로봇 봉기 이후 생성됨.
#안녕, 로봇! 잘 부탁해.

이처럼 robots.txt 파일은 단순한 크롤링 제어 도구 그 이상으로, 개발자들의 창의적 메시지를 담는 공간으로도 활용됩니다.


마지막으로 robots.txt는 사이트 운영자가 검색 엔진에 어떤 정보를 제공하고, 어떤 정보를 숨길지를 결정할 수 있는 강력한 도구입니다. 이것을 잘 활용하면 검색 결과에 더 좋은 영향을 미칠 수 있습니다. 이렇게 SEO에 대한 이해를 높이는 것은, 우리가 운영하는 사이트를 더 효과적으로 관리하고, SEO 마케팅을 하는데에 큰 도움이 될 것입니다.

robots.txt 파일 작성 5단계 가이드

지금부터 실제로 robots.txt 파일을 작성하고 서버에 업로드하는 과정을 단계별로 안내합니다. 처음 작성하는 분도 에 완료할 수 있습니다.

1단계: 텍스트 파일 생성

메모장(Windows), 텍스트 편집기(Mac), 또는 VS Code 같은 코드 에디터를 엽니다. 새 파일을 만들고, 파일명을 정확히 robots.txt로 저장합니다. 파일 확장자가 .txt인지 확인하세요. 인코딩은 UTF-8을 권장합니다.

2단계: User-agent 지정

가장 먼저 규칙을 적용할 크롤러를 지정합니다. 모든 검색엔진에 동일한 규칙을 적용하려면 User-agent: *를 첫 줄에 작성합니다. 특정 검색엔진에만 다른 규칙을 적용하려면 해당 크롤러명을 별도 블록으로 작성합니다.

User-agent: *

3단계: Disallow/Allow 규칙 설정

User-agent 아래에 차단하거나 허용할 경로를 지정합니다. 경로는 슬래시(/)로 시작해야 하며, 대소문자를 구분합니다. 아무것도 차단하지 않으려면 Disallow:만 작성하거나 빈 값으로 둡니다.

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /admin/public-info.html

4단계: Sitemap 위치 추가

파일 마지막 부분에 XML 사이트맵의 전체 URL을 추가합니다. 이렇게 하면 검색엔진이 사이트맵을 더 쉽게 찾을 수 있습니다. 사이트맵이 여러 개라면 각각 별도 줄에 작성합니다.

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-posts.xml

5단계: 루트 디렉토리에 업로드

완성된 robots.txt 파일을 FTP 클라이언트(FileZilla 등)나 웹호스팅 파일 관리자를 통해 웹사이트 루트 디렉토리(최상위 폴더)에 업로드합니다. 업로드 후 브라우저에서 https://yourdomain.com/robots.txt로 접속하여 파일이 정상적으로 표시되는지 확인합니다.

상황별 robots.txt 실전 예제 8가지

다양한 웹사이트 유형과 상황에 맞는 robots.txt 설정 예제를 제공합니다. 복사하여 바로 사용하거나 필요에 맞게 수정하세요.

예제 1: 모든 크롤링 허용 (기본)

특별히 차단할 페이지가 없는 소규모 사이트에 적합합니다.

User-agent: *
Disallow:

Sitemap: https://example.com/sitemap.xml

예제 2: 관리자 영역만 차단

관리자 페이지, 로그인 페이지 등 공개할 필요 없는 영역을 차단합니다.

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /login/
Disallow: /member/

Sitemap: https://example.com/sitemap.xml

예제 3: 워드프레스 사이트 권장 설정

워드프레스 기본 구조에 맞춘 설정으로, 불필요한 시스템 파일과 검색 결과 페이지를 차단합니다.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /?s=
Disallow: /search/
Disallow: /author/
Disallow: */trackback/
Disallow: */feed/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/sitemap_index.xml

예제 4: 쇼핑몰 사이트 설정

장바구니, 결제 페이지, 필터링된 상품 목록 등을 차단하여 크롤 버짓을 절약합니다.

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /order/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?price=
Disallow: /search?
Allow: /product/
Allow: /category/

Sitemap: https://example.com/sitemap.xml

예제 5: 구글만 허용, 나머지 차단

특정 검색엔진에만 크롤링을 허용하고 싶을 때 사용합니다.

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Sitemap: https://example.com/sitemap.xml

예제 6: AI 크롤러 차단

ChatGPT, Claude 등 AI 학습용 크롤러의 접근을 차단하면서 검색엔진은 허용합니다.

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/

Sitemap: https://example.com/sitemap.xml

예제 7: 네이버, 구글 각각 다른 규칙 적용

검색엔진별로 서로 다른 크롤링 규칙이 필요할 때 사용합니다.

User-agent: Googlebot
Disallow: /private/
Allow: /

User-agent: Yeti
Disallow: /private/
Disallow: /test/
Crawl-delay: 5

User-agent: *
Disallow: /admin/

Sitemap: https://example.com/sitemap.xml

예제 8: 모든 크롤링 차단 (개발/스테이징 서버)

아직 공개 전인 개발 서버나 스테이징 환경에서 검색엔진 노출을 막습니다.

User-agent: *
Disallow: /
⚠️ 주의

모든 크롤링을 차단하면 검색 결과에 사이트가 전혀 표시되지 않습니다. 라이브 사이트에는 절대 이 설정을 사용하지 마세요. 개발 완료 후 robots.txt를 수정하는 것을 잊지 마세요.

와일드카드와 정규표현식 고급 활용

robots.txt는 기본적으로 두 가지 특수 문자를 지원합니다. 이를 활용하면 복잡한 URL 패턴도 효율적으로 처리할 수 있습니다.

별표(*) 와일드카드

*는 0개 이상의 모든 문자열과 일치합니다. 경로 중간이나 끝에 사용할 수 있습니다.

# 모든 .pdf 파일 차단
Disallow: /*.pdf

# 특정 파라미터가 포함된 모든 URL 차단
Disallow: /*?sessionid=

# images 폴더 내 모든 경로 차단
Disallow: /images/*

달러($) 종료 문자

$는 URL의 끝을 나타냅니다. 특정 확장자나 정확한 경로만 일치시킬 때 유용합니다.

# 정확히 .pdf로 끝나는 URL만 차단 (.pdf?id=123은 차단 안 됨)
Disallow: /*.pdf$

# 정확히 /about 경로만 차단 (/about-us는 차단 안 됨)
Disallow: /about$

조합 예제

# 쿼리 파라미터가 있는 모든 URL 차단
Disallow: /*?*

# 특정 디렉토리 내 특정 확장자만 차단
Disallow: /files/*.doc$
Disallow: /files/*.docx$

# URL에 'print'가 포함된 모든 페이지 차단
Disallow: /*print*

robots.txt vs noindex 메타태그: 언제 무엇을 사용할까?

robots.txt와 noindex 메타태그는 모두 검색엔진 노출을 제어하지만, 작동 방식이 완전히 다릅니다. robots.txt는 크롤링을 차단하고, noindex는 색인을 차단합니다.

robots.txt와 noindex 메타태그 비교
구분 robots.txt noindex 메타태그
작동 방식 크롤러의 페이지 접근 자체를 차단 크롤러가 페이지를 방문하지만 색인하지 않음
페이지 내용 검색엔진이 내용을 알 수 없음 검색엔진이 내용을 확인 가능
검색 결과 URL이 색인될 수 있음 (링크가 있다면) 검색 결과에서 완전히 제외
적용 위치 루트 디렉토리의 robots.txt 파일 각 HTML 페이지의 <head> 내
적합한 상황 크롤 버짓 관리, 서버 부하 감소 민감한 페이지 색인 방지
⚠️ 흔한 실수

민감한 페이지를 robots.txt로만 차단하면 위험합니다. 크롤러가 페이지 내용을 확인하지 못해 noindex 태그를 읽지 못하고, 외부 링크만으로 URL이 색인될 수 있습니다. 민감한 콘텐츠는 noindex + 로그인 보호를 함께 사용하세요.

권장 사용 시나리오

robots.txt 사용: 관리자 페이지, 검색 결과 페이지, 필터/정렬 URL, 개발 환경, 대용량 파일 디렉토리

noindex 사용: 감사 페이지, 내부 검색 결과, 중복 콘텐츠 페이지, 인쇄용 페이지, 오래된 아카이브

둘 다 사용하면 안 되는 경우: noindex가 필요한 페이지를 robots.txt로 차단하면 noindex 태그가 읽히지 않습니다.

robots.txt 설정 검증 방법

robots.txt를 업로드한 후 반드시 검증해야 합니다. 작은 오타 하나로 중요한 페이지가 차단될 수 있기 때문입니다.

구글 서치 콘솔 robots.txt 테스터

  1. 구글 서치 콘솔에 로그인합니다.
  2. 왼쪽 메뉴에서 [설정] → [robots.txt 테스터]를 선택합니다.
  3. 하단 입력창에 테스트할 URL을 입력하고 [테스트] 버튼을 클릭합니다.
  4. 해당 URL이 허용(녹색) 또는 차단(빨간색)되는지 확인합니다.
  5. 문제가 있으면 코드를 수정하고 다시 테스트합니다.

네이버 서치어드바이저 검증

  1. 네이버 서치어드바이저에 로그인합니다.
  2. 등록된 사이트를 선택한 후 [검증] → [robots.txt]를 클릭합니다.
  3. 현재 robots.txt 내용과 오류 여부를 확인합니다.

수동 확인

브라우저에서 https://yourdomain.com/robots.txt를 직접 열어 파일이 정상적으로 표시되는지 확인합니다. 404 오류가 나오거나 HTML 코드가 보이면 업로드가 잘못된 것입니다.

robots.txt 작성 시 흔한 실수 5가지

실수 1: 파일 위치 오류

robots.txt는 반드시 루트 디렉토리에 있어야 합니다. /blog/robots.txt/public/robots.txt 경로에 있으면 검색엔진이 인식하지 못합니다.

실수 2: 대소문자 혼동

robots.txt의 경로는 대소문자를 구분합니다. Disallow: /Admin/Disallow: /admin/은 다른 규칙입니다. 실제 서버의 폴더 이름과 정확히 일치해야 합니다.

실수 3: 빈 Disallow 오해

Disallow: 다음에 아무 경로도 없으면 “아무것도 차단하지 않음”을 의미합니다. “모든 것 차단”이 아닙니다. 전체 차단은 Disallow: /입니다.

실수 4: 주석 문법 오류

주석은 #으로 시작합니다. 하지만 같은 줄의 지시어 뒤에 주석을 달면 일부 크롤러가 오해할 수 있습니다. 주석은 별도 줄에 작성하는 것이 안전합니다.

# 올바른 주석
Disallow: /admin/

# 피해야 할 형식
Disallow: /admin/  # 관리자 영역

실수 5: 프로토콜 불일치

Sitemap URL에는 전체 경로(프로토콜 포함)를 사용해야 합니다. https://http://를 혼동하거나, 상대 경로를 사용하면 인식되지 않을 수 있습니다.

실제 기업들의 robots.txt 활용 사례

대기업들은 robots.txt를 기술적 용도 외에도 브랜딩과 채용 메시지 전달에 창의적으로 활용합니다.

나이키 (nike.com)

나이키는 robots.txt 파일 상단에 “Just Do It”이라는 브랜드 슬로건과 함께 개발자 채용 메시지를 담아 놓았습니다. 개발자들이 호기심에 robots.txt를 확인할 때 브랜드 인상을 남기는 마케팅 기법입니다.

에어비앤비 (airbnb.com)

에어비앤비의 robots.txt에는 ASCII 아트와 함께 “If you’re reading this, maybe you should work with us” 메시지가 포함되어 있습니다. 기술 인재 채용을 위한 이스터에그입니다.

유튜브 (youtube.com)

유튜브의 robots.txt는 “Created in the distant future (the year 2000)”이라는 유머러스한 주석과 함께, 영상 크롤링을 제한하면서도 채널 페이지는 허용하는 정교한 설정을 보여줍니다.

💡 인사이트

robots.txt는 단순한 기술 파일이 아니라 개발자 커뮤니티에 브랜드 메시지를 전달하는 채널이 될 수 있습니다. 다만 너무 긴 주석은 파일 크기를 키워 크롤링 효율을 떨어뜨릴 수 있으니 적당히 활용하세요.

자주 묻는 질문 (FAQ)

Q. robots.txt 파일이 없으면 어떻게 되나요?

robots.txt 파일이 없으면 검색엔진은 사이트의 모든 페이지를 크롤링할 수 있다고 간주합니다. 소규모 사이트에서는 문제가 없지만, 대규모 사이트에서는 크롤 버짓 낭비와 서버 부하가 발생할 수 있습니다.

Q. robots.txt 변경 후 얼마나 지나야 반영되나요?

구글은 robots.txt를 약 24시간마다 캐시합니다. 긴급하게 반영해야 한다면 구글 서치 콘솔에서 robots.txt 테스터를 열고 [제출] 버튼을 클릭하여 재크롤링을 요청할 수 있습니다. 네이버는 서치어드바이저에서 수집 요청이 가능합니다.

Q. robots.txt로 이미지 크롤링만 차단할 수 있나요?

네, 가능합니다. 구글 이미지 봇만 특정 경로를 차단하려면 User-agent: Googlebot-Image를 지정하면 됩니다. 이렇게 하면 일반 검색에는 페이지가 노출되지만, 구글 이미지 검색에서는 해당 경로의 이미지가 제외됩니다.

Q. 하위 도메인도 같은 robots.txt를 사용하나요?

아니요. 각 하위 도메인은 별도의 robots.txt가 필요합니다. 예를 들어 blog.example.comshop.example.com은 각각 자신의 루트에 robots.txt를 두어야 합니다. 메인 도메인의 robots.txt는 하위 도메인에 적용되지 않습니다.

Q. robots.txt 파일 크기에 제한이 있나요?

구글은 robots.txt 파일 크기를 500KB로 제한합니다. 이를 초과하면 나머지 부분이 무시됩니다. 대부분의 사이트에서 이 한도에 도달할 일은 없지만, 수천 개의 규칙이 필요한 대형 사이트에서는 패턴 매칭(와일드카드)을 활용하여 규칙 수를 줄이는 것이 좋습니다.

마무리: robots.txt 체크리스트

robots.txt는 간단해 보이지만 잘못 설정하면 SEO에 큰 타격을 줄 수 있습니다. 다음 체크리스트로 최종 점검하세요.

  • ✅ 파일명이 정확히 robots.txt인가?
  • ✅ 루트 디렉토리에 위치해 있는가?
  • https://도메인/robots.txt로 접근 가능한가?
  • ✅ User-agent가 올바르게 지정되어 있는가?
  • ✅ 경로의 대소문자가 실제 URL과 일치하는가?
  • ✅ 중요한 페이지가 실수로 차단되지 않았는가?
  • ✅ Sitemap URL이 전체 경로로 정확히 작성되어 있는가?
  • ✅ 구글 서치 콘솔에서 테스트를 완료했는가?

robots.txt 설정에 대해 궁금한 점이 있다면 문의하기를 통해 질문해 주세요. 더 자세한 SEO 가이드는 검색엔진 최적화 가이드 페이지에서 확인할 수 있습니다.

구글 SEO, 어렵게만 느껴지셨나요? 많은 분들이 검색 엔진 최적화(SEO)에 대해…

상위노출을 목표로 하는 웹사이트 운영자라면 한 번쯤 ‘낙장 도메인’이라는 단어를…

지금 이 순간에도 수많은 사람들이 검색창에 키워드를 입력하고 있습니다. 하지만…

카테고리 더 보기

2025 최신 SEO 가이드북 신청