칼럼

SEO 초보를 위한 robots.txt 이해와 적용 방법

이번 포스팅에서 다루고자 하는 주제는 “robots.txt”입니다. 이 용어가 낯설게 느껴질 수 있는데요, 검색 엔진 최적화에서 절대 빼놓을 수 없는 요소인 만큼 이해해야 합니다.


robots.txt 란?

크롤러가 사이트의 섹션에 액세스하지 못하도록 하려면 적절한 규칙으로 robots.txt 파일을 만들면 됩니다. robots.txt 파일은 어떤 크롤러가 사이트의 어느 부분에 액세스할 수 있는지에 관한 규칙이 포함된 간단한 텍스트 파일입니다. 예를 들어, example.com의 robots.txt 파일은 다음과 같을 수 있습니다.

출처 : 구글 검색 센터
robots.txt-예시사진

“robots.txt”라는 단어는 검색 엔진 최적화에 대해 알아보셨으면 한번 쯤은 들어 보셨을만한 단어입니다.웹 사이트를 운영하면서 알아야 하는 기본 중의 기본입니다. robots.txt는 웹 사이트의 루트 디렉토리에 위치한 텍스트 파일인데요, 이 파일은 웹 크롤러가 사이트를 방문했을 때 무엇을 수집해가도 되는지, 어떤 부분은 절대 건드리지 말아야 하는지를 알려주는 역할을 합니다.


그래서 이 robots.txt 파일은 사이트의 특정 영역을 검색 엔진의 크롤링으로부터 보호할 수 있게 도와주는 중요한 도구라고 볼 수 있습니다.


robots.txt를 적용 해야하는 이유?

온리백링크 robots.txt

“그럼 robots.txt를 왜 써야 하나요?”라고 물을 수도 있습니다. 그러나 우리의 사이트가 어떤 정보를 검색 엔진에게 제공하고, 어떤 정보는 숨길지를 제어하면서 우리의 웹사이트에 대한 검색 결과를 향상시키는 데 있어 중요한 역할을 합니다. 검색 엔진은 robots.txt가 제출 돼있는지 여부를 확인 후 검색 엔진 최적화에 가산점을 부여하기 때문이죠.


예를 들어, 회원 전용 페이지나 개인 정보와 같은 민감한 정보를 포함하는 페이지를 검색 엔진의 인덱싱 대상에서 제외하고 싶을 때, robots.txt를 통해 그런 페이지들을 ‘Disallow’로 설정하면 됩니다. 이렇게 해두면 크롤러들은 그런 페이지를 수집하지 않게 됩니다.


단, 검색 노출을 원하는 페이지에 허용 해놓지 않는 경우가 많아서 꼭 체크해보셔야합니다.


robots.txt 적용 확인 방법

쉽게 확인할 수 있는 방법이 있습니다. 웹 브라우저 주소창에 도메인/robots.txt’를 입력하면 robots.txt 파일의 내용을 확인할 수 있습니다. 예를 들어, ‘https://idearabbit.co.kr/robots.txt’라고 입력했을 때, 여러분의 robots.txt 파일이 제대로 열리면, 그것이 바로 제대로 설정되어 있다는 뜻입니다.


robots.txt 설정 업로드 하는 방법

robots.txt가 제출 돼있지 않으면 업로드를 해야합니다. robots.txt 파일은 사이트의 루트 디렉토리에 위치해야 하며, 대개의 경우 웹 호스팅 서비스의 파일 관리자 (Cpanel) 또는 FTP를 통해 업로드할 수 있습니다.(어려울 경우 개발자의 도움을 받아보세요)


robots.txt 파일의 내용은 간단합니다. ‘User-agent’ 뒤에는 크롤러의 이름이 오고, ‘Disallow’ 뒤에는 크롤링을 막을 경로가 옵니다. 예를 들어, Googlebot(구글의 웹 크롤러)이 특정 페이지를 크롤링하지 못하게 하려면 다음과 같이 작성하면 됩니다.

javascriptCopy codeUser-agent: Googlebot
Disallow: /example-page/
ftp-파일질라

(FTP 업로더 파일질라)

이런 식으로 작성한 robots.txt 파일을 웹 사이트의 루트 디렉토리에 업로드하면, 해당 크롤러는 지정된 경로를 크롤링하지 않습니다. (크롤링을 원하지 않는 페이지에만 / 가 들어가야 합니다)


robots.txt 파일에서 ‘Disallow’ 명령이란?

Disallow 명령은 로봇 제외 프로토콜에서 가장 일반적으로 사용되는 지시어로, 특정 웹 페이지나 디렉터리에 대해 검색 엔진 크롤러의 접근을 제한합니다. 하지만 중요한 점은 Disallow 명령으로 차단된 페이지가 “숨겨지는 것”은 아닙니다. 단지 검색 엔진이 크롤링하지 않도록 요청하는 것이며, 사용자가 URL을 직접 입력하면 여전히 해당 페이지에 접근할 수 있습니다. 따라서 민감한 정보를 보호하기 위한 보안 도구로 사용되기보다는, 검색 엔진이 크롤링할 필요가 없는 페이지를 제외하는 데 주로 활용됩니다.

Disallow 명령의 주요 사용 사례 (robots.txt 크롤링 차단 방법 포함)

특정 페이지 차단

특정 페이지를 검색 엔진 결과에서 제외하려면 Disallow 명령 뒤에 차단할 페이지의 경로를 입력합니다.
예를 들어, /example/page-to-block/라는 페이지를 차단하려면 다음과 같이 설정합니다.

Disallow: /example/page-to-block/

이 설정은 봇이 해당 경로를 크롤링하지 못하도록 지시합니다. 결과적으로, 이 페이지는 검색 엔진 결과에 노출되지 않게 됩니다.

디렉터리 전체 차단

웹사이트의 특정 디렉터리에 포함된 모든 페이지를 차단하려면 해당 디렉터리를 지정합니다. 예를 들어, /private/라는 디렉터리 내의 모든 페이지를 크롤링 대상에서 제외하려면 아래와 같이 작성합니다.

Disallow: /private/

이는 /private/ 경로 아래에 있는 모든 페이지가 크롤링되지 않도록 설정하는 효율적인 방법입니다.

전체 웹사이트 차단

사이트의 모든 페이지를 검색 엔진 크롤링에서 제외하려면 다음과 같은 명령을 사용할 수 있습니다.

Disallow: /

여기서 /는 웹사이트의 루트를 나타냅니다. 이 설정은 검색 엔진이 웹사이트의 어떤 페이지도 크롤링하지 못하도록 차단합니다.

전체 웹사이트 허용

Disallow:

반대로 웹사이트의 모든 페이지에 크롤링을 허용하려면 Disallow 명령을 비워두면 됩니다. 이 설정은 크롤러가 사이트의 모든 경로를 자유롭게 탐색할 수 있도록 허용합니다.

Disallow와 함께 사용할 수 있는 추가 명령

Allow 명령

특정 디렉터리를 차단하면서도 일부 페이지는 허용하려면 Allow 명령을 함께 사용할 수 있습니다.
예를 들어, /private/ 디렉터리는 차단하되, /private/specific-page/는 허용하려면 다음과 같이 설정합니다.

Disallow: /private/
Allow: /private/specific-page/

이 설정은 봇이 /private/ 아래의 모든 페이지를 크롤링하지 못하도록 하되, /private/specific-page/는 예외로 처리합니다.

Crawl-delay 명령

Crawl-delay는 검색 엔진 크롤러가 요청 간에 대기해야 하는 시간을 설정하는 명령입니다. 예를 들어, 크롤러가 요청 사이에 10초를 대기하도록 설정하려면 아래와 같이 작성합니다.

Crawl-delay: 10

하지만 이 명령은 모든 검색 엔진에서 지원되지는 않습니다. Google은 이 명령을 지원하지 않으며, 크롤링 빈도를 조정하려면 Google Search Console을 사용해야 합니다.

Sitemap 프로토콜

Sitemap은 웹사이트의 모든 페이지를 기계가 읽을 수 있는 형태로 정리한 XML 파일입니다.
이를 robots.txt 파일에 추가하여 크롤러가 사이트 구조를 더 잘 이해할 수 있도록 도울 수 있습니다.
예시는 다음과 같습니다.

Sitemap: https://www.example.com/sitemap.xml

Sitemap은 크롤러가 어떤 페이지를 크롤링할지 선택하도록 돕지만, 페이지의 우선순위를 강제하지는 않습니다.

robots.txt 이스터 에그

가끔 웹사이트의 robots.txt 파일에는 이스터에그를 보실 수도 있는데요. 이 파일을 거의 보지 않는 일반 사용자 대신, 크롤러나 개발자를 위한 유머로 활용됩니다. 예를 들어, YouTube의 robots.txt에는 다음과 같은 문구가 포함되어 있습니다.

#90년대 중반 로봇 봉기 이후 생성됨.
#안녕, 로봇! 잘 부탁해.

이처럼 robots.txt 파일은 단순한 크롤링 제어 도구 그 이상으로, 개발자들의 창의적 메시지를 담는 공간으로도 활용됩니다.


마지막으로 robots.txt는 사이트 운영자가 검색 엔진에 어떤 정보를 제공하고, 어떤 정보를 숨길지를 결정할 수 있는 강력한 도구입니다. 이것을 잘 활용하면 검색 결과에 더 좋은 영향을 미칠 수 있습니다. 이렇게 SEO에 대한 이해를 높이는 것은, 우리가 운영하는 사이트를 더 효과적으로 관리하고, SEO 마케팅을 하는데에 큰 도움이 될 것입니다.


긴 글 읽어주셔서 감사합니다 🙂
같이 읽으면 도움되는 글 : 구글 상위노출 10가지 방법, 1페이지에 랭크 되고 싶은 분만 보세요

초보자를 위한 사이트맵(sitemap.xml) 가이드 총정리

지금 이 순간에도 수많은 사람들이 검색창에 키워드를 입력하고 있습니다. 하지만…

“사람들이 검색할 때 가장 먼저 보는 단어는 무엇일까?” 키워드 분석은…

안녕하세요, 구글·네이버 상위노출 전문 오픈타임 박실장입니다. 상위노출을 목표로 하는 웹사이트…

카테고리 더 보기

2025 최신 SEO 가이드북 신청