Руководство для Web-администратора по протоколу исключений для роботов

div.main {margin-left: 20pt; margin-right: 20pt}

Руководство для Web-администратора
по протоколу исключений для роботов
(robots.txt).Данное руководство помогает администраторам Web-серверов, желающим использовать протокол исключений для роботов (Robots Exclusion Protocol).

Обратите внимание, что это не спецификация -- за более детальной информацией и формальным синтаксисом и определениями обратитесь к спецификации.

ВведениеПротокол исключений для роботов очень прост. В двух словах он работает так:

Когда робот (подчиняющийся данному протоколу) посещает сайт, он сперва проверяет наличие "/robots.txt" на сайте. Если URL существует, робот проверяет содержимое файла на предмет инструкций, запрещающих роботу посещать отдельные части сайта.

Как администратор Web-сервера Вы можете создать директивы, которые имеют смысл для Вашего сайта. Эта страница поможет Вам в этом. Где создавать файл robots.txt Робот будет искать "/robots.txt" URL на Вашем сайте, где сайт определен как HTTP - сервер запущенный на различных хостах и портах. Например: URL сайта Соответсвующая Robots.txt URL

http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Обратите внимание, что на сайте может быть только один "/robots.txt" . Особенно Вы не должны размещать "robots.txt" файлы в пользовательсктх директориях, потому что робот никогда не увидит их. Если Вы хотите, чтобы пользователи могли создавать свои собственные "robots.txt", Вы должны объединить их всех в единственном "/robots.txt". Если Вы не хотите делать этого, Ваши пользователи могут использовать Robots META Tag.

Также помните, что URL'и чувствительны к регистру и "/robots.txt" должен быть набран в нижнем регистре.

Неправильные robots.txt URLи

http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt
ftp://ftp.w3.com/robots.txt

Таким образом, Вы должны размещать "/robots.txt" на самом верхнем уровне Вашего сайта. Как это сделать - зависит от программного обеспечения на Вашем сервере и конфигурации.

Для большинства серверов это означает создание файла в директории верхнего уровня на Вашем сервере. На UNIX машине это может быть /usr/local/etc/httpd/htdocs/robots.txt Что писать в robots.txt файлеФайл "/robots.txt" обычно содержит записи, подобные этим: User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/

В этом примере, три директории исключены.

Обратите внимание, что Вам необходима отдельная строка "Disallow" для каждого префикса URL, который Вы собираетесь исключать -- Вы не можете написать "Disallow: /cgi-bin/ /tmp/". Также, Вы не можете допускать пустые линии в записи так как они используются для разделения множественных записей.

Заметьте также, что регулярные выражения не поддерживаются ни в поле User-agent ни в поле Disallow. '*' в поле User-agent --специальный символ означающий "любой робот". Вы не можете использовать "Disallow: /tmp/*" или "Disallow: *.gif".

То, что Вы хотите исключить зависит от Вашего сервера. Всё что не запрещено явным образом становится законной добычей робота. Ниже несколько примеров: Исключить посещение всего сервера всеми роботами User-agent: * Disallow: / Разрешить всем роботам полный доступ User-agent: * Disallow:

Или создать пустой файл "/robots.txt" file. Исключить часть сервера от посещения всеми роботами User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ Исключить для одного робота User-agent: BadBot Disallow: / Разрешить одному роботу User-agent: WebCrawler Disallow: User-agent: * Disallow: / Исключить все файлы кроме одного

В настоящий момент добится этого не так просто, как хотелось бы, т.к. поле "Allow" не предусмотрено. Самый простой способ - поместить все файлы, доступ к которым Вы хотите запретить в отдельный каталог, скажем "docs" и оставить единственный файл на уровне выше этого каталога:

User-agent: * Disallow: /~joe/docs/ В качестве альтернативы мы можете запретить все страницы: User-agent: * Disallow: /~joe/private.html Disallow: /~joe/foo.html Disallow: /~joe/bar.html Перевод с The Web Robots Pages

Назад в раздел

Emanual.ru – это сайт, посвящённый всем значимым событиям в IT-индустрии: новейшие разработки, уникальные методы и горячие новости! Тонны информации, полезной как для обычных пользователей, так и для самых продвинутых программистов! Интересные обсуждения на актуальные темы и огромная аудитория, которая может быть интересна широкому кругу рекламодателей. У нас вы узнаете всё о компьютерах, базах данных, операционных системах, сетях, инфраструктурах, связях и программированию на популярных языках!