Базы данныхИнтернетКомпьютерыОперационные системыПрограммированиеСетиСвязьРазное
Поиск по сайту:
Подпишись на рассылку:

Назад в раздел

Несколько слов о файле robots.txt

div.main {margin-left: 20pt; margin-right: 20pt}

Несколько слов о файле robots.txt

Robots.txt - это первый  файл, к которому при индексации сайта обращаются поисковые системы. В нем описываются права доступа для поисковых роботов, при чем можно указать разные права для разных роботов. То есть вы можете запретить или разрешить роботу индексировать тот или иной каталог. Файл robots.txt должен присутствовать на всех сайтах! 

Для этого файла существует общепринятый стандарт под названием Standart for Robot Exclusion. 
Каждая запись начинается со строки User-Agent, в которой описывается каким или какому поисковому роботу эта запись предназначается. Следующая строка: Disallow. Здесь описываются не подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как минимум эти две строки (lines). Все остальные строки являются опциями. Запись может содержать любое количество строк комментариев. Каждая строка комментария должна начинаться с символа # . Строки комментариев могут быть помещены в конец строк User-Agent и Disallow. Символ # в конце этих строк иногда добавляется для того, чтобы указать поисковому роботу, что длинная строка agent_id или path_root закончена. Если в строке User-Agent указано несколько agent_id, то условие path_root в строке Disallow будет выполнено для всех одинаково. Ограничений на длину строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в файле /robots.txt своего agent_id, то он игнорирует /robots.txt.

Если не учитывать специфику работы каждого поискового робота, можно указать исключения для всех роботов сразу. Это достигается заданием строки

               User-Agent: *


Если поисковый робот обнаружит в файле /robots.txt несколько записей с удовлетворяющим его значением agent_id, то робот волен выбирать любую из них.

Пример 1:

User-Agent: * 

# robots.txt fot http://cvcdesign.diaspora.ru

Disallow: /cgi-bin/ /img/ /zip/

В примере 1 всем роботам запрещается индексировать каталоги img, zip, cgi-bin

Пример 2

User-Agent: *

Disallow: /

User-Agent: Lycos

Disallow: /cgi-bin/ /tmp/

В примере 2 всем роботам запрещается индексировать сайт. Но роботу Lycos разрешается индексировать все каталоги, кроме cgi-bin, tmp/

Как я уже говорил файл robots.txt должен присутствовать на всех сайтах. Он используется большинством поисковых систем.

Автор: Александр Довженко
mailto:dovzhenko@ua.fm


  • Главная
  • Новости
  • Новинки
  • Скрипты
  • Форум
  • Ссылки
  • О сайте




  • Emanual.ru – это сайт, посвящённый всем значимым событиям в IT-индустрии: новейшие разработки, уникальные методы и горячие новости! Тонны информации, полезной как для обычных пользователей, так и для самых продвинутых программистов! Интересные обсуждения на актуальные темы и огромная аудитория, которая может быть интересна широкому кругу рекламодателей. У нас вы узнаете всё о компьютерах, базах данных, операционных системах, сетях, инфраструктурах, связях и программированию на популярных языках!
     Copyright © 2001-2024
    Реклама на сайте