div.main {margin-left: 20pt; margin-right: 20pt} Несколько
слов о файле robots.txt
Robots.txt - это первый
файл, к которому при индексации сайта обращаются поисковые системы. В нем
описываются права доступа для поисковых роботов, при чем можно указать
разные права для разных роботов. То есть вы можете запретить или разрешить
роботу индексировать тот или иной каталог. Файл robots.txt должен
присутствовать на всех сайтах!
Для этого файла существует общепринятый стандарт под
названием Standart for Robot Exclusion. Каждая запись начинается
со строки User-Agent, в которой описывается каким или какому поисковому
роботу эта запись предназначается. Следующая строка: Disallow. Здесь
описываются не подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА
иметь как минимум эти две строки (lines). Все остальные строки являются
опциями. Запись может содержать любое количество строк комментариев.
Каждая строка комментария должна начинаться с символа # . Строки
комментариев могут быть помещены в конец строк User-Agent и Disallow.
Символ # в конце этих строк иногда добавляется для того, чтобы указать
поисковому роботу, что длинная строка agent_id или path_root закончена.
Если в строке User-Agent указано несколько agent_id, то условие path_root
в строке Disallow будет выполнено для всех одинаково. Ограничений на длину
строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в файле
/robots.txt своего agent_id, то он игнорирует /robots.txt.
Если не учитывать специфику работы каждого поискового
робота, можно указать исключения для всех роботов сразу. Это достигается
заданием строки
User-Agent: *
Если поисковый робот обнаружит в файле /robots.txt
несколько записей с удовлетворяющим его значением agent_id, то робот волен
выбирать любую из них.
Пример
1:
User-Agent:
*
# robots.txt fot
http://cvcdesign.diaspora.ru
Disallow: /cgi-bin/ /img/ /zip/
В примере 1 всем роботам запрещается индексировать
каталоги img, zip, cgi-bin
Пример
2
User-Agent: *
Disallow: /
User-Agent: Lycos
Disallow: /cgi-bin/
/tmp/
В примере 2 всем роботам запрещается индексировать сайт.
Но роботу Lycos разрешается индексировать все каталоги, кроме cgi-bin,
tmp/
Как я уже говорил файл robots.txt должен присутствовать
на всех сайтах. Он используется большинством поисковых систем.
Автор: Александр Довженко mailto:dovzhenko@ua.fm
|