Руководство по системе Яndex.Site
: Настройка системы
: Конфигурация (UNIX)
: Настройка индексатора
Previous: Запуск индексатора и поискового сервера
Next: Виртуальные хосты (сервера)
3.1.2. Настройка индексатора
Индексатор называется ywfiletree . Индекс состоит из трех файлов, имена которых имеют одинаковое начало и суффиксы key, inv и .bd .
Примеры настройки индексатора находятся в каталоге ysite , файлы filetree.cfg, filetree.cfg.virt .
Обязательный ключ:
1.
Префикс индексирумых файлов: IndexingDirectory
Имя каталога, который надо индексировать. Считается, что имя индексируемого файла начинается с имени этого каталога.
Пример: IndexingDirectory : /usr/local/www/data
В этом случае именами проиндексированных файлов будут, например, /usr/local/www/data/index.html, /usr/local/www/data/my/index.html,и т. д.
Остальные ключи:
2.
Имя файлов индекса: NewIndexName
Значение по умолчанию: newindex
Начало имен (то есть имя без расширения) создающегося индекса. Значения ключей NewIndexName и IndexName должны быть различны.
3.
Порядок переиндексации: IndexName
Состояние по умолчанию: не задан
Начало имен предыдущего индекса. Если этот ключ задан, индексатор будет индексировать только новые и изменившиеся с предыдущего состояния документы, а информация об остальных документах будет взята из старого индекса (удаленные документы, разумеется, будут удалены из индекса.) Если же этот ключ не задан, индекс будет создан заново.
4. Переиндексация дерева: OnlySubtreeReindex
Состояние по умолчанию: не задан
Если задан этот ключ, индексируется только документы, относящиеся к поддереву, определенному ключом IndexingDirectory. Остальной индекс остается без изменений. Задается без значения.
Пример: OnlySubtreeReindex :
5. Кодировка: Charset
Значение по умолчанию: 0 (MS Windows)
Кодировка, в которой лежат (будут приходить) документы. Документы, относящиеся к одному хосту, должны быть в одной и той же кодировке.
Значения:
- 0 --- MS Windows
- 1 --- KOI8-R
- 2 --- MS DOS
- 3 --- Mac OS
- 4 --- ISO-iso_8859-5
6. Пропуск файлов: ExcludeDirectory
Состояние по умолчанию: не задан
Файлы с таким началом имен надо пропускать. Ключ может иметь несколько значений, перечисленных через запятую.
Пример: ExcludeDirectory : /usr/local/www/data/secret/
7. Суффиксы индексируемых файлов: Extensions
Значение по умолчанию: .htm, .html, .shtml.
Суффиксы файлов, которые надо индексировать. Значений ключа может быть несколько, разделенных запятыми. Чтобы проиндексировать все файлы, надо указать пустое значение ключа.
Пример: Extensions : .html, .htm
или
Extensions :
8. Способ получения файлов: HostName
Состояние по умолчанию: не задан
Если этот ключ указан, то документы будут не считываться из файлов, а запрашиваться с HTTP сервера с данным именем.
В общем случае считывание документов из файлов происходит быстрее, чем получение их с сервера. Этот ключ понадобится при настройке, если тексты, хранящиеся в файлах, не совпадают с теми, которые присылает HTTP сервер (например, используются так называемые Server-Side Includes).
Пример: HostName : www..ru
9. Тематические разделы: FolderDirectory
Состояние по умолчанию: не задан
Формат: FolderDirectory : _имя_каталога_ [_имя_раздела_]
Имя каталога, который (включая все подкаталоги) при индексировании будет рассматриваться как часть некоторого тематического раздела _имя_раздела_.
Для исключения подкаталога из раздела надо указать в этом ключе его имя с пустым значением параметра _имя_раздела_. Один каталог может одновременно входить в несколько разделов. Ключ может иметь несколько значений, перечисленных через запятую.
При поиске можно получить полный список документов, относящихся к определенному разделу, задав запрос в виде строки: #subtree=_имя_раздела_.
Пример:
FolderDirectory : /usr/local/www/data/arcadia yandex,
/usr/local/www/data/beseda yandex,
/usr/local/www/data/beseda telephony,
/usr/local/www/data/telephony telephony,
/usr/local/www/data/telephony/test
В этом примере будут созданы два раздела - yandex и telephony, причем подкаталог test каталога telephony будет исключен из раздела telephony
10. Вспомогательный массив: ArraySize
Значение по умолчанию: 250000
При индексации Яндекс создает массив в оперативной памяти, который сортируется и сбрасывается во временные файлы на диске. В конце индексации все эти временные файлы сливаются в окончательный индекс.
На одну единицу Yandex array size приходится примерно 20 байт оперативной памяти. Чем больше этот размер, тем быстрее будет проходить индексация, но пока он расположен в действительно оперативной памяти (то есть не выгружается на диск).
11.
Каталог временных файлов: TempDirectory
Значение по умолчанию: /var/tmp
Имя каталога, куда Яндекс складывает временные файлы. Места под временные файлы нужно довольно много.
Руководство по системе Яndex.Site
: Настройка системы
: Конфигурация (UNIX)
: Настройка индексатора
Previous: Запуск индексатора и поискового сервера
Next: Виртуальные хосты (сервера)
|