Базы данныхИнтернетКомпьютерыОперационные системыПрограммированиеСетиСвязьРазное
Поиск по сайту:
Подпишись на рассылку:

Назад в раздел

Настройка индексатора
Руководство по системе Яndex.Site : Настройка системы : Конфигурация (UNIX) : Настройка индексатора
Previous: Запуск индексатора и поискового сервера
Next: Виртуальные хосты (сервера)

3.1.2. Настройка индексатора

Индексатор называется ywfiletree . Индекс состоит из трех файлов, имена которых имеют одинаковое начало и суффиксы key, inv и .bd .

Примеры настройки индексатора находятся в каталоге ysite , файлы filetree.cfg, filetree.cfg.virt .

Обязательный ключ:

1. Префикс индексирумых файлов: IndexingDirectory

Имя каталога, который надо индексировать. Считается, что имя индексируемого файла начинается с имени этого каталога.

Пример: IndexingDirectory : /usr/local/www/data

В этом случае именами проиндексированных файлов будут, например, /usr/local/www/data/index.html, /usr/local/www/data/my/index.html,и т. д.

Остальные ключи:

2. Имя файлов индекса: NewIndexName

Значение по умолчанию: newindex

Начало имен (то есть имя без расширения) создающегося индекса. Значения ключей NewIndexName и IndexName должны быть различны.

3. Порядок переиндексации: IndexName

Состояние по умолчанию: не задан

Начало имен предыдущего индекса. Если этот ключ задан, индексатор будет индексировать только новые и изменившиеся с предыдущего состояния документы, а информация об остальных документах будет взята из старого индекса (удаленные документы, разумеется, будут удалены из индекса.) Если же этот ключ не задан, индекс будет создан заново.

4. Переиндексация дерева: OnlySubtreeReindex

Состояние по умолчанию: не задан

Если задан этот ключ, индексируется только документы, относящиеся к поддереву, определенному ключом IndexingDirectory. Остальной индекс остается без изменений. Задается без значения.

Пример: OnlySubtreeReindex :

5. Кодировка: Charset

Значение по умолчанию: 0 (MS Windows)

Кодировка, в которой лежат (будут приходить) документы. Документы, относящиеся к одному хосту, должны быть в одной и той же кодировке.

Значения:

  • 0 --- MS Windows
  • 1 --- KOI8-R
  • 2 --- MS DOS
  • 3 --- Mac OS
  • 4 --- ISO-iso_8859-5

6. Пропуск файлов: ExcludeDirectory

Состояние по умолчанию: не задан

Файлы с таким началом имен надо пропускать. Ключ может иметь несколько значений, перечисленных через запятую.

Пример: ExcludeDirectory : /usr/local/www/data/secret/

7. Суффиксы индексируемых файлов: Extensions

Значение по умолчанию: .htm, .html, .shtml.

Суффиксы файлов, которые надо индексировать. Значений ключа может быть несколько, разделенных запятыми. Чтобы проиндексировать все файлы, надо указать пустое значение ключа.

Пример: Extensions : .html, .htm

или

Extensions :

8. Способ получения файлов: HostName

Состояние по умолчанию: не задан

Если этот ключ указан, то документы будут не считываться из файлов, а запрашиваться с HTTP сервера с данным именем.

В общем случае считывание документов из файлов происходит быстрее, чем получение их с сервера. Этот ключ понадобится при настройке, если тексты, хранящиеся в файлах, не совпадают с теми, которые присылает HTTP сервер (например, используются так называемые Server-Side Includes).

Пример: HostName : www..ru

9. Тематические разделы: FolderDirectory

Состояние по умолчанию: не задан

Формат: FolderDirectory : _имя_каталога_ [_имя_раздела_]

Имя каталога, который (включая все подкаталоги) при индексировании будет рассматриваться как часть некоторого тематического раздела _имя_раздела_.

Для исключения подкаталога из раздела надо указать в этом ключе его имя с пустым значением параметра _имя_раздела_. Один каталог может одновременно входить в несколько разделов. Ключ может иметь несколько значений, перечисленных через запятую.

При поиске можно получить полный список документов, относящихся к определенному разделу, задав запрос в виде строки: #subtree=_имя_раздела_.

Пример:

	
FolderDirectory : /usr/local/www/data/arcadia yandex, 
/usr/local/www/data/beseda yandex, 
/usr/local/www/data/beseda telephony, 
/usr/local/www/data/telephony telephony, 
/usr/local/www/data/telephony/test
В этом примере будут созданы два раздела - yandex и telephony, причем подкаталог test каталога telephony будет исключен из раздела telephony

10. Вспомогательный массив: ArraySize

Значение по умолчанию: 250000

При индексации Яндекс создает массив в оперативной памяти, который сортируется и сбрасывается во временные файлы на диске. В конце индексации все эти временные файлы сливаются в окончательный индекс.

На одну единицу Yandex array size приходится примерно 20 байт оперативной памяти. Чем больше этот размер, тем быстрее будет проходить индексация, но пока он расположен в действительно оперативной памяти (то есть не выгружается на диск).

11. Каталог временных файлов: TempDirectory

Значение по умолчанию: /var/tmp

Имя каталога, куда Яндекс складывает временные файлы. Места под временные файлы нужно довольно много.


Руководство по системе Яndex.Site : Настройка системы : Конфигурация (UNIX) : Настройка индексатора
Previous: Запуск индексатора и поискового сервера
Next: Виртуальные хосты (сервера)


  • Главная
  • Новости
  • Новинки
  • Скрипты
  • Форум
  • Ссылки
  • О сайте




  • Emanual.ru – это сайт, посвящённый всем значимым событиям в IT-индустрии: новейшие разработки, уникальные методы и горячие новости! Тонны информации, полезной как для обычных пользователей, так и для самых продвинутых программистов! Интересные обсуждения на актуальные темы и огромная аудитория, которая может быть интересна широкому кругу рекламодателей. У нас вы узнаете всё о компьютерах, базах данных, операционных системах, сетях, инфраструктурах, связях и программированию на популярных языках!
     Copyright © 2001-2024
    Реклама на сайте