div.main {margin-left: 20pt; margin-right: 20pt}
Предъявите Ваши документы Автор: Андрей Драница, Andrey.Dranitsa@mstu.edu.ru Опубликовано:
20.03.2002 Оригинал: http://www.softerra.ru/review/util/16806/
Ежечасно в мире рождаются тысячи и тысячи
документов, от простых записок, в пару строк длиной, до многостраничных отчетов
(об аудио/видео вообще умолчим). Вполне естественно, что вместе с этим
лавинообразным ростом объема данных возникает и проблема их систематизации и
поиска. Впрочем, если вы создаете не более десятка документов в месяц, всегда
осмысленно их именуете и ваша система каталогов хорошо структурирована, то,
возможно, вы всегда знаете, где находится тот или иной документ. Если же
нет — рано или поздно перед вами встанет проблема поиска необходимого
файла. Хорошо, если примерно известны хотя бы его название или
местонахождение — тогда можно воспользоваться функцией файлового
поиска, входящей в любой мало-мальски приличный файловый менеджер. А если нет,
если известно только, о чем данный документ? Тогда остается поочередно открывать
все документы подряд… или воспользоваться одной из программ контекстного поиска,
позволяющих искать документы по их содержанию, коим и посвящена данная
статья.
Условно все программы можно разбить на две
большие группы: программы с предварительной индексацией и без нее. Хотя данное
деление основано на особенностях функционирования, оно обусловливает сильные и
слабые стороны программ и поэтому имеет определенное право на жизнь.
Ищейка
К первой группе относятся Ищейка, ADS, Search32.
Как уже ясно из названия, эти программы перед поиском должны проиндексировать
все документы, по которым в будущем планируется производить поиск. Преимущество
данного подхода заключается в высокой скорости собственно поиска — до
нескольких сотен файлов в секунду. Недостатки же являются продолжением
достоинств:
перед первым поиском необходимо провести индексацию, что требует времени;
требуется довольно много места для индекса — от 20 до 100% от
объема индексируемых файлов;
возникает проблема актуальности — после изменения, удаления или
создания новых файлов индекс перестает в полной мере соответствовать
действительности, что, в конечном счете, снижает точность поиска и требует
повторной индексации (точнее, обновления индекса).
AVSearch
Программы второй группы (AVSearch, SLEDOPYT),
напротив, могут работать сразу, без предварительной подготовки и не требуют
дополнительного дискового пространства под индекс, но главным их недостатком
является гораздо меньшая скорость. Фактически время поиска примерно соотносится
со временем индексирования, что в ряде случаев может нивелировать первый
недостаток конкурирующей схемы, к тому же, учитывая стремительный рост емкости
жестких дисков, у программ данной категории остается единственное
преимущество — стопроцентная точность результатов.
Advanced Document Server
Собственно, исходя из перечисленных достоинств и
недостатков, можно указать и те области, где применение той или иной программы
целесообразно. Индексирующие системы уместно применять для поиска в статичной
информации большого объема — например, в архиве документов, которые не
будут изменяться. Проиндексировав его лишь однажды, вы получаете быстрый поиск
также со стопроцентной актуальностью результатов. С другой стороны, не
индексирующие системы уместны для поиска в небольшом объеме часто изменяемых
документов, где время поиска находится в приемлемом диапазоне, а постоянное
обновление индекса, необходимое для индексирующих систем, просто
нецелесообразно.
Search32
Если отвлечься от принципов работы, то все
программы предъявляют схожие системные требования, представляют сходный
интерфейс поиска и просмотра его результатов и их отличия, в основном, касаются
поддерживаемых форматов, а также расширенных возможностей поиска. Так в SLEDOPYT
реализован нечеткий (fuzzy) поиск, позволяющий составлять запрос практически на
естественном языке. Search32 включает в себя модуль морфологии Яndex.Dict от
CompTek International, что дает возможность поиска с учетом морфологии русского
языка. AVSearch поддерживает практически все кодировки, позволяет искать в
архивах и является оптимальным инструментом для поиска в текстовых файлах.
Ищейку отличает прекрасный файл помощи, выверенный интерфейс, а некоторая
ограниченность возможностей объясняется наличием профессиональной версии
(правда, уже не бесплатной), в которой сняты все ограничения, имеется поддержка
файлов MS Excel, PowerPoint, RTF, возможность подключения плагинов и так
далее.
SLEDOPYT
В сводной таблице (таблица откроется в новом окне -
прим.ред.) мы собрали основные параметры всех рассмотренных программ.
Явного лидера среди них нет, так что пробуйте и выбирайте.
|