Базы данныхИнтернетКомпьютерыОперационные системыПрограммированиеСетиСвязьРазное
Поиск по сайту:
Подпишись на рассылку:

Назад в раздел

Предъявите Ваши документы

div.main {margin-left: 20pt; margin-right: 20pt} Предъявите Ваши документы
Автор: Андрей Драница, Andrey.Dranitsa@mstu.edu.ru
Опубликовано: 20.03.2002
Оригинал: http://www.softerra.ru/review/util/16806/

Ежечасно в мире рождаются тысячи и тысячи документов, от простых записок, в пару строк длиной, до многостраничных отчетов (об аудио/видео вообще умолчим). Вполне естественно, что вместе с этим лавинообразным ростом объема данных возникает и проблема их систематизации и поиска. Впрочем, если вы создаете не более десятка документов в месяц, всегда осмысленно их именуете и ваша система каталогов хорошо структурирована, то, возможно, вы всегда знаете, где находится тот или иной документ. Если же нет — рано или поздно перед вами встанет проблема поиска необходимого файла. Хорошо, если примерно известны хотя бы его название или местонахождение — тогда можно воспользоваться функцией файлового поиска, входящей в любой мало-мальски приличный файловый менеджер. А если нет, если известно только, о чем данный документ? Тогда остается поочередно открывать все документы подряд… или воспользоваться одной из программ контекстного поиска, позволяющих искать документы по их содержанию, коим и посвящена данная статья.

Условно все программы можно разбить на две большие группы: программы с предварительной индексацией и без нее. Хотя данное деление основано на особенностях функционирования, оно обусловливает сильные и слабые стороны программ и поэтому имеет определенное право на жизнь.


Ищейка

К первой группе относятся Ищейка, ADS, Search32. Как уже ясно из названия, эти программы перед поиском должны проиндексировать все документы, по которым в будущем планируется производить поиск. Преимущество данного подхода заключается в высокой скорости собственно поиска — до нескольких сотен файлов в секунду. Недостатки же являются продолжением достоинств:

перед первым поиском необходимо провести индексацию, что требует времени; требуется довольно много места для индекса — от 20 до 100% от объема индексируемых файлов; возникает проблема актуальности — после изменения, удаления или создания новых файлов индекс перестает в полной мере соответствовать действительности, что, в конечном счете, снижает точность поиска и требует повторной индексации (точнее, обновления индекса).


AVSearch

Программы второй группы (AVSearch, SLEDOPYT), напротив, могут работать сразу, без предварительной подготовки и не требуют дополнительного дискового пространства под индекс, но главным их недостатком является гораздо меньшая скорость. Фактически время поиска примерно соотносится со временем индексирования, что в ряде случаев может нивелировать первый недостаток конкурирующей схемы, к тому же, учитывая стремительный рост емкости жестких дисков, у программ данной категории остается единственное преимущество — стопроцентная точность результатов.


Advanced Document Server

Собственно, исходя из перечисленных достоинств и недостатков, можно указать и те области, где применение той или иной программы целесообразно. Индексирующие системы уместно применять для поиска в статичной информации большого объема — например, в архиве документов, которые не будут изменяться. Проиндексировав его лишь однажды, вы получаете быстрый поиск также со стопроцентной актуальностью результатов. С другой стороны, не индексирующие системы уместны для поиска в небольшом объеме часто изменяемых документов, где время поиска находится в приемлемом диапазоне, а постоянное обновление индекса, необходимое для индексирующих систем, просто нецелесообразно.


Search32

Если отвлечься от принципов работы, то все программы предъявляют схожие системные требования, представляют сходный интерфейс поиска и просмотра его результатов и их отличия, в основном, касаются поддерживаемых форматов, а также расширенных возможностей поиска. Так в SLEDOPYT реализован нечеткий (fuzzy) поиск, позволяющий составлять запрос практически на естественном языке. Search32 включает в себя модуль морфологии Яndex.Dict от CompTek International, что дает возможность поиска с учетом морфологии русского языка. AVSearch поддерживает практически все кодировки, позволяет искать в архивах и является оптимальным инструментом для поиска в текстовых файлах. Ищейку отличает прекрасный файл помощи, выверенный интерфейс, а некоторая ограниченность возможностей объясняется наличием профессиональной версии (правда, уже не бесплатной), в которой сняты все ограничения, имеется поддержка файлов MS Excel, PowerPoint, RTF, возможность подключения плагинов и так далее.


SLEDOPYT

В сводной таблице (таблица откроется в новом окне - прим.ред.) мы собрали основные параметры всех рассмотренных программ. Явного лидера среди них нет, так что пробуйте и выбирайте.




  • Главная
  • Новости
  • Новинки
  • Скрипты
  • Форум
  • Ссылки
  • О сайте




  • Emanual.ru – это сайт, посвящённый всем значимым событиям в IT-индустрии: новейшие разработки, уникальные методы и горячие новости! Тонны информации, полезной как для обычных пользователей, так и для самых продвинутых программистов! Интересные обсуждения на актуальные темы и огромная аудитория, которая может быть интересна широкому кругу рекламодателей. У нас вы узнаете всё о компьютерах, базах данных, операционных системах, сетях, инфраструктурах, связях и программированию на популярных языках!
     Copyright © 2001-2024
    Реклама на сайте