Русский поиск: найдется все?

div.main {margin-left: 20pt; margin-right: 20pt} Русский поиск: найдется все?
Андрей Травин

Интернет — абсолютно децентрализованная система. И если сначала анархия и свобода казались замечательным достижением, то сейчас хаотичность расположения информации зачастую порождает значительные трудности. Тут-то на помощь и приходят поисковые машины.

Справедливости ради надо заметить, что поиск во Всемирной сети был возможен и до появления на свет сегодняшних гигантов вроде AltaVista или Yahoo!. Даже в те далекие годы, когда не существовало самой WWW, одним из основных сервисов Интернет был Gopher. Эта система кажется сейчас чрезвычайно неудобной с практической точки зрения (впрочем, на наш взгляд, ни одна из первых Интернет-служб не могла похвастаться ни простотой принципа работы, ни хотя бы интерфейсом). Однако со своими обязанностями Gopher более-менее справлялся, да и что было еще делать посетителям Сети, в которой напрочь отсутствовали индексные каталоги? Ведь уже в те времена объем многочисленных ftp-хранилищ измерялся гигабайтами самой разнообразной информации.

Появление WWW, наиболее динамично развивающегося сегмента Интернет, поставило создателей Сети перед острой необходимостью внедрить новые механизмы поиска. Во-первых, получивший всемирную популярность http-протокол привел к резкому темпу роста хостов. Если раньше искать нужное слово надо было среди тысяч серверов, то за несколько лет их число уже выросло до миллионов. Во-вторых, изменилась номенклатура публикуемых в Интернете материалов. Раньше люди стремились найти обычный текстовый документ, а сегодня это может быть как просто строка на странице, так и мультимедийный файл. Наконец, огромное значение в становлении современных поисковых систем имеет и третий фактор: еще десять лет назад пользователями Всемирной сети был узкий круг специалистов, хорошо знакомых с ее устройством. А вот уже к середине 1990-х гг. в Интернет мог попасть любой желающий, зачастую обладающий минимальными навыками работы на компьютере вообще, не говоря уже о сетевых средах… Владельцы же вновь открытых серверов, создатели личных и корпоративных страниц хотели именно того, чтобы их потенциальные посетители не теряли лишнее время на поиск и имели возможность за несколько минут локализовать действительно интересующие их адреса.

Google первая использовала предельно аскетичный дизайн для своей поисковой машины, позже подобные облегченные страницы создали «Яндекс» и «Апорт».

Так началась эра поисковых служб. В начале 1994 г. открылся WebCrawler, чуть позже — Lycos, а в конце того же года первых посетителей принял сервер Yahoo!. На следующий год список пополнился службами Infoseek, Excite и AltaVista. С 1996 г. работает Hotbot, с 1997 г. — Ask Jeeves. Пользующийся сегодня огромной популярностью сервер Google открылся годом позже. Когда стало ясно, что количество поисковых служб будет расти и дальше, а на один и тот же запрос они будут давать различные ответы, возникла идея так называемых «механизмов метапоиска» (metasearch engines). Смысл их заключается в том, что человек вводит свою строку запроса в специальную про-грамму-оболочку, которая переадресует ее одновременно нескольким различным серверам. В результате асинхронного поиска не только увеличивается количество корректных ответов, но и снижается доля ошибок.

Общей тенденцией сегодня является объединение служб каталогов с поисковым механизмом, зачастую в рамках одного экрана. Таким образом, посетитель может сам выбирать, что для него важнее в данном случае. Впрочем, это можно объяснить и стремлением компаний, которым принадлежат поисковики, превратить их в Интернет-порталы (и тем самым еще более повысить количество посещений в день). Зачастую в рекламных целях на таком сервере вы найдете массу бесплатных услуг — от открытия почтового ящика до сводки новостей или прогноза погоды в вашем регионе. Хотя основной интерес пользователей — строковые запросы.

При запросе «Волки» выдается сайт 7wolf, который не содержит ни одной страницы про волков, но имеет данное слово в названии своего домена. Впрочем, весовой коэффициент для этого условия не главный, поэтому данный сайт всплывает только 76-м в выдаче результатов.

Но это сейчас, а вот пять лет назад еще не было очевидно, что же является лучшим решением для поиска в Интернете — каталоги-классификаторы или поисковые машины. Звучали даже предостережения, что ни те ни другие не станут масштабируемыми сервисами и «захлебнутся» при быстром росте Сети. Сейчас же стало очевидно (например, на основании отчетов SpyLOG/глобальная статистика), что:

Все равно ничего лучше поисковых машин не придумано. Значение каталогов даже в условиях их интеграции с поисковыми машинами неуклонно снижается (особенно в русском Интернете, где так и не удалось сделать «русский Yahoo!» и где вклад каталогов в генерацию трафика в два раза меньше, чем у поисковиков). Три российские поисковые машины — «Яндекс», «Рамблер» и «Апорт» — выносят основной груз поисковых запросов на русские сайты.

Правда, в июньском отчете SpyLOG выяснилось, что доля американской машины Google в русском поиске поднялась до 14%. Так что в Рунете теперь четыре поисковика, не считая новичков этого год.а

Все наши поисковые системы возникли независимо друг от друга, и в результате у каждой есть свои «изюминки».

Рамблер

Поисковая машина «Рамблер» начала работу в октябре 1996 г., а весной 2001 г. была запущена ее вторая версия. Теперь она учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется рейтинг Rambler Top100, группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет поисковику «Рамблера» обходиться в два раза меньшим количеством серверов, чем у «Яндекса», и в три раза меньшим, чем у «Апорта».

Запрос по адресу в «Рамблере» обрабатывается несколько отличным образом, чем в других поисковиках: ресурс сначала ищется в рейтингах Rambler Top100 и Rambler TopShop.

«Робот-паук» этой машины производит индексирование новостных ресурсов пять раз в день, сайтов, входящих в Top100,— один раз в день, а все прочие страницы — не чаще чем один раз в две недели. «Рамблер» не индексирует личные странички, находящиеся на публичных зарубежных серверах (http://www.geocities.com/, http://www.%20tripod.com/), а аналогичные отечественные сайты (http://www.narod.ru/, http://www.boom.ru/) обходит гораздо медленнее, чем другие ресурсы. Поскольку попасть в ранг новостных сайтов не так просто, то наиболее продуктивным способом быстрого отображения личных страниц в поисковой машине «Рамблера» станет размещение на персональном Web-узле счетчика Top100. К тому же в рейтинг Top100 можно вносить подробные аннотации объемом до 4 Кбайт, которые индексируются и заносятся в поисковую машину в качестве ключевых слов.

Апорт

Поисковая машина «Апорт» была продемонстрирована в первой половине 1996 г. Однако довольно продолжительное время работала практически в тестовом варианте, так что официальная презентация «Апорта» состоялась только в ноябре 1997 г. Но уже в октябре 1999 г. была представлена принципиально новая поисковая машина «Апорт 2000», полностью интегрированная с каталогом AtRus — ныне «Каталог-Апорт».

Именно она и стала первым русским поисковиком, построенным на основе выдачи отдельно взятых сайтов. Для разделения ресурсов требуется информация, которую «Апорту» предоставляет «Каталог-Апорт», или же сведения, введенные в систему владельцами сайтов (адрес, описание, категория).

Иллюстрации обработки запроса типа «Как сделать?»: «Яндекс» «сознательно» пытается в первую очередь выдать FAQ «ЧаВо» или «Ответы на часто встречающиеся вопросы», или иной справочный документ. «Апорт» обрабатывает запрос обычным образом. Результаты в данном примере получаются аналогичными.

«Апорт 2000» стал первой российской поисковой машиной, практически реализовавшей две базовые технологии американской поисковой машины Google.

Первая — учет «ранга страницы» (Page Rank), который характеризует ее популярность и вычисляется по количеству ссылок на ресурс из внешнего Интернета. Обработка запроса ориентирована на гипертекстовую структуру WWW. Page Rank учитывается с весовыми коэффициентами: вес ссылки с популярного ресурса выше, чем с менее популярного.

Вторая — обработка запроса с ориентацией на HTML-код страницы «Апорт 2000» учитывает также и вхождение слов запроса в URL.

Еще на этапе разработки «Апорта 2000» в него были заложены «крючочки», позволяющие корректировать приоритеты в выдаче результатов с учетом посещаемости сайтов по счетчику Aport Top 1000 (в то время называвшийся RankeR), но эта возможность до сих пор не активирована. Еще одно бесспорное достоинство данной системы — предоставление платных нулевых строк при выводе результатов поиска.

«Апорт 2000» имеет масштабируемую архитектуру: можно дробить его поисковую базу на несколько отдельных, каждая из которых будет работать на своем компьютере. Поисковик считает, что весь Интернет поделен на фрагменты. После проведения поиска по этим частям интегрируется и выдается общий ответ. В случае аварий отдельных машин возможно получение несколько отличных от штатных интегральных результатов, что мы время от времени и наблюдаем.

Яндекс

В 1996 г. компанией CompTek было официально объявлено о существовании «Яндекса» — в то время еще морфологической приставки к AltaVista, уже тогда отличавшейся быстродействием и умением строить гипотезы.

23 сентября 1997 г. «Яндекс» стал Интернет-проектом. Релевантность документов вычислялась в зависимости от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т. д. Вторая версия системы появилась 6 июня 2000 г. Для запросов на естественном языке в него был встроен синтаксический анализ.

Пример понимания «Яндексом» альтернативной лексики. «Живой журнал» — ставшее общепринятым в 2001 г. жаргонное название сайта LiveJournal, предназначенного для ведения личных дневников.

Нынешняя версия функционирует с 23 мая 2001 г. Ее главное отличие — вычисление ранга страниц и его учет при выдаче результатов поиска. Другие нововведения относятся главным образом к переформулированию системой запросов. Например, «что такое полисемичность» преобразуется в «полисемичность — это…». Вообще все запросы система пытается классифицировать по одному из трех типов: информационный (требуется поиск в текстах), навигационный (поиск в ссылках, в каталоге) и транзакционный (типа «купить принтер по лучшей цене») и выдает результаты с учетом этой классификации. Новый «Яндекс» стал также «понимать» жаргонные выражения. Теперь в нем даже по запросу «мастдай» легко найти сайт Microsoft.

Web-мастеру на заметку

«Позиционирование в поисковой системе» — термин, обозначающий комплекс мероприятий, направленных на улучшение позиции ссылки на сайт в списке ответов поисковой системы.

В целях борьбы со спамом индексов создатели поисковых машин придумали множество программных механизмов. Семантический образ спаммера (обязательно включающий набор «халява, порно, реферат…») неплохо распознается и «вычесывается» из систем еще на этапе индексирования. Поисковики легко распознают ситуацию, когда фразы, специально вводящие в заблуждение систему, пишутся цветом фона.

«Рамблер» индексирует частные странички на сайтах бесплатного хостинга, но с наименьшим приоритетом.

«Апорт» и «Яндекс» в отличие от «Рамблер» и Google индексируют и используют ключевые слова и описания в инструкции «meta», предполагая, что там окажется скорее правильная информация, чем заведомо ложная, призванная лишь поднять популярность страницы в списке результатов поиска. Но борьба со спамом производится и в этом случае — с помощью интеллектуальных методик. Поэтому, скажем, простым повторением в метатеге слова «Линукс» не добьешься приоритета страницы при подобном запросе.

Реконструкция документов и перевод на иностранный язык

«Апорт» обладает одной уникальной возможностью, которой нет ни у одной российской системы, да и в мире этим могут «похвастаться» одна-две поисковые машины. Суть ее в том, что пользователь может восстановить полный текст найденного документа, не обращаясь к его оригиналу в Интернете.

В момент формирования странички с результатами поиска «Апорт» для каждого документа приводит цитату, содержащую слова запроса. Таким образом, в отличие от множества прочих поисковых систем, выдаются не первые строки документа, а только те фрагменты текста, которые имеют прямое отношение к запросу. Кстати, взяты они могут быть из любых мест документа, поскольку у «Апорта» хранится полный текст. Такое осмысленное цитирование позволяет понять, насколько интересен данный текст.

Поисковая машина Lycos в настоящее время использует движок норвежской фирмы Fast. «Нарциссический запрос» (собственные имя и фамилия) очень удобен для того, чтобы оценить возможности незнакомой поисковой системы.

Возможна также ситуация, когда найдена ссылка на документ, который уже успел исчезнуть из Интернета. «Апорт» же позволяет реконструировать полный текст такого документа. Он, правда, выдается без картинок и форматирования, но в большинстве случаев этого вполне достаточно, чтобы получить необходимую информацию.

Наконец, полная реконструкция текста «Апортом» позволяет осуществлять перевод Интернет-страниц с одного языка на другой. Уникальной возможностью системы является перевод запроса и результатов поиска с русского на английский и наоборот (по технологии компании «ПроМТ»). Конечно, эта функция полезна в первую очередь иностранцам, работающим в русскоязычном Интернете. Благодаря «Апорту» они могут осуществлять поиск, не зная ни слова по-русски (запрос переводится с английского на русский, производится поиск, а результаты переводятся обратно на английский). Однако при переходе по ссылке на оригинал найденного документа пользователь получает его, как правило, на языке оригинала. Вот тут-то снова пригодится реконструкция, которая переводится «Апортом» с помощью привязанного к рубрике набора словарей. Попробовать поисковую систему в качестве точки входа в «переведенный» Интернет можно, зайдя на страничку расширенного поиска.

В поисковике «Lycos» первым на запрос «Травин» выдается владелец соответствующего домена, несмотря на то, что индекс цитирования данного сайта крайне низок.

Отметим, что «Яндекс», где посетителю тоже выдается фрагмент текста с подсветкой искомых слов, делает реконструкцию несколько обманным способом. Нажав на «большую» ссылку, вы попадаете не на оригинальный сайт, а на другую страницу «Яндекса», куда подкачивается в реальном времени «кусок» документа с внешнего сайта.

Разработчики «Рамблера» обещают появление реконструкции в своей системе к концу 2001 г.

«Пауки» и «русский поиск»

Если кто не знает, «паук» — многопоточное приложение, умеющее одновременно «общаться» с сотней серверов, понемногу выжимая информацию из них. Робот накапливает данные в кэше на жестком диске, после чего она индексируется. Это общепринятый алгоритм. Отличия между системами выражаются, например, в том, как поисковый робот обрабатывает фреймы.

Многие нынешние «пауки» (включая «Яндекс» и «Апорт») индексируют подписи к изображениям, в результате чего стало возможным осуществлять поиск картинок.

Роботы «Апорта» и «Рамблера», как и большинство «пауков» других поисковых машин, по умолчанию не идут на динамические страницы, содержащие в адресах вопросительный знак. Это сделано из соображений безопасности, т. к. такие страницы часто приводят к зацикливанию «паука». Однако если разработчики «Апорта» получают специальное уведомление от Web-мастера о нормальном функционировании подобного сайта, то ему вручную разрешают индексирование.

Релевантные, по мнению системы, сведения из каталога «Яндекса» выдаются при необходимости над списком результатов поиска (эта особенность только последней версии «Яндекса»).

«Яндекс» индексирует динамические страницы автоматически, что и позволяет ему охватывать Рунет с максимальной полнотой. Однако за это система расплачивается сильной «замусоренностью» базы.

Планируя начать индексацию динамических страниц, разработчики «Рамблера» на примере своих коллег изучают не только последствия подобного шага, но и методики, с помощью которых можно будет спастись от захламления и чрезмерного разрастания базы.

У «паука» «Яндекса» начиная со второй версии предусмотрена связь с программой поиска Яndex.Site, установленной на сотнях российских серверов. Теперь по желанию хозяина сайта Яndex.Site сможет автоматически сообщать роботу обо всех изменениях на сервере, что ускоряет индексацию сайта и освобождает сервер и робота от лишней нагрузки.

На соревнованиях на Кубок поиска, проводимых «Яндексом», в судейскую бригаду были приглашены создатели трех наиболее популярных российских поисковых машин — Евгений Киреев, Дмитрий Крюков (за кадром) и Илья Сегалович.

Если заглянуть в будущее российских поисковых систем, становится очевидно, что новичкам выйти на этот рынок будет довольно сложно, значительно сложнее, чем на рынок счетчиков. Иллюстрацией этому уже сейчас служат такие проекты, как Lupa.ru и Punto, которые, хотя и стартовали, со своими обязанностями справляются пока крайне слабо. Лидерство описанных в статье поисковых машин определяется сложными технологиями, полнотой базы, большим парком компьютеров и сформировавшимися привычками пользователей. В то же время они страдают одним большим недостатком — «замусоренностью» своих баз данных, и для решения этой проблемы, возможно, в один прекрасный день придется проиндексировать русскую часть Интернета практически заново.

Назад в раздел

Emanual.ru – это сайт, посвящённый всем значимым событиям в IT-индустрии: новейшие разработки, уникальные методы и горячие новости! Тонны информации, полезной как для обычных пользователей, так и для самых продвинутых программистов! Интересные обсуждения на актуальные темы и огромная аудитория, которая может быть интересна широкому кругу рекламодателей. У нас вы узнаете всё о компьютерах, базах данных, операционных системах, сетях, инфраструктурах, связях и программированию на популярных языках!