div.main {margin-left: 20pt; margin-right: 20pt}
История Интернета: первый
поисковик в Сети
В конце 80-х еще не было World Wide Web. В те времена информация
передавалась с одного компьютера на другой по FTP, или протоколу передачи
файлов (file transfer protocol). FTP — это текстовый предок Web. Обмен файлами
представлял собой следующую процедуру: вы закачиваете имеющуюся у вас игрушку
(например, в виде game.zip) на ftp-сервер, сообщаете друзьям по email'у о
ftp-адресе, где вы игру оставили; друзья с помощью ftp-клиента обращаются по
указанному адресу к ftp-серверу, получают с него список файлов в данной
директории и, наконец-то, закачивают game.zip себе на локальный
компьютер.
Просто, да? Тут выявляется еще одна проблема: не знающий
адреса game.zip игру никак не сможет найти, даже если очень захочет. В те
древние времена уже существовали конференции, новостные группы, и ftp-юзеры
вывешивали объявления типа "пацаны, помогите плиз найти monro909.bmp!" или
"где взять драйвера к...?". Но потом появилась ARCHIE. И многое
изменилось. Для справки. ARCHIE — это база данных содержимого анонимных
ftp-серверов. Программа для этой БД была написана Archie Group в университете
McGill (Монреаль, Канада). ARCHIE хранит пути к файлам большого количества
анонимных ftp-серверов. Чтобы история ARCHIE попала к вам из первых рук, я
написал три email'а: Алану Имтэджу (Alan Emtage), Питеру Дойчу (Peter Deutsch)
и Биллу Хилану (Bill Heelan). Они — три создателя ARCHIE, та самая Archie
Group. Ответил только один, зато очень качественно и скромно,
извиняясь за долгий reply. Интервью (назавем это так) с Биллом Хиланом (Bill)
я (Kolm) буду дополнять цитатами из статьи П.Дойча (Peter) "ARCHIE —
эволюционная теория Дарвина" ( http://www.computer.org/internet/v4n1/deutsch.htm
).
История первого поискового сервиса
Kolm: Первое,
что я бы хотел узнать, так это о том времени, когда Вы, Алан и Питер создали
свою программу. Насколько я знаю, вы все были студентами университета McGill,
что в Монреале.
Bill: На самом деле, Питер и Алан были аспирантами
и одновременно работали на факультете компьютерных исследований. А я только
работал на факультете, учась в Университете Консордии (то же в
Монреале). Peter: "Зерна ARHIE были засеяны в 1987 году, когда нас
попросили изучить возможность подключения факультета компьютерных исследований
к Интернету... Интернет почти целиком был населен инженерами и
учеными-информатиками, и мы были уверены, что доступ туда окажется для нас
очень полезным".
Kolm: Работа над ARHIE началась как какая-то
программа университета или ваша личная инициатива?
Bill: В то
время, когда она была создана, она не имела ничего общего с McGill, кроме
того, что мы учились и/или работали там. Вскоре после ее создания, однако, она
послужила тезисами диссертации Алана, в этом смысле ARCHIE имела отношение к
университету.
Kolm: Расскажите теперь, пожалуйста, немного о самом
процессе создания программы.
Bill: В то время, когда ARCHIE была
впервые разработана, я работал сисадмином и программистом на кафедре
компьютерных исследований (я никогда не был студентом университета McGill).
Алан Имтэдж и Питер Дойч, как я уже говорил, были аспирантами и тоже работали
на кафедре, а Питер ко всему был нашим боссом (т.е. старшим
сисадмином). Питер часто помещал объявления в группах новостей о
помощи в поисках различных программ, отвечал людям на их запросы, роясь в
листингах ftp-серверов, которые хранились на наших компьютерах. (Я не помню,
он или Алан обслуживали листинги.) Это была целая директория листингов с
популярных в то время ftp-серверов. Люди начали спрашивать, где они сами могут
найти эти списки. Вместо того, чтобы дать людям возможность иметь собственные
копии, Питер решил предоставить сервис на основе telnet. Peter: "В 1989
году была дюжина архивных мест в Интернете. Один из моих подчиненных, Алан
Имсэдж, изучал расположение и содержание этих мест. Когда была необходима
определенная информация, Алан, наша резидентская крыса, внедрялся в эти
списки... Информатика определена как "искусство снижения нажатий клавиш".
Имтэдж написал простой сценарий, чтобы автоматизировать задачу внедрения в
листинги на ftp-серверах, которые затем переносились в локальные файлы. А уже
потом в локальных файлах осуществлялся быстрый поиск необходимой информации,
поиск основывался на стандартной grep-команде Unix (команда поиска в файлах —
kolm). Сначала я упомянул свои возможности поиска файлов в Usenet и был
завален просьбами людей ищущих информацию... Собранная Аланом информация была
слишком объемной, чтобы распространяться каждому вопрошавшему, поэтому я решил
организовать доступ к нашим данным на основе telnet. Я доверил это Алану и
Биллу Хилану, другому члену моей группы. В этот момент ARCHIE
родилась". Bill: Я полагаю, я написал первую версию ARCHIE, которая просто
позволяла людям входить в специальный аккаунт и указать в обычных выражения,
что нужно найти. По существу, запускалась grep-комманда UNIX, которая работала
с необработанными листингами с сайтов. Это стало достаточно популярно для
того, чтобы вылиться во что-то большее. Мы решили обработать листинги,
привести данные к более эффективному представлению. Мы разбили данные на
отдельные базы, одна из которых содержала только текстовые названия файлов; а
другая — записи со ссылками на иерархические директории тысячи хостов; и еще
одна, соединяющая первые две. Несмотря на это, поиск все еще производился
линейно по именам файлов: от элемента к элементу. Но эта версия ARCHIE была
эффективней предыдущей, так как поиск производился только по именам файлов,
исключая множество существующих ранее повторов. Я верю, что эта версия
послужила основой тезисов диссертации Алана. Peter: "Началось с тридцати
посещений в день, потом у нас было тридцать запросов в час, потом — в
минуту... Трафик продолжал расти, в один прекрасный день половина трафика в
сторону Монреаля направлялась уже на университетскую машину с ARCHIE. Тогда мы
поняли: настало время придумать механизм управления ростом". Bill: Со
временем были сделаны многие доработки, однако, с моей точки зрения, следующая
основная версия ARCHIE была интересна больше с технической стороны. Упомянутая
выше база данных была заменена на другую, основанную на теории сжатого дерева
(compressed tries, структура построения баз данных с цифровым ключом,
предназначенным для организации и поиска данных — kolm), описанной в черновой
версии докторских тезисов Хепинга Шанга (Heping Shang), в то время студента
McGill. Это было осуществлено в компании Bunyip Information Systems, так
называемой Archie Group, которая состояла из Биби Али (Bibi Ali), Сандро
Маццукато (Sandro Mazzucato) и меня. (Bunyip был создан частично для получения
дивидендов с ARCHIE.) Новая версия по существу создала полнотекстную базу
данных вместо списка имен файлов и была значительно быстрее, чем раньше. В
дополнение, второстепенные изменения позволили системе ARCHIE индексировать
web-страницы. К сожалению, по различным причинам, работа над ARCHIE вскоре
прекратилась, поэтому мы никогда не узнаем, как бы она соперничала с
современными поисковыми web-системами. При дальнейшем развитии, нам казалось,
что ARHIE запросто бы справилась.:)
Kolm: Значит вы работали над
ARHIE ни где-нибудь в трейлере за 5 баксов в месяц, а сидя в кабинетах
университета?
Bill: Да, вся работа над первой основной версией
велась в McGill. Позже Питер и Алан перешли с кафедры компьютерных
исследований в компьютерный центр, в то время как я остался там, где и был.
Работа над ARCHIE в то время продолжалась. В конце концов Питер и Алан
основали Bunyip Information Systems, с некоторыми инвестициями от McGill. Я
присоединился к Bunyip вскоре после ее создания.
Kolm: С
последовательностью создания и эволюцией идеи разобрались. Но все же, по
Вашему, кто был непосредственным изобретателем, автором этой самой
идеи?
Bill: Если нужно выделить одного человека, то я бы сказал,
что это Питер. Я уверен, что это у него появилась идея создания аккаунта, для
того чтобы другие могли осуществлять поиск в наших списках, т.е. Питер
предложил идею предоставить поисковый сервис.
Kolm: Между прочим,
интересно было бы услышать, на каких компьютерах Вы работали над
ARCHIE?
Bill: Я не помню достаточно точно такие детали. Я думаю,
что начальная работа в Школе информатики в McGill, возможно, была сделана на
Sun 4/280 (одна из первых SPARC машин Sun), может быть даже 3/280 (ранние
машины Motorola). Позже сервер Школы переместился на IBM RS6000 под AIX. После
создания Bunyip, компьютерный центр McGill перешел на services.bunyip.com,
также известный как archie.mcgill.ca. Я думаю, это были Sun Sparcstation 20,
на операционных системах SunOS 4.x и AIX. Нам не очень нравилось работать с
AIX и RS6000, да я и не думаю, что кому-то вообще нравилось когда-нибудь их
поддерживать. В McGill работа была сделана независимо от конфигурации
доступных нам рабочих станций (например, Sun 4), в Bunyip мы работали на
машинах подобных Sparcstation 1, 2 и 5. Ни McGill, ни Bunyip не могли себе
позволить тратить много денег на дорогие компьютеры.
Чем занимаются
в Америке бывшие аспиранты, ставшие серьезными
программистами
Kolm: Теперь давайте поговорим о Вас. В целом,
ARCHIE сделала Вас достаточно известным. В связи с этим хотелось бы знать, чем
Вы занимаетесь сейчас? Над какими проектами трудитесь, что
программируете?
Bill: Я не согласился бы с тем, что ARCHIE сделала
меня известным. Да, услуга была популярной и известной в свое время, но рост
Интернета изменяет взгляд на некоторые вещи очень быстро. Я могу только
догадываться, как много людей стали пользоваться Интернетом с подачи ARCHIE, с
тех времен, когда ARCHIE была в зените своей славы. После McGill я пошел в
Bunyip продолжать работу над ARCHIE и проработал там четыре или пять лет.
После ухода из Bunyip я работал на несколько компаний, три с половиной года
назад я устроился в Zero-Knowledge Systems ( http://www.zeroknowledge.com/ ). В
ZKS я был в составе первой нанятой группы разработчиков и работал над
серверным компонентом системы "Свободы" (Freedom system, об этой системе много
пишут и у нас, например, в КГ №45(337)'01 — kolm), работавшей под Linux и
Solaris, также я работал над клиентскими библиотеками, работавшими в основном
под Windows. В основном же я входил в группу безопасности, которая была
ответственной за шифровальные аспекты программного обеспечения. Основная
сеть “Свободы” анонимных прокси-серверов (AIP) недавно стала недоступной, но
была создана новая услуга для ее замены, она называется WebSecure. (Посмотрите
http://www.freedom.net/products/websecure/index.html?product=websecure,
если вам интересно.) В настоящее время над этой системой я и
работаю. Интересно, что в тех различных местах, где я работал, мне
посчастливилось быть вместе с моими друзьями из McGill. Например, я начал
работать в ZKS вместе с тремя людьми, с которыми я прежде работал либо в
McGill, либо в Bunyip.
Вот и вся история одной программы, которая, по
словам одного американского журналиста, "перевернула представления о поиске
информации в Интернете". Пообщавшись с Биллом, я посожалел о том, что времена
зарождения и начального развития Интернета прошли мимо нас. Ну, разве только
слегка задели.
kolm A.Kryvenia & Nika kolmkolm@mail.ru
|