Электронные словари стали в наше время одними из самых
популярных программных продуктов и очень успешно конкурируют со своими
традиционными бумажными собратьями. И, в общем-то, это естественно:
подавляющее большинство документов сегодня готовится с помощью
персонального компьютера, да и преимущества мощных средств поиска в
электронных словарях мало кого оставят равнодушными. Правда, в отношении
словарного материала всегда встает вопрос его качества – ведь все
известные сегодня серьезные и популярные традиционные словари являются
плодом многолетней работы профессионалов-лингвистов. На электронных же
словарях за редким исключением никакой информации об авторах материала не
приводится, так что в определенном смысле пользователь приобретает “кота в
мешке”.
На рынке сейчас наибольшей популярностью среди электронных
общелексических словарей пользуются четыре: “Контекст” компании
“Информатик”, “МультиЛекс” компании “МедиаЛингва”, «Lingvo» компании ABBYY
и «Polyglossum» издательского дома “ETS”. Из них только “МультиЛекс” имеет
достоверно известные корни: как написано на его обложке, это электронная
версия известного “Нового Большого Англо-русского словаря” под редакцией
Ю.Д. Апресяна и Медниковой. На остальных происхождение словаря обходится
молчанием. Поэтому мы решили исследовать их, сравнив с, пожалуй, самым
популярным англо-русским словарем, широко известным как “словарь Мюллера”
(“Англо-русский словарь” под редакцией В.К. Мюллера). Для этого мы в
середине июня отправились в один из центральных московских книжных
магазинов “Библио-Глобус” и там приобрели три электронных словаря (данные
приведены с обложки продуктов):
“Polyglossum-II”, большой
англо-русско-английский общелексический словарь (около 600,000 терминов).
Разработчики: Polyglossum Inc. USA и “ETS” Publishing House, Russia.
“Lingvo 5.0”, большой англо-русский
словарь (70,000 статей). Разработчик: BIT Software.
“Контекст 3.51”, профессиональный словарь
общей лексики (около 180,000 слов). Разработчик: АО
“Информатик”.
В качестве эталона был взят том Англо-русского словаря под
редакцией В.К. Мюллера, издание 23-е, стереотипное (около 53,000 словарных
статей), изданный в 1992 году издательством «Русский язык». Как говорят
специалисты, именно на него очень похожи приобретенные нами электронные
словари.
Сразу заметим, что это сравнение носит характер
журналистского расследования, и мы совершенно не претендуем на истину в
последней инстанции. Однако, как нам кажется, такой материал должен помочь
ориентироваться на рынке всем пользователям электронных словарей, особенно
профессиональным переводчикам.
Сравнение словарей
Начать мы решили с того, чтобы определить, действительно
ли в электронных словарях используется англо-русский словарь В. К.
Мюллера, и если да, то в какой мере. Для этого было проведено выборочное
сравнение по следующим параметрам:
словник (английские словарные статьи)
примеры, выражения, использующиеся в статьях
русские переводы статей и примеров
структура словарных статей, состав и порядок следования
значений и примеров
транскрипция слов
Сразу заметим, что со сравнением транскрипций возникли
определенные проблемы: в словаре Polyglossum они просто не приведены,
поэтому и сравнивать было не с чем.
При исследовании словарные статьи разбивались по этим
параметрам на пять групп:
1. Полностью или практически полностью совпадающие со
статьями словаря Мюллера. В эту группу включались словарные статьи,
отличия которых от бумажного эталона заключалось в следующем:
разнесение статей из приложений по алфавиту словаря,
изменение алфавитного порядка статей
показ фрагментов словарных статей словаря как отдельных
статей
объединение или разбивка по разным статьям омонимов
(слов с различным значением и одинаковым написанием)
переименование помет словаря (например, “прил.” на
“adj.”) или их утрата
отсутствие ударений, точек у “ё”, утрата различий между
i с точкой и без, различными начертаниями a в транскрипции.
пропущенные и добавленные знаки препинания
отличия в порядке нумерации значений
раскрытие тильд и скобок
замена дефиса в словах пробелом или слитное
написание
отсутствие артиклей и частицы to перед отдельными
словами
утрата курсива и других стилей оформления текста
2. Незначительно отредактированные – словарные статьи,
имеющие отличия, затрагивающие не более 20% от объема статьи; сохранение
примеров с переводами, добавление синонимов.
3. Существенно отредактированные - все остальные изменения
в статьях
4. Добавленные к тексту словаря статьи
5. Опущенные по сравнению с текстом словаря
статьи
Для сравнения словарных материалов программ и словаря
Мюллера использовались сплошные выборки объемом в один печатный лист
словаря. Для того, чтобы выбранные статьи достаточно полно представляли
общую структуру словарей, страницы для анализа были выбраны случайным
образом (из книги объемом 800 листов были взяты страницы с номерами 96,
200, 333, 666 и 770). В среднем, количество словарных статей на странице
составляет около 70. Так как статьи, взятые для анализа, относятся к
различным частям речи и взяты из разных частей словаря, то на основании их
сравнения вполне можно сделать выводы о степени сходства рассматриваемых
словарей.
В соответствии с практикой, принятой при издании бумажных
словарей, мы считаем, что одна словарная статья включает в себя все
варианты перевода слова, его производные формы и примеры. В словаре
«Polyglossum» как отдельные статьи оформлены не только различные формы
одного слова и устойчивые словосочетания с ним, но и большинство примеров
к этому слову, поэтому для сравнения мы группировали их, считая одной
статьей.
Таблица 1. Результаты сравнения выборок по страницам для
Контекст 3.51
|
стр. 96 |
стр. 200 |
стр. 333 |
стр. 666 |
стр. 770 |
Полное совпадение: |
51 |
74 |
37 |
48 |
43 |
Незначительные изменения: |
6 |
1 |
2 |
0 |
3 |
Существенное редактирование: |
0 |
0 |
0 |
0 |
0 |
Вставки: |
2 |
0 |
0 |
0 |
1 |
Пропуски: |
0 |
3 |
16 |
3 |
3 |
|
86,44 |
94,87 |
67,27 |
94,12 |
86,00 |
Таблица 2. Результаты сравнения выборок по страницам для
Lingvo 5.0
|
стр. 96 |
стр. 200 |
стр. 333 |
стр. 666 |
стр. 770 |
Полное совпадение: |
41 |
58 |
34 |
51 |
47 |
Незначительные изменения: |
17 |
8 |
8 |
0 |
4 |
Существенное редактирование: |
4 |
0 |
0 |
0 |
4 |
Вставки: |
16 |
5 |
5 |
5 |
6 |
Пропуски: |
0 |
10 |
10 |
3 |
1 |
|
52,56 |
71,60 |
59,65 |
86,44 |
75,81 |
Таблица 3. Результаты сравнения выборок по страницам для
Polyglossum-II
|
стр. 96 |
стр. 200 |
стр. 333 |
стр. 666 |
стр. 770 |
Полное совпадение: |
49 |
74 |
38 |
52 |
45 |
Незначительные изменения: |
9 |
2 |
15 |
1 |
3 |
Существенное редактирование: |
1 |
1 |
1 |
1 |
4 |
Вставки: |
9 |
7 |
3 |
2 |
20 |
Пропуски: |
0 |
0 |
1 |
1 |
0 |
|
72,06 |
88,10 |
65,52 |
91,23 |
62,50 |
Как видно, количество статей, полностью совпадающих со
статьями из англо-русского словаря под редакцией В. К. Мюллера или имеющих
незначительные изменения по сравнению с ним, в среднем по выборкам
составляет около 95%, что не может быть признано случайностью.
Число словарных статей в
словарях
Как правило, одним из важнейших факторов при выборе
электронного словаря для неискушенного покупателя является его объем. И у
всех электронных словарей такая цифра гордо приведена на обложке: у Lingvo
это 70 тыс. словарных статей, у «Контекста» 180 тыс., а у Polyglossum аж
600 тысяч (для сравнения: в Новом Большом Англо-Русском словаре под
редакцией Ю.Д. Апресяна и Медниковой, который считается на сегодняшний
день самым большим в мире, всего 250 тыс. слов).
И так как мы уже установили, что исследуемые нами
электронные словари очень похожи на знаменитый словарь Мюллера, то
пользуясь этими данными решили попробовать подсчитать реальное количество
словарных статей в них, пользуясь тем же определением словарной статьи,
которое было приведено выше.
Для оценки общего числа статей в словарях использовался
метод сравнения электронных версий с бумажным изданием В. К. Мюллера, в
котором число статей точно определено (53 тысячи). В каждом словаре
проводилась выборка всех слов, начинающихся с определенной буквы, а затем
полученный список слов сравнивался с печатной версией словаря. Для
достаточно больших выборок мы можем получить хорошее приближение для
общего числа словарных статей в каждом словаре.
Различия в списке слов определялись таким
образом:
полное совпадение: написание слов полностью совпадает в
программе и словаре Мюллера. К случаю полного совпадения слов мы также
отнесем такие отличия:
Разнесение слов (геогр. названия т.п.) и сокращений из
приложений по алфавиту словника
Раскрытие скобок, входящих в написание слова. При этом
два полученных варианта засчитывались как один.
Опущение артиклей и частицы to.
незначительные отличия:
Отличия в регистре букв (прописные, строчные) при
условии, что переводы совпадают.
Разнесение слов из одной статьи словаря в разные
Замена дефиса в слове на пробел или слитное написание
слова при условии, что переводы совпадают.
существенные отличия:
все остальные отличия, среди существенных отличий
выделим пропуски слов и вставки.
Действуя таким образом, мы получили результаты,
приведенные ниже. В таблицах результатов сравнения для каждого словаря
представлены следующие данные:
общее количество слов и выражений в программном словаре
на эту букву (по списку словаря);
количество отдельных статей (указано в скобках);
число полных совпадений со словарем Мюллера;
количество слов с незначительными отличиями;
число добавленных слов;
количество пропущенных статей;
В качестве выборки использовались все словарные статьи,
начинающиеся с ‘y’ и ‘j’. В словаре Мюллера их соответственно 147 и 500.
Контекст 3.51
В “Контекст 3.51” добавлено около 2% слов по сравнению со
словарем Мюллера, а пропущено около 12%. И как видно из приведенной
таблицы, полное или почти полное совпадение словников происходит в 98%
случаев. Заметим, что общий объем исследованных выборок составил около
1.2% от объема словаря Мюллера, что дает основание полагать, что в
профессиональном словаре общей лексики “Контекста” содержится на 8-10%
меньше статей, чем в словаре Мюллера, то есть, около 50 тыс. Это несколько
меньше, чем число, указанное на коробке: 180 тыс. Однако авторы
«Контекста» вполне могли принять за единицу измерения какое-то свое
понимание словарной статьи, например считая отдельно каждое значение
слова. В этом случае приведенные ими данные вполне можно считать
справедливыми.
“Lingvo 5.0”
В “Lingvo” количество статей считается с учетом того, что
выражения внутри них выносятся как отдельные статьи, в то время как в
словаре Мюллера они входят в состав единственной статьи. В этом вопросе
будем придерживаться понимания статьи как набора всех переводов для всех
значений слова, а также его производных форм и выражений. Таким образом
после группировки выражений, получим список статей (в понимании словаря
Мюллера), который и будем сравнивать с печатным вариантом
словаря.
По представленной в таблице выборке (а она составляет
более 1,5% от объема словаря) можно видеть, что в словаре “Lingvo”
используется около 99% словника издания Мюллера (поскольку количество
пропущенных статей меньше 1%) и дополнительно внесено около 20% слов из
других источников. В этом случае объем словаря оценивается в 60-65 тыс.
слов. Число же слов в англо-русском словаре общей лексики, согласно
утверждению разработчиков, около 70,000, что вполне соответствует нашим
оценкам с учетом возможных погрешностей метода подсчета.
“Polyglossum-II”
Заявленный объем словаря “Polyglossum” составляет около
600 тысяч терминов. Это может соответствовать истине только в том случае,
если под отдельной статьей понимать каждый возможный перевод слова,
выделять в отдельные статьи различные формы слова и производные фразы. Так
и происходит: в словаре в качестве отдельных терминов выделяются целые
фрагменты текста из пяти-шести слов – примеры к статьям. Для того, чтобы
иметь объективную оценку числа статей, так же, как и при рассмотрении
“Lingvo 5.0”, мы объединили различные формы слов, разные переводы одного и
того же слова и примеры в одну статью.
То есть, реальное количество статей (а не просто
словосочетаний, представленных как отдельные статьи) примерно в три раза
меньше, чем цифра на обложке компакт-диска, то есть, максимум 200,000
слов. Если учесть, что в это число включены как англо-русский, так и
русско-английский словари, то указанное число снижается до 100 тысяч слов.
По результатам наших выборок отличия от словаря Мюллера заключены в 10%
добавленных слов и 5% пропусков. Соответственно, наиболее вероятное
количество словарных статей реально составляет около 60,000.
|
Контекст |
Lingvo |
Polyglossum |
|
‘y’ |
‘j’ |
‘y’ |
‘j’ |
‘y’ |
‘j’ |
общее количество слов |
130 |
464 |
246 |
730 |
455 |
1104 |
количество статей |
130 |
464 |
198 |
603 |
146 |
553 |
число полных совпадений |
124 (95%) |
445 (96%) |
150 (75%) |
493 (82%) |
122 (83%) |
478 (86%) |
незначительные отличия |
5 (4%) |
8 (2%) |
3 (2%) |
5 (1%) |
2 (2%) |
5 (1%) |
добавлено |
1 (1%) |
11 (2%) |
45 (23%) |
105 (17%) |
12 (8%) |
54 (10%) |
пропущен |
18 (14%) |
47 (10%) |
1 (0%) |
1 (0%) |
10 (7%) |
16 (3%) |
Некоторые выводы об англо-русских электронных
словарях
Итак, мы провели тестирование трех популярных электронных
словарей, продающихся в Москве. Как показало их внимательное рассмотрение,
в общелексической части (специализированные словари мы не рассматривали)
их вполне можно считать идентичными популярному словарю под редакцией
Мюллера, а значит и друг другу. При этом, когда мы обратились в
издательство «Русский Язык», которому принадлежат права на издания словаря
Мюллера, его генеральный директор Ирина Кайнорская нам рассказала, что
права на издание этого словаря в электронном виде никому из разработчиков
описанных словарей не передавались. А переданы они были компании
«МедиаЛингва».
Генеральный директор компании «МедиаЛингва» Игорь Ашманов
по этому поводу сказал следующее: «Издательство “Русский Язык” передало
нам исключительные права на издание многих своих словарей в электронной
форме, в том числе и самого знаменитого англо-русского словаря под ред.
Мюллера. И мы знаем, что многие наши конкуренты используют этот же словарь
в своих электронных словарях, не имея на это права и не платя авторских
отчислений.
Словарь Мюллера был украден в издательстве “Русский Язык”
в 1991 году, когда увольнявшийся сотрудник-программист продавал направо и
налево дискеты с его текстом, и с тех пор компьютерный набор словаря
разошёлся по всей стране. У меня лично нет никаких сомнений, что именно
эту версию и использует большинство наших конкурентов.
Не говоря об очевидных моральных и юридических
обстоятельствах этого дела, мы рассматриваем использование нелицензионных
словарей в первую очередь как недобросовестную конкуренцию, так
как:
во-первых, мы должны платить авторские отчисления
издательствам, а конкуренты этого не делают, то есть могут снижать цены
ниже настоящей себестоимости честного производства и устраивать
демпинг.
Во-вторых, конкуренты, естественно, всячески скрывают факт
использования нелицензионного словаря, для чего видоизменяют его статьи,
удаляют или добавляют материал, завышают число слов, что приводит к обману
покупателей и резкому падению качества словарей – каждому ясно, что вряд
ли в компьютерных фирмах работают лингвисты класса Мюллера или Ахмановой,
которые в состоянии редактировать словари эти знаменитых
авторов.
Мы сейчас рассматриваем вопрос о том, как бороться с
использованием пиратских словарей; это не вполне очевидно, так как
российские суды до сих пор ни разу не рассматривали подобных дел и
прецедентов не существует; однако, мы уверены, что в ближайшие полтора-два
года ситуация с авторскими правами на базы данных существенно улучшится и
нелицензионные словари исчезнут с прилавков».
Обзор подготовил Василий
Буров |