14 декабря 2019 года    
Суббота | 08:49    
Главная
 Новости
Базы данных
Безопасность PC
Всё о компьютерах
Графика и дизайн
Интернет-технологии
Мобильные устройства
Операционные системы
Программирование
Программы
Связь
Сети
 Документация
Статьи
Самоучители
 Общение
Форум







Разделы / Всё о компьютерах / Другие

Как и из чего готовят электронные словари...

  Как и из чего готовят электронные словари...

Электронные словари стали в наше время одними из самых популярных программных продуктов и очень успешно конкурируют со своими традиционными бумажными собратьями. И, в общем-то, это естественно: подавляющее большинство документов сегодня готовится с помощью персонального компьютера, да и преимущества мощных средств поиска в электронных словарях мало кого оставят равнодушными. Правда, в отношении словарного материала всегда встает вопрос его качества – ведь все известные сегодня серьезные и популярные традиционные словари являются плодом многолетней работы профессионалов-лингвистов. На электронных же словарях за редким исключением никакой информации об авторах материала не приводится, так что в определенном смысле пользователь приобретает “кота в мешке”.

На рынке сейчас наибольшей популярностью среди электронных общелексических словарей пользуются четыре: “Контекст” компании “Информатик”, “МультиЛекс” компании “МедиаЛингва”, «Lingvo» компании ABBYY и «Polyglossum» издательского дома “ETS”. Из них только “МультиЛекс” имеет достоверно известные корни: как написано на его обложке, это электронная версия известного “Нового Большого Англо-русского словаря” под редакцией Ю.Д. Апресяна и Медниковой. На остальных происхождение словаря обходится молчанием. Поэтому мы решили исследовать их, сравнив с, пожалуй, самым популярным англо-русским словарем, широко известным как “словарь Мюллера” (“Англо-русский словарь” под редакцией В.К. Мюллера). Для этого мы в середине июня отправились в один из центральных московских книжных магазинов “Библио-Глобус” и там приобрели три электронных словаря (данные приведены с обложки продуктов):

Polyglossum-II”, большой англо-русско-английский общелексический словарь (около 600,000 терминов). Разработчики: Polyglossum Inc. USA и “ETS” Publishing House, Russia.

Lingvo 5.0”, большой англо-русский словарь (70,000 статей). Разработчик: BIT Software.

Контекст 3.51”, профессиональный словарь общей лексики (около 180,000 слов). Разработчик: АО “Информатик”.

В качестве эталона был взят том Англо-русского словаря под редакцией В.К. Мюллера, издание 23-е, стереотипное (около 53,000 словарных статей), изданный в 1992 году издательством «Русский язык». Как говорят специалисты, именно на него очень похожи приобретенные нами электронные словари.

Сразу заметим, что это сравнение носит характер журналистского расследования, и мы совершенно не претендуем на истину в последней инстанции. Однако, как нам кажется, такой материал должен помочь ориентироваться на рынке всем пользователям электронных словарей, особенно профессиональным переводчикам.

Сравнение словарей

Начать мы решили с того, чтобы определить, действительно ли в электронных словарях используется англо-русский словарь В. К. Мюллера, и если да, то в какой мере. Для этого было проведено выборочное сравнение по следующим параметрам:

  • словник (английские словарные статьи)
  • примеры, выражения, использующиеся в статьях
  • русские переводы статей и примеров
  • структура словарных статей, состав и порядок следования значений и примеров
  • транскрипция слов

Сразу заметим, что со сравнением транскрипций возникли определенные проблемы: в словаре Polyglossum они просто не приведены, поэтому и сравнивать было не с чем.

При исследовании словарные статьи разбивались по этим параметрам на пять групп:

1. Полностью или практически полностью совпадающие со статьями словаря Мюллера. В эту группу включались словарные статьи, отличия которых от бумажного эталона заключалось в следующем:

  • разнесение статей из приложений по алфавиту словаря, изменение алфавитного порядка статей
  • показ фрагментов словарных статей словаря как отдельных статей
  • объединение или разбивка по разным статьям омонимов (слов с различным значением и одинаковым написанием)
  • переименование помет словаря (например, “прил.” на “adj.”) или их утрата
  • отсутствие ударений, точек у “ё”, утрата различий между i с точкой и без, различными начертаниями a в транскрипции.
  • пропущенные и добавленные знаки препинания
  • отличия в порядке нумерации значений
  • раскрытие тильд и скобок
  • замена дефиса в словах пробелом или слитное написание
  • отсутствие артиклей и частицы to перед отдельными словами
  • утрата курсива и других стилей оформления текста

2. Незначительно отредактированные – словарные статьи, имеющие отличия, затрагивающие не более 20% от объема статьи; сохранение примеров с переводами, добавление синонимов.

3. Существенно отредактированные - все остальные изменения в статьях

4. Добавленные к тексту словаря статьи

5. Опущенные по сравнению с текстом словаря статьи

Для сравнения словарных материалов программ и словаря Мюллера использовались сплошные выборки объемом в один печатный лист словаря. Для того, чтобы выбранные статьи достаточно полно представляли общую структуру словарей, страницы для анализа были выбраны случайным образом (из книги объемом 800 листов были взяты страницы с номерами 96, 200, 333, 666 и 770). В среднем, количество словарных статей на странице составляет около 70. Так как статьи, взятые для анализа, относятся к различным частям речи и взяты из разных частей словаря, то на основании их сравнения вполне можно сделать выводы о степени сходства рассматриваемых словарей.

В соответствии с практикой, принятой при издании бумажных словарей, мы считаем, что одна словарная статья включает в себя все варианты перевода слова, его производные формы и примеры. В словаре «Polyglossum» как отдельные статьи оформлены не только различные формы одного слова и устойчивые словосочетания с ним, но и большинство примеров к этому слову, поэтому для сравнения мы группировали их, считая одной статьей.

Таблица 1. Результаты сравнения выборок по страницам для Контекст 3.51

  стр. 96 стр. 200 стр. 333 стр. 666 стр. 770
Полное совпадение: 51 74 37 48 43
Незначительные изменения: 6 1 2 0 3
Существенное редактирование: 0 0 0 0 0
Вставки: 2 0 0 0 1
Пропуски: 0 3 16 3 3
  86,44 94,87 67,27 94,12 86,00

Таблица 2. Результаты сравнения выборок по страницам для Lingvo 5.0

  стр. 96 стр. 200 стр. 333 стр. 666 стр. 770
Полное совпадение: 41 58 34 51 47
Незначительные изменения: 17 8 8 0 4
Существенное редактирование: 4 0 0 0 4
Вставки: 16 5 5 5 6
Пропуски: 0 10 10 3 1
  52,56 71,60 59,65 86,44 75,81

Таблица 3. Результаты сравнения выборок по страницам для Polyglossum-II

  стр. 96 стр. 200 стр. 333 стр. 666 стр. 770
Полное совпадение: 49 74 38 52 45
Незначительные изменения: 9 2 15 1 3
Существенное редактирование: 1 1 1 1 4
Вставки: 9 7 3 2 20
Пропуски: 0 0 1 1 0
  72,06 88,10 65,52 91,23 62,50

Как видно, количество статей, полностью совпадающих со статьями из англо-русского словаря под редакцией В. К. Мюллера или имеющих незначительные изменения по сравнению с ним, в среднем по выборкам составляет около 95%, что не может быть признано случайностью.

Число словарных статей в словарях

Как правило, одним из важнейших факторов при выборе электронного словаря для неискушенного покупателя является его объем. И у всех электронных словарей такая цифра гордо приведена на обложке: у Lingvo это 70 тыс. словарных статей, у «Контекста» 180 тыс., а у Polyglossum аж 600 тысяч (для сравнения: в Новом Большом Англо-Русском словаре под редакцией Ю.Д. Апресяна и Медниковой, который считается на сегодняшний день самым большим в мире, всего 250 тыс. слов).

И так как мы уже установили, что исследуемые нами электронные словари очень похожи на знаменитый словарь Мюллера, то пользуясь этими данными решили попробовать подсчитать реальное количество словарных статей в них, пользуясь тем же определением словарной статьи, которое было приведено выше.

Для оценки общего числа статей в словарях использовался метод сравнения электронных версий с бумажным изданием В. К. Мюллера, в котором число статей точно определено (53 тысячи). В каждом словаре проводилась выборка всех слов, начинающихся с определенной буквы, а затем полученный список слов сравнивался с печатной версией словаря. Для достаточно больших выборок мы можем получить хорошее приближение для общего числа словарных статей в каждом словаре.

Различия в списке слов определялись таким образом:

  • полное совпадение: написание слов полностью совпадает в программе и словаре Мюллера. К случаю полного совпадения слов мы также отнесем такие отличия:
  • Разнесение слов (геогр. названия т.п.) и сокращений из приложений по алфавиту словника
  • Раскрытие скобок, входящих в написание слова. При этом два полученных варианта засчитывались как один.
  • Опущение артиклей и частицы to.
  • незначительные отличия:
  • Отличия в регистре букв (прописные, строчные) при условии, что переводы совпадают.
  • Разнесение слов из одной статьи словаря в разные
  • Замена дефиса в слове на пробел или слитное написание слова при условии, что переводы совпадают.
  • существенные отличия:
  • все остальные отличия, среди существенных отличий выделим пропуски слов и вставки.

Действуя таким образом, мы получили результаты, приведенные ниже. В таблицах результатов сравнения для каждого словаря представлены следующие данные:

  • общее количество слов и выражений в программном словаре на эту букву (по списку словаря);
  • количество отдельных статей (указано в скобках);
  • число полных совпадений со словарем Мюллера;
  • количество слов с незначительными отличиями;
  • число добавленных слов;
  • количество пропущенных статей;
  • В качестве выборки использовались все словарные статьи, начинающиеся с ‘y’ и ‘j’. В словаре Мюллера их соответственно 147 и 500.

Контекст 3.51

В “Контекст 3.51” добавлено около 2% слов по сравнению со словарем Мюллера, а пропущено около 12%. И как видно из приведенной таблицы, полное или почти полное совпадение словников происходит в 98% случаев. Заметим, что общий объем исследованных выборок составил около 1.2% от объема словаря Мюллера, что дает основание полагать, что в профессиональном словаре общей лексики “Контекста” содержится на 8-10% меньше статей, чем в словаре Мюллера, то есть, около 50 тыс. Это несколько меньше, чем число, указанное на коробке: 180 тыс. Однако авторы «Контекста» вполне могли принять за единицу измерения какое-то свое понимание словарной статьи, например считая отдельно каждое значение слова. В этом случае приведенные ими данные вполне можно считать справедливыми.

“Lingvo 5.0”

В “Lingvo” количество статей считается с учетом того, что выражения внутри них выносятся как отдельные статьи, в то время как в словаре Мюллера они входят в состав единственной статьи. В этом вопросе будем придерживаться понимания статьи как набора всех переводов для всех значений слова, а также его производных форм и выражений. Таким образом после группировки выражений, получим список статей (в понимании словаря Мюллера), который и будем сравнивать с печатным вариантом словаря.

По представленной в таблице выборке (а она составляет более 1,5% от объема словаря) можно видеть, что в словаре “Lingvo” используется около 99% словника издания Мюллера (поскольку количество пропущенных статей меньше 1%) и дополнительно внесено около 20% слов из других источников. В этом случае объем словаря оценивается в 60-65 тыс. слов. Число же слов в англо-русском словаре общей лексики, согласно утверждению разработчиков, около 70,000, что вполне соответствует нашим оценкам с учетом возможных погрешностей метода подсчета.

“Polyglossum-II”

Заявленный объем словаря “Polyglossum” составляет около 600 тысяч терминов. Это может соответствовать истине только в том случае, если под отдельной статьей понимать каждый возможный перевод слова, выделять в отдельные статьи различные формы слова и производные фразы. Так и происходит: в словаре в качестве отдельных терминов выделяются целые фрагменты текста из пяти-шести слов – примеры к статьям. Для того, чтобы иметь объективную оценку числа статей, так же, как и при рассмотрении “Lingvo 5.0”, мы объединили различные формы слов, разные переводы одного и того же слова и примеры в одну статью.

То есть, реальное количество статей (а не просто словосочетаний, представленных как отдельные статьи) примерно в три раза меньше, чем цифра на обложке компакт-диска, то есть, максимум 200,000 слов. Если учесть, что в это число включены как англо-русский, так и русско-английский словари, то указанное число снижается до 100 тысяч слов. По результатам наших выборок отличия от словаря Мюллера заключены в 10% добавленных слов и 5% пропусков. Соответственно, наиболее вероятное количество словарных статей реально составляет около 60,000.

  Контекст Lingvo Polyglossum
  ‘y’ ‘j’ ‘y’ ‘j’ ‘y’ ‘j’
общее количество слов 130 464 246 730 455 1104
количество статей 130 464 198 603 146 553
число полных совпадений 124 (95%) 445 (96%) 150 (75%) 493 (82%) 122 (83%) 478 (86%)
незначительные отличия 5 (4%) 8 (2%) 3 (2%) 5 (1%) 2 (2%) 5 (1%)
добавлено 1 (1%) 11 (2%) 45 (23%) 105 (17%) 12 (8%) 54 (10%)
пропущен 18 (14%) 47 (10%) 1 (0%) 1 (0%) 10 (7%) 16 (3%)

Некоторые выводы об англо-русских электронных словарях

Итак, мы провели тестирование трех популярных электронных словарей, продающихся в Москве. Как показало их внимательное рассмотрение, в общелексической части (специализированные словари мы не рассматривали) их вполне можно считать идентичными популярному словарю под редакцией Мюллера, а значит и друг другу. При этом, когда мы обратились в издательство «Русский Язык», которому принадлежат права на издания словаря Мюллера, его генеральный директор Ирина Кайнорская нам рассказала, что права на издание этого словаря в электронном виде никому из разработчиков описанных словарей не передавались. А переданы они были компании «МедиаЛингва».

Генеральный директор компании «МедиаЛингва» Игорь Ашманов по этому поводу сказал следующее: «Издательство “Русский Язык” передало нам исключительные права на издание многих своих словарей в электронной форме, в том числе и самого знаменитого англо-русского словаря под ред. Мюллера. И мы знаем, что многие наши конкуренты используют этот же словарь в своих электронных словарях, не имея на это права и не платя авторских отчислений.

Словарь Мюллера был украден в издательстве “Русский Язык” в 1991 году, когда увольнявшийся сотрудник-программист продавал направо и налево дискеты с его текстом, и с тех пор компьютерный набор словаря разошёлся по всей стране. У меня лично нет никаких сомнений, что именно эту версию и использует большинство наших конкурентов.

Не говоря об очевидных моральных и юридических обстоятельствах этого дела, мы рассматриваем использование нелицензионных словарей в первую очередь как недобросовестную конкуренцию, так как:

во-первых, мы должны платить авторские отчисления издательствам, а конкуренты этого не делают, то есть могут снижать цены ниже настоящей себестоимости честного производства и устраивать демпинг.

Во-вторых, конкуренты, естественно, всячески скрывают факт использования нелицензионного словаря, для чего видоизменяют его статьи, удаляют или добавляют материал, завышают число слов, что приводит к обману покупателей и резкому падению качества словарей – каждому ясно, что вряд ли в компьютерных фирмах работают лингвисты класса Мюллера или Ахмановой, которые в состоянии редактировать словари эти знаменитых авторов.

Мы сейчас рассматриваем вопрос о том, как бороться с использованием пиратских словарей; это не вполне очевидно, так как российские суды до сих пор ни разу не рассматривали подобных дел и прецедентов не существует; однако, мы уверены, что в ближайшие полтора-два года ситуация с авторскими правами на базы данных существенно улучшится и нелицензионные словари исчезнут с прилавков».

Обзор подготовил Василий Буров

   Как и из чего готовят электронные словари...
Лента новостей


2006 (c) Copyright Hardline.ru