Содержание к диссертации
Введение
Глава I. Основные аспекты формализации плана содержания 15
1.1. Концептуальный анализ исследований в области машинного перевода 15
1.2. Лексико-семантическая типология как основа формализации плана содержания языка 24
1.3. Релятивная комплементарность означающего и означаемого
1.3.1. Характер связи между означающим и означаемым 29
1.3.2. Градации связей между означающим и означаемым (полная синонимия, частичная синонимия, полисемия, омонимия) 35
1.3.3. Дальнейшая дискретизация оси взаимоотношений плана содержания и плана выражения 39
1.3.4. Причины возникновения комплексности отношений означающего и означаемого у терминов в рассматриваемой предметной области 43
1.4. Описание факторов, влияющих на формализацию лексической семантики (некоторые аспекты, соотносящиеся с недостатками современных СМП) 46
1.4.1. Фактор лексической многозначности 46
1.4.1.1. Полисемия в пределах единой предметной области 49
1.4.1.2. Фактор унификации значений терминов 50
1.4.1.3. Грамматическая омонимия 52
1.4.1.4. Фактор эталонной выборки 53
1.4.1.5. Целесообразность разработанного подхода
1.4.2. Фактор анализа коллокаций и сложных слов 54
1.4.3. Фактор лингвистической лакунарности 55
1.5. Методы формализации лексической семантики 57
1.5.1. Методы, основанные на знаниях 58
1.5.2. Методы обучения с учителем 61
1.5.3. Методы обучения без учителя 67
1.5.4. Другие методы 70
1.6. Обзор существующих решений, использующих перечисленные методы для анализа семантики 71
1.6.1. Информационный поиск 71
1.6.2. Корпусная лингвистика 72
1.6.3. Модули семантического анализа
1.6.3.1. Теория «Смысл Текст» 72
1.6.3.2. Проект АОТ 73
1.6.3.3. Общеязыковой тезаурус WordNet 74
1.6.3.4. Формальные онтологии 75
1.7. Машинный перевод 77
1.8. Недостатки современных систем МП при анализе семантики 81
Выводы из главы I 87
Глава II. Разработка технологии MEPro для автоматизированного предредактирования и описание ее функционирования 89
2.1. Теоретическое обоснование предлагаемого алгоритма 89
2.2. Алгоритм разработки приложения MEPro
2.2.1. Формирование контекстов для терминов 96
2.2.2. Классификация значений терминов 110
2.2.3. Вычисление диапазона порогового значения T 112
2.2.3.1. Величина «весового показателя значимости» 118
2.2.4. Проектирование и заполнение базы данных 118
2.3. Описание разработанного приложения 132
2.4. Оценка качества алгоритма 138
2.5. Полученные результаты 143
2.6. Практическое применение разработанной технологии 144
2.7. Способы возможной оптимизации работы программы 145
Выводы из главы II 146
Заключение 149
Апробация и внедрение результатов исследования 152
Список принятых сокращений 154
Список литературы 155
Список использованного программного обеспечения 166
Список источников дефиниций 167
- Градации связей между означающим и означаемым (полная синонимия, частичная синонимия, полисемия, омонимия)
- Обзор существующих решений, использующих перечисленные методы для анализа семантики
- Формирование контекстов для терминов
- Способы возможной оптимизации работы программы
Градации связей между означающим и означаемым (полная синонимия, частичная синонимия, полисемия, омонимия)
Создание АПС диктуется производственной необходимостью: «учет требований производственной сферы позволил определить диапазон задач, на решение которых должен быть нацелен автоматический переводной словарь, условия, в которых он будет разрабатываться и эксплуатироваться» [Убин 1989: 34]. Согласно И. И. Убину, АПС, проектируемый для производственной сферы выполнения научно-технического перевода, в силу специфичности своих задач и целевой направленности должны обладать рядом свойств, не свойственных СМП и традиционным словарям. К данным свойствам относятся следующие: многоязычие, обратимость, гибкость и динамичность [Убин 1989]. Данные свойства также описаны в работе О. И. Максименко [Максименко 2003].
Многоязычие предполагает включение в словарь трех и более языков. В целом в современной лексикографии предпочтение отдается двуязычным переводным словарям в силу их большей описательной и порождающией мощности [Убин 1992]. «Под обратимостью автоматического переводного словаря понимается возможность произвольно в процессе его эксплуатации по желанию пользователя менять местами входной и выходной языки» [Убин 1989: 25-26]. Гибкость заключается в возможности словаря адаптироваться к новым требованиям. «Проблема динамичности словаря, под которой обычно понимают возможность оперативной коррекции словника словаря и содержания словарной статьи в нем, является одной из самых сложных и трудноразрешимых в традиционной лексикографии. Практика показывает, что целый комплекс разнообразных причин – лексикографических, издательских, технических, экономических и др. – не позволяет оперативно переиздавать нужные читателю словари» [Убин 1989: 30].
Большую значимость в сфере разработки АПС играют отраслевые словари, к примеру, интеллектуальный электронный отраслевой словарь (ИЭОС) [Большакова 2013]. «Под интеллектуальным электронным словарем … понимается интеллектуальная автоматизированная система, содержащая сформированные и определенным образом упорядоченные понятия в конкретной предметной области» [Большакова 2013: 3]. М. А. Большакова в своем исследовании сформулировала основные требования, которые должны предъявляться к современным словарям. Сюда включаются: интеллектуальность и электронный вид. «Под интеллектуальностью понимается использование методов искусственного интеллекта при построении архитектуры системы и ее реализации» [Большакова 2013: 10]. Отраслевые словари также носят название локальных терминологических словарей (ЛТС). В. А. Татаринов определяет данный вид словарей как «двуязычный словарь терминов, употребляемых в локально ограниченных сферах производства (строительства), где идет активный обмен научно-технической информацией между специалистами двух конкретных стран» [Татаринов 2007: 304]. Основная ценность ЛТС заключается в «актуальности зафиксированной в нем лексики и отражении естественных языковых процессов, происходящих в данной терминологической системе» [Татаринов 2007: 305]. Составление данного типа словарей обусловливается анализом функционирования терминологических единиц в речевой практике и, как следствие, такие словари отражают реальные процессы в терминосистеме в отличие от стандартных словарей, навязывающих использование термина и недостаточно полно описывающих терминосистему.
Разработка электронных словарей приобретает всё большее значение в силу того, что существующие отраслевые терминологические словари не отвечают требованиям, предъявляемым к словарям, в частности, из-за отсутствия автоматического поиска терминов [Большакова 2013]. Наряду с этим, «современные электронные словари имеют эту функцию, однако часть из них не позволяет пополнять базу данных с учетом грамматических правил языка, что важно при переводческой работе или при составлении текстов. Интеллектуальная составляющая словарей присутствует только в системах машинного перевода фирменных продуктов, стоимость которых затрудняет их использование для бюджетной сферы образования» [Большакова 2013: 5].
Среди основных двуязычных и многоязычных электронных словарей в [Шевчук 2010] выделяются следующие: англо-русский электронный словарь Multilex; электронные словари ABBYY Lingvo x3; «Мультитран»; электронный словарь «Контекст 7.0»; словари серии Polyglossum; серия многоязычных словарей Elsevier Dictionaries; Большой англо-русский словарь ABBYY Lingvo и др. В настоящее время также создается огромное количество электронных двуязычных и многоязычных терминологических словарей по различным областям знаний и специальностям: англо-русский толковый словарь терминов и сокращений по ВТ, Интернету и программированию; англо-русский научно-технический словарь; англо-русский и русско-английский автомобильный словарь; современный русско-английский юридический словарь; англо-русский и русско-английский газомоторный словарь; Americana English-Russian Encyclopedic Dictionary; Russian Microsoft Glossary; Dictionary of petroleum and natural gas terms; UNBIS Thesaurus; GEMET General Multilingual Environmental Thesaurus; English-Russian & Russian-English Oil Dictionary; Dictionary of energy terms; English-Italian-Russian-French on-line dictionary on oil and gas и др. [Шевчук 2010].
Обзор существующих решений, использующих перечисленные методы для анализа семантики
У контекстного слова сонант с учетом «весового показателя значимости» будет самая высокая вероятность появления P(wi) = 6/20 = 0,3; без введения «весового показателя значимости» вероятность была бы существенно ниже P(Wl) = 1/20 = 0,05, что неизбежно сказывается на точности анализа.
Вероятность появления контекстного слова, по сути, является вероятностью того, что данное слово появится в предложении в контексте термина An, если значение Ап будет Sp. Таким образом, используя методы математической статистики, получим формулу условной вероятности появления термина: =() (3) Так, например, вероятность появления термина анализ в контексте слова взрыв при условии, что термин взрыв имеет Sp-значение, можно вычислить следующим образом: 4 = (анализ) = - = 0,1 (4) и т. п. Далее можно модифицировать формулу (3), используя теорему Байеса [Николаев, Митренина, Ландо 2016; Manning, Sctze 1999; Spiegel, Schiller, Srinivasan 2013]: (i)= ()() (5)
Из формулы (5) можно вывести формулу для апостериорной вероятности, т. е. вероятности того, что значение исходного термина Ап является Sp, если контекстное слово уже встретилось: ( ) = ()() , (6) где P(Spwi) - апостериорная вероятность того, что значение искомого термина Sp, если контекстное слово уже встретилось; P(Sp) является общей вероятностью того, что класс Sp будет присутствовать вообще, вне зависимости от тестового предложения. В тестовой выборке вероятность появления класса Sp берем равной P(Sp) « 0,5, если предположить, что появление классов Sp и Sp является равновероятным; P(wi) является вероятностью того, что контекстное слово Wi появится в тестовой выборке вообще. К примеру, если тестовая выборка состоит из 50 предложений, принадлежащих классу Sp и 50 предложений, принадлежащих классу Sp, и в этих 100 предложениях слово анализ появится 12 раз, то вероятность его появления в данной выборке будет равна: РЫЛ = Р(анализ) = — = 0,12 (7) v и 100 Используя полученные формулы, была составлена таблица условных вероятностей появления контекстного слова P(wiSp) (Табл. 11): P(wt\Sp) = —;—;—;—;—] = [0,25; 0,2; 0,15; 0,1; 0,3] (8) v м Г [20 20 20 20 20 Далее следует стадия классификации, в которой необходимо классифицировать входное слово как принадлежащее к классу Sp или к классу Sp. Имеется неизвестное предложение S. Необходимо вычислить апостериорную вероятность для Sp (т. е. вероятность того, что термин An в данном предложении будет принимать значение Sp, если встретится контекстное слово wi): P(SpS).
Далее, используя формулу полной вероятности для условных вероятностей, можно «расширить» вероятность P(SpS) на контекстные слова wi следующим образом: P(Sp\S) = ZtPiSplS П wt) P(wt\S) = ZtPiSplS П wt) P(Wi) . (9) P(SpSnwi) можно заменить на P(Spwi), так как wi Я S, т. е. если событие wi уже произошло, то S тоже произошло, т.к. множество Wi входит в S, и вероятность P(S) = 1. Таким образом: P(Sp\SnWi) = P(Sp\wt) (10) Отсюда следует, что: P(Sp\S) = ZiPiSplwt) P(wt\S) . (11) P(SpS) и является искомой вероятностью, которую необходимо вычислить, т. е. вероятностью того, что термин в тестовом предложении будет иметь значение прикладного речеведения при условии, что событие S уже произошло.
Далее можно заменить P(Spwj) по формуле (6): p(Wi\Sp) P(Sp) P(SP) P(Sp\S) = ЇІ У L у У) P(wt\S) = ZiPiWilSp) P(wt\S) Щ = = a iP(WiSp) P(wt\S) , (12) где a - введенный в данной работе коэффициент, представляющий собой разность вероятности того, что класс Sp будет присутствовать вообще и вероятности появления контекстного слова; P(wiSp) - условные вероятности контекстных слов; P(wiS) - вероятность того, что контекстное слово встретится в предложении S. Для P(wiS) справедливо следующее: п, .„ (1 , если контекстное слово встретилось в S P(Wj\S) = \ г (13) v м (0 , если контекстное слово не встретилось в 5 Для а необходимо сделать аппроксимацию, что вероятность появления контекстного слова в 100 предложениях приблизительно одинаковая для всех wi. Таким образом: P(Sp\S) = а ZiPiw Sp) P(wt\S) (14) Теперь необходимо определить диапазон значений а. Если предположить, что P(Sp) « 0,5, a P(wi) « [0,05...0,5], то будет варьироваться в диапазоне 1 а 10. Необходимо учесть, что а не равна 500, или 5000, или 0,005 и т. п. Для визуализации работы алгоритма классификации можно привести следующий пример: S = Носовой взрыв имеет место также в со четаниях [р, b, k, g]c последующими носовыми сонантами [т, л/. Р(место5) = 1 P(coHaHTS) = l P(myMS) = Р(характеристика5) = Р(анализ5) = 0 Тогда: P(Sp\S) = a (0,25 0 + 0,2 1 + 0,15 0 + 0,1 0 + 0,3 1) = = а 0,5«1 (еслиа«2) . (15) Далее необходимо вычислить пороговое значение Т. Т.к. точное значение а не известно, то можно приблизительно рассчитать значение введенного в данной работе коэффициента р по следующей формуле: Р= Zi (WiSp) P(WiS) (16)
Коэффициент представляет собой сумму произведений вероятности того, что в предложении встретится контекстный термин, и вероятности того, что данный контекстный термин будет относиться к предметной области прикладного речеведения. р может быть точно подсчитана при условии события S. Тогда, в случае если значение Р превышает определенное пороговое значение, принимается решение, что вероятность значения P(SpS) (которая, по сути, является произведением а и Р) является достаточно высокой, чтобы отнести значение искомого термина Ап к области Sp.
Основной задачей на данном этапе является нахождение порогового значения Т. Так как точное значение неизвестно, необходимо статистически подобрать значение Т в диапазоне от ОД до 0,8: ОД Т 0,8. Таким образом, если р Т, то принимается решение об отнесении искомого термина к области прикладного речеведения.
Данный алгоритм был реализован в разработанном приложении MEPro (Meaning Extraction Program), работа которого нацелена на автоматическое вычленение значения термина на основе анализа контекста входного предложения.
Далее подробно описаны этапы разработки приложения, а также проблемы, возникшие на каждом из этапов и возможные способы их решения. Описанные проблемы не являются критичными для достижения поставленных целей, поэтому их решение рассматривается в качестве перспективы для дальнейших исследований. Таким образом, основной задачей данного приложения является задача определения искомого значения термина по контексту, включающая в себя четыре подзадачи: 1. формирование контекстов для терминов, 2. вычисление порогового значения T, 3. собственно классификация значений терминов, 4. проектирование и последующее заполнение базы данных для словаря. Алгоритм решения данных подзадач описывается далее поэтапно.
Формирование контекстов для терминов
Объем внешней памяти, необходимой для функционирования системы, не превышает 150 МБ. Из них 120 МБ выделяется под модуль СУБД и до 30 МБ – под базу данных терминов. При выполнении типовых пользовательских запросов объем задействованной оперативной памяти не превышает 90 МБ. Пик используемой оперативной памяти приходится на момент выполнения Perl-скрипта, так как именно эта задача является наиболее ресурсоемкой и требует оптимизации в дальнейших исследованиях. В то же время для корректного функционирования программного комплекса необходима операционная система семейства Windows с установленным пакетом .Net Framework версии 4.0 и выше.
На основании вышеизложенного можно сделать вывод о том, что минимальные системные требования программного комплекса являются пренебрежимо низкими для современных персональных компьютеров, представленных на рынке. Вместе с тем, для оптимальной работы программного комплекса выдвигаются следующие системные требования: процессор Intel Core i7 2,4 ГГц; ОЗУ – 16 ГБ. 4 этап. Выбор СУБД и других программных средств Объем базы данных программного комплекса обусловливает использование компактной встраиваемой реляционной базы данных SQLite [URL: https://sqlite.org/], которая наиболее оптимально отвечает выдвинутым требованиям. Использование реляционной базы данных обусловлено рядом ее достоинств: «во-первых, однородностью представления данных в модели, которая обусловливает простоту восприятия ее конструкций пользователями базы данных, и во-вторых, наличием развитой математической теории реляционных баз данных, которая обусловливает корректность ее применения» [Туманов 2012: 96]. В то же время SQLite не использует архитектуру «клиент-сервер», то есть не является отдельно работающим процессом, а предоставляет платформу, реализующую хранение и обработку данных, которая является базисом целевого программного комплекса. Основным преимуществом SQLite относительно других популярных СУБД является ее низкие системные требования, которые выражаются в экономии дискового пространства и скорости обращения к данным, что позволяет использовать данную СУБД на обычных домашних компьютерах. Также выбор в пользу SQLite обусловлен высокой надежностью и отсутствием необходимости привлечения квалифицированного администратора для обеспечения бесперебойного функционирования СУБД.
«Преобразование ER-диаграммы в схему БД выполняется путем сопоставления каждой сущности и каждой связи, имеющей атрибуты, отношения (таблицы БД)» [Карпова 2010: 14]. Связь типа 1:1 реализуется через внешний ключ. Внешнему ключу meaning_id в дочерней таблице соответствует первичный ключ родительского отношения, таким образом, эквивалентные значения в программе связаны по полям meaning_id. Проверка совпадения вышеуказанных полей в двух таблицах реализуется программно.
Таким образом, в основе разработанного приложения лежит реляционная база данных, представляющая собой две таблицы (Рис. 37): TerminMRu (специализированные термины по прикладному речеведению и их значения для русского языка) (Рис. 38) и TerminMEn (специализированные термины по прикладному речеведению и их значения для английского языка) (Рис. 39). Каждая таблица содержит четыре атрибута: - столбец termin: представляет собой список терминов прикладного речеведения, собранных в ходе работы над программным продуктом; - столбец meaning: представляет собой значения терминов; - столбец meaning id: представляет собой идентификатор значения термина, выступает в качестве первичного ключа в отношении «идентификатор значения для терминов на русском языке» и «идентификатор значения для терминов на английском языке»; - столбец PL: определяет, относится ли термин к области прикладного речеведения (значение поля = 1) или имеет любое другое значение (значение поля = 0.). Нормализация – это процедура оптимизации данных в базе данных, направленная на исключение их избыточности и возникновения аномалий при обращении к ним. Аномалии – это ошибочные результаты вывода данных, обусловленные просчетами в проектировании базы данных. Суть процесса нормализации заключается в преобразовании структуры базы данных согласно правилам, называемым нормальными формами. Нормальная форма – это требование, предъявляемое к структуре таблиц, реализация которого необходима для исключения избыточных функциональных зависимостей между атрибутами. Главная цель приведения отношений в БД к нормальным формам – исключить дублирование данных, из-за которого возникают аномалии при добавлении, редактировании и удалении кортежей.
Как правило, в мировой практике принято проводить нормализацию до третьей нормальной формы, так как преобразование отношений в четвертую нормальную форму может оказаться излишне трудоемким процессом. Вместе с тем при разработке баз данных всегда необходимо сравнивать преимущества от более высокой нормальной формы с объемом работ, которые требуется осуществить для применения той или иной нормальной формы и поддержания данных в нормализованном состоянии.
В данном исследовании принято решение нормализовать базу данных до второй нормальной формы. Это решение обусловлено сравнительно небольшим объемом хранимой в базе данных информации и достаточно простыми запросами пользовательского приложения к ним. Приведение к третьей нормальной форме в данном случае является также нецелесообразным еще и потому, что функционалом пользовательского приложения предусмотрено дополнение базы данных своими терминами для группы пользователей «Операторы БД». Усложнение структуры БД приведет к снижению удобства добавления новых терминов конечными пользователями.
Способы возможной оптимизации работы программы
В ходе проведенного исследования был предложен способ алгоритмизации и программной реализации процесса предредактирования для СМП. С помощью программных средств был разработан автономный программный продукт, представляющий собой электронный контекстно-ориентированный терминологический словарь, который может быть встроен в модуль предредактирования в целях повышения производительности работы современных СМП.
Разработанная технология позволяет с высокой степенью достоверности автоматически определить значение термина и подобрать для него переводной эквивалент на примере предметной области «Прикладное речеведение» в рамках концепта «Новейшие информационные технологии». Представленный алгоритм может рассматриваться как одно из возможных направлений в решении проблемы снятия лексической неоднозначности.
Существует множество методик семантического анализа общеупотребительного языка (большинство разработок претендуют на создание языка универсальных семантических смыслов), которые описывают в большинстве своем обыденную коммуникацию, свойственную каждому языку (ситуации, с которыми мы сталкиваемся каждый день), не затрагивая области профессиональной коммуникации (в частности, ABBYYCompreno [URL: https://www.abbyy.com/ru-ru/isearch/compreno/]). Число терминов в предметной области конечно, и динамика их изменения не высока.
Использование данного алгоритма особенно эффективно для обработки семантической составляющей в конкретной предметной области, хотя и демонстрирует не столь высокое быстродействие при обработке больших объемов данных по сравнению с современными крупными проектами для общеупотребительной лексики.
Описанная разработка имеет ряд достоинств: 1. Независимость алгоритма от синтаксиса, что позволяет применять алгоритм при отсутствии качественного синтаксического анализатора, а также улучшать работу последнего. 2. Возможность пополнения словаря новыми терминами. 3. Ручная связка разноязычных значений друг с другом. 4. Использование в качестве контекста слов всего предложения. 5. Работа в режиме оффлайн, т. е. возможность использования технологии вне Сети. 6. Разработанная технология автоматизирована, что предполагает автоматический подбор контекстов для терминов в БД, автоматическое определение значения термина по контексту, а также подбор эквивалентного значения и термина на английском языке, который выражает искомое значение. 7. В отличие от метрики TF-IDF редкие слова получают высокий вес, что является плюсом в силу того, что редкие слова имеют большую значимость для решения поставленных задач. 8. Составленный словарь способствует более глубокому пониманию термина у изучающих иностранный язык, т.к. дефиниции терминов на двух языках могут взаимодополнять друг друга. Достоинства разработанной технологии позволяют говорить о перспективах ее дальнейшей разработки. Основным вектором для дальнейших исследований является включение в систему нескольких предметных областей. В настоящее время реализована бинарная классификация, которая позволяет определять значение из двух вариантов. Однако, в реальности многозначные термины могут иметь три, четыре и больше значений в различных предметных областях. Для того чтобы реализовать метод автоматического определения значения слова в предложении при условии, что слово имеет три и более значений, необходима автоматизация сбора корпуса текстов по каждому из значений в отдельности. Далее по 150 вышеописанному алгоритму будет автоматически сформирован список контекстов для каждого из значений.
Наряду с разрешением омонимии, менее острой является проблема подбора синонима. «Процедуре разрешения омонимии (многозначности) при анализе должна соответствовать некая процедура разрешения синонимии при синтезе, т. е. процедура выбора окончательных вариантов выражения заданного значения в множестве принципиально мыслимых синонимичных вариантов» [Апресян 1995: 39]. В ходе дальнейших исследований можно указать на необходимость формализации выбора синонима при подборе переводного эквивалента на основе анализа прагматики и стилистики текста.
В силу ограниченности технологии, выраженной в том, что определение значения возможно только для терминов, для которых заранее был определен контекст употребления, в качестве дальнейших направлений исследования предлагается добавление в технологический режим модуля, который в автоматическом режиме будет формировать контексты для нового термина.
Благодаря простоте и гибкости разработанной базы данных в рамках будущих исследований может быть с легкостью проведено ее масштабирование для нескольких языков. В этом случае будет необходимо осуществить нормализацию БД до третьей нормальной формы.