Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Мифтахова Рамиля Габдулхаевна

Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка
<
Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мифтахова Рамиля Габдулхаевна. Формализация естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка: диссертация ... кандидата Филологических наук: 10.02.20 / Мифтахова Рамиля Габдулхаевна;[Место защиты: ФГБОУ ВО Башкирский государственный университет], 2017

Содержание к диссертации

Введение

Глава 1. Моделирование перевода как область сопоставительного языкознания 10

1.1. Квантитативная лингвистика: машинный перевод и автоматическая обработка естественных языков 10

1.2. Основы современных систем машинного перевода 29

1.3. Модели классического машинного перевода и статистического машинного перевода. 35

1.4. Статистический машинный перевод 40

1.5. Параллельный корпус 67

1.6. Факторы, влияющие на качество машинного перевода 81

Выводы по Главе 1 86

Глава 2. Формализация естественного языка в машинном переводе 87

2.1. Проблемы обработки естественного языка 87

2.2. Алгоритмы автоматической обработки текстов в машинном переводе 100

2.3. Информационные технологии и развитие лингвистических норм 112

2.4. Метод универсальной семантической иерархии в машинном переводе 116

Выводы по Главе 2 133

Глава 3. Обработка родственных языков в машинном переводе 134

3.1. Классические источники формирования корпусных данных в машинном переводе. 134

3.2. Исследования в области СМП с применением родственных связей между языками 138

3.3 «Раскручивание» как один из методов решения проблемы недостающих данных 144

3.4. Экспериментальные данные и интерпретация результатов 147

Выводы по главе 3 165

Заключение 166

Список литературы

Введение к работе

Актуальность исследования. В основе предлагаемого подхода лежит идея пополнения недостающей текстовой информации для систем статистического машинного перевода путем вовлечения в обработку корпусных данных родственных языков. В рамках данного исследования разработаны поэтапные приемы машинного перевода, позволяющие системе статистического машинного перевода обработать единицу перевода естественного языка, выявить сегменты с нулевой вероятностью и применить для них недостающую текстовую информацию родственного языка, выбрать из многообразия смыслов наиболее адекватный и, таким образом, существенно улучшить качество перевода, что определяет актуальность настоящего исследования.

Объектом исследования становится обработка естественного языка в машинном переводе с опорой на дополнительный корпус родственного языка, а также статистические модели поиска наиболее вероятных соответствий лексических единиц в трехъязычных параллельных корпусах.

Предметом исследования выступают белорусско-английский и русско-английский параллельные корпуса, обработанные в системе статистического машинного переводчика Moses с целью выявления результативности применения предложенных алгоритмов.

Цель диссертационного исследования связана с выявлением
способов улучшения качества статистического машинного перевода,
основанного на фразах, при переводе с белорусского на английский язык
через использование двуязычного русско-английского корпуса, в

предположении, что белорусско-английский корпус недостаточно полный
для качественного машинного перевода; исследованием методов

раскручивания, конкатенации и транслитерации при обработке

естественного языка в системах машинного перевода, их сопоставлением в ходе эксперимента.

В основу качественного показателя результатов легли не только лингвистические, но и квантитативные показатели перевода.

Для реализации поставленной цели исследования необходимо решение следующих задач:

- выявить современные методы и модели, нашедшие применение в
действующих системах машинного перевода;

- дать типологическое описание современных систем машинного перевода
и выявить доминирующие модели;

- разработать алгоритм, при котором лексические единицы с нулевой
вероятностью обрабатываются не методом сглаживания, а путем
применения наиболее вероятностного эквивалента из корпуса тривиально
или заметно родственного языка;

- апробировать совместное использование метода раскручивания и метода
конкатенации на инструменте моделирования машинного перевода Moses;

разработать правила конкатенации двух параллельных корпусов родственных языков;

установить взаимосвязь между развитием технологий обработки естественного языка и развитием языка в целом;

Цель и задачи, поставленные в настоящей работе, обусловили
применение следующих методов исследования: для построения прототипа
системы машинного перевода был применен инструмент с открытым
исходным кодом Moses toolkit и методы статистического моделирования
естественного языка; метод сопоставительного анализа моделей машинного
перевода, метод исследования семантики на основе корпусной

лингвистики, метод количественного подсчета.

Материалом исследования послужили двуязычные парламентские
отчеты, официальные документы Европейского экономического

сообщества; документы Организации объединенных наций, научные публикации и лекции Мичиганского университета, русский национальный корпус, содержащий белорусско-русский параллельный корпус, корпус современного американского английского.

Научная новизна диссертационного исследования заключается в следующем:

в рамках данного исследования обоснована целесообразность использования лингвистических корпусов для сравнительного и типологического анализа изменений параметров выравнивания при использовании дополнительных опосредованных корпусов;

выявлено, что существующие в статистическом машинном переводе модели сглаживания не всегда эффективны для языков с небольшой базой данных;

выявлено, что алгоритм, при котором единицы перевода с нулевой вероятностью будут обрабатываться с использованием дополнительного корпуса тривиально или заметно родственного языка, положительно влияет на выравнивание строк в статистическом машинном переводе;

предложен способ перевода с белорусского языка на английский язык путем пропорциональной конкатенации белорусско-английского и русско-английского корпусов (при условии, что объем белорусско-английского корпуса недостаточно полный для статистического машинного перевода)

выявлено, что метод «раскручивания» и метод конкатенации родственных языков могут применяться совместно;

проведен сопоставительный анализ отдельных лингвистических форм и их употреблений с целью исследования влияния информационных технологий на развитие лингвистических норм;

Рабочая гипотеза

Качество машинного перевода для языков с недостаточной базой одноязычных и параллельных корпусных данных может быть повышено через использование того преимущества, которое обеспечивает их аналогия с родственными языками, обладающими значительными лингвистическими ресурсами.

Теоретическая значимость исследования определяется

модификацией существующих моделей сглаживания; предложенным
алгоритмом обработки лексических единиц с нулевой вероятностью с точки
зрения модели языка; исследованием методов формализации естественного
языка в статистическом машинном переводе и подборе наиболее
оптимальных алгоритмов обработки данных. Диссертационное

исследование вносит вклад в развитие теоретических подходов к обработке параллельных корпусов и теории перевода.

Практическая ценность данной работы заключается в том, что
полученные результаты исследования могут быть использованы в системах
статистического машинного перевода для частичного решения проблемы
недостатка корпусных данных и, следовательно, улучшения качества
статистического машинного перевода. Данная работа может быть также
использована в переводческой и редакторской деятельности, в

преподавании теории и практики статистического машинного перевода, спецкурсов по моделям машинного перевода и обработке естественного языка.

Теоретической и методологической основой исследования

послужили труды отечественных и зарубежных ученых в области:

компьютерной лингвистики и теории перевода, таких как Арапов А.Н., Джаравски Д., Далмиера Д., Змитрович А.А., Зубов А.В., Зубова И.И.,

Карпов В.А., Лекомцев Ю.К., М. В., Морозкина Е.А., Мальковский М.Г., Ю.Н. Марчук, Маннинг К., А.Л. Семенов, Е.П. Соснина, Энджи Н.;

машинного перевода и его практического применения: Борисевич А.Д., Белоногов Г. Г., Браун П., Козеренко Е.Б., Марков А., Мамедова М.Т., Нелюбин Л.Л., Панич Ю. В., Степанова Д.В., Шаляпина З.М.;

моделирования перевода: В.Г. Гак, Ю.И. Гурова, В.В. Гусев, С.В. Евтеев, О. Каде, В.Н. Комиссаров, А.Н. Крюков, Дж. Кэтфорд, Л.К. Латышев, М. Ледерер, А.Г. Минченков, Р.К. Миньяр-Белоручев, Ю. Найда, К. Норд, И.И. Ревзин, Я.И. Рецкер, В.Ю. Розенцвейг, А.П. Седых, Д. Селескович, Е.А. Селиванова, С.В. Тюленев, А.В. Федоров, Л.Г. Федюченко, А.Д. Швейцер, А.Ф. Ширяев;

а также научные разработки крупных ИТ компаний: Microsoft, Google, Yandex, ABBYY.

Основные положения исследования, выносимые на защиту:

  1. Предложенный в данной работе алгоритм восполнения лексических единиц с нулевой вероятностью через использование текстовых данных тривиально и заметно родственных языков позволяет увеличить смещение оценки вероятностей в сторону более вероятных – позитивных – исходов и, в результате, улучшить качество машинного перевода языков с недостающим объемом корпусных данных.

  2. При наличии систематической разницы в орфографии между двумя родственными языками, обосновано применение метода транслитерации, состоящего в поиске выровненной пары слов, со схожей орфографией в параллельных предложениях двуязычного корпуса, исключая специфические символы.

  3. Предложен метод конкатенации параллельных корпусов, принадлежащих тривиально родственным языкам, который в сравнении с уже разработанным и применяемым методом «раскручивания», дополняет базу не только исходного языка, но и целевого.

  4. Предложенный метод конкатенации родственных языков с использованием дополнительных меток требует лишь один дополнительный корпус. Метод раскручивания предполагает использование не менее двух дополнительных корпусов.

  5. Конкатенация небольшого по объему белорусско-английского корпуса с объемным русско-английским корпусом приводит к доминированию последнего при выравнивании слов и извлечении фраз, что отрицательно влияет на значения вероятности при переводе с белорусского на английский, в связи с чем, была произведена конкатенация нескольких копий оригинального белорусско-английского корпуса и одной копии дополнительного русско-английского корпуса с целью количественного выравнивания этих корпусов по объему и сформирован новый обучающий корпус, использованный в машинном переводе.

Апробация работы. Основные положения диссертационного

исследования были представлены на Международной научно-практической конференции, посвященной 75-летию д-ра филол. наук, проф. Р.З. Мурясова (г. Уфа, 3-4 февраля, 2015 г.); Международном электронном симпозиуме «Образование и наука: проблемы и перспективы развития» (Махачкала, 2014); Международной научно-методической конференции «Межкультурная-Интеркультурная коммуникация: теория и практика обучения перевода (Уфа, 17 декабря 2014 г.); Всероссийской научно-методической конференции «Интеркультурная коммуникация: теория и практика обучения». (Уфа, 2012г.); II Международном фестивале языков в Башкортостане. (Уфа, 2012г.); Республиканской научно-практической конференции «Индустрия перевода и ее перспективы» (Уфа, 2011), Материалах Международного фестиваля языков «Языки мира» (Уфа, 2011); Материалах научной конференции. под ред. Р.З. Мурясов (Уфа, 2011);

Диссертационное исследование обсуждалось на расширенном

заседании кафедры лингводидактики и переводоведения факультета
романо-германской филологии Башкирского государственного

университета. По материалам настоящего исследования опубликовано 14 печатных работ, из них 3 работы – в журналах, рекомендованных ВАК.

Структура работы определяется целями и задачами, поставленными в исследовании. Диссертация состоит из введения, трех глав, заключения и списка литературы (192 наименований).

Основы современных систем машинного перевода

При рассмотрении методов обработки лексических единиц нельзя не упомянуть о регулярных выражениях. Согласно генеративной грамматике Ноама Хомского грамматики можно разделить на 4 типа, Тип 0 – неограниченная грамматика, Тип 1 – контекстно-зависимая грамматика, Тип 2 – контекстно-свободная грамматика, Тип 3 – регулярная грамматика. Эти грамматики незаменимы при создании метаязыков. В данной работе рассмотрен только Тип 3

Выравнивание – выявление переводной пары слов, фраз или предложений из параллельного корпуса через применение определенных моделей и алгоритмов и присвоение ей значения вероятности регулярной грамматики, или регулярных выражений Regular expressions. Регулярные выражения играют важнейшую роль при обработке естественного языка для статистического машинного перевода. Регулярные выражения -формальный язык для поиска и внесения определенных изменений в подстроки текста путем использования специальных символов и подстрок. Последние можно также определить как строки-образцы. Допустим, извлечение из текста слов: «goal», «purpose», «aim», которые соответствуют русскому слову «цель», будет выглядеть как goalpurposeaim. А символам [A-Za-z], соответствуют все буквы английского алфавита, включая строчные и прописные, на [0-9] выводятся все цифры, исключая буквы. Для идентификации артикля «the», но при этом исключая сочетание этих букв внутри слова (other, theft, further), потребуется ввести следующее выражение: [AA-Za-z][Tt]he[AA-Za-z], где А означает отрицание букв перед и после «the», a [Tt] является показателем того, что система должна искать «the» как с прописной, так и со строчной буквы. Также используются такие символы: . , , , +. Точка означает любую букву, если мы вводим « sw.m», система отреагирует словами «swim», «swam», «swum». Вопросительный знак означает наличие или отсутствие предыдущего символа: на ввод «colou?r» -система выделяет «color» и «colour». Символ означает либо отсутствие предыдущего символа, либо его повторение, например, введя «oo h!», мы можем увидеть такие результаты как «oh!», «ooh!», «oooh!». + означает, что предыдущий символ может быть как единичным, так и многократно повторяющимся: вводим «Ьаа+» - получаем «baa», «baaa», «baaaa», «baaaaa». Итак, большинство букв и символов соответствуют сами себе. Например, регулярное выражение test будет соответствовать строке test . Однако некоторые символы представляют собой специальные мета символы, и не всегда соответствуют себе. Это такие символы как .А$ + { [ ] \ ( ). Символы можно перечислять по отдельности, или в виде диапазона символов, обозначенного первым и последним символом, которые разделенны знаком - . Так, [abc] соответствовует символам a, b или с; и аналогично выражению [а-с], использующему диапазон для задания того же множества символов. Для сопоставления только строчных букв, регулярное выражение будет иметь вид [a-z]. Метасимволы не активны внутри классов. [akm$] будет соответствовать любому из символов a , k , m или $ . Знак $ это метасимвол, однако внутри класса символов он не выполняет своей функции. Для нахождения соответствия символам вне данного класса, в начале класса добавляется символ - [ 5] соответствует любому символу, кроме 5 . Наиболее важным является метасимвол \. За бэкслешем могут следовать символы, обозначающие различные специальные последовательности. С помощью регулярных выражений возможно сопоставление различных наборов символов, что является ихпреимуществом над строковыми методами. Более того, регулярные выражения позволяют указывать сколько раз должна повторяться часть регулярного выражения. Так, метасимвол « » сопоставляет предыдущий символ ноль или более раз. Например, “Oo h” cоответствует “O h”- 0 символов, “Oo h” – 1 символ, “Ooо h” – 3 символа.

Основное применение регулярных выражений заключается в поиске или подстановке языковых единиц текстовыми редакторами и утилитами, используемыми системами статистического машинного перевода.

В рамках данного исследования проведен сравнительный анализ применения алгоритма нахождения минимального расстояния редактирования (Minimum Edit Distance) по Лапласу, по Левенштейну, по Дамеро-Левенштейну и методом n-грам 3 . Данный метод обработки естественного языка широко используется системами статистического машинного перевода для N-грамная модель, позволяетя определить употребляемость лексической единицы в тексте корректирования орфографических ошибок и опечатков. Минимальное расстояние редактирования – это наименьшее количество действий для преобразования одного слова в другое. Преобразовать одно слово в другое можно тремя способами: заменой, удалением или вставкой.

Факторы, влияющие на качество машинного перевода

В результате получается целевое предложение со словами tau-ik в позициях pi-ik (0 = i = l, 1 = k = phi-i). На практике это выглядит следующим образом: On the dining room table, she left a note. (входные данные) On the room table, she left a note. (выбор параметра фертильности) NULL On the room table, she left a note (выбор числа побочных слов) А на в гостиной столе она оставила такую записку (выбор переводов слов) А на столе в гостиной оставила такую записку (выбор конечных позиций) Таким образом в модели 3 используются четыре типа параметров: n, t, p, and d. n и t – двумерные таблицы чисел с плавающей точкой. d –линейный ряд чисел с плавающей точкой. P –единичное число с плавающей точкой. Таким образом, модель представляет собой набор определенных чисел. Задачи заключаются в том как: а) как извлекать значения параметров из заданной информации автоматически, б) как при помощи набора определенных значений параметров вычислить p для любой пары предложений? Важно определить способ, позволяющий автоматически извлекать из данных значения параметров n, t, p и d. Это возможно при наличии нескольких исходных предложений с пословным переводом на целевой. Для вычисления n(0 did), необходимо найти каждое слово did и проследить, что происходит с ним при пословном переводе. К примеру, если это слово встречалось 15000 раз и на первом шаге перевода опускалось 13000 раз, то n(0 did) = 13/15.

Итак, необходимо иметь построчный перевод множества предложений. Это позволит вычислить n(0 did), основываясь на том, сколько раз слову did соответствовала пустая позиция в переводе. Вычислить t(стол table) также возможно, подсчитав все переводы слова «table» и определив, сколько раз среди них встречается «стол». Представить построчный перевод можно в виде последовательности словесно-числовых соответствий. Эта последовательность имеет ту же длину, что и целевое предложение, и каждое число соответствует конкретному слову. Значение каждого числа соответствует позиции исходного слова, связанного с конкретным целевым в пословном переводе.

Выше рассмотрены вычисления значений параметров n и t, основываясь на построчном переводе. Определение значения параметра d является следующим этапом. Каждое соответствие в построчном переводе прибавляется к итоговому значению какого-либо параметра, например d(6 3, 7, 6). Вычислив все значения и упорядочив их, можно получить вероятностные значения параметров. Например, при условии, что определенное слово 125 раз встречалось в исходном предложении третьим, а в целевом шестым, то сумма dc(6 3, 7, 6) будет равна 80, при длине предложений 7 и 6 соответственно. Если Zj - сумма всех j из dc(j 3, 7, 6), то d(6 3, 7, 6) = dc(6 3, 7, 6)/ Sj=i dc(6 I 3, 7, 6) d(6 І 3, 7, 6) = 80/Z J=idcG І 3, 7, 6)

Последний шаг - вычисление p1. Для этого необходимо рассмотреть целевой корпус объемом в N слов. Предполагается, что M этих слов - появились на пустых позициях, а (N - M) слов являются обычным переводом исходных слов. Если считать, что после каждой обычной языковой единицы целевого языка в M случаях из (N - M) появляется одна побочная, то pi = М / N-M.

Для того, чтобы получить точные значения параметров, необходим большой двуязычный параллельный корпус. К сожалению, он не содержит построчных переводов. Однако существует способ вычислить значения параметров и без них.

Соответствия исходных и целевых слов при переводе предложений не обязательно являются переводами, но если получить хотя бы примерное представление о связи слов в оригинале и переводе, то можно вычислить вероятность расхождения в переводе. К примеру, установив, что перевод первого слова в исходном предложении обычно занимает то же самое место в целевом, можно предположить, что вероятность d(1 1, l, m) очень велика. Кроме того, если целевой перевод получается гораздо длиннее оригинального предложения, причиной тому может служить фертильность слов в последнем. Однако, невозможно точно указать эти слова. Но их можно обнаружить, постепенно извлекая информацию из предложения. Это похоже на самозагрузку, когда последующие данные получаются из предыдущих. Ключ к такому алгоритму -построчные переводы. Если имеется хоть один такой перевод, можно извлечь суммы параметров прямо из него. Предположим, что для какого-либо предложения существует два одинаково удачных пословных перевода. В этом случае имеется возможность извлечь суммы параметров из обоих переводов. Однако неизвестно, какой из переводов более удачный, поэтому следует уменьшить значения, извлекаемые из этой пары. Например, любую сумму параметров, извлеченную из двух одинаково удачных переводов, можно умножить на 0.5. Если слово «table» переводилось как «стол» только в одном из этих вариантов, можно предположить, что оно встречалось 0.5 раз. Такие вычисления называются дробными. Как правило, в языке встречается не один и не два варианта перевода, а гораздо больше. Более того, все они могут иметь право на существование. Имея два возможных варианта перевода, можно признать их одинаково удачными или же отдать предпочтение одному из них. В таком случае одному варианту, предположим, назначается значение 0.2, а другому - 0.8. Эти числа затем используются для дробных вычислений. Вариант перевода с большей значимостью имеет болшее влияние на конечные параметры n, t, p и d.

Информационные технологии и развитие лингвистических норм

Яндекс. В начале 2011 года Яндекс внедрил собственную систему машинного перевода. Машинный перевод Яндекса — статистический. Такой перевод основывается не на правилах языка, а на статистических данных. Для самообученния, система сравнивает сотни тысяч параллельных текстов — содержащих одну и ту же информацию на разных языках. Для каждого изученного текста система строит список уникальных признаков. Это могут быть редко используемые слова, числа, специальные знаки, находящиеся в тексте в определённой последовательности. Когда набирается достаточное количество текстов с теми или иными признаками, система начинает искать параллельные тексты ещё и с их помощью — сравнивая признаки новых текстов и уже изученных. Подобно другим системам статистического машинного перевода система машинного перевода Яндекс строится на трех основных частях: определении вероятности n-граммы, модель перевода, шумовой канал. Модель перевода создаётся в три этапа: подбираются параллельные документы, затем в них — пары предложений, и наконец пары слов или словосочетаний. Система сравнивает как отдельные слова, так и словосочетания из двух, трёх, четырёх или пяти слов, идущих подряд. В переводчике Яндекса модель перевода для каждой пары языков содержит более миллиарда пар слов и словосочетаний. Что касается логической структуры языка, его многогранность, иногда алогичность отражаются в модели языка. В модели языка, содержится вероятностное значение смыслового содержания знака, слова или фразы. Рассмотрим слова «игра» и «читать». «Игра» может принимать следующие значения – игра как игровая ситуация; игра в качестве модели с целью представления сложных систем; игра как математическая теория игр; азартная игра; игра как соревнование в интеллектуальной или политической деятельности; игра как шутка; игра как актерская деятельность. «Читать»: – читать наизусть; читать про себя; считывать; читать мысли-угадывать, читать судьбу и т.д. После применения алгоритмов модели языка системой будет выдано не одно значение, а ряд значений, которые будут упорядочены по вероятности. В.В. Налимов определяет модель языка как развитие широко принятой в зарубежной лингвистической литературе модели «черпака». Согласно этой модели можно говорить прежде всего о концепции соотнесения (reference). Слово соотносится с определенным объектом или с несколькими объектами. Это свойство слова определяется более или менее четко. Соотнесение создает лишь бедный язык – люди идут дальше и приписывают словам особый смысл. Утверждается, что смысл слова черпается изнутри сознания человека. Слово есть некий «черпак», единый для всех, но у разных людей содержимое, зачерпываемое этим черпаком, оказывается далеко не одинаковым. Представьте себе, что кто-то собирается в театр, а ему говорят: «Подождите минуточку». В этой фразе слово «минуточка» имеет весьма отдаленное отношение к астрономическому понятию «минута». И в зависимости от обстановки один раз это слово может означать, что спешить теперь не нужно – все равно придется долго ждать, в другой раз это может обозначать, что уже действительно все готово к тому, чтобы выходить из дома. Таким образом, вероятностная модель языка позволяет понять, как в выражения вводятся тонкие противоречия и обогащают речь. Итак, модель языка – знание системы о языке, на который нужно перевести текст. Непосредственно переводом занимается декодер. Для каждого предложения исходного текста подбирается максимальное число вариантов перевода, сопоставляются фразы из модели перевода, и сортируются по убыванию вероятности. Так, при перевде фразы «to be or not to be» из всех вариантов в модели перевода максимальная вероятность получилается у сочетания «быть или не бывает», сочетание «быть или не быть» оказывается с небольшим отрывом на втором месте и так далее. Все получившиеся варианты сочетаний оцениваются декодером с помощью модели языка. В данном примере модель языка «подскажет» декодеру, что «быть или не быть» употребляется чаще, чем «быть или не бывает». «Переводчик Google» основан преимущественно на анализе правил грамматики и словарей. Эта система, также как и машинный перевод Яндекса, основана на статистике. Она определяет языковые соответствия между переводимым текстом и огромным массивом теста из миллиарда слов, состоящим из примеров перевода, выполненного человеком. В ней также применяются самообучающиеся статистические алгоритмы для построения моделей перевода. Такой метод позволяет повысить качество и степень достоверности итогового текста, по максимуму исключить «не сочетаемые сочетания», чего не могут достигнуть другие системы перевода. Однако в отличие от системы машинного перевода Яндекс, «Переводчик Google» работает с 57 языками, среди них русский, английский, немецкий, итальянский, и даже филиппинский, урду и латынь. Официально сервис был представлен в 2007 году. За последние годы система перевода развилась до такой степени, что ее начали интегрировать в другие продукты Google - Google Chrome, Google Talk. Кроме этого, «Переводчик Google» проник на мобильную платформу Android.

Исследования в области СМП с применением родственных связей между языками

Пресуппозиции порождают «недоопределенные», но интерпретируемые логические формы. Процедура построения семантической репрезентации дискурса разрешает часть «недоопределенных» элементов и соотносит их друг с другом при помощи дискурсивных отношений, представляющих их риторическую функцию в дискурсе. Таким образом, пресуппозиции могут делать свой вклад в общее содержание дискурса. Данный подход предполагает более широкое понимание пресуппозиции. Существующие объяснения пресуппозиции сосредоточены на феномене проблемы проекции (Projection Problem). В понимании Н. Ашера (Asher, N. Reference to Abstract Objects in Discourse, Vol. 50, 1993.) проблема проекции пресуппозиций представляет собой имеющий большое значение и применяемый к простым предложениям в дискурсе частный случай более общей проблемы: каким образом пресуппозиции, порождаемые элементами полисентенциального дискурса, влияют на его структуру и содержание? Для формальной репрезентации текста в SDRT используются структуры представления дискурса SDRS, включающие структуры для репрезентации содержания оборотов DRS и риторические отношения типа Parallel, Narration и Background для репрезентации риторических функций DRS в контексте, причем эти отношения могут оказывать влияние на содержание оборотов, которые они соотносят и, следовательно, на содержание дискурса в целом. Репрезентация дискурса происходит путем последовательной интерпретации каждой порции новой информации, которая рассматривается при этом как вносящая изменения в текущий контекст, т.е. как имеющая определенный потенциал изменения контекста. Сначала при репрезентации используется грамматика для композиционального построения DRS, а затем уже из них, в соответствии с формально определенной процедурой обновления дискурса, динамически строится SDRS. Для обновления текущей SDRS применяется связующая логика, при помощи которой определяется место присоединения новой DRS и выводится риторическое отношение для этого присоединения, что является последней функцией связующей логики, которая базируется на выводах, лежащих в основе естественного рассуждения. Рассмотрим следующий фрагмент дискурса: (1) а. Проблема снабжения в области была решаемой: b. технику перевезли из Калуги в Обнинск; c. Чуйко отобрал два комбайна d. и переправил их в совхоз. Грамматика даст две структуры для (1а): одну для репрезентации пресуппонируемого содержания (в области имеет место проблема со снабжением), а другую для репрезентации содержания (она решаема).

Поскольку предложение является первым в дискурсе, SDRS для всего предложения должна быть обновлена сначала содержанием (добавлением его к пустому множеству – нулевому контексту начала дискурса), так как пресуппонируемое содержание требует (риторической) анафорической привязки. Теперь пресуппонируемое содержание должно быть присоединено к введенному содержанию при помощи риторического отношения. Согласно связующей логике для связи содержания и пресуппозиции применяем отношение Background, т.е. тот факт, что в области имеет место проблема со снабжением, является фоновой информацией по отношению к тому, что эта проблема решаема. Не имея возможности подробно описать процесс репрезентации всего примера, опустим вывод риторического отношения Explanation, присоединяющего к (1а) последующий дискурс и интерпретацию последней части дискурса (1d), и сделаем акцент на том, каким образом формальная репрезентация может обогащаться содержанием, не имеющим эксплицитного выражения в поверхностной структуре текста. Два комбайна в (1с) означает, что DRS, репрезентирующая пресуппонируемое содержание (1с), содержит недоопределенное отношение соотнесения В=? с некоторым недоопределенным предшествующим объектом v=? (т.е. раз информация говорящего определенная (выражает известные, по мнению говорящего, референты), то что именно это были за комбайны?). Согласно правилам связующей логики, содержание (1с) соединяется с содержанием (1b) при помощи отношения Elaboration, которое, как и Narration, налагает на соединяемые структуры пространственно-временные ограничения. И мы получаем, что два комбайна являются теми комбайнами, которые находятся в Обнинске (и которые, соответственно, были привезены вместе со всей техникой из Калуги). Благодаря устройству процедуры обновления дискурса, именно эта дополнительная информация, добавляемая к эксплицитному содержанию DRS, разрешает В=? и v=? в В=«(находиться) в» и v=«Обнинск», соответственно. Таким образом, данный пример демонстрирует, что разрешение недоопределенности в пресуппозиции определяется способом, которым содержание присоединяется к контексту. Возможно и обратное: способ присоединения пресуппозиции к контексту может разрешать недоопределенные условия в DRS, репрезентирующей содержание. Согласно вышеизложенному, а также в связи с тем, что применение SDRT на практике требует достаточно глубокого уровня математических и формально-логических познаний от лингвист-эксперт, на данном этапе определенное упрощение предлагаемого в описываемом исследовании подхода к решению проблем семантической экспертизы является необходимым. Формальная же модель SDRT может использоваться для расширения и обогащения данных современной семантической теории и служить обоснованием использования упрощенной версии модели в практике проведения семантических экспертиз.» (Д.С. Кондрашова «Теория сегментной репрезентации дискурса для решения задач судебной лингвистической экспертизы при извлечении из текста имплицитной информации» Труды международной конференции «Диалог 2006»)