Введение к работе
Актуальность работы. Машинный перевод (МП) как область искусственного интеллекта развивается более 50 лет. Выделяется два фундаментальных направления: классическое (многоуровневая формализация естественного языка) и численное (выявление и использование совместных статистических характеристик языков на основе параллельных текстовых корпусов). В настоящий момент становится очевидным, что для эффективного и качественного решения задачи необходимо предпринимать попытки соединения обоих направлений. Примеры существующих систем МП свидетельствуют о потребности в повышении качества МП путем перехода на уровень семантического анализа предложений и текстов. Приобретают особую важность методы, позволяющие в автоматическом режиме строить переводные словари для подобных систем, а также классические и статистические алгоритмы синтеза конструкций естественного языка (ЕЯ) по семантическим структурам.
В основе алгоритмов и методов настоящей работы лежит компьютерная семантическая модель русского языка, разработанная В.А. Тузовым. К двум наиболее существенным результатам работы для МП относятся алгоритм линеаризации предложений по их семантическому представлению и метод автоматического построения переводного семантического словаря с русского на английский язык. Алгоритм линеаризации реализует тезисы И.А. Мельчука об иерархической линеаризации в рамках семантической теории русского языка и является важным компонентом системы МП, использующей компьютерную семантику в качестве фундаментального подхода к решению задачи. Переводной семантический словарь строится посредством сочетания формальной модели ЕЯ (компьютерная семантика русского языка) и численного моделирования параллельных корпусов текстов. Сочетание двух указанных методов для построения переводных словарей производится впервые.
Цели диссертационной работы. Основной целью работы является повышение качества систем МП посредством выхода на семантический уровень с помощью теории компьютерной семантики. Ставится задача исследования применимости статистических методов для создания гибридных систем МП, сочетающих классические и статистические алгоритмы и методы. Полученные алгоритмы должны получить свою практическую реализацию на уровне экспериментальных систем.
Направления исследований:
Сравнение функциональной теории языка В.А. Тузова с более ранними моделями ЕЯ и статистическими подходами к формализации ЕЯ.
Исследование применимости функциональной теории к задачам синтеза предложений, построения переводных семантических словарей и самой задаче машинного перевода.
Изучение задачи анализа текста в контексте МП.
Изучение существующих подходов к МП, опубликованных в научной литературе.
Исследование задач МП, для которых оправданно сочетание теории компьютерной семантики и статистических методов.
Методы исследования, достоверность и обоснованность результатов. В
диссертации для построения системы МП применяется метод формализации ЕЯ В.А. Тузова и методы статистического моделирования ЕЯ. Достижение практических результатов и построение новых методов МП является основным содержанием предлагаемой работы. Ключевые алгоритмы доведены до практической реализации. Достоверность их работы подтверждается экспериментами. Теоретические результаты (алгоритм разрешения анафорических ссылок) опирается на положения, описанные в научной литературе. Центральным компонентом исследований является функциональная модель языка В.А. Тузова широко цитируемая в научных работах.
На защиту выносятся:
Алгоритм линеаризации семантических структур для синтеза предложений на русском языке и его программная реализация.
Алгоритмы и теоретические положения для осуществления анализа текстов при помощи теории компьютерной семантики.
Метод динамического моделирования контекста при переводе между двумя ЕЯ, использующий функциональную теорию русского языка и статистический аппарат поиска наиболее вероятных соответствий цепочек слов в параллельном корпусе текстов.
Переводной семантический словарь с русского на английский с количеством статей порядка 18 тысяч.
Переводной семантический словарь, отображающий предложно-падежные группы русского языка на английские предлоги (более 3400 статей).
Прототип системы МП, базирующийся на построенных в работе методах и переводных словарях, объёмом 7 тысяч строк программного кода.
Научная новизна результатов исследования. Исследованы основные известные алгоритмы статистического МП, являющегося в последнее десятилетие наиболее популярной темой в западной литературе. Результатом исследования является анализ применимости методов статистического МП к построению системы МП в рамках функциональной модели ЕЯ Тузова.
В ходе исследования был построен метод автоматической генерации переводного семантического словаря, применимый к любой паре ЕЯ, сочетающий теорию компьютерной семантики и статистический подход, основанный на корпусе параллельных предложений.
Впервые предложен практически реализуемый алгоритм линеаризации семантических структур для синтеза предложений на русском языке на основе теории компьютерной семантики.
Практическая ценность работы. Построенный в ходе исследования метод автоматической генерации переводного семантического русско-английского словаря может использоваться для любых других пар ЕЯ. Построенные переводные словари служат основой систем МП, оперирующих на семантическом уровне. Автором реализован прототип системы МП с русского на английский язык. Построенный и реализованный алгоритм линеаризации может применяться в задаче МП, а также в задаче автоматического реферирования текстов.
Апробация работы. Основные результаты по теме диссертации докладывались:
на политехническом симпозиуме «Молодые учёные — промышленности северо-западного региона» (С.-Петербург, 6 декабря 2007г.);
на научном семинаре по информационному поиску кафедры технологии программирования факультета ПМ-ПУ СПбГУ (С.-Петербург, 23 апреля 2009г.);
на XL конференции «Процессы управления и устойчивость» (С.Петербург, 6-9 апреля 2009г.);
на 6-м семинаре «FRUCT» (Хельсинки, Финляндия, 3-6 ноября 2009г.);
на научном семинаре кафедры информатики математико-механического факультета СПбГУ (С.-Петербург, 12 мая 2011г.).
Публикации. По теме диссертации опубликовано 6 работ [1-6], из них три работы [1-3] в журналах, входящих в список ВАК. Статьи [2-4] и [6] написаны в соавторстве. В статье [2] соискателю принадлежит метод разрешения анафорических ссылок, соавторам — методы идентификации объектов текста. В статье [3] соискателю принадлежит исследование задачи формализации связей в контексте машинного перевода и синтеза предложений, соавтору — методы формализации связей в тексте при обработке естественно-языковых конструкций. В статье [4] соискателю принадлежит формулировка базовых принципов линеаризации семантических структур и их алгоритмическая реализация, соавтору — описание основ теории компьютерной семантики русского языка. В статье [6] соискателю принадлежит компактное представление теории компьютерной семантики в контексте основных задач обработки естественного языка таких, как машинный перевод, соавтору — список идей практического применения теории компьютерной семантики в программных продуктах.
Структура и объём диссертации. Диссертация состоит из введения, четырёх глав, заключения, библиографического списка и приложения. Текст диссертации изложен на 120 страницах машинописного текста, содержит 13 рисунков и 10 таблиц. Библиографический список содержит 70 наименований.