Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Гильмуллин Ринат Абрекович

Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний
<
Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Гильмуллин Ринат Абрекович. Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний : диссертация ... кандидата физико-математических наук : 05.13.11 / Гильмуллин Ринат Абрекович; [Место защиты: ГОУВПО "Казанский государственный университет"].- Казань, 2010.- 258 с.: ил.

Содержание к диссертации

Введение

Глава 1. Аналитический обзор работ в области систем обработки естественно-языковых текстов 15

1.1. Математические лингвистические модели 15

1.1.1. Предыстория формальных систем обработки ЕЯ-текстов 15

1.1.2. Классификация формальных систем 20

1.1.3. Аналитический обзор методов в области машинного перевода . 25

1.1.4. Концептуально-формальные модели морфологии 29

Выводы 30

Глава 2. Двухуровневая лингвистическая модель на основе автоматов конечных состояний 31

2.1. Описание программно-инструментальной среды PC-KIMMO 31

2.1.1. Структура и функции PC-KIMMO 31

2.2. Разработка двухуровневых правил 34

2.2.1. Связи и вероятные пары 35

2.2.2. Конструкция двухуровневых правил 35

2.2.3. Выполнение двухуровневых правил в виде автоматов конечных состояний 38

2.3. Описание файла фонологических правил для татарского языка 47

2.3.1. Структура и содержание файла правил 47

2.3.2. Моделирование контекстных соответствий лексичеких и поверхностных уровней в файле правил как основы автоматов конечных состяний 52

2.4. Описание файла лексических компонент 95

2.4.1. Структура и содержание файла морфотактических правил 95

2.4.2. Представление морфотактики в виде автоматов конечных состояний 95

2.5. Файл морфотактических правил для татарского языка 96

2.5.1. База морфотактических правил для татарского глагола 97

2.5.2. База морфотактических правил для татарского имени существительного 107

2.5.3. Пример работы распознавателя 113

Выводы 114

Глава 3. Прагматически-ориентированная технология создания сиетем машинного перевода 117

3.1. Концептуальный прагматически-ориентированный подход к созданию многоязыковых систем обработки ЕЯ-данных 117

3.2. Средства формального описания лексической семантики 117

3.3. Формальная семантическая модель для описания значений аффиксальных морфем 127

3.3.1. Отображение значений аффиксальной морфемы -ГА в формальной семантитческой модели 129

3.3.2. Сопоставительный анализ значений татарских и турецких аффиксальных морфем на основе формальных семантических моделей 140

3.4. Метод перевода на основе устойчивых схем переводных соответствий в системе татарско-турецкого машинного перевода 146

3.4.1. Алгоритм построения эвристической модели перевода 147

3.4.2. Программные модули системы татарско-турецкого машинного перевода 152

Выводы 156

Заключение 157

Литература 158

Приложение

Введение к работе

Актуальность проблемы. В системах обработки знаний, таких как системы машинного перевода, информационно-поисковые системы, системы автоматизированной коррекции текстов и другие, важное место занимает проблема разработки формальных грамматических конструкций, представляющих собой прагматически-ориентированные математические модели естественноязыковых уровней, позволяющих строить эффективные лингвистических процессоры.

Лингвистические процессоры (ЛП) - это системы, которые анализируют, генерируют, интерпретируют и трансформируют естественно-языковые тексты. Сегодня можно констатировать, что специалистам так и не удалось построить универсальную систему обработки естественно-языковой информации, способную эффективно решать произвольную лингвистическую задачу, без специальной ее предварительной модификации, без перепрограммирования. Это, скорее, связано с тем обстоятельством, что, с одной стороны, не увенчались успехом попытки построения универсальной формальной лингвистической модели хоть какого-либо языка, с другой стороны, из-за того, что, очевидно, реализация такого лингвистического процессора на базе универсальных формальных моделей, даже в условиях применения современных технологий, будет неэффективной и малопригодной по временным и емкостным характеристикам.

Одним из способов повышения эффективности построения ЛП является прагматически-ориентированный подход к разработке лингвистических моделей [54], определяющий минимальный набор средств для решения определенного круга лингвистических задач, исходя их принципа достаточности.

Прагматически-ориентированный подход к построению лингвистических моделей, прежде всего, определяет концептуально-инструментальную технологию, которая, с одной стороны, детерминирует контекст и позволяет определить контуры и направлять формирование ожидаемого ЕЯ-текста, с другой стороны, помогает осуществлять адекватный подбор лингвистических и математи-

ческих средств для эффективной обработки ЕЯ-текста, поступившего на вход ЛП.

В частности, эффективность системы обработки естественного языка может быть обеспечена еще на уровне формирования лингвистической и математической моделей, за счет учета близости структурных и типовых характеристик языков внутри одной языковой группы, за счет детальности и глубины разработки модели определенного языкового уровня в зависимости от целевой ориентированности разрабатываемой системы, а также от степени важности соответствующего языкового уровня в языковой системе.

Например, в тюркских языках, таких как татарский и турецкий языки, обладающих большим сходством на всех языковых уровнях, информация о морфологической структуре словоформ в предложении во многом характеризует таюке и синтаксическую и семантическую структуры всего предложения, и, соответственно, при построении ЛП важным представляется разработка лингвистической и математической моделей морфологического уровня.

Таким образом, актуальной и перспективной является задача разработки лингвистических и математических моделей обработки текстов в аспекте прагматически-ориентированного подхода и создания и использования многоязыковых систем обработки естественно-языковых текстов внутри одной языковой группы. В частности, применение двухуровневой модели морфологии является таким прагматически-ориентированным подходом к решению этой задачи.

Цель и задачи исследования. Целью диссертационной работы являются исследование, разработка и реализация математических и лингвистических моделей и программного обеспечения систем и технологий обработки многоязыковой информации.

Для достижения поставленной цели в рамках диссертационной работы решаются следующие основные задачи:

1. Анализ систем и технологий обработки естественно-языковой информации.

  1. Исследование и математическое моделирование двухуровневых формализмов морфологической генерации и распознавание и реализация их на основе автоматов конечных состояний.

  2. Разработка формальной системы в виде формальных семантических моделей для описания значений аффиксальных морфем и проведения сопоставительного анализа значений аффиксальных морфем естественных языков.

  3. Разработка формальных моделей перевода на основе алгоритмов машинного обучения, использующих устойчивые схемы переводных соответствий языков.

  4. Реализация программных модулей системы татарско-турецкого машинного перевода.

Объект исследования. Объектами исследования являются:

  1. Двухуровневая автоматная модель лингвистических составляющих как основа морфологического анализатора и как формальная база машинного перевода родственных языков.

  2. Эвристическая модель перевода (ЭМП), основанная на устойчивых схемах переводных соответствий языков.

  3. Математические и лингвистические модели и программные модули поддержки перевода на основе ЭМП.

В данной работе в качестве лингвистического материала для содержательной иллюстрации и практической реализации математических моделей и системы машинного перевода используются татарский и турецкий языки. Выбор языков обусловлен тем, что эти языки, во-первых, как языки агглютинативного типа, обладая морфологией, богатой по составу, сложной по содержанию, но простой и регулярной по структуре, представляют большой интерес для пользователей и разработчиков эффективных средств хранения и обработки информации. Во-вторых, татарский и турецкий языки являются родственными языками, входящими в тюркскую группу языков, т.е. служат естественной иллюстрационной базой возможности прагматически-ориентированной технологии в

системе перевода родственных пар языков. В-третьих, подобного рода исследования служат развитию рассматриваемых языков, в чем особенно нуждается татарский язык, являющийся вторым языком после русского языка по распространенности в России и государственным языком в Республике Татарстан, наряду с русским языком.

Научная новизна результатов. В процессе исследований получены следующие новые научные результаты, выносимые на защиту.

  1. С помощью автоматов конечных состояний разработана и реализована двухуровневая модель морфологии татарского языка, относящаяся к классу прагматически-ориентированных концептуально-формальных моделей и представляющая собой полную компьютерную модель татарской морфологии.

  2. Разработаны формальные семантические модели значений аффиксальных морфем на основе объектно-предикативной системы, отображающей реальные языковые ситуации, и на их базе проведен контекстно-сопоставительный анализ соответствия аффиксальных морфем переводимых пар языков.

  3. Разработан алгоритм построения эвристических моделей перевода на основе параллельных текстов, представляющих собой устойчивые схемы переводных соответствий языков.

  4. Разработана прагматически-ориентированная технология создания переводчиков для пары родственных языков и реализованы программные модули, используемые в системе татарско-турецкого машинного перевода.

Работа имеет принципиальную новизну как в постановке задачи, так и в выборе методов решения поставленной задачи. Эффективность методов и подходов решения поставленной проблемы базируется, прежде всего, на комплексном использовании современных достижений в области искусственного интеллекта, математической лингвистики и компьютерных технологий, связанных с разработкой формальных моделей языка, теории и практики машинного перевода.

Практическая ценность полученных результатов.

Полученные результаты в виде концепции эффективной реализации программ перевода родственных языков, методов сопоставительного анализа лингвистических составляющих на основе объектно-предикативной системы, средств морфологической маркировки произвольных текстов, как основы лин-гвопроцессоров и базы для научных исследований, двухуровневой модели морфологии, двухуровневого морфологического анализатора, а также программных средств поддержки татарско-турецкого перевода активно используются в учебном процессе в Казанском государственном (КГУ) и Казанском государственном педагогическом университетах в учебных курсах «Математическая лингвистика», «Прикладная лингвистика», в научных исследованиях учеными факультета татарской филологии и истории КГУ и Института языка, литературы, искусства АНТ им. Г. Ибрагимова, а также в мультимедийных учебных разработках НИИ «Прикладная семиотика» Академии наук РТ и Казанского государственного университета, в составе распознавателя текстов в OCR FineReader, в составе прикладной грамматической модели татарского языка, внедренной в Университетскую информационную систему (УИС) «Россия» (НИВЦ МГУ), позволяет эффективно поддерживать многоязычный поиск в татарско-русской электронной коллекции текстов, а также как программный инструмент описания турецкой модели морфологии в многоязычном электронном словаре Lingvo хЗ компании ABBYY.

Предложенная двухуровневая модель морфологии, относящаяся к классу прагматически-ориентированных концептуально-формальных моделей и представляющая собой полную компьютерную модель татарской морфологии, может быть использована не только в многоязыковых системах обработки данных и системах автоматизированной коррекции текстов, но и в составе специализированных АРМов, например, как программный инструмент изучения и развития морфологии татарского языка в составе АРМ лингвиста-исследователя, как программа разметки и лемматизации в составе АРМ лексикографа.

Одной из главных особенностей построенной системы, обеспечивающих ее эффективность и гибкость, является разделенность языконезависимых и язы-козависимых блоков. Это позволяет легко модифицировать лингвистическую базу системы, а также наполнять ее лингвистическими ресурсами, правилами, лингвистическими моделями другого языка, а также модифицировать программные модули без изменения лингвистических ресурсов.

Практические разработки и реализация результатов диссертации осуществлялись в рамках Государственной программы Республики Татарстан по сохранению, изучению и развитию языков народов Республики Татарстан.

Документы, подтверждающие внедрение и практическое использование результатов диссертации, находятся в Прилржениях.

Методы исследования. При разработке и реализации двухуровневой модели морфологии использовались теории формальных грамматик и конечных автоматов.

Методы структурного и сопоставительного анализа, когнитивного моделирования и математической лингвистики применены при описании объектно-предикативной системы для отображения контекста и установления взаимосвязей между лексическими единицами татарского и турецкого языков через эту систему.

При разработке лингвистических моделей и программных модулей обработки многоязыковых данных на их основе использовались методы алгоритмического моделирования, структурного и логического программирования.

Апробация работы. Результаты работ докладывались автором на международных конференциях и семинарах: на Международной конференции LP'2000 по типологии языков (Чехия, г. Прага, 2000), на научном семинаре по ЕЯ-процессорам в Белкентском университете (Турция, г. Анкара, 1997), на Международной конференции "KDS" (Крым, г. Ялта, 1997), на международных семинарах по компьютерной лингвистике и ее приложениям ДИАЛОГ (г. Таруса, 1998, 1999; г. Протвино, 2000-2003), на Международной конференции

«Языковая семантика и образ мира» (г. Казань, 1997), на Международной конференции «Интерактивные системы: проблемы человеко-компьютерного взаимодействия» (г. Ульяновск, 2001, 2009), на Казанских школах по компьютерной и когнитивной лингвистике TEL (г.Казань, 1999-2008), на Международном симпозиуме «LENCA-2» (г. Казань, 2004), на Международном симпозиуме «Языковые контакты Поволжья» (г. Казань, 2008), на телеконференции «Информационные технологии в гуманитарных науках» (КГУ, 1998), а также на различных республиканских и городских научных семинарах, итоговых научных конференциях КГУ и ИЯЛИ АНТ (1997 - 2009).

При непосредственном участии автора выполнено шесть научно-исследовательских грантов: 1) грант Программы «Наука за стабильность» в рамках проекта TU-Language: «Татарский двухуровневый морфологический анализатор» (1996- 1998 гг.); 2) грант НИОКР АН РТ «Разработка татарско-русского машинного переводчика регистрационных форм» (2001 -2003 гг.); 3) грант НИОКР АН РТ «Компакт-диск с татарской локализацией об Академии наук Татарстана к 10-летнему юбилею АНТ» (2000 - 2001 гг.); 4) грант НИОКР АН РТ «Машинный фонд татарского языка» (2002 - 2004 гг.); 5) грант РФФИ (№ 04-06-97501) «Прикладная грамматическая модель татарского языка в задачах информационного поиска в многоязычных корпусах текстов» (2006 г.); 6) грант РФФИ (№04-06-97501) «Экспериментальная загрузка многоязычной (русско-татарской) текстовой коллекции и адаптация соответствующих программных интерфейсов к татарскому языку на базе программных средств Университетской информационной системы УИС «Россия»» (2007 - 2008 гг.).

За циклы работ по темам «Построение базовых программных модулей системы татарско-турецкого машинного перевода» и «Татарская локализация операционной системы Windows Vista и пакета Microsoft Offlce-2007» в 2004 и 2008 годах, соответственно, Указом Президента Республики Татарстан и Постановлением Кабинета Министров Республики Татарстан диссертант был удостоен республиканской премии молодых ученых в области «Информатика, вы-

числительная техника и автоматизация».

Основные результаты, полученные соискателем в рамках диссертационной работы, вошли в состав научно-образовательного комплекса «Научное, учебно-методическое и информационно-программное обеспечение реализации татарского языка как государственного в системе образования Республики Татарстан», удостоенного Государственной премии Республики Татарстан в области науки и техники 2009 года.

Публикации. По результатам выполненных исследований опубликовано 20 работ, из них 16 в соавторстве.

Структура и объем работы. Работа содержит введение, 3 главы, заключение, список использованной литературы, 6 приложений.

Во введении обоснована актуальность темы, сформулирована цель работы и определен перечень решаемых задач, указана их новизна, отмечены особенности подхода, раскрываемого в диссертационной работе, теоретическая и практическая ценность полученных решений и разработок, а также дан краткий обзор содержания по главам.

В первой главе дается аналитический обзор разработок и публикаций по теме диссертации. Анализируются формальные модели и средства обработки ЕЯ-текстов и отмечается, что построение прагматически-ориентированных лингвистических моделей на основе двухуровневой модели морфологии может служить эффективным средством при разработке автоматизированных переводчиков родственных языков.

Дается анализ систем и методов в области автоматизированных переводчиков. Отмечается, что интересными и перспективными являются концепция и методология программно-концептуальной прагматически-ориентированной технологии для создания переводчиков родственных языков.

Ставится задача, решение которой описывается в данной диссертации.

Во второй главе описывается формальный аппарат двухуровневых правил, а также дается полное описание двухуровневой модели морфологии татар-

ского языка и морфологического анализатора, относящегося к классу прагматически-ориентированных концептуально-формальных моделей.

Математическая лингвистическая модель морфологии реализуется на основе двухуровневых формализмов программного инструментария PC-KIMMO, модифицированного под задачи, решаемые в рамках данной диссертации. Двухуровневые правила реализованы с помощью автоматов конечных состояний. Математическая модель морфотактических правил является двунаправленной и реализована на основе трансдьгосоров конечных состояний, представляющих собой разновидность АКС.

Отмечается, что морфологический анализатор, созданный на основе двухуровневой модели морфологии и являющийся составной частью системы татарско-турецкого машинного перевода, может быть использован в качестве морфологического модуля в составе других систем обработки естественноязыковой информации, а также как программный инструмент изучения и развития морфологии татарского языка. В частности, в настоящее время модуль татарского морфологического анализа внедрен в такие программные продукты, как УИС «Россия» (НИВЦ, МГУ), Lingvo хЗ (ABBYY, г. Москва).

В главе 3 даются анализ и описание формальных семантических моделей значений аффиксальных морфем, используемых для проведения сопоставления аффиксальных морфем переводимых пар языков. Формальные семантические модели построены на основе объектно-предикативной системы представления прагматически-ориентированных контекстов. Здесь же описывается алгоритм построения эвристичеких моделей перевода, который является обобщением метода шаблонного перевода на основе параллельных текстов. Дается описание основных модулей системы татарско-турецкого машинного перевода и приводится ряд иллюстрационных примеров функционирования системы. Отмечается, что модульная структура программного комплекса содержит пользовательскую и алгоритмические части, при этом алгоритмическая часть является язы-конезависимой, что при необходимости позволяет строить модели перевода для разных языков.

В заключении приводятся основные результаты, полученные в рамках данной диссертационной работы. Отмечается, что разработанная двухуровневая модель морфологии татарского языка, относящаяся к классу прагматически-ориентированной концептуально-формальной модели, представляет собой полную компьютерную модель татарской морфологии. Морфологический анализатор, построенный на ее основе, имеет широкое практическое применение в составе реальных коммерческих приложений.

В Приложении 1 содержатся акты о внедрениях и справки об использовании программного комплекса, разработанного и реализованного в рамках данной диссертационной работы.

В Приложении 2 приводится полный файл двухуровневых правил на основе автоматов конечных состояний.

В Приложении 3 приводится результат генерации словоформы с падежным аффиксом -ЛАр на базе описанных фонологических правил.

В Приложении 4 приводится описание файла морфотактических правил.

В Приложении 5 приводится результат выполнения функции распознавания поверхностной формы:уйнарга ('играть').

В Приложении 6 приводятся формальные семантические модели для описания значений аффиксальных морфем на основе объектно-предикативной системы как основы разработки таблицы соответствия между аффиксальными морфемами, а также лингвистические модели, полученные в результате выполнения алгоритма построения ЭМП.

Аналитический обзор методов в области машинного перевода

Как сказано выше в разделе 1.1.2, системы машинного перевода (МП) в общем случае являются одними из самых сложных формальных систем, относящихся по классификации Сулейманова к когнитивным моделям. Проблема машинного перевода имеет богатую предысторию, начиная с 1950-х годов. Особенно активными и продуктивными в развитии машинного перевода оказались 1990-е годы, что связано как с высоким уровнем персональных компьютеров, появлением сканеров и программ OCR, так и с распространением Internet/Intranet, обусловивших реальный спрос на машинный перевод. Проблема машинного перевода рассматривается как ключевая в вопросах продвижении высоких технологий и обеспечении конкурентоспособности в глобальном информационном пространстве. Создание такого рода систем требует значительных ресурсов: экспертов предметной области, лингвистов, математиков, программистов, и естественно, эффективных программных средств.

Существуют классификации различного рода систем МП [26, 1] по самым различным признакам, из которых наиболее важными представляются следующие.

Поколение системы МП. Различаются четыре поколения систем МП в зависимости от структуры алгоритма и от типа формального представления предложения, на уровне которого происходит переход от одного языка к другому. В системах первого поколения алгоритм не разделяется на отдельные блоки анализа и синтеза: синтез данного фрагмента предложения протекает одновременно с его анализом в процессе однократного просмотра фразы слева направо. Лингвистическая информация не отделена и принципиально неотделима от алгоритма, т. е. задается чисто процедурно. По указанной причине в системах первого поколения не используется в явном виде никакое формальное лингвистическое представление предложения.

В системах второго поколения а) алгоритм анализа отделен и независим от алгоритма синтеза; б) лингвистическое обеспечение задается декларативно, т. е. независимо от алгоритмов; в) собственно перевод осуществляется на уровне синтаксической структуры предложения, явно выделяемой алгоритмом в процессе обработки фразы. Более подробные сведения приведены в работе [Апресян Ю. Д., 1989].

Системы третьего и четвертого поколений, в настоящее время находящиеся в стадии разработки или только проектирования, наследуют первые два свойства систем второго поколения. По замыслу, в системах третьего поколения перевод должен осуществляться на уровне полной семантической структуры предложения, а в системах четвертого поколения — на уровне «энциклопедического представления» - семантической структуры, слитой с определенным фрагментом представления знаний.

По этой классификации модель татарско-турецкого перевода, исследуемую в нашей диссертации, молено отнести ко второму поколению, т. е. алгоритм анализа отделен и независим от алгоритма синтеза, лингвистическое обеспечение задается декларативно, т. е. независимо от алгоритмов. Вместе с тем, имеется и определнное различие - в силу практической идентичности синтаксических структур переводных языков нет необходимости явно выделять и анализировать их специальным алгоритмом ситаксического или семантико-синтаксического разбора в процессе обработки фразы, как это делается в переводных парах неродственных языков.

Уровень разработки. Среди систем, доведенных до машинной реализации, различаются промышленно действующие и экспериментальные системы.

Наша система перевода относится к экспериментальным системам.

Тип перевода. Различаются переводы, выполняемые: а) машиной без вмешательства человека; б) машиной с привлечением человека в качестве пред, интер- или постредактора; в) человеком с помощью машины (автоматические словари и т. п.).

Татарско-турецкий переводчик, описанный в главе 3 диссертации, относится к типу б), т. е. это, скорее, экспериментальная система изучения родственных языков, имеющая дополнительную возможность осуществлять перевод текста на другой родственный язык на уровне, понятном носителю языка. Очевидно, даже такая система перевода является весьма полезной для ознакомления с текстом на неизвестном языке.

Назначение перевода. Имеются два полярных типа систем: для оперативного, может быть, поверхностного информирования научных и инженерных работников о новых научных идеях и технических решениях, и для точного перевода технической документации.

Как сказано выше, наша переводческая модель относится к первому типу, т. е. будет полезной для оперативного, поверхностного информирования пользователя о содержании текста.

Число рабочих языков системы. Различаются двуязычные и многоязычные системы МП.

Разработанная система относится к двуязычным, однако она может быть легко расширена до многоязычной системы МП с одним важным условием - все эти языки должны принадлежать к одной языковой группе. Однако формальные системы и математические модели, а также алгоритмы перевода, описанные в данной duccepmaifuu, будут наиболее эффективны для пар переводных языков агглютинативного типа, с богатой и регулярной морфологией

Тип рабочих языков системы. Различаются системы, работающие с естественным языком в его полном объеме или с весьма ограниченным фрагментом естественного языка, с типологически далекими или типологически близкими языками.

Система машинного перевода, разработанная и описанная нами в диссертации, работает с ЕЯ в полном его объеме, однако при условии типологической близости языков.

Описание файла фонологических правил для татарского языка

Файл правил состоит из списка объявлений ключевых слов и соответствующего им содержания. В файле правил используется следующий набор ключевых слов: ALPHABET, NULL, ANY, BOUNDARY, SUBSET, RULE и END. 1) ALPHABET хбцчдфгцжклмнпрсштзйьъ вКу.юяэаеыиоЫАУСЛДГР ЙЧЮЯЦэЭЬе9уУ0РцЦ Д+123 4 5 6789 Это список из 74 символов, необходимых для полного представления татарского алфавита. В базовой оболочке PC-KIMMO для обозначения символов используется латинский алфавит, из-за чего возникают сложности при реализации файла фонологических правил и Лексикона для языков на основе кириллического алфавита. В связи с этим нами осуществлена модификация программного инструментария с использованием системы Visual Studio и языка программирования С#. Модифицированная система восполнилась дополнительными возможностями работы с символами кодовой таблицы Unicode, соответственно, предоставляя возможность использовать языки на кириллическом алфавите. Кроме того, нами разработаны подключаемые dll- и Net-модули для морфологического анализа и синтеза текста. Данные библиотеки разработаны в среде разработки .NET-приложений Microsoft Visual Studio, что позволяет использовать двух уровневую модель на любой алфавитной основе, включая кириллическую, в кроссплатформенных системах. Л, Й, Ы, У, А, Д, Г Y, Q, Р - лексическая форма записи, которая на поверхностном уровне реализуется согласно фонологическим правилам. % — применяется в словах, которые не подчиняются закону сингормонизма. Например, слово бэла (беда) присоединяет алломорфы с «мягкими» гласными, а не «твердыми», как это предполагается правилами сингармонизма (заканчивается на «твердый» слог). Лексическая форма конструкции словоформы бэла+лЫ оформляется следующим образом: бэл1%+лЫ, где лексический символ Ы в данном случае соответствует поверхностному «мягкому» символу е, а не «твердому» символу ы в соответствии с законом сингармонизма. 2) NULL О 3) ANY @ 4) BOUNDARY # Составляющие 2)-4) файла правил обозначают назначение соответствующих символов для применения при записи правил.

Для более компактного написания файла Правил используется секция SUBSET. 5) SUBSET CS нхбцэщдфгжклмнцпрсчшщтйзъъв ЛД С Г Й — это обозначение множества всех (ConSonants) букв, проявляющихся как со гласные (31 буква). SUBSET VOWEL эаеыиовууэяюЫА — множестово всех гласных букв. SUBSET BACKV аыоуюя - множество задних («твердых») гласных. SUBSET FRONTV э э ей в у- множество передних («мягких») гласных. SUBSET ZVONKCS рнцжлмйз — особый случай (группа звонких согласных). SUBSET GLUHCS хбцчдфгнкпсшт- особый случай (группа глухих и звонких согласных). SUBSET ZVOPARE бдгжлрйзмнц — множество всех звонких со гласных. SUBSET GLUPARE птскфшнчщ — множество всех глухих согласных. SUBSET NASAL мцп — множество носовых звуков. Всевозможные пары - пары соответствия на лексическом и на поверхностном уровнях - обозначаются ключевым словом PAIRS. Таким образом, для описания файла фонологических правил татарского языка используется 39 записей правил, подробное описание которых приводится в последующих разделах диссертации. Пример генерации словоформы с падежным аффиксом -ЛАр на базе описанных фонологических правил приведен в Приложении 3. Этот аффикс соответствует аффиксу множественного числа: ЛФ: ат+ ЛАр ПФ: атлар кони

В фонологических правилах указано, в каком окружении и на что может изменяться соответствующий лексический символ при генерации словоформы. 1) Моделирование контекстных соответствий А:а, А:э в файле фонологических правил (Правила 1-3) Некоторое множество аффиксов с вхождением лексического символа А и их алломорфы представлены ниже (таблица 2.12). Фрагмент описания соответствия морфем и их алломорфов в таблице 2.12 показывает, что некоторые морфемы могут включать более чем один лексический символ. Для каждого лексического символа существуют свои фонологические правила представления соответствий.

Файл морфотактических правил для татарского языка

Список глагольных форм для распознавания записывается в специальный файл tatar.rg , который подается на вход распознавателя двухуровневого морфологического анализатора. Пусть файл tatar.rg содержит следующие слова: baru bargannar barma barmasa bardirt. Тогда результат распознвания, записанный в файле tatar.rec , будет следующим: бар+У [ V(6ap)+NOMINATTVE(y/Y/B) ] бар+ГАн+ЛАр [ V(6ap)+PAST_UNDEF(rAH)+PLURAL(LAp) ] бар+мА [ V(6ap)+NEGATTVE(MA) ] бар+мА+сА [ V(6ap)+NEGATTVE(MA)+CONDITIONAL(cA) ] бар+ДЫр+т [ V(6ap)+COUSATIVE(flbIp)+MODAL(T) ] Далее приведем описание файла морфотактических правил для татарского глагола с примерами и комментариями. ;WTatar.lex {Файл, содержащий подлексиконы всех классов лексем} ALTERNATION BEGIN VERBS {VERBS - список глагольных основ, которые являются начальным входом для анализатора} Пример: LEXICON VERB бар verb "V(6ap)" кил verb "V(Kmi)" кара verb "V(Kapa)" ALTERNATION verb { здесь указываются аффиксальные классы, которые могут следовать за глаголом) REFLEX MODAL NOMINATIVE INFINITIVE PARTICIPAL CONTRARY IMPERATIVE REQUEST CONDITIONAL TENSES CONDJFUTURE1 End {в нашем случае - это указанные 11 аффиксальных классов, каждый из которых доопределяется далее вплоть до соответствующей группы аффиксов) ALTERNATION End End {Признак конца присоединения аффикса или присоединение нулевого аффикса) LEXICON INITIAL О BEGIN "[" INCLUDE verb.Iex; {подключение файла, содержащего глагольные основы} Далее следует описание аффиксальной базы глагольных словоформ татарского языка. Здесь приведем описание фрагмента из этого файла. LEXICON REFLEX {группа 1 на рис. 2.2 - группа рефлексивных аффиксов, обозначающих форму залога}

В первой части лексикона приводится аффиксальная морфема, далее название класса морфем, которая может следовать за этим аффиксом. Третья составляющая отражает трактовку, комментарий относительно данного лексического ввода. +Ын COUSATTVE "+REFLEXIVE(blH)" +Ын MODAL "+REFLEXIVE(blH)" +Ын NOMINATIVE "+REFLEXIVE(blH)" +Ыш CONTRARY "+REFLEXIVE(bIni)" +Ыш REQUEST "+REFLEXIVE(bIiH)" +Ыл COUSATTVE "+REFLEXIVE(bLi)" +Ыл MODAL "+REFLEXIVE(bLi)" +Ыл NOMINATIVE M+REFLEXrVE(bLr)" +ДЫр MODAL "+COUSATIVECTbIp)M +ДЫр NOMINATIVE "+COUSATTVE0HbIp)" +ДЫр INFINITIVE "+COUSArnVE№Ip)" +ДЫр CONDJWURE1 "+COUSATIVE(flbIp)" +ДЫр COUSATTVE1 "+СОШАТГ /Е(ДЫр)" LEXICON MODAL {группа аффиксов, обозначающих формы модальности глагола} +ГАлА NOMINATIVE , +MODAL(rAjiA)" +rAnAPARTICIPAL "+MODAL(r A)" +ЫштЫр NOMINATIVE "+МСЮАЬ(ЫштЫр)" +ЫштЫр PARTICIPAL "+MODAL(bIniTbIp)" +ЫштЫр MODAL M+MODAL(bIuiTbIp)" LEXICON COUSATIVE {аффикс, обозначающий неуверенность} +ДЫр NOMINATIVE "+СОШАТГУЕ(ДЫр)" +ДЫр INFINITIVE "+COUSATIVE(flbIp)" +ДЫр MODAL "+COUSATIVE(flbIp)" LEXICON CONTRARY {аффикс, обозначающий отрицание} +мА IMPERATIVE "+NEGATIVE(MA)" +MA CONDITIONAL "+NEGATIVE(MA)" LEXICON End О # "]" END {признак конца файла Лексикон}. В морфотактических правилах указаны аффиксальные группы и порядок их следования. Функция распознавания обращается как к файлу фонологических, так и к файлу морфотактических правил. В Приложении 5 приводится демонстрационный пример выполнения функции распознавания для поверхностной формы:уйнарга ( играть ). Схема морфотактических переходов для глаголов (рис. 2.2) построена с учетом грамматических категорий наклонения, времени отрицания, залога, числа и лица глагола. Глагольная основа в словаре представлена в форме 2-го лица единственного числа повелительного наклонения: например, бар — иди , кил - приходи . Все аффиксы в схеме представлены в лексической форме (ЛФ), то есть в зависимости от окружения они обретают разные поверхностные формы (ПФ). Например, ЛФ: бар (иди)+ГАн кил (npwcogu) + ГАн ПФ: барган (сходил) килгэн (приходил) Как видно из примера, здесь аффикс -ГАн проявляется в двух поверхностных формах: -ган и -гэн. 1-ый блок схемы на рис. 2.2 описывает категорию следующих залогов: Страдательный (+Ыл) ЛФ: тапшыр ( вручи )+Ыл ПФ: тапшырыл ( вручись ) Возвратный (+Ын) ЛФ: бвркэ ( накрой )+Ын ПФ: бвркэн ( накройся ) Взаимно-совместный (+Ыш) ЛФ: озат( проводи )+Ыш ПФ: озатыш ( помоги проводить ) Понудительный (+ДЫр, +т) ЛФ: свйлэ ( рассказывай )+т ПФ: свйлэт ( заставьрассказать ) ЛФ: свйлэ ( рассказывай )+т+ДЫр ПФ: свйлэттер ( позволить (датьразрешение)рассказать ) ЛФ: свйлэ ( расказывай )+т+ДЫр+т ПФ: свйлэттерт ( заставить рассказать кого-либо, но уже через другого, т. е. через дополнительный объект ) ЛФ: am ( стреляй )+ДЫр ПФ: аттырт ( заставь стрелять ) ЛФ: am ( стреляй )+ДЫр+т ПФ: аттырт ( разреши стрелять ) ЛФ: am ( стреляй )+ДЫр+т+ДЫр ПФ: аттырттыр ( заставь стрелять, через дополнительный объект ). 2-ой блок описывает категорию времени:

Формальная семантическая модель для описания значений аффиксальных морфем

Например, в тюркских языках, таких как татарский и турецкий языки, обладающих большим сходством на всех языковых уровнях, информация о морфологической структуре словоформ в предложении во многом характеризует таюке и синтаксическую и семантическую структуры всего предложения, и, соответственно, при построении ЛП важным представляется разработка лингвистической и математической моделей морфологического уровня.

Таким образом, актуальной и перспективной является задача разработки лингвистических и математических моделей обработки текстов в аспекте прагматически-ориентированного подхода и создания и использования многоязыковых систем обработки естественно-языковых текстов внутри одной языковой группы. В частности, применение двухуровневой модели морфологии является таким прагматически-ориентированным подходом к решению этой задачи.

Цель и задачи исследования. Целью диссертационной работы являются исследование, разработка и реализация математических и лингвистических моделей и программного обеспечения систем и технологий обработки многоязыковой информации. Для достижения поставленной цели в рамках диссертационной работы решаются следующие основные задачи: 1. Анализ систем и технологий обработки естественно-языковой информации. 2. Исследование и математическое моделирование двухуровневых формализмов морфологической генерации и распознавание и реализация их на основе автоматов конечных состояний. 3. Разработка формальной системы в виде формальных семантических моделей для описания значений аффиксальных морфем и проведения сопоставительного анализа значений аффиксальных морфем естественных языков. 4. Разработка формальных моделей перевода на основе алгоритмов машинного обучения, использующих устойчивые схемы переводных соответствий языков. 5. Реализация программных модулей системы татарско-турецкого машинного перевода. Объект исследования. Объектами исследования являются: 1) Двухуровневая автоматная модель лингвистических составляющих как основа морфологического анализатора и как формальная база машинного перевода родственных языков. 2) Эвристическая модель перевода (ЭМП), основанная на устойчивых схемах переводных соответствий языков. 3) Математические и лингвистические модели и программные модули поддержки перевода на основе ЭМП. В данной работе в качестве лингвистического материала для содержательной иллюстрации и практической реализации математических моделей и системы машинного перевода используются татарский и турецкий языки. Выбор языков обусловлен тем, что эти языки, во-первых, как языки агглютинативного типа, обладая морфологией, богатой по составу, сложной по содержанию, но простой и регулярной по структуре, представляют большой интерес для пользователей и разработчиков эффективных средств хранения и обработки информации. Во-вторых, татарский и турецкий языки являются родственными языками, входящими в тюркскую группу языков, т.е. служат естественной иллюстрационной базой возможности прагматически-ориентированной технологии в системе перевода родственных пар языков. В-третьих, подобного рода исследования служат развитию рассматриваемых языков, в чем особенно нуждается татарский язык, являющийся вторым языком после русского языка по распространенности в России и государственным языком в Республике Татарстан, наряду с русским языком. Научная новизна результатов. В процессе исследований получены следующие новые научные результаты, выносимые на защиту. 1. С помощью автоматов конечных состояний разработана и реализована двухуровневая модель морфологии татарского языка, относящаяся к классу прагматически-ориентированных концептуально-формальных моделей и представляющая собой полную компьютерную модель татарской морфологии. 2. Разработаны формальные семантические модели значений аффиксальных морфем на основе объектно-предикативной системы, отображающей реальные языковые ситуации, и на их базе проведен контекстно-сопоставительный анализ соответствия аффиксальных морфем переводимых пар языков. 3. Разработан алгоритм построения эвристических моделей перевода на основе параллельных текстов, представляющих собой устойчивые схемы переводных соответствий языков. 4. Разработана прагматически-ориентированная технология создания переводчиков для пары родственных языков и реализованы программные модули, используемые в системе татарско-турецкого машинного перевода. Работа имеет принципиальную новизну как в постановке задачи, так и в выборе методов решения поставленной задачи. Эффективность методов и подходов решения поставленной проблемы базируется, прежде всего, на комплексном использовании современных достижений в области искусственного интеллекта, математической лингвистики и компьютерных технологий, связанных с разработкой формальных моделей языка, теории и практики машинного перевода. Практическая ценность полученных результатов. Полученные результаты в виде концепции эффективной реализации программ перевода родственных языков, методов сопоставительного анализа лингвистических составляющих на основе объектно-предикативной системы, средств морфологической маркировки произвольных текстов, как основы лин-гвопроцессоров и базы для научных исследований, двухуровневой модели морфологии, двухуровневого морфологического анализатора, а также программных средств поддержки татарско-турецкого перевода активно используются в учебном процессе в Казанском государственном (КГУ) и Казанском государственном педагогическом университетах в учебных курсах «Математическая лингвистика», «Прикладная лингвистика», в научных исследованиях учеными факультета татарской филологии и истории КГУ и Института языка, литературы, искусства АНТ им. Г. Ибрагимова, а также в мультимедийных учебных разработках НИИ «Прикладная семиотика» Академии наук РТ и Казанского государственного университета, в составе распознавателя текстов в OCR FineReader, в составе прикладной грамматической модели татарского языка, внедренной в Университетскую информационную систему (УИС) «Россия» (НИВЦ МГУ), позволяет эффективно поддерживать многоязычный поиск в татарско-русской электронной коллекции текстов, а также как программный инструмент описания турецкой модели морфологии в многоязычном электронном словаре Lingvo хЗ компании ABBYY.

Похожие диссертации на Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний