Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Сулейманов Джавдет Шевкетович

Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей
<
Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Сулейманов Джавдет Шевкетович. Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей : ил РГБ ОД 71:1-5/197

Содержание к диссертации

Введение

ГЛАВА 1. Аналитический обзор отечественных и зарубежных работ в области обработки естественного языка (ЕЯ). Обоснование прагматически-ориентированного подхода 25

1.1. Прагматически-ориентированный подход к разработке лингвистических моделей 25

1.1.1. Традиционный подход к анализу формальной базы систем и информационных технологий обработки ЕЯ-текстов 25

1.1.2. Анализ идей и подходов, близких к прагматически-ориентированному подходу построения лингвистических моделей 37

1.2. Анализ средств обработки ЕЯ-текстов в диалоговых системах 41

1.2.1. Особенности диалоговых моделей в аспекте прагматически-ориентированного подхода 41

1.2.2. Формализмы в основе систем семантической обработки ЕЯ-текстов 49

1.3. Объектно-предикатная система как составляющая концептуально-функциональной модели 57

1.3.1. Анализ средств формального описания значений 59

1.4. Анализ систем обработки ЕЯ-текстов на основе концептуально- формальной модели 68

1.4.1. Анализ автоматизированных корректоров ЕЯ-текстов 70

ГЛАВА 2. Структурно-функциональная модель морфем как основа для создания систем и информационных технологий обработки ЕЯ-текстов . 75

2.1. Краткий анализ проблемы 75

2.2. Архитектура структурно-функциональной модели аффиксальных морфем 77

2.2.1. Структура модели 78

2.3. Описание значений аффиксальных морфем 92

2.3.1. Объектно-предикатная система 92

2.3.2. Атрибутивные отношения 94

2.3.3. Понятие ситуации 110

2.3.4. Каузальные отношения 111

2.3.5. Временные отношения 114

2.3.6. Порядковые отношения 117

2.3.7. Образ человека 118

2.3.8. Отображение значений аффиксальной морфемы -ГА в виде семантического сценария 137

2.4. Интегрированная среда для создания, модификации и применения модели морфем 151

2.4.1. Архитектура Базы Данных и Программного обеспечения 151

2.4.2. Интерфейс комплекса 152

2.4.3. База данных и функции программного инструментария 153

2.4.4. Возможность отбора и печати морфем 162

ГЛАВА 3. Система обработки вопросно-ответных текстов на естественном языке на основе интерактивной модели 169

3.1. Основные понятия и принципы построения 169

3.2. Семантическая классификация вопросно-ответных текстов 177

3.2.1. Выделение типов понятий 178

3.2.2. Выделение типов отношений 180

3.2.3. Семантическая классификация вопросов и ответов 185

3.2.4. Индивидуальные концептуальные грамматики 192

3.3. Система обработки ея-ответов обучаемого на основе прагматически - ориентированной интерактивной модели 204

3.3.1. Назначение и состав лингвистического процессора 204

3.3.2. Модель ответа 207

3.3.3. Описание вектора ситуаций 212

3.3.4. Сегментация текстов 215

3.4. Описание ИКГ как основы семантической интерпретации татарских вопросно-ответных текстов. 222

ГЛАВА 4. Система обработки татарских словоформ на основе двухуровневой модели морфологии татарского языка 236

4.1. Описание программно-инструментальной среды PC-KIMMO . 236

4.1.1. Структура и функции PC-KIMMO 236

4.1.2. Описание файла фонологических правил 238

4.1.3. Описание файла лексических компонент 243

4.2. Описание файла фонологических правил для татарского языка 244

4.2.1. Структура файла фонологических правил 244

4.2.2. Реализация контекстных соответствий А:а иА:э в файле фонологических правил (Правила 1-3) 248

4.3. Разработка Лексической компоненты 256

4.3.1. Файл морфотактических правил для татарского языка 256

4.3.2. База морфотактических правил для татарского глагола 258

4.3.3. База морфотактических правил для татарского имени существительного 262

4.3.4. Пример работы распознавателя 276

ГЛАВА 5. Система коррекции татарских текстов на основе концептуально-формальной генеративной модели морфологии 279

5.1. Обобщенная модель корректора ТАТКОР. Структура и состав 279

5.2. Выбор модели корректора. Принципы программной реализации корректора татарских текстов 285

5.3. Организация словарей и работа со словарными файлами 288

5.4. Описание формальной базы корректора 293

5.4.1. Диаграммы морфотактических правил для имени существительного 293

5.4.2. Описание базовых алгоритмов и процедур 296

5.4.3. Пример проверки корректности слова. Расчет сложности поиска подсказки 297

5.4.4. Особые случаи формализации лингвистической базы 300

5.5. Вопросы реализации и программно-технические характеристики 306

Выводы 307

Заключение 309

Литература 312

Приложения 335

Прагматически-ориентированный подход к разработке лингвистических моделей

Имеется немало серьезных обзорных аналитических работ, посвященных предыстории, тенденциям развития ЕЯ-систем, средствам описания компьютерного представления и обработки лингвистической информации. К таким работам, достаточно полно характеризующим предысторию развития, современное состояние и тенденции в области обработки естественноязыковых текстов мы относим фундаментальные исследования Мальковского М.Г., Ronald A.Cole, А.С.Нариньяни, Шарова С.А., Попова Э.В., Дж.Слокум, Городецкого Б.Ю, Шереметьевой СО. [5, 38, 63, 72, 73, 88, 102, 145, 147, 170]. При анализе тенденций развития работ в этой области исследователи, как правило, придерживаются схожей стратегической линии и выделяют следующие три подхода, отмеченных Мальковским М.Г. в [63] как лингвистический, экспериментальный и прагматический [125]. Лингвистический подход характеризуется стремлением к использованию в ЕЯ-системах максимально полных моделей языка, к построению полностью явных, эксплицитных, описаний и к определению максимально адекватной общей структуры этих описаний. Первыми формальными средствами, развитыми для описания языков, наиболее исследованными теоретически и имеющими широкое применение в практических приложениях, являются грамматики Хомского [56, 143, 144, 151]. Поэтому вполне закономерно, что обзор развития лингвистической теории, включает, как правило, трансформационные грамматики Н.Хомского [143], описывающие два уровня синтаксической структуры (глубинной и поверхностной), связанные посредством трансформаций, ставшие фундаментальной идеей для многих дальнейших исследований и реализаций; модель «Смысл - Текст» [8, 9, 68], в которой язык рассматривается как система кодов, соответствующей системе смыслов; а также наиболее популярную в настоящее время в компьютерной лингвистике современную модель Хомского GB, реализующая принцип ограничений на сформированность лингвистической структуры для описания грамматики. Идея генеративной грамматики Н.Хомского, "которая в своем современном виде включает в себя многие достижения функциональных теорий языка последних лет", и процесс их исторического развития подробно изложены Дж.Бейлин [15] в сборнике обзоров "Фундаментальные направления современной американской лингвистики" [141].

Однако грамматики Хомского, порождающие всевозможные правильные синтаксические конструкции, по мощности избыточны для анализа синтаксиса, и в то же время, недостаточны для установления семантических аспектов фразы на естественном языке. В связи с этим появились грамматики для анализа текстов, являющиеся модификацией или расширением КС-грамматик, позволяющие учитывать семантические признаки [34, 35, 137]. К таким можно отнести и грамматические теории HPSG (Head-Driven Phrase-Structure Grammar) [194], в которой знак представляется как набор атрибутов различных уровней, позволяющий интегрировать всю лингвистически-релевантную информацию от фонологической до прагматической с одновременным ее использованием; SFG (Systemic Functional Grammar) [145], основным понятием которой является система как набор возможностей для некоторого грамматического признака; и LFG (Lexical Functional Grammar) [166, 193].

Экспериментальность подхода к построению лингвистических систем, как правило, используемый специалистами в области искусственного интеллекта, вызвана глобальностью и сложностью решаемых задач, необходимостью сокращения проблемной области и языка текста, попыткой глубокого проникновения в содержание ЕЯ-текста и рассматриваемого контекста, стремлением построить реально функционирующую эффективную систему. Обзор экспериментальных систем обработки ЕЯ-текстов, как правило, содержит описание семантических падежей, семантических ролей, определяющих роли участников ситуации, управляемых предикатом; модели «семантик предпочтения», рассматривающей смысл предложения не просто как список значений слов с соответствующей синтаксической структурой, а выделяющей структурированную форму сообщения, выражающую смысл предложения; модели концептуальной зависимости [88], предназначенной по замыслу авторов для описания модели мышления человека, характеризующейся преобладанием роли семантики и, практически, отсутствием привычных представлений синтаксиса и морфологии. Такая интерпретация слов проста и удобна, поскольку позволяет получить о функциях слов, участвующих в каждом предложении, полную картину такого вида: кто, что делает, по отношению к кому, с кем, когда, где и т.д., в зависимости от того, какие роли существенны для выбранной языковой подсистемы. Это обеспечивает достаточно простую процедуру семантического анализа на логико-ситуационном глубинном уровне.

Краткий анализ проблемы

Попытки построить автоматизированный переводчик с татарского языка на русский и наоборот, достаточно быстро убедили нас в отсутствии для реализации этих целей формальной базы практически на любом языковом уровне — как на семантическом, синтаксическом, так и на морфологическом. Как известно, татарский язык как язык агглютинативного типа, обладает морфологией, богатой по составу, сложной по содержанию, но простой, регулярной и закономерной по структуре [53, 129, 206]. В связи с этим, весьма актуальной является задача построения прагматически-ориентированной компьютерной модели морфем, позволяющей провести полную «инвентаризацию» татарских аффиксальных морфем с описанием функций и ситуаций проявления их в словоформе для разработки на.ее основе эффективных систем и информационных технологий обработки естественно-языковых текстов.

В настоящее время наиболее упорядоченным, полным и унифицированным является описание татарских словообразовательных аффиксов, выполненное Ф.Ганиевым [128]. Сафиуллиной Ф.С. и Ризвановой Л.Х. составлен словарь татарских аффиксов, представляющий собой наиболее полное описание алломорфов аффиксальных морфем, включая и словообразовательные, с указанием их функций, иллюстрированные примерами. До упомянутой работы Сафиуллиной Ф.С. (в рукописи) аффиксальные морфемы в татарском языкознании, как правило, рассматривались только при изучении тех языковых категорий, где, по мнению авторов этих описаний, преимущественно проявляются соответствующие аффиксы. Например, падежные аффиксы приводятся и изучаются с категорией имени существительного, но они уже не исследуются в других парадигмах [129].

Такие свойства аффиксов как синонимия, антонимия, омонимия, рекурсия (способность, повторяясь, создавать новый смысл), модальность, регулярность (статистика на определенном текстовом материале), морфотактика (порядок следования в словоформе) практически не отражаются при их описании. Особенно важным и в корне отличающим структурно-функциональную модель от электронных словарей, тем более от некомпьютеризованных описаний морфем, является возможность ввода логических запросов. Например, заполненная модель морфем с блоком логического вывода «извечный» спор о количестве падежей в татарском языке, практически превращает в чисто вычислительный процесс. В модель вводится запрос с перечислением свойств падежной категории (предполагается, что в этом достигается «консенсус» среди лингвистов), в ответ выдается список соответствующих аффиксов.

Описание аффиксальных морфем, осуществленное Ганиевым Ф.А., Сафиуллиной Ф.С. и Ризвановой Л.Х. является важным и весьма полезным упорядоченным первичным лингвистическим материалом, упрощающим этап начального заполнения базы модели и позволяющим обратить усилия на концептуальные (полнота описания характеристик), технологические (удобство обработки, прагматичность), инструментальные аспекты разработки и реализации (открытость, наличие функций и средств для доступа и применения).

Из названия самой модели - структурно-функциональная, следует, во-первых, что она структурно, т.е. на разных языковых уровнях (фонологическом, морфологическом, синтаксическом, семантическом) отображает проявление свойств морфемы. Модель является открытой, что позволяет вносить в нее даже единичные, незначащие на первый взгляд, характеристики или проявления аффикса в словоформе, при необходимости модифицируя и саму структуру. Во-вторых, модель функциональная, т.е. после наполнения ее лингвистами-экспертами является информационно-справочной и учебно-консультационной базой при изучении и преподавании татарского языка, а также мета-моделью, используемой для разработки прагматически-ориентированных лингвистических моделей в качестве формальной базы для лингвопроцессоров. Еще одно перспективное применение подобных моделей открывается в рамках «модельной» технологии анализа ЕЯ-текстов, предложенной Нариньяни А.С. [72, 73, 75], и описанной нами в п. 1.1.2.

Основные понятия и принципы построения

В процессе диалогового общения всегда существует контекст, который определяет дополнительную информацию, способствующую правильному пониманию смысла сообщения. В условиях вопросно-ответного диалога такой контекст настолько определенен, что задающий вопрос достаточно четко может априори очертить круг ожидаемых возможных ответов и декодировать ожидаемый смысл из многообразия грамматически правильно построенных фраз в соответствии с этим предварительным знанием. Смысловая типизация вопросов и семантическая классификация ответных текстов дают возможность противопоставить каждому типу вопроса ограниченный набор допустимых, т.е. логически правильных, смысловых конструкций (ответных формул). Можно рассматривать совокупность этих формул, соответствующих конкретному типу вопроса, как некоторую грамматику, кодирующую конструкции, передающие правильный смысл ответа. Нами была поставлена и решена задача проведения такой классификации вопросно-ответных текстов, когда форма и соответствующий смысл входного текста напрямую зависят от типа вопроса.

Как было рассмотрено в Главе 1, построение семантического интерпретатора текстов на ЕЯ в контексте, управляемом вопросом системы к пользователю, имеет свою специфику, выгодно отличающую ее от других ЕЯ-диалоговых систем и создающую реальные предпосылки для построения эффективного смыслового интерпретатора.

Семантическая типизация вопросов позволяет разбить множество ответов обучаемого на семантические классы, в каждом из которых требуется раскрытие некоторого однотипного смысла, определенного типом вопроса и независимого от формы задания и лексического наполнения вопроса.

Введем определения понятий концептулы и индивидуальных концептуальных грамматик. Концептула - это элементарная смыслообразующая единица (обобщенная семантическая единица) семантической структуры текста, отражающая роль лексем в значении вопроса и в определенном их сочетании формирующая смысл текста в контексте, детерминированном заданным вопросом.

Схемы сочетания концептул (формулы), соответствующие правильной передаче ожидаемого смысла, будем называть индивидуальными концептуальными грамматиками (ИКГ). Каждая ИКГ передает определенный смысл, назовем его каноническим смыслом. Совокупность всех ИКГ составляет концептуальную грамматику (КГ). Использование понятия концептуальной грамматики дает возможность сводить выявление семантического содержания ответа к анализу его грамматического соответствия некоторой ИКГ.

Система интерпретации ЕЯ-текстов в контексте, управляемом системой, включает базу знаний, базу специфических грамматических конструкций, лингвопроцессор и семантический интерпретатор. Интерпретация ответного текста происходит следующим образом. Текст поступает в лингвопроцессор и на основе базы знаний переводится в канонизированное представление в виде последовательности специальных семантических единиц (концептул). Часть информации на лексическом уровне может представлять интерес для дальнейшего разбора (например, для проверки на непротиворечивость с ожидаемой частью ответа), поэтому накапливается в специальных файлах. Далее канонический текст интерпретируется с привлечением специальных семантических схем - ИКГ. Результат формируется в виде некоторого вектора ситуации, по которому принимается управляющее действие системы.

Построение лингвистического процессора базируется на следующих двух методологических принципах и 6 принципах реализации прагматически-ориентированной модели.

Описание программно-инструментальной среды PC-KIMMO

PC-KIMMO - это компьютерная программа, которая использует лингвистическое описание фонологии и морфологии ЕЯ для распознавания и генерации слов на этом языке.

В описании структуры языка различаются фонология - учение о структуре звуков (алломорфов) и морфология - учение о структуре слова. Фонологический анализ языка выделяет множество значащих звуков языка, называемых фонемами, и определяет правила, устанавливающие альтернативы между фонемами в определенном контексте. Морфологический анализ выделяет множество минимальных значащих еДиниц, называемых морфемами, составляющих слово и определяет порядок следования морфем в словоформе, т.е. морфотактические составляющие.

Информационная база PC-KIMMO, с точки зрения разработчика морфологического анализатора, состоит из двух файлов, созданных пользователем. Первый файл - файл правил (Rules), который описывает алфавит и фонологические правила. Второй файл - лексикон, содержащий словарь лексических единиц (корневых и аффиксальных морфем) и их толкования, а также описание морфотактических правил.

При двухуровневом подходе фонология определяется как связь между лексическим уровнем глубинного представления слов и их реализации на поверхностном уровне, в силу чего теоретическая модель фонологии PC-KIMMO называется двухуровневой фонологией. PC-KIMMO включает две функциональные компоненты - генератор и распознаватель.

Генератор на входе получает лексическую форму, применяет правила фонологии и возвращает соответствующую поверхностную форму. При этом лексикон не используется.

Распознаватель получает на входе поверхностную форму, применяет правила фонологии, обращается к лексикону и возвращает соответствующие лексические формы с их комментариями (толкованиями). Рис. 4.1 отражает структурно-функциональную схему двухуровневого морфологического анализатора. Генератор, используя файл фонологических правил, лексическую запись урман+ДА переводит в поверхностную - урманда. Распознаватель, используя оба файла - файл фонологических и файл морфотактических правил, словоформу (поверхностную запись) урманда Раскладывает по составляющим и соответствующим им содержательным описаниям: Исем (урлшм)+[падеж.афф.(#4)] Оболочка PC-KIMMO обеспечивает разработку, тестирование и отладку двухуровневых описаний.

Модели, реализованные с использованием оболочки PC-KIMMO могут быть использованы в качестве автономных модулей в других лингвопроцессорах. В частности, татарский морфологический анализатор, созданный с использованием РС-КІММО, в настоящее время реализуется в составе версии системы машинного перевода с татарского языка на турецкий. Морфологический анализатор на базе PC-KIMMO может эффективно использоваться также и как программный инструмент изучения, исследований и развития морфологии естественного языка.

Отличие двухуровневых правил от генеративных Двухуровневые правила схожи с правилами классической генеративной Фонологии, но различаются в нескольких важных моментах. Приведем пРимеР записи генеративного правила: Ш: t - с/ _i. Двухуровневое правило имеет следующий вид: Разница между формализмами двух правил не только в записи значения тоже различны.

Генеративные правила имеют три главные характеристики: 1) правила трансформации - трансформируют или переписывают один символ в другой. Ш утверждает, что t становится (изменяется в) с, когда она предшествует і. После Ш t переписывается как с и t далее не существует; 2) последовательно примененные правила генерации превращают глубинные формы в поверхностные через любое количество промежуточных уровней представления;

Похожие диссертации на Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей