Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи Ли Изольда Валерьевна

Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи
<
Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ли Изольда Валерьевна. Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи : Дис. ... канд. техн. наук : 05.13.11 : Санкт-Петербург, 2004 135 c. РГБ ОД, 61:04-5/3849

Содержание к диссертации

Введение

Глава 1. Анализ подходов и средств представления и обработки естественного языка в системах понимания речи . 13

1.1. Основные проблемы 13

1.2. Подходы к представлению и обработке естественного языка 15

1.2.1. Лингвистические подходы 16

1.2.2. Экспериментальный подход 24

1.2.3. Прагматически-ориентированный подход 29

1.3. Средства представления предметной области 31

1.3.1. Семантические сети и фреймы. 31

1.3.2. Диаграммы сущность-связь 32

1.3.3. Онтологии. 33

Выводы по главе 1 41

Глава 2. Модифицированная модель представления естественного языка в рамках интегрального подхода к пониманию речи . 42

2.1. Модель представления естественного язьпса 42

2.1.1. Ситуативная модель 48

2.1.2. Модель языка - ассоциативная модель 52

2.2. Модель интегрального понимания. 55

2.2.1. Базовый ассоциативный анализ 56

2.2.2. Базовый ситуативный анализ 57

2.2.3. Интегральная оценка. 60!

2.2.4. Избыточность информации в базовой модели интегрального понимания 61

2.3. Модификация модели представления естественного языка 64

2.3.1. Особенности использования онтологии 65

2.3.2. Модификация ситуативной модели 67

2.3.3. Модификация ассоциативной модели 70

2.3.4. Модификация словаря предметной области 70

2.3.5. Модификация структуры входной гипотезы ..71

Вывод по главе 2 73

Глава 3. Разработанные методы обработки гипотез фраз в модуле естественно-языкового анализа 74

3.1. Метод верификации онтологического подмножества гипотезы входной фразы 74

3.1.1. Алгоритм верификации онтологического подмножества. 75

3.1.2. Оценка работы алгоритма верификации онтологического подмножества 83

3:1.3. Оценка эффективности представления перефразировок 84

3.2. Метод оценки лексической близости ситуативных переходов и гипотез фраз 85

3.2.1. Обработка гипотез в базовой модели понимания 85

3.2.2. Оценка лексической близости ситуативных переходов и гипотез фраз 89

3.2.3. Тестирование метода оценки лексической близости в задаче голосового управления подвижным объектом... 93

3.3. Модификация модуля естественно-языковой обработки 99

Выводы по главе 3 101

Глава 4. Практическое использование разработанных в диссертации методов 102

4.1. Модель голосового управления подвижным объектом 102

Описание программного комплекса, реализующего модель понимания речи 102

Модель представления естественного языка в задаче голосового управления самолетом 108

4.2. Модель понимания речи для информационной системы «Автомаркет» 111

Выводы по главе 4 121

Заключение 122

Литература 124

Введение к работе

Некоторые определения. В данной, быстроразвивающейся; области, используются некоторые термины, заимствованные из смежных областей знаний. Поэтому во избежание недоразумений здесь целесообразно привести некоторые определения.

Распознаванием речи называют представление речевого сигнала последовательностью слов, которая ему соответствует.

Пониманием речи называют представление: смысла, передаваемого г речевым сигналом, в некоторой канонической форме, непосредственно пригодной- для і вызова- действий; в автоматической системе, угодных говорящему человеку [5].

Естественный язык (ЕЯ) — язык, словарь и грамматические правила которого обусловлены, практикой- применения; и не всегда формально; зафиксированы.

Онтология является; системой понятий, предположительно существующих в некоторой; области знаний, для; обозначения; которых использован определенный естественный язык. В простейшем; случае онтология описывает иерархию связных представлений, которые используются; для; обозначения типовых множеств объектов, обладающих общими; признаками.

Актуальность,темы д иссертаци и; Обеспечение взаимодействия; с ЭВМ; на естественном языке является важнейшей задачей исследований; по искусственному интеллекту. Сейчас речевые технологии активно включаются в различные сферы нашей жизни, способствуя ускорению процессов информационного обмена;в различных предметных областях, что привело к развитию проблемно-ориентированных систем понимания; речи. При; этом; наиболее остро проявилась проблема разрешения; языковой; неоднозначности [25];. а также; проблема; учетам информации об иерархии; понятий и; терминов; определенной предметной области. Первая; проблема обусловлена; многозначностью слов естественного языка; ошибками; распознавания отдельных слов и синтаксическими неточностями в речи диктора. Вторая $ ведет к терминологической путанице, возникающей из-за разницы в толковании терминов у системы и пользователя. Решение этих проблем связано с адекватным отображением естественного языка во внутреннее машинное представление. Для этого следует эффективно использовать всю доступную s априорную информацию, включая синтаксис, семантику и прагматику [18].

Как правило, подходы к представлению и обработке естественного языка используют только два вида информации: синтаксическую и семантическую. Причем: основной упор делается; на. синтаксис, т.е. методы грамматического разбора; [16]. Синтаксический: анализ становится самоцелью и приводит к построению грамматически правильных предложений; которые, однако,. могут содержать, смысловую неоднозначность. В результате многолетних исследований в области обработки естественного языка и речи было установлено, что для решения проблемы, неоднозначности необходимо использовать информацию о соотнесении знаков естественного языка, объектов и событий реальной действительности, к которым относятся- семантическая} и прагматическая: информация, и которые представляют собой по существу информацию о предметной области. Стало очевидным, что сложность понимания и методы обработки естественного языка определяются не только структурой и особенностями: входного текста, но и представлением. о предметной области, в рамках которой осуществляется! человеко-машинное взаимодействие.

Существует достаточно обширный набор средств представления знаний7 о предметной области, наиболее эффективным на: сегодняшний день считается онтология , [23 ]. Применение этих средств для представления семантической t и прагматической информацию в области речевых технологий является актуальной темой исследования, поскольку ведет к разрешению проблем-языковой \ неоднозначности и учета; иерархии понятий предметной области при понимании речи.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка методов разрешения, неоднозначности естественного языка и учета иерархии понятий при представлении и обработке естественного языка в, системах автоматического понимания речи. Для достижения поставленной цели; в диссертационной работе поставлены и решены следующие задачи:

1. Анализ; основных подходов к представлению и обработке естественного языка;

2. Построение эффективной модели представления, и обработки естественного языка;

3; Разработка методов эффективного семантико-прагматического анализа. Методы І исследования. Для решения поставленных задач в работе используются- методы теории информации, теории! множеств, экспертного,, статистического и эвристического анализа, а также: методы итерационного поиска. Компьютерная І реализация- разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Научная новизна работы состоит в следующем:

1. Разработана эффективная модель представления естественного языка; за счет использования онтологии предметной» области в виде иерархии? понятий предметной области, которая учитывает семантическую информацию и позволяет легко расширять предметную область.

2. Разработан алгоритм верификации онтологического подмножества гипотезы входной фразы, позволяющий оценить его семантическую связность, и существенно ускорить процесс обработки? речи за счет предварительного отсечения гипотез, содержащих семантически не: связные понятия.

3; Разработан метод оценки-лексической близости: ситуативных переходов;

гипотезе входной фразы, позволяющий избежать последовательного перебора всех возможных канонических перефразировок при;

определении квантитативной; оценки расстояния! между входной;

гипотезой и каноническими перефразировками.

Обоснованность, и- достоверность научных положений; основных выводов? и результатов диссертации обеспечивается • за счет тщательного анализа состояния: исследований в. данной области, подтверждается корректностью предложенных моделей, алгоритмов и согласованностью результатов, полученных при компьютерной реализации, а также апробацией:

основных теоретических положений диссертации в печатных трудах и докладах на научных конференциях.

Практическая ценность работы.. Разработанные модели и алгоритмы направлены на разрешение проблемы адекватного отображения» естественноязыкового представления во внутреннюю информационную модель, которая представлена в виде матрицы межсловных ассоциаций, ситуативной? базой данных и онтологией предметной области.

Разработанный метод верификации онтологического подмножества входной гипотезы позволяет оценить семантическую связность гипотезы входной фразы и обеспечивает систему понимания механизмом обобщения? терминов предметной области: В результате пользователь может использовать широкий спектр понятий и терминов предметной области при взаимодействии с прикладной системой автоматического понимания речи;

Разработанный в рамках настоящего диссертационного исследования; алгоритм оценки лексической близости ситуативных переходов гипотезе входной фразы позволяет уйти от последовательного перебора всех канонических перефразировок за счет предварительного анализа ситуативных переходов и отсечения заведомо бесперспективных, что позволило существенно повысить скорость ситуативной обработки.

За счет внесения онтологии, использования алгоритмов верификации онтологического подмножества, и метода оценки лексической близости ситуативных переходов достигается- сокращение избыточности модели; представления естественного языка и повышение скорости обработки гипотез входной фразы.

Реализация результатов; работы. Исследования, отраженные в диссертации,, проведены в рамках научно-исследовательских работ: ЄПб НЦ РАН: «Разработка методов автоматического перевода устной речи» (№01.2.00309944) и «Перевод устной речи на основе интегрального подхода: исследование и применение ситуативной информации» (№01.2.00309949) (2002-2003гг.); ФЦП «Интеграция»: Образовательно-исследовательский» центр языка и речи, № 326.81; проект МНТЦ № 1993Р (задача 4) «Модель голосового управления подвижным объектом». Кроме: того, результаты диссертационной:

работы использованы при разработке средств голосового доступа к информационной системе «Автомаркет» для компании «BridgeQuest».

Апробация, результатові работы:, Основные положения? и результаты; диссертационной работы представлялись на Международных конференциях «Речь и Компьютер» SPECOM (Санкт-Петербург 2000= Москва52001, Санкт-Петербург 2002, Москва 2003, Санкт-Петербург 2004), IX международной-конференции «Региональная информатика РИ-2004» (Санкт-Петербург 2004).

Публикации. Основные результаты по материалам диссертационной? работы опубликованы в 9 печатных работах.

Структура» и объем работы.. Диссертация объемом 132 машинописные страницы, содержит введение, четыре главы и заключение,. список литературы (106 наименований), 15 таблиц, 42 рисунка.

Основные результаты. В результате проведенной работы был разработан метод верификации онтологического подмножества с использованием онтологии предметной области, которая вносит информацию) об иерархии понятий, а также за счет метода оценки лексической близости ситуативных переходов был усовершенствован ситуативный; анализ, позволяющий устранить смысловую неоднозначность высказывания. 1. Внесение онтологии предметной области и использование метода: верификации онтологического подмножества позволило учесть иерархические связи между терминами предметной области и проверить их семантическую связность. За счет предварительного отсечения гипотез, содержащих семантически не связные понятия,, удалось существенно ускорить процесс обработки речи. Кроме того, обеспечена естественность взаимодействия пользователя І с прикладной системой понимания? речи за; счет возможности использования широкого спектра понятий, и; терминов; предметной области. 21 Метод оценки лексической близости ситуативных переходов позволил оценить релевантность анализируемой гипотезы конкретному ситуативному переходу без перебора всех перефразировок, и таким образом ускорил процесс разрешения семантической неоднозначности: при ситуативном? анализе.

З: На основе разработанных методов была проведена модификация базовой модели интегрального понимания, в результате чего появилась возможность разрешать семантическую неоднозначность высказываний, содержащих термины различных уровней обобщения, без избыточного представления ситуативной информации.

Краткое содержание работы; В первой главе диссертации рассмотрен анализ состояния дел в области автоматического понимания речи. Качественному пониманию речи препятствуют факторы, связанные с соотнесением естественно-языкового высказывания с ожидаемыми действиями системы. К ним относятся неоднозначности, обусловленные синтаксическими; неточностями, оговорками диктора и многозначностью слов,. а. также наличие различных уровней обобщения тех или иных специфических терминов? предметной области, которое ведет к терминологической путанице. Поэтому основными проблемами понимания речи являются семантико-синтаксическая? неоднозначность речевого высказывания, а также учет иерархии понятий предметной области. Эти проблемы возникают в условиях недостаточности априорной информации о естественном языке, поэтому решение этих проблем в первую очередь связано с адекватным отображением априорной информации о естественном языке во внутреннее машинное представление.

В результате многолетних исследований в области проблем автоматического понимания речи и естественно-языковой неоднозначности была осознана необходимость комплексного подхода к построению семантико-синтаксической модели языка и прагматической модели ПО [21,3 7]. При таком подходе синтаксическая информация используется5 как вспомогательная и позволяет оценить грамматическую корректность естественно-языковых конструкций, семантическая; информация накладывает связи между знаками; естественного языка, а прагматическая информация» соотносит знаки, естественного языка с реальными объектами и ситуациями.

Таким- образом, анализ существующих подходов к представлению? и обработке естественного языка показал, что существует ряд средств эффективного представления- и обработки естественного языка, применение которых в системах автоматического понимания речи позволит решить проблему неоднозначности и учесть иерархию понятий ПО.

Во второй главе приводится описание интегральной модели понимания; речи (разработанной ранее в группе речевой информатики СПИИРАН). Модель содержит модули акустического и естественно-языкового анализа. В данной; работе более полно рассматривается уровень естественно-языкового анализа, поскольку он претерпел изменения? за. счет модификации представления и обработки естественного языка, учитывающих иерархию терминов ПО.

В результате внесения • онтологии ПО в рамках ситуативной модели было модифицировано представление канонической перефразировки. Кроме того; наличие обобщающих понятий обеспечивает уменьшение неоднозначности на ассоциативном уровне и значительное сокращение соответствующей5 базы данных за счет объединения нескольких элементов одного уровня-и их оценок семантической связности с остальными словами в одну группу. Таким образом; внесение онтологии позволило учесть иерархию понятий в ходе семантико-прагматического анализа и устранить избыточность в представлении ситуативной и ассоциативной информации;

Третьяі глава описывает разработанные автором метод верификации онтологического подмножества на основе онтологии ПО и метод оценки лексической близости ситуативных переходов гипотезе входной фразы. Оба метода направлены на предварительную оценку поступающих на ситуативный: анализ гипотез фраз. В методе верификации онтологического подмножества выполняется поиск элементов подмножества в онтологии ПО, выявляется; наличие или отсутствие прямых родственных связей между этими элементами;, а также определяются обобщающие понятиям для каждого из элементов: Ъ-результате внесения онтологии ПО в модель представления естественного языка и использование метода верификации онтологического подмножества были учтены иерархические связи между терминами предметной области и получена оценка их семантической связности.

Во второй части; третьей1 главы, рассматривается метод оценки лексической; близости возможных ситуативных переходов гипотезе входной фразы, который позволяет заранее отсечь бесперспективные для; поступившего набора гипотез ситуативные переходы; и таким: образом, значительно ускорить процесс ситуативного анализа..

ВI заключение третьей главы рассмотрена модификация модуля естественно-языковой обработки. Модификация проведена на. основе разработанных методов,, которые обеспечивают сокращение гипотез; фраз выходящих с модуля ситуативного анализа по двум; аспектам. Во-первых, сокращается; количество гипотез, поступающих с уровня ассоциативного анализа. Во-вторых, сокращается число канонических перефразировок, поступающих на ситуативный анализ. Таким; образом, проведенная! модификация привела к ускорению работы ситуативного анализа w интегральной модели пониманияtречи в.целомj например, на 50% для модели? голосового управления самолетом.

В= четвертой; главе приводятся? данные по реализации разработанных алгоритмов в экспериментально-исследовательских моделях речевого диалога. Разработанные в диссертации методы были; успешно реализованы в ряде научно-исследовательских моделей По проекту МНТЦ №1993Р, задача 4 создана модель голосового управления, самолетом на. основе разработанных алгоритмов естественно-языкового анализа. Внедрение разработанных методов --в рамках данного проекта позволило устранить избыточность базовой модели представления и обработки естественного языка без потери качества понимания речи. Вt рамках проекта; «Автомаркет» были? разработаны средства голосового доступа к информационному автокаталогу. На основе предложенного метода верификации онтологического подмножества был реализован механизм? семантического анализа, позволяющий корректно обобщать термины; предметной области. Разработанные средства голосового доступа могут быть-внедрены в антивандальные справочные системы, в предметных областях с принятой и устоявшейся терминологией;

Таким образом, с помощью разработанных в диссертационной? работе методов и программных модулей; были созданы эффективные средства: человеко-машинного взаимодействия на; основе автоматического ввода речи. Естественность взаимодействия; пользователя с прикладной системой\ понимания речи была обеспечена за счет возможности использования широкого спектра понятий и терминов предметной области.

Положения, выносимые на защиту:

1. Модификация базовой модели представления естественного языка за счет внесения онтологии предметной области.

2. Метод верификации онтологического подмножества гипотезы входной фразы, позволяющий отсечь гипотезы входной фразы, содержащие семантически-несвязные подмножества.

3. Метод оценки лексической близости ситуативных переходов гипотезе входной фразы, позволяющий отсечь заведомо бесперспективные ситуативные переходы при ситуативном анализе.

4. Модификация базовой модели обработки естественно-языкового высказывания.

Подходы к представлению и обработке естественного языка

Помимо неоднозначности при понимании речи возникает терминологическая путаница, обусловленная богатой иерархией понятиш конкретной предметной» области. Здесь причины неверного анализа естественного языка находятся=в концептуальной сфере, связанной с иерархией I понятий и объектов предметнош области, а также отношениями; между этими? объектами. Эта проблема проявляется в ситуации общения; когда между пользователем; и системой! возникает недопонимание, обусловленное разногласиями в представлении о предметной области.

Рассмотрим пример типичной терминологической путаницы. Эта неувязка может возникнуть при первом же обращении к системе, поскольку человек формулирует запрос исходя из своих интересов и знаний, то термины, используемые им, могут оказаться, более специфичными, чем ожидаются системой, или наоборот. Например, в системе голосового доступа к электронному авто-каталогу на вопрос «Какую машину вы хотите?» система в: первую очередь ожидает фразу: «Я хочу купить машину марки Мерседес». Где Мерседес - это «марка» машины. Пользователь же вправе сказать: «Я хочу купить Sprinter». Имея в виду автомобиль «марки» Mercedes «модели» Sprinter.

В случае прямого соотнесения запроса с ожидаемой канонической фразой система понимания неизбежно столкнется с проблемой несоответствия, т.е.. с непониманием.

Таким образом, основной проблемой понимания речи является проблема отображения; естественного языка из внешнего представления, во внутреннее машинное представление. В; процессе восприятия речи человек пользуется? априорной информацией о языке: и окружающей среде: синтаксической, семантической и прагматической. Основной интерес представляют методы их представления, а также механизмы анализа этих видов информации в системе автоматического понимания речи. Поэтому проанализируем основные подходы к представлению и обработке естественного языка на основе этих видов, информации.

В данном разделе дается краткий обзор подходов к обработке ЕЯ.. Большинство современных исследований? в области моделирования естественно-языковых процессов опираются на три вида априорной-информации: синтаксическую, семантическую и прагматическую. За последние; десять лет сделано не мало аналитических обзоров по обработке естественного языка и способам его представления. К ним относятся работы МЛ7. Мальковского, А.С. Нариньяни, Сулейманова, Д.Ш. Шарова С.А., Дж. Слокум [15,21,37,44,66]. Исследователи, как правило, выделяют три подхода? к представлению и обработке естественного языка: (1) лингвистический;, ориентированные на извлечение семантико-синтаксических конструкций естественного языка и построению максимально полных моделей; языка; (2) экспериментальный (семантико-прагматический), ориентированный на построение модели мышления и (3) прагматический, где язык рассматривается как средство достижения; определенных целей. Далее рассмотрим; каждый из подходов более детально.

Лингвистические системы используют грамматику, описывающую возможные синтаксические структуры ЕЯ» Как: правило, В; основе синтаксического анализа находятся лингвистические теории, которые описывают способ представления. последовательности элементов предложения через грамматическую структуру компонентов [61,84,85 86].

Наиболее значимой теорией построения идеальной синтаксической! модели, которая послужила, основой» создания большинства: лингвистических систем, является теория! трансформационных грамматик, которую также называют генеративной грамматикой. Теория; была разработана Н; Хомским [41] в начале 50-х гг. прошлого столетия. Центральная і идея теории/ трансформационных грамматик состоит в том, что поверхностные формы любого языка могут быть представлены как результат взаимодействия нескольких подсистем: набор синтаксических правил (ограничений) и набор семантических правил. Основное внимание обращается на синтаксический: уровень, который описывается автономно. Синтаксические правила: определяют правильное расположение слов в предложениях, а семантические: правила, отвечают за то, чтобы правильно интерпретировать конкретное расположение слов в предложении. По мнению Хомского, теория ТГ описывает универсальную часть структуры языкового аппарата человека, не зависящую от конкретного языка.

Одной из первых компьютерных реализаций: ТГ, упомянутых в [102], является система MITRE transformational parser [106]. Использование большого количества: уровней в: алгоритме, методов программирования и компьютеров; доступных впервой половине 60-х годов, привело-к тому,.что скорость анализа была крайне низкой :36 минут на среднее предложение длинойюколо 11 слов:

Обзор методов применения трансформационных грамматик к анализу ЕЯ- и реализованных алгоритмов дан в [57]. В числе поздних реализацийТГ-теории в [102] упоминается система PARSIFAL [78].

Теория ТГ послужила основой при создании модели «Смысл-Текст» [17]. Описание языка в этой модели устанавливает соответствие между смыслом ш текстами данного языка, выражающими этот смысл. Язык рассматривается?как система кодов, соответствующая системе смыслов. Описание компьютерных реализаций теории «Смысл-Текст» содержится в [2,3].

Деревья разбора. Генеративная грамматика является системой жестко: фиксированных правил, описывающих корректные предложения:языка. Здесь, синтаксический анализ представляет собой построение дерева синтаксического разбора, которое можно производить как. сверху вниз - от нетерминального символа {нетерминальный символ обозначает класс синтаксически эквивалентных групп, имя символа используется при написании правил грамматики) к предложению языка, так и снизу вверх - от предложения; к начальному символу.

Нисходящий синтаксический разбор заключается в поиске замены -очередного нетерминального символа в выводимой цепочке на правую часть, соответствующего правила. При этом алгоритм может руководствоваться только "незакрытой", то есть нераспознанной частью предложения. Обычно для« этого достаточно одного терминального символа.

При восходящем синтаксическом разборе в предложении (или; в промежуточной цепочке) ищется правая часть правила, которое необходимо "свернуть" к нетерминалу левой части. Решение принимается на основе анализа соседних терминальных символов в анализируемой цепочке.

По своей: природе алгоритмы синтаксического разбора: бывают детерминированные (сразу же строящие правильное дерево) и недетерминированные, то есть допускающие возврат на некоторое число шагов -назад.

Избыточность информации в базовой модели интегрального понимания

Bs ситуативной модели смысл отражается; набором перефразировок, сопоставимых с определенным действием, угодным говорящему человеку. Многозначность естественно-языкового высказывания; устраняется за. счет априорного задания канонических фраз. Основным недостатком такого представления является жесткость по отношению к синонимии и внесению новых терминов. Здесь при учете синонимии и новых понятий происходит дублирование всех перефразировок ситуации, в которую вносятся синонимичные понятия или новые термины.

При разработке приложений для задач голосового управления і с. жестко заданными командами базовая модель понимания показала высокую точность и скорость, обработки [71]. Однако, при проектировании справочных ш диалоговых систем,, в которых пользователь использует более широкую лексику, возникает проблема учета иерархии понятий» ПО. В базовой ситуативной модели эта проблема разрешается за счет избыточного представления» перефразировок, для каждого І перехода; содержащего синонимичные понятия? или понятия, различного уровня обобщения: Вследствие чего резко возрастает объем баз данных ш соответственно падает, скорость обработки, речевого высказывания. Далее на конкретном примере рассмотрим, где проявляется. избыточность ситуативной БД1 ш как ее можно избежать.

Нарисунке представлен фрагмент ситуативной І модели для задачи голосового управления- подвижным объектом. Данный фрагмент отражает ситуативные переходы из ситуации і в следующие возможные ситуации.

Каждый выделенный; набор перефразировок (в данном; случае по 4 перефразировки в наборе) отражает смысл действия, с одним из четырех устройств управления, каждый из которых имеет по два названия: (1) one, first; (2) two, second; (3) three, third, (4) four, fourth. Как видно из примера, перефразировки тиражируются как в рамках одного набора перефразировок, так и для каждого ситуативного перехода.

В данном І примере рассмотрен фрагмент ситуативной диаграммы только; для четырех понятий; одного, класса. При і наличии нескольких десятков или сотен понятий такое представление негативно скажется на скорости обработки естественно-языкового высказывания. Более того, такое представление неудобно для задач, в которых важную роль играет расширение терминологии предметной области. При? введении очередного термина потребуется с вносить существенные изменения в структуру ситуативной модели.

Таким образом, избыточность перефразировок в базовой ситуативной модели ведет к избыточности ситуативного анализа и является! существенным недостатком базовой модели интегрального понимания. Помимо этого, создание ситуативной модели производится экспертным образом, т.е. эксперт задает через редактор вручную все фразы и оценки, т.о. наличие синонимии и сложной терминологической; структуры усложняет сам процесс создания ситуативной модели..

Аналогично; дело обстоит с ассоциативной моделью, она г автоматически, увеличивается, в соответствии? с числом нововведенных терминов и синонимичных слов. Такую модель сложно расширять, поскольку внесение новых понятий? и; синонимов потребует внесения дополнительных ситуаций; переходов, перефразировок и весовых коэффициентов в ситуативной модели, а также получения дополнительных ассоциативных оценок в ассоциативной модели языка.

Вышеуказанный : недостаток тиражирования перефразировок сказывается при проведении1 естественно-языкового анализа,, основанного на сравнении; входной гипотезы со всеми; указанными в ситуативной модели перефразировками. Таким образом, базовая модель ситуативного анализа ведет к неоправданному усложнению естественно-языкового анализа. Таким образом, из анализа базовой; модели интегрального понимания, следует что, проблема неоднозначности слов естественного языка, учет синонимии и, иерархии понятий І решается не эффективно из-за. отсутствия эффективного механизма учета синонимии и сложной терминологии; Для. устранения вышеуказанного недостатка предложена модификация базовой модели представления априорной? информации о естественном языке, которая обеспечивает возможность изменения терминологию предметной области без существенной переработки всей модели..

Модификация; заключается во внесении в модель представления; априорной информации модели онтологии. Онтология выступает в качестве средства представления понятий предметной области. Она представленная в простейшем виде, как иерархия понятий (терминов) ПО.

Включение онтологии в модель представления естественного языка потребует усовершенствования ситуативной и ассоциативной моделей, а также повысит эффективность ситуативного и ассоциативного видов анализа. Далее предлагается модель представления, онтологии в рамках интегрального подхода, а также модификация ситуативной и ассоциативной моделей.

Оценка лексической близости ситуативных переходов и гипотез фраз

Пунктиром выделены модули,, привнесенные в; базовую? модель, представления? естественного - языка. Теперь архитектура представления? естественного языка содержит этапы экспертного формирования онтологии и? включения: онтологических понятий; в - ситуативную І модель. В модели» данных онтология- представлена- списком, который; позволяет осуществить быстрый; поиск элементов5 и получить цепочку предков элемента.. Также добавлены словари І для каждого набора перефразировок, соответствующих переходам из ситуации в ситуацию, что позволяет произвести лексический анализ, гипотез входных фраз и сократить перебор перефразировок при ситуативном анализе без потери качества понимания речи;

Разработан метод верификации онтологического подмножества гипотезы входной фразы, который: позволяет отсечь семантически неверные гипотезы, опираясь на онтологическую модель. Внесение онтологии; ПО в модель, представления естественного языка и использование метода верификации онтологического подмножества позволило учесть иерархические связи; между терминами предметной области и получить оценку их семантической связности. Разработка метода верификации онтологического подмножества гипотезы входной фразы, обеспечила механизм корректного обобщения; понятий (терминов) предметной области и позволило устранить терминологическую неоднозначность естественно-языкового высказывания.

Метод оценки лексической близости ситуативных переходов і осуществляет анализ множества канонических перефразировок с целью отсечения маловероятных, за счет предварительного лексического анализа. В ї результате повышается точность понимания,.а скорость ситуативного анализа увеличивается в несколько раз. Метод оценки лексической близости ситуативных переходов позволяет заранее отсечь бесперспективные для; поступившего набора гипотез ситуативные переходы и таким образом; значительно ускорить процесс ситуативного анализа.

Разработанные методы; направлены на предварительную оценку поступающих на ситуативный анализ гипотез фраз. Модификация! базовой? модели интегрального понимания; речи на основе разработанных методові обеспечивает сокращение гипотез фраз выходящих с модуля ситуативного анализа по двум аспектам. Во-первых, сокращается, количество гипотез; поступающих с уровня ассоциативного анализа; Во-вторых, сокращается число канонических перефразировок, поступающих на ситуативный анализ: Достигается общее сокращение числа гипотез, не вызывающее при этом потери правильной гипотезы.

В данном разделе описана модель понимания, созданная в ходе проекта МНТЦ №1993Р, задача 4, которая предназначена для обработки речевой информации в ходе голосового управления подвижным объектом. В ї качествеі объекта управления был выбран самолет гражданской авиации и смоделирован фрагмент управления взлетом самолета. Прототип системы голосового управления самолетом позволяет пользователю посредством голоса подавать управляющие команды в соответствии с текущей ситуацией и техническим состоянием средств управления самолетом. Алгоритм управления был составлен на основе общих представлений разработчиков с использованием: знаний экспертов-летчиков, поскольку систематическая информация о взаимодействии экипажа с системой управления самолетом в настоящее время t не описана в специальной литературе.

Программное обеспечение реализовано на языке программирования C++ с использованием принципов объектно-ориентированного программирования= (классов, наследования, инкапсуляции и т.д.). Далее более подробно будут описаны разработанные классы, их методы, входные/выходные данные, приведены связи наследования, а также описан комплекс методов и средств, использованных при разработке программного обеспечения.

Описание программного комплекса, реализующего модель понимания речи В» течение работы по проекту был создан программный, модуль, понимания речи представленный на рисунке 4.1 (Пунктиром выделены разработанные и модифицированные модули).

В результате внедрения; разработанных в диссертационной! работе методов была, модифицирована структура представления ситуативной? базы данных, за счет внесения" словарей наборов перефразировок, отражающих смысл перехода из ситуации в ситуацию. Модифицирована ассоциативная модель, а также: внесена база данных онтологии ПО в; виде списка: Модифицированный комплекс может быть условно разделен на четыре основных части: совокупность баз данных, совокупность модулей обработки речевого сигнала, совокупность модулей обработки естественно- языковых гипотез входной фразы и модуль интеграции знаний. Базы данных содержат априорную информацию о естественном языке и предметной области: ситуативная БД Ассоциативная БД, Онтология. ПО, Словари переходов. Комплекс программных модулей обработки речевого сигнала представляют: - модуль выделения речевого сигнала, обеспечивающий запись речевого сигнала и определение границ фразы; - модуль параметризации речевого сигнала, реализующий методы, векторного квантования и кластеризации речи; - модуль распознавания слов, использующий акустико-лексическую априорную информацию из баз данных; и естественно-языковых гипотез; Обработку естественно-языковых гипотез входной фразы выполняют: - модуль семантического анализа font реализующий метод верификации онтологического подмножества на основе онтологических знаний; - модуль лексического анализа, реализующий метод оценки лексической близости ситуативных переходов; - модуль ситуативного анализа, реализующий метод семантико прагматического анализа с использованием информации из ситуативных баз данных; - модуль ассоциативного анализа, обрабатывающий речь на основе данных. И получение оптимальной гипотезы входной фразы; путем интегральной обработки всех видов априорной информации реализуется в модуле интеграции знаний.. На рисунке 4.2 представлена структура основных классов системы понимания речи интегрированной в модель голосового управления подвижным ; объектом, а также наследственные связи между ними. Далее кратко описывается назначение и состав каждого класса. "Messages" - класс предназначен для вывода сообщений? об ошибках на экран (например, "Memory is not enough", "Wav file: of response phrase is not found" и другие) и наследуется- всеми остальными классами: В случае необходимости1 извещения пользователя: о некотором событии вызывается метод vDisplayMessage, который; выводит на экран окно с соответствующим -сообщением.

Модель понимания речи для информационной системы «Автомаркет»

Внесение онтологии ПО в модель представления естественного языка обеспечило компактность представления ситуативной и ассоциативной информации, а также позволило устранить семантическую неоднозначность использования терминов ПО. Онтология содержит 146 терминов предметной области. Использование онтологии позволило избежать избыточности ситуативной модели более чем на 98%.

В процессе работы система ориентируется на форму заполнения данных об автомобиле, поэтому важно, чтобы система могла проверять корректность совместного использования тех или иных терминов и учитывать текущее состояние формы запроса, для этого и реализуется метод верификации онтологического подмножества наряду с ситуативным анализом. Использование метода верификации онтологического подмножества позволило исключить около 40 % семантически-неверных гипотез входной фразы до ситуативного и ассоциативного анализа. В результате процесс обработки речи ускорился почти в 2 раза. Однако, наличие большого числа акустически похожих словосочетаний, которые удовлетворяют требованиям верификации, т.е. семантически связных фраз, приводит к некоторому снижению качества І понимания речи, до 94 4%.

Такими образом; с помощью разработанных в; диссертационной1, работе методов и? программных модулей были созданы эффективные средства! человеко-машинного взаимодействия на? основе автоматического ввода і речи.: Естественность, взаимодействия\ пользователя с прикладной системой понимания; речи была обеспечена за счет возможности- использования широкого спектра понятий и терминов предметной области.

Разработанные в диссертации методы были успешно реализованы в ряде г научно-исследовательских моделей: 1. По проекту МНТЦ №1993Р, задача: 4 создана модель голосового управления самолетом на основе разработанных алгоритмов естественно-языкового анализа. Внедрение разработанных; методов в рамках данного5 проекта позволило устранить избыточность базовой; моделиі представления и обработки естественного языка без потери качества понимания речи. 2. ВІ рамках проекта «Автомаркет» были; разработаны средства голосового доступа: к информационному автокаталогу. На! основе предложенного метода верификации І онтологического подмножества і был реализован механизм семантического анализа, позволяющий; корректно обобщать термины предметной- области: Разработанные средства голосового s доступа; могут быть внедрены в антивандальные: справочные системы в предметных областях с принятой? и устоявшейся терминологией. В области понимания, речи наиболее актуальными: являются проблемы; связанные с разрешением естественно-языковой» неоднозначности; а также использованием:информации об иерархии понятий;определенной предметной области (ПО); В результате: проведенной работы І был разработан- метод верификации/ онтологического подмножестваї с использованием онтологии предметной области, которая? вносит информацию об иерархии? понятий; а также за счет метода оценки лексической; близости ситуативных переходов был усовершенствован ситуативный; анализ, позволяющий устранить смысловую неоднозначность высказывания: 1. Внесение онтологии предметной области и; использование метода верификации онтологического подмножества позволило учесть, иерархические связи между терминами: предметной? области; ш проверить их семантическую связность. За счет предварительного отсечения гипотез, содержащих семантически не связные понятия;. удалось существенно ускорить процесс обработки речи;.Кроме того,, обеспечена естественность взаимодействия пользователя с прикладной системой понимания речи за; счет возможности, использования широкого спектра понятий- и терминов предметнойt области. 21 Метод оценки лексической близости ситуативных переходов позволил оценить релевантность анализируемой; гипотезы-конкретному ситуативному переходу без перебора всех; перефразировок, и таким образом, ускорил; процесс разрешения? семантической неоднозначности при ситуативном анализе. 3. На основе: разработанных методов была проведена модификация» базовой модели интегрального понимания; в результате чего появилась возможность разрешать семантическую неоднозначность высказываний, содержащих термины различных уровней обобщения, без избыточного представления ситуативной информации. 123 Методы, изложенные в диссертационной работе, были использованы при проведении ряда научно-исследовательских работ. В дальнейшем разработанные методы и программные средства будут использованы при создании перспективных интеллектуальных приложений человеко-машинного взаимодействия.

Похожие диссертации на Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи