Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математическое моделирование процесса анализа близости предикатов семантических отношений Корнышов Александр Николаевич

Математическое моделирование процесса анализа близости предикатов семантических отношений
<
Математическое моделирование процесса анализа близости предикатов семантических отношений Математическое моделирование процесса анализа близости предикатов семантических отношений Математическое моделирование процесса анализа близости предикатов семантических отношений Математическое моделирование процесса анализа близости предикатов семантических отношений Математическое моделирование процесса анализа близости предикатов семантических отношений
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Корнышов Александр Николаевич. Математическое моделирование процесса анализа близости предикатов семантических отношений : диссертация ... кандидата технических наук : 05.13.18.- Великий Новгород, 2007.- 138 с.: ил. РГБ ОД, 61 07-5/3851

Содержание к диссертации

Введение

1. Моделирование процесса обобщения предикатов в ходе машинного обучения распознаванию семантических отношений. постановка задачи 10

1.1. Функциональная постановка задачи количественной оценки близости Предикатов Семантический Отношений 11

1.2. Свойства Естественного Языка как критерии адекватности моделирования Семантики Конструкций Естественного Языка 19

1.3. Анализ существующих методов моделирования Семантики Конструкций Естественного Языка и методов моделирования Знаний о Семантике 22

1.4. Выбор методов моделирования 27

1.5. Концептуальная модель процесса обобщения Предикатов в ходе машинного обучения распознаванию Семантических Отношений 33

1.6. Выводы 38

2. Построение формального аппарата математического моделирования процесса обобщения предикатов семантических отношений и исследование свойств предложенного аппарата 40

2.1. Исследование принципов таксономии прецедентов Семантических Отношений 41

2.2. Математическая модель процесса обобщения Предикатов Семантических Отношений и ее свойства 46

2.3. Мера близости Семантических Знаний и ее использование для распознавания Семантических Отношений 53

2.4. Способы вычисления количественной оценки близости Предикатов Семантических Отношений 61

2.5. Выводы

3. Построение систем предикатов семантических отношений 68

3.1. Иерархизация Предикатов Семантических Отношений и ее интерпретация в рамках концептуальной модели процесса обобщения Предикатов 68

3.2. Система Предикатов Семантических Отношений как основа представления Семантических Знаний 77

3.3. Примеры использования механизма обобщения Предикатов Семантических Отношений для решения проблем моделирования Конструкций Естественного Языка 83

3.4. Применение системы Предикатов Семантических Отношений в задаче моделирования сортовой и родовидовой классификации лексики 88

3.5. Выводы 93

4. Алгоритмизация методов количественной оценки близости предикатов семантических отношений 95

4.1. Алгоритмы нахождения количественной оценки близости Предикатов Семантических Отношений 95

4.2. Использование оценки близости систем Предикатов Семантических Отношений для их трансформаций 101

4.3. Практические рекомендации по использованию разработанных методов и алгоритмов 107

4.4. Выводы

Заключение 112

Библиографический список

Введение к работе

Обработка Естественного Языка (ЕЯ) является одним из приоритетных направлений в области развития Искусственного Интеллекта Настоящая диссертационная работа посвящена решению проблемы использования существующих в ЕЯ закономерностей для автоматизации накопления и систематизации Семантических Знаний в Интеллектуальных Системах (ИС)

Актуальность работы. Следует выделить две группы затруднений технического характера, которые мешают применению в информационных системах интеллектуально-коммуникативных технологий, предполагающих взаимодействие человека и ЭВМ на ЕЯ

Первая группа затруднений состоит в необходимости предварительного ввода в ЭВМ всей полноты Знаний о ЕЯ Объем Семантических Знаний велик, и поэтому их ввод требует огромных затрат труда множества квалифицированных специалистов, в том числе для предварительной формализации и систематизации этих Знаний При традиционном подходе не учитывается возможность неполноты и противоречивости самих Знаний о ЕЯ, относительность представления как о ЕЯ, так и ситуациях его использования, а также потребность в постоянном изменении введенных Семантических Знаний Если для некоторых областей применения на коротком временном промежутке функционирования ИС изменениями в ЕЯ можно пренебречь, то в целом изменчивость - глубинное и универсальное свойство как естественных, так и искусственных языков, и его необходимо учитывать.

Причина чрезмерной трудоёмкости — отсутствие на настоящий момент методов предметно-адаптивной формализации и автоматической систематизации Знаний о ЕЯ Как следствие этого, при использовании существующих подходов к формализации Знаний о ЕЯ для каждого языка и тематического подмножества требуется производить заново как формализацию, так и ввод Семантических Знаний, что увеличивает затраты труда на разработку ИС Разработка математической модели процесса ввода и систематизации информации о ЕЯ с помощью автоматического выявления и применения машиной закономерностей каждого ЕЯ позволила бы решить задачу автоматического накопления и систематизации ИС Знаний об используемом ЕЯ. Здесь можно выделить задачу интеллектуализации процесса пополнения Семантических Знаний, которая заключается в автоматическом построении машиной части модели ЕЯ, и задачу интеллектуализации самого процесса ввода - человеко-машинного общения, который, чтобы избавить от рутинной деятельности человека-оператора, необходимо осуществлять на ЕЯ В дапном случае предмет общепия как раз ЕЯ, и логично и удобно было бы организовать работу оператора по вводу с использованием самого ЕЯ Оператору, которому в этом случае уже не нужно быть экспертом-лингвистом, а только носителем языка, достаточно ввести в ЭВМ обучающее множество прецедентов Смысловой Эквивалентности (СЭ) высказываний на ЕЯ

Вторая группа затруднений состоит в том, что в реализованных на практике методах Обработки ЕЯ присутствует противоречие между скоростью

обработки, которая достигается при применении простых правил преобразований, и универсальностью представления ЕЯ-преобразований Универсальность позволяет более полно описывать ЕЯ с помощью сочетания сложных правил Как следствие уменьшается трудоемкость описания ЕЯ, но увеличивается вычислительная сложность алгоритмов анализа, которые воспроизводят полноту и непротиворечивость языкового описания путем согласования множества правил. При автоматическом накоплении и систематизации ИС Знаний о ЕЯ неполнота и противоречивость Знаний, вводимых оператором в простой, но универсальной форме, устраняются на этапе обучения ИС, и их не требуется восполнять вычислениями на этапе анализа и преобразований ЕЯ-высказываний, причём каждый раз делать это заново

Объект исследований - Предикаты Семантических Отношений (СО) Конструкций ЕЯ, с помощью которых в модели ЕЯ представляются Семантические Знания Систематизация Семантических Знаний на основе присутствующих в них закономерностей является процессом обобщения Предикатов СО

Предметом исследований является процесс анализа близости Предикатов СО Определение меры близости Семантических Знаний с помощью сравнения Предикатов СО использует закономерности, которые выявлены в ЕЯ в процессе обобщения Предикатов Возможности как процесса анализа близости, так и процесса обобщения Предикатов ограничены уровнем автоматического выявления закономерностей в ЕЯ алгоритмом обобщения Поэтому за исключением предельного случая - автоматического построения машиной полной модели ЕЯ, для процесса обобщения Предикатов возможна лишь частичная автоматизация, тогда как процесс анализа близости Предикатов СО, используя готовые результаты процесса обобщения Предикатов, допускает полностью автоматическое выполнение

Актуальность исследований обоснована отсутствием в настоящий момент научно обоснованных методов обобщения Предикатов применительно к описанию СО в ЕЯ, а также методов анализа близости Предикатов СО в той мере, в какой возможно автоматическое обобщение Предикатов.

Цель и задачи работы. Целью настоящей диссертационной работы является разработка методов количественной оценки близости Предикатов в процессе их обобщения в ходе машинного обучения распознаванию СО Конструкций ЕЯ Для достижения поставленной цели в работе решаются следующие задачи

  1. Разработка концептуальной модели процесса обобщения Предикатов в ходе машинного обучения распознаванию СО Конструкций ЕЯ,

  2. Построение и исследование свойств формального аппарата математического моделирования процесса обобщения Предикатов СО с использованием количественной оценки меры близости Предикатов в ходе машинного обучения распознаванию СО Конструкций ЕЯ,

  3. Исследование свойств сложных систем Предикатов СО и моделирование с их помощью различных видов синонимических

преобразований, известных из лингвистики, в том числе проблемных, а также решение практической задачи морфологической, сортовой, родовидовой классификации лексики,

4 Разработка алгоритмов нахождения количественной оценки близости Предикатов в общем виде с учетом возможных методов оценивания и оптимизация этих алгоритмов для сравнения сложных, иерархизированных систем Предикатов СО Использование количественной оценки близости для трансформации систем Предикатов СО в процессе обобщения Предикатов

Методы исследований. При проведении исследований в работе использовались методы математической логики и теории множеств, основные положения теоретической и когнитивной лингвистики, системпой типологии языков и когнитологии, теории формальных языков, а также прикладных методов анализа данных и знаний

Научная новизна. В ходе решения поставленных задач получены следующие результаты, являющиеся новыми в данной области исследований

1. Предложен комплексный подход к решению ряда задач компьютерной Обработки ЕЯ Показано, что задача распознавания СЭ ЕЯ-высказываний сводится к задаче сравнения систем Предикатов СО и нахождения количественной оценки их близости. Последняя задача решается теми же методами, что и задача обобщения систем Предикатов для предварительного машинного обучения ИС распознаванию СО Конструкций ЕЯ

  1. Разработана модель ЕЯ, которая позволяет универсальным образом представить СО в ЕЯ с помощью Наборов Правил Преобразований (НЛП) и модели ситуаций ЕЯ-употребления На основе модели можно проводить машинное обучение распознаванию произвольных СО Конструкций ЕЯ.

  2. Предложен алгоритм распознавания СО ЕЯ-высказываний с помощью процесса обобщения систем Предикатов СО, который объединяет в один процессы анализа Конструкций ЕЯ и сравнения Смыслов ЕЯ-высказываний

  3. Доказаны теоремы о том, что вычислительная сложность процесса обобщения Предикатов СО линейно зависит от количества Предикатов в системе НГОІ, которая является результатом обобщения исходной, а вычислительная сложность процесса распознавания СЭ ЕЯ-высказываний не экспоненциально, как в существующих алгоритмах синонимического перифразирования, а линейно зависит от количества уровней синонимии в иерархизированной системе.

Практическая значимость и внедрение. Областью непосредственного практического применения теоретических результатов настоящей работы является автоматизация обучения, автоматический контроль знаний с помощью тестирования на ЕЯ путем машинного анализа СЭ между ответами учащихся и эталонами, заданными педагогом, поскольку при данном применении знания учащихся, фиксируемые в текстах ЕЯ, постоянно измеряются/оцениваются экспертом-педагогом в приложении к стабильному ситуационному контексту вопросов и предмета

Разработанные в диссертации методы решения задач Обработки ЕЯ доведены до реализации. Разработанные в диссертации методы и алгоритмы

количественной оценки близости Предикатов СО, таксономии Конструкций ЕЯ, логического вывода усложнением вариантов нашли практическое воплощение в программном комплексе, который в дальнейшем планируется использовать для решения задач автоматизации составления тезаурусов по дисциплинам специальности "Программное обеспечение вычислительной техники и автоматизированных систем" в учебном процессе Новгородского государственного университета (имеются акты о внедрении)

Результаты проведенных исследований использовались в работе по гранту РФФИ № 06-01-00028

Достоверность и эффективность. Достоверность полученных теоретических результатов подтверждается корректностью доказательств теорем об алгоритмической разрешимости и вычислительной сложности процесса распознавания СО Конструкциях ЕЯ и процесса обобщения систем Предикатов СО Конструкций ЕЯ Также достоверность подтверждается соответствием модели Семантики Конструкций ЕЯ формальным критериям, сформулированным при постановке задачи

Эффективность предложенных алгоритмов распознавания СЭ ЕЯ-высказываний в сравнении с известными на сегодняшний день алгоритмами синонимического перифразирования подтверждается теоремами, иллюстрацией работы алгоритмов являются примеры, приведенные в приложении Также показано, что система НПП позволяет промоделировать проблемные и сложные синонимические преобразования, известные из лингвистики

Апробация работы и публикации. Основные положения и полученные результаты диссертационной работы апробированы в докладах на конференциях. XVIII международной научно-методической конференции "Математика в вузе" (Великий Новгород, 2005), 6-й международной научной конференции «Интеллектуализация обработки информации» (ИОИ-2006) (Крым, Алушта, 2006), в докладах на научных конференциях и семинарах в рамках Дней Науки в Новгородском государственном университете имени Ярослава Мудрого (Великий Новгород, 2005-2007) и опубликованы в 6 работах, список которых приводится в конце автореферата

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы, включающего 91 наименование, а также двух приложений Основная часть работы изложена на 126 страницах, содержит 8 рисунков и 1 таблицу

Свойства Естественного Языка как критерии адекватности моделирования Семантики Конструкций Естественного Языка

Целью настоящего параграфа является функциональное описание задачи количественной оценки близости Предикатов Семантических Отношений (СО), которая используется для решения общей задачи машинного обучения автоматическому распознаванию СО Конструкций Естественного Языка (ЕЯ), что будет сделано на основе определяемых в данном параграфе базовых понятий и терминов. Также будут рассмотрены конкретизирующие условия постановки и решения задачи установления Смысловой Эквивалентности (СЭ) высказываний на ЕЯ.

Согласно современным воззрениям, Искусственный Интеллект (ИИ) [1, 41-43, 87] как средство имитации человеческого интеллекта и поведения [67] можно представить в виде некоторой совокупности Интеллектуальных Агентов (ИА). ИА - это компьютерные системы с чётко заданными целями, способные автономно действовать в сообществе аналогичных программ, выбирая оптимальную линию поведения для достижения этих целей [11, с. 25]. ИА как части Интеллектуальных Систем (ИС) [27, 55, 56] функционируют в виде подсистем, решающих свои отдельные специализированные кибернетические интеллектуальные подзадачи. Такой задачей, базовой для коммуникативных возможностей ИИ, то есть общения с человеком путём обработки Текстов на ЕЯ, является задача установления СЭ двух или нескольких высказываний на ЕЯ. Рассмотрим понятие ЕЯ и производные от него понятия. В теоретической лингвистике и типологии языков, изучающих естественные и искусственные языки и их свойства, нет одного, общепринятого и бесспорного, определения языка и его модели. Наиболее часто лингвисты определяют ЕЯ как сложную Знаковую Систему (ЗС) [3, 44, 84]. Различные ЗС изучает такая наука как семиотика [45, 53]. Сам ЕЯ рассматривается с двух точек зрения [78]. С функциональной точки зрения, строение ЕЯ определяется его использованием в качестве средства общения. С формальной точки зрения, у ЕЯ есть абстрактная модель, которая не зависит от способов его использования и может быть описана на метаязыке формальной грамматики. В компьютерной лингвистике распространены и совмещаются оба подхода: моделирование языков с помощью формальных грамматик, порождающих возможные высказывания, которое предложил основатель школы генеративистов Н. Хомский [83], и моделирование ЕЯ как транслятора между множеством Текстов и соответствующих им Смыслов - модель языка "Смысл = Текст", автором которой является И. Мельчук [59]. Совмещая точки зрения и подходы к моделированию, определим ЕЯ как сложную ЗС, основной функцией которой является использование в качестве средства общения, абстрактная модель которой задаётся формальным механизмом порождения всех возможных высказываний в этой ЗС, а также формальным механизмом установления соответствия между Смыслами высказываний. Исходя из данного понимания ЕЯ и подхода к его моделированию, определим термины и опишем в них базовую задачу установления СЭ и производные от неё задачи Обработки ЕЯ.

Под Конструкциями ЕЯ здесь и далее подразумевается последовательность знаков в некоторой формальной ЗС; данная последовательность фиксирует одно или несколько высказываний на ЕЯ в памяти машины и может быть использована для их хранения, передачи и обработки. Частным случаем Конструкций ЕЯ является Текст ЕЯ -поверхностная форма фиксации высказываний на ЕЯ. Причём не будем специально различать обычный письменный текст на ЕЯ, под каковым для большинства языков подразумевается последовательность букв и знаков препинания, с квазитекстом, полученным путём предварительного распознавания речевых сигналов, изображений печатного или рукописного текста. Действительно, при таком распознавании в конечном квазитексте могут присутствовать особые знаки, обозначающие паузы и интонации в речевых сигналах, указания на неоднозначно распознанные фрагменты, так как ИА, отвечающие за функции распознавания, не всегда могут выдавать однозначный результат распознавания без взаимодействия с ИА, обрабатывающими Смысл высказываний [21]. Также верно и обратное, так как наличие знаков пауз и интонаций в Текстах ЕЯ упрощают его последующую обработку ИА, которые работают со Смыслом.

Можно считать несомненным, что ЗС Текстов на соответствующем ЕЯ основана, прежде всего, на речи как базовой для людей форме фиксации высказываний при передаче их другому носителю языка. В лингвистике носителем языка называется обладатель Семантических Знаний - языковых знаний, необходимых для использования данного ЕЯ в процессе общения. ЗС речевых сигналов богаче, чем ЗС письменно фиксированного текста; при чтении человек текст как бы произносит про себя и тем самым восстанавливает высказывание в ЗС речевых сигналов. В ИС чаще всего выполняется обратная операция: акустические сигналы, фиксирующие речь, и изображение текста печатного и письменного переводятся в форму обычного текста в машинной памяти [20]. Будем считать, что информация, поступающая из любых источников, обрабатываемая и хранимая в ЭВМ для использования в задачах Обработки ЕЯ, может быть представлена в виде Конструкций ЕЯ. Поскольку ЗС ЕЯ в целом превосходит ЗС речевых сигналов, высказывания могут быть фиксированы и в других ЗС, в том числе искусственных. Таким образом, понятие Конструкций ЕЯ как формы фиксации высказываний на ЕЯ в произвольной ЗС является расширительным по отношению Текстам в ЗС речевых сигналов. Под Смыслом высказывания понимают информацию, содержащуюся в этом высказывании. Конструкции ЕЯ формальным образом фиксируют содержание высказывания. Задача установления СЭ высказываний на ЕЯ состоит в сравнении информации, содержащейся в этих высказываниях, с помощью обработки Конструкций ЕЯ, эту информацию фиксирующих [71] (см. рис. 1.1).

Покажем, что остальные задачи в области Обработки ЕЯ сводятся к данной. Так, понимание некоторого высказывания на ЕЯ можно представить как поиск Смысла высказывания путем сопоставления этого высказывания с высказываниями-эталонами, чей Смысл заранее известен ИС. Речепорождение это обратная задача, которая состоит в том, что по высказыванию с известным Смыслом путём генерации множества Текстов и сравнения их Смыслов со Смыслом исходного высказывания устанавливается его поверхностная форма фиксации в форме Текста. Перевод с одного ЕЯ на другой это речепорождение на ЕЯ, на который осуществляется перевод, Текста со Смыслом, тождественным Смыслу высказывания на исходном языке. Реферирование документа [61] состоит в подборе высказывания (размеры его поверхностной формы фиксации в виде текста ограничены) со Смыслом, тождественным Смыслу наиболее значимых частей документа. Последние могут автоматически определяться, например, путём составления статистики или анализа Смысловых зависимостей между высказываниями. В задаче поиска необходимой информации по заданному эталону отбираются высказывания со Смыслом наиболее близким к Смыслу эталона. Аналогично реализуется и автоматический контроль знаний с помощью тестирования на ЕЯ: Смыслы ответов, данных учащимися, сравниваются со Смыслами одного или нескольких эталонов - правильных ответов, заданных предварительно педагогом.

Задача установления СЭ высказываний на ЕЯ традиционно решается так. Высказывания на ЕЯ и включенные в них фрагменты на других, в том числе искусственных, языках, обладающие информационной ценностью, например, формулы как в [80-81], представляются в виде Конструкций ЕЯ в базовой ЗС, именуемой Текстом, затем Конструкции ЕЯ путем инвариантных по Смыслу преобразований в Конструкции других ЗС приводятся к одному и тому же тождественному представлению. Задачи перевода Конструкций ЕЯ из одной ЗС в другую ЗС, включая и ту же самую ЗС, называют задачами Автоматической Обработки Текстов (АОТ). ЗС, представляющую инвариантные по Смыслу Конструкции ЕЯ в тождественной форме, именуют формальным языком семантических представлений; такую ЗС можно называть также Семантической ЗС (СемЗС). Полная формализация СемЗС ЕЯ не завершена к настоящему времени, более того, существует большое количество ее моделей. Кроме СемЗС, выделяют формальные языки для представления прагматических Знаний, в том числе связанных с предметной областью, о которой составляются высказывания, и формальные языки для представления высказываний максимально независимым от конкретного ЕЯ способом - Концептуальные Языки (КЯ) и Концептуальная ЗС.

Мера близости Семантических Знаний и ее использование для распознавания Семантических Отношений

Определив в общем виде механизм Концептуального Анализа, формализуем представление Семантических Знаний в виде Предикатов СО Конструкций ЕЯ в наиболее подходящей для обобщения Предикатов СО форме. Затем, руководствуясь изложенными в предыдущем параграфе принципами таксономии, опишем формально процесс обобщения Предикатов СО.

Предикаты СО описываются с помощью правил преобразований над множествами структурированных значений аргументов СО следующего вида. Каждый Набор Правил Преобразований (НПП) р : FP:V1&V2& ... ОК„,где (2.1) Fp - Смысл преобразований над множеством ( Vj, V2,..., V„) структурированных значений аргументов Предиката СО, который задается с помощью данного НПП; Vi - одна из форм поверхностного выражения Смысла Fp : V;=(XihXih...Xim),mQ (2.2) Ху - либо переменная, у которой значение может изменяться (в этом случае Ху є Хр - множеству переменных данного НПП р), либо константа для данного Fp (тогда Х{] - сг, где символ сг є С, то есть алфавиту ЗС ЕЯ). На изменяемых переменных может быть установлено отношение Ех Смыслового равенства вида: Ху Хц, которое можно представить как отображение: Ех:ХРхХр- {0,1}, (2.3) причем Ех- 1 для тех пар переменных, для которых задано равенство, и 0 в противном случае. В общем случае F/ и Fp - предикаты на множестве всех возможных векторов-констант С = {(сі, съ ... сп ... Сд)}, где сг є С - любой допустимый в ЗС С данного ЕЯ символ (набор знаков или их заменитель): r,:C -»{0,l},Fp:C - {0,l} (2-4) Поясним представление Предикатов СО в форме НІШ. Константные Ху = сг атрибуты, которые представляют общие неизменные значения для правил данного Предиката СО, конкретизируют область применимости Предиката СО. Переменные, на которых установлено равенство, выражают закономерности, обобщаемые данным Предикатом СО. Переменные, на которых не установлена СЭ, выражают синтагматические зависимости на множестве структурированных значений аргументов СО.

Более сложные НПП могут быть частично или полностью выражаться через более простые. Под сложностью Предиката СО Fp понимаются размеры СР подмножества Ср с С , на котором данный Предикат всегда истинен: Fp (Ср) = 1. В случае статистической истинности [54] (учитывая ошибки и то, что закономерности могут носить вероятностный характер) более простого Предиката СО Fpi на подмножестве переменных более сложного Предиката Fp2 (Cpi СР2І, СР2 = Срі-С ) можно говорить о статистической выражаемости Fp2 через Fpi: Fp2= Fpi (считаем, что соотносимые в Предикатах переменные располагаются на одних и тех же местах в векторах-константах). Таким образом, система Предикатов НПП может быть иерархизирована по сложности: более сложные Предикаты СО будут представляться с помощью более простых НПП, которые будут располагаться на более низких уровнях иерархии.

В вырожденном случае, при п = 1 (только одна форма поверхностного выражения Смысла) НПП не задает никаких синонимических преобразований, и мы имеем дело с Лексической Функцией (ЛФ) [59, с. 73], либо несколькими ЛФ для одних и тех же аргументов. Здесь речь идет не только о стандартных ЛФ, известных из теоретической лингвистики, но и о анестандартных ЛФ и любых функциях, которые могут передавать СО. В другом вырожденном случае, когда Vi e С , единственное правило преобразований является прецедентом СЭ (если данный прецедент не может быть обобщен, то исключением ЕЯ, например, Млечный путь О Наша галактика ). Если m = 1 для всех Vi, то данный НИИ описывает Семантические Классы слов.

Во всех остальных случаях мы имеем дело или с построенными на основе ЛФ (в расширительном толковании) наборами регулярных преобразований, или, если Предикат НИИ не может быть раскрыт через более простые, с нерегулярной синонимией. Сочетание произвольной синонимии с регулярными преобразованиями позволяет задавать сложные комбинации СЭ с учетом возможных исключений. С помощью такой системы взаимновыражаемых НПП одновременно учитываются индивидуальные особенности моделируемых СО и регулярность синонимических преобразований (то есть закономерности ЕЯ). Это позволяет свести множество бинарных отношений СЭ ЕЯ-высказываний, которые задаются отдельными преобразованиями, в отношение произвольной арности, которое выражает максимально возможное число преобразований. Тем самым решается проблема минимизации количества возможных преобразований, которые возникают при последовательном применении нескольких правил.

Сложные системы НПП будут исследованы в третьей главе, а пока проиллюстрируем сказанное на простых примерах. В таблице 2.1 показан НПП для Предиката синонимического преобразования Conv32i - конверсива агент-контрагент. В этом НПП учитывается такая индивидуальная особенность СО как согласование преобразования с поверхностным представлением (морфология и синтаксис). Если объединить в отдельный НПП столбцы Хп и Х22, то получим Предикат ЛФ Conv32i- НПП столбцов Хи=Х25,Х2б или X2i = Xi4,Xi5 будут нестандартными ЛФ, которые выражают морфоизменительные характеристики лексики (родительный и дательный падежи). Такие ЛФ можно объединить в набор ЛФ - морфологические классы лексики.

Система Предикатов Семантических Отношений как основа представления Семантических Знаний

Регулярные ЛФ-преобразования. Различают два типа синонимических преобразований [59, с. 147]. В ситуации первого типа почти не происходит перераспределения Смысла между лексическими единицами во фразе, меняются лишь их отношения и положение в структуре фразы. Такой вид синонимии, оперирующий в преобразованиях лексемами и фраземами, называют стандартной ЛФ-синонимией. В ситуации второго типа, когда наблюдается значительное перераспределение Смыслов между лексическими единицами, речь идет о семантическом анализе синонимических преобразований на уровне Смысловых составляющих - сем. Выделены следующие виды лексических правил в системе перифразирования на основе ЛФ-синонимических преобразований [59, с. 152-159].

Синонимические замещения. Замена слов-синонимов может быть представлена с помощью НПП, который моделирует преобразования между синонимами. Это может быть и НПП единичного преобразования, НПП групп значений или НПП, который представляет набор структурно подобных преобразований. Разумеется, возможно выделение и вспомогательных НПП, которые не задают синонимов преобразований напрямую, а задают Предикат синонимии. Заметим, что замена синонимов не представима с помощью ЛФ. Замена синонимов часто бывает неэквивалентной: Со & Synn(Co), что приводит к искажению Смысла заменяемого синонимом слова и лексических единиц, Смысл которых является зависимым от этого слова. Использование системы НІШ позволяет классифицировать виды замен синонимов и представить их в регулярной форме [4], а также учитывать изменения Смысла зависимых лексем (фраземы, к которым могут относиться как идиомы - застывшие словосочетания, так и устойчивые словосочетания, применяемые к словам одного Семантического Класса).

Конверсивные замещения. Конверсивы могут быть образованны регулярным образом, как залоговая форма глагола. Так же, как и при замене синонимов, конверсивные преобразования могут приводить к некоторому искажению Смысла. Конверсивы сопровождаются изменением положения и атрибутов зависимых слов - актантов в МУ слова. Проводя таксономию по допустимости для МУ конверсивных преобразований, можно полнее описать в ТКС нюансы значений МУ слов. Так, путем кластеризации можно выявить, что есть две МУ глагола дать : 1. Convj2i(damb1) = взять1; конверсивное преобразование выглядит как: х + дал1 + у-ка + ъ-у О z + взялі + у-ка + У + х-а (в МУ взял1 подразумевается, что ъ взял у-ка, данного1 ему х-ом ). 2. Второе значение МУ, которое уже не допускает такого конверсивного преобразования - дать (в значении х дал г-у возможность совершить действие d с у-ком ); эта МУ эквивалентна первой, где на месте второго актанта в МУ дать/ находится структура возможность РегДй)- - у-ка . Действие d зависит от конкретного значения у-ка, если, например, у=книга\ то й=1читать\ если у=время\ то d= использовать . Конверсив относительно третьего актанта z для этой МУ х + дал2 + у-ка + ъ-у Ь г получил от х-а возможность Рег/[й)— у-ка возможно представить как комбинацию конверсива с модификацией МУ. Аппарат Предикатов СО позволяет представить такое преобразование в форме одного НЛП. дать1 = Саш(взять); дать = СажРегт{взять). Такое же Смысловое соотношение между допустить = Сат{проникнуть) в охрана допустила посторонних на территорию и допустить = СатРегтіпроникнуть) в комиссия допустила журналистов на предприятие .

Деривативные замещения затрагивают морфологические характеристики слов. Инвариант лексического значения слова обозначим как Со, тогда любой дериват Der Co) = Syn{Co, х), где д: - характеристика деривативного преобразования (например, часть речи, к которой принадлежит дериват). В общем случае деривативное преобразование зависит от актантов МУ, для которой оно используется, например, наречие Adv Co). Это также может быть отражено в характеристике х. При замене дериватов в общем случае возникают проблемы распределения адъюнктов, так как не при всех дериватах могут быть выражены актанты МУ слова. Использование такой характеристики как х позволяет не решать эту проблему вовсе.

Замещения с расщеплением, метонимические и метафорические расщепления и замещения, взаимозамещение лексических коррелятов могут быть представлены как система НПП. Поскольку расщепление затрагивает проблемы распределения адъюнктов расщепляемых значений, а также синонимические преобразования групп МУ слов и связанные с ними модификации МУ слов, разберем возникающие проблемы в следующем параграфе. Расщепление с Gener связано с родовидовым СО, которое рассмотрим в четвертом параграфе данной главы. Преобразование Со & Gener{Co)- Der(Co) является СО устойчивых словосочетаний, то есть частным случаем замены синонимов. Отбрасывание в этом преобразовании определяющих адъюнктов или обобщающего слова ведет к неравноценной синонимической замене. Синонимия с Gener занимает промежуточное положение между малорегулярной синонимией МУ Syn, которая может быть таксономирована лишь в соответствии со структурой Семантических Классов слов и МУ, и регулярной ЛФ-синонимией. Отличие в том, что множества Лексических Значений (ЛЗ) имеют обобщающий синоним и НПП такого множества может быть получено объединением по формальному признаку константного значения.

Смысловые импликации задаются СО эквивалентности общей части Смыслов ЕЯ-высказываний. Условия импликации представляются в системе НПП формальным образом. Требование наличия или отсутствия существования других синонимических преобразований на множестве переменных данного задается с помощью подвыражений НПП. Вероятностные Смысловые импликации моделируются в системе Предикатов СО естественным образом через статистическую истинность подвыражений НПП, а также путем учета в синонимических преобразованиях структуры ЕЯ-высказываний. Если в соседних Конструкциях ЕЯ отсутствуют указания на запрет импликации (отрицание результирующего выражения в импликации или детализация процесса, продолжение действия), то с определенной вероятностью считаем импликацию истинной (вероятность устанавливается в процессе обобщения Предикатов СО в ходе Концептуального Анализа). Ср. 1Петя дал книгу Ивану, но тот не взял и Иван взял книгу, но уже отдал относительно импликации = Книга у Ивана . При дополнении Конструкций ЕЯ с меньшей Смысловой информацией до Конструкций ЕЯ, выражающих полный Смысл ЕЯ-высказываний, Предикат СО импликации будет разделен на Предикаты, которые устанавливают СЭ частей этих ЕЯ-высказываний. Такое разделение СО является таксономией преобразований Смысловых составляющих ЕЯ - сем и позволяет выявить Конструкции базовой СемЗС, на которой построены Смысловые преобразования ЕЯ-высказываний с перераспределением Смысла между лексическими единицами.

Использование оценки близости систем Предикатов Семантических Отношений для их трансформаций

Такое свойство сложных систем Предикатов СО как иерархизация упрощает процесс распознавания СО и процесс обобщения Предикатов в ходе обучения ИС распознаванию СО Конструкций ЕЯ. Упорядоченность последовательности применения НПП от простого к сложному уровням синонимии в процедуре порождения вариантов перифразирования ЕЯ-высказывания приводит к тому, что вычислительная сложность данной процедуры линейно зависит только от количества уровней синонимии и даже в маловероятном для реального ЕЯ случае неоднозначности распознавания ЕЯ-высказывания на всех уровнях синонимии оказывается ограничена сверху количеством НПП в системе Предикатов СО. Разработанные алгоритмы оптимизированы для сравнения сложных, иерархизированных систем НИИ с помощью механизма нестандартного логического вывода УВ, что позволяет эффективно проводить распознавание СО Конструкций ЕЯ.

Устранено присутствующее в реализованных на практике методах Обработки ЕЯ противоречие между скоростью обработки, которая является следствием применения простых правил преобразований, и универсальностью представления ЕЯ-преобразований, которая позволяет более полно описывать ЕЯ с помощью сочетания сложных правил, что уменьшает трудоёмкость описания ЕЯ, но увеличивает вычислительную сложность алгоритмов анализа, воспроизводящего полноту и непротиворечивость языкового описания путём согласования множества правил. При автоматическом накоплении и систематизации ИС Знаний о ЕЯ неполнота и противоречивость Знаний, вводимых оператором в простой, но универсальной форме, устраняются на этапе обучения ИС, и их не требуется восполнять вычислениями на этапе анализа и преобразований, причём каждый раз делать это заново.

Практическое применение модели обучения распознаванию СО Конструкций ЕЯ возможно в самых разных областях: перевод, синтез ЕЯ-высказываний, Смысловая обработка Текстов на ЕЯ. Основной областью применения является автоматизация обучения, автоматический контроль знаний с помощью тестирования на ЕЯ путем машинного анализа СЭ между ответами учащихся и эталонами, которые заданны педагогом. При данном применении знания учащихся, фиксируемые в Текстах ЕЯ, постоянно измеряются/оцениваются экспертом-педагогом в приложении к стабильному ситуационному контексту вопросов и предмета. В качестве прикладных областей для применения данной модели можно также назвать диалоговые и экспертные системы, автоматическое реферирование и обработку документов и информации, а также связанную с этим задачу поиска необходимой информации.

Материалы работы основаны на публикациях [33-34, 46-49], из них 5 опубликованы, 1 в печати. Полученные результаты апробированы в докладах на конференциях: XVIII международной научно-методической конференции "Математика в вузе" (Великий Новгород, 2005), 6-й международной научной конференции «Интеллектуализация обработки информации» (ИОИ-2006) (Крым, Алушта, 2006), в докладах на научных конференциях в рамках Дней Науки в Новгородском государственном университете имени Ярослава Мудрого (Великий Новгород, 2005), (Великий Новгород, 2006), (Великий Новгород, 2007).

Все научные и практические результаты получены автором самостоятельно. Достоверность полученных теоретических результатов подтверждается корректностью доказательств теорем об алгоритмической разрешимости и вычислительной сложности процесса распознавания СО Конструкциях ЕЯ и процесса обобщения систем Предикатов СО Конструкций ЕЯ. Также достоверность подтверждается соответствием модели Семантики Конструкций ЕЯ формальным критериям, сформулированным при постановке задачи.

Разработанные методы решения задач Обработки ЕЯ доведены до реализации. Эффективность предложенных алгоритмов распознавания СЭ ЕЯ-высказываний в сравнении с известными на сегодняшний день алгоритмами синонимического перифразирования подтверждается теоремами; иллюстрацией работы алгоритмов являются примеры, приведенные в приложении А. В работе промоделировано множество синонимических преобразований, известных из лингвистики, при этом разрешены проблемы моделей Семантики Конструкций ЕЯ, которые основаны на перифразировании. С помощью системы Предикатов СО в форме НЛП возможно учитывать различные уровни синонимии и представить проблемные и сложные виды синонимических преобразований, произвести автоматическую классификацию ЛЗ.

Разработанные в диссертации методы и алгоритмы количественной оценки близости Предикатов СО, таксономии Конструкций ЕЯ, логического вывода усложнением вариантов нашли практическое воплощение в программном комплексе, который в дальнейшем планируется использовать для решения задач автоматизации составления тезаурусов по дисциплинам специальности "Программное обеспечение вычислительной техники и автоматизированных систем" в учебном процессе Новгородского государственного университета.

Возможные направления дальнейших исследований заключаются в решении с помощью разработанных методов количественной оценки близости Предикатов СО в ходе машинного обучения распознаванию СО Конструкций ЕЯ общей задачи интеллектуализации процесса пополнения Знаний о СО Конструкций ЕЯ, которая заключается в автоматическом построении ЭВМ части или полной модели любого ЕЯ путем диалога на ЕЯ с носителем данного языка, что также подразумевает задачу построения универсальной, общеязыковой модели Концептуальных ЕЯ-Знаний. Для этого путем анализа пересечения выделенных классов ЛЗ необходимо найти базовые Семантических Значений МУ слов в каждом ЕЯ, которые затем подвергнуть сравнению и обобщению на уровне множества ЕЯ.

Похожие диссертации на Математическое моделирование процесса анализа близости предикатов семантических отношений