Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование методов и системы семантического анализа естественно-языковых текстов Мокроусов, Максим Николаевич

Разработка и исследование методов и системы семантического анализа естественно-языковых текстов
<
Разработка и исследование методов и системы семантического анализа естественно-языковых текстов Разработка и исследование методов и системы семантического анализа естественно-языковых текстов Разработка и исследование методов и системы семантического анализа естественно-языковых текстов Разработка и исследование методов и системы семантического анализа естественно-языковых текстов Разработка и исследование методов и системы семантического анализа естественно-языковых текстов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мокроусов, Максим Николаевич. Разработка и исследование методов и системы семантического анализа естественно-языковых текстов : диссертация ... кандидата технических наук : 05.13.01 / Мокроусов Максим Николаевич; [Место защиты: Ижев. гос. техн. ун-т].- Ижевск, 2010.- 185 с.: ил. РГБ ОД, 61 11-5/1005

Содержание к диссертации

Введение

1 Аналитический обзор методов и систем, основанных на семантических подходах 14

1.1 Аналитически обзор методов и систем анализа ЕЯ-текста 14

1.1.1 Методы и системы морфологического анализа 14

1.1.2 Синтаксический анализ 19

1.1.3 Семантический анализ 29

1.2. Применение онтологии в анализе естественно-языковых текстов и автоматизированном обучении 36

1.2.1 Понятие онтологии 36

1.2.2 Аналитический обзор существующих систем построения онтологий 40

1.3 Выводы и постановка задачи исследования 44

2 Методика построения онюлогии предметной области текста 47

2.1 Построение онтологии предметной области текста, ориентированной на семантическое моделирование 47

2.1.1 Принципы классификации понятий 47

2.1.2 Правила классификации и описания понятий 50

2.1.3 Правила толкования понятий, основанные на явном описании 53

2.2 Онтологический толковый словарь как средство описания и хранения понятий предметной области 55

2.3 Выводы по главе 77

3 Семантический анализ ЕЯ-текста 78

3.1 Синтаксический анализ текста 79

3.1.1 Синтаксические модели текста 83

3.1.2 Система продукционных синтаксических правил 88

3.1.3 Контроль синтаксических ошибок 96

3.2 Семантический анализ текста 97

3.2.2 Алгоритм семантического анализа 100

3.2.1 Семантические модели текста 106

3.2.3 Сравнение предложенной модели с традиционной семантической сетью 112

3.3. Выводы по главе 114

4 Экспериментальные исследование разработанных методов 116

4.1 «Онтологический толковый словарь» как средство описания понятий предметной

области 116

4.2 Экспертная система комплексного анализа текста «ЭСКАТ» 118

4.3 Автоматизированная обучающая система Language Tutor - «LT» 126

4.4 Интерактивная обучающая система по русскому языку «Интеллект» 131

4.5 Система извлечения данных из текстовых форумов «Интернет коммерция» 135

4.6 Подсистема семантического поиска в системе патентно-лицензионного поиска 139

4.7 Выводы по главе 142

Заключение 144

Библиографический список 148

Введение к работе

Актуальность работы. Ввиду большого роста объемов текстовой информации и сложной структурированности естественно-языковых (ЕЯ) текстов, анализ текстов представляет собой актуальную проблему, особенно в последние 15-20 лет, когда наметилась тенденция к информатизации общества.

В основе задачи обработки ЕЯ-текстов лежат морфологический и морфемный анализ, синтаксический и семантический анализ, результатами которых являются модели текста, адекватно отражающие его словообразовательные, грамматические и смысловые конструкции.

Основные методы анализа текста достаточно подробно изложены в трудах Апресяна Ю.Д., Виноградова Д.В., Гладкого А.В., Клосса Б.М., Кожуновой О.С., Мельчука И.Д., Солтона Г., Н.С., Филмора Ч., Финна В.К., Шведовой Н.Ю., Дж.Дж.Катца, Дж.А.Фодора, Б. Патти, А. Вежбицкой и др. Ряд современных усовершенствованных методов представлены в статьях Ермакова А.Е., Леонтьевой Н.Н., Мозгового М.В., Плешко В.В., Сокирко А., Толпегина П.В., Тузова В.А. и др.

В настоящее время успешно решена задача морфологического анализа текстов, результаты которого применяются в поисковых Интернет-машинах, текстовых редакторах, подсистемах проверки орфографии и пр. Задачи синтаксического и, в особенности, семантического анализа не решены в полной мере. Синтаксический анализ (анализ грамматики) можно встретить в системах перевода, в подсистемах проверки грамматики. Несмотря на богатую теорию в области семантического анализа, применение находят лишь методы анализа основанные на статистических (факторных) характеристиках слов и словосочетаний анализируемого текста. Следует отметить, что подсистемы, реализующие указанные методы анализа текста, не предоставляют средств настройки процесса анализа, средств пополнения баз правил грамматики языка.

Семантические модели (СМ) текста, являющиеся результатом комплексного анализа, позволяют оценить корректность текста, в наглядной форме, визуально представить структуру сюжета, взаимосвязь объектов и процессов текста, их атрибуты. Последовательность моделей простых предложений текста и результирующая визуальная модель текста позволяют реализовать обратную связь "воздействие на модель – реакция в тексте", благодаря чему можно в интерактивном режиме отлаживать процессы анализа текстов и доказательства объективности (однозначности) истолкования текстов на естественных языках.

Применение семантических моделей актуально в автоматизированных обучающих системах, при решении задач извлечения знаний из текстов, информационного поиска, реферирования, контроля корректности словарей терминов и определений, автоматической генерации ассоциативных связей в гипертекстовых базах данных (ГБД) и пр.

Учитывая вышеизложенное, а также то, что проблема анализа ЕЯ-текста до настоящего времени не решена в полной мере, считаем, что совершенствование методов анализа ЕЯ-текста и повышение степени их достоверности является актуальной задачей.

Объектом исследования работы является математическое, информационное и программное обеспечение человеко-машинного общения на естественном языке.

Предметом исследования являются модели и методы синтаксического и семантического анализа естественно-языкового текста.

Цель работы – повышение достоверности семантического анализа естественно-языковых текстов за счет онтологических моделей знаний о грамматике естественного языка и о предметной области текста, а также путем совершенствования семантических моделей обрабатываемого текста.

Для достижения поставленной цели требуется решение следующих основных научных и практических задач:

  1. Аналитический обзор существующих методов и систем анализа ЕЯ-текстов, методов и систем проектирования онтологий предметной области с целью выявления основных направлений снижения трудоемкости при проектировании алгоритмов анализа текстовой информации.

  2. Разработка правил описания понятий с целью снижения трудоемкости описания предметов и процессов предметной области

  3. Разработка методики построения онтологии предметной области текста, ориентированной на семантическое моделирование и позволяющей сократить многозначность слов и словосочетаний.

  4. Разработка баз знаний синтаксического и семантического анализаторов ЕЯ-текста и принципов организации взаимосвязей между ними.

  5. Разработка алгоритма синтеза семантической модели обрабатываемого текста.

  6. Разработка способа и/или критериев оценки достоверности семантического анализа.

  7. Разработка методов и инструментальных средств визуализации семантических моделей для оценки достоверности семантического анализа.

  8. Разработка экспертной системы комплексного анализа текста.

  9. Экспериментальное исследование предложенных методов и разработанных программных средств.

Методы исследования. Теоретические исследования выполнены с использованием методов системного анализа, теории множеств, математической логики, теории проектирования баз данных. При разработке программного обеспечения использовалась технология объектно-ориентированного программирования.

Достоверность и обоснованность полученных в работе результатов и выводов подтверждается корректностью разработанных математических моделей, положительными результатами проведенных экспериментальных исследований и опытом практической эксплуатации разработанных программных систем.

Научная новизна.

  1. Предложена методика онтологического описания понятий предметной области, ориентированная на семантическое моделирование естественно-языковых текстов и отличающаяся использованием правил комплексного словарного описания понятия, включая правила явного определения и правил классификации.

  2. Предложены модели знаний синтаксического и семантического анализаторов ЕЯ-текста, включающие декларативные и императивные знания о грамматике естественного языка и онтологии предметной области и отличающиеся наличием обратных связей между ними.

  3. Предложен алгоритм семантического анализа ЕЯ-текста, основывающийся на онтологии предметной области и результатах синтаксического анализа текста, отличающийся выявлением ролевых отношений субъектов текста и их ассоциативных связей с онтологией предметной области.

  4. Предложен способ визуальной оценки достоверности семантического анализа ЕЯ-текста на основе семантических моделей текста, представленных в виде таблицы действий, граф-схемы действий и их участников и диаграммы процессов.

Практическая полезность.

  1. Прикладные методы компьютерной лингвистики, отличающиеся применением семантических моделей:

    • метод контроля знаний в автоматизированных системах обучения естественному языку;

    • методика контроля корректности словарей терминов и определений в обучающих систем;

    • метод автоматической генерации упражнений и вопросов по произвольному тексту.

  2. Созданы программные продукты:

    • система для составления онтологического описания предметной области «Онтологический толковый словарь»;

    • экспертная система комплексного анализа текста «ЭСКАТ», использующая расширяемые экспертом справочники морфем и морфологических признаков, правила синтаксического анализа;

    • интерактивная система обучения английскому языку «Language Tutor», отличающаяся наличием средств автоматического контроля знаний и автоматической генерации упражнений и вопросов, работа которых основана на использовании системы «ЭСКАТ»;

    • интерактивная обучающая система по русскому языку «Интеллект»;

    • система автоматизированного поиска объявлений о покупке, продаже бытовой техники на форумах «Интернет коммерция».

  3. Базы данных и знаний по грамматике английского языка, базы учебных материалов и упражнений, онтологическое описание предметных областей «Инженерная графика», «Грамматика английского языка» и частичное онтологическое описание основных бытовых понятий.

  4. Результаты диссертационного исследования использовались при разработке автоматизированной системы патентно-лицензионного поиска в рамках общей технологии взаимодействия центра автоматизированной обработки аналитической информации с патентно-лицензионными подразделениями предприятий (организаций) Удмуртской Республики, входящих национальную нанотехнологическую сеть по Удмуртской Республике.

На защиту выносятся:

  1. Методика проектирования онтологии предметной области, ориентированная на семантический анализ ЕЯ-текстов и позволяющая сократить описание фрагмента реального мира, путем применения общеизвестных семантических категорий, классифицированных и описанных по правилам явного определения.

  2. Модель знаний синтаксического анализатора ЕЯ-текстов, позволяющая снизить трудоемкость при составлении формального описания грамматики языка, и модель знаний семантического анализатора ЕЯ-текстов, основанной на онтологическом подходе к организации знаний о предметной области.

  3. Алгоритм семантического анализа ЕЯ-теста, основанный на онтологии предметной области и результатах синтаксического анализа.

  4. Способ визуальной оценки достоверности семантического анализа ЕЯ-текста, основанный на формировании и выводе на экран графических семантических моделей.

  5. Семантические модели ЕЯ-текста, отличающиеся тем, что введены дополнительные показатели по сравнению с классическими способами представления результатов семантического анализа.

  6. Разработанные и программно реализованные: экспертная система комплексного анализа текста (ЭСКАТ), программа «Онтологический толковый словарь» (ОТС), автоматизированная система обучения английскому языку (Language Tutor), система автоматизированного поиска объявлений о покупке, продаже бытовой техники на форумах (Интернет коммерция).

  7. Фрагменты баз данных и баз знаний по грамматике английского языка, учебным материалам и упражнениям, а также фрагменты онтологии некоторых предметных областей текстов.

Реализация результатов работы. Результаты работы использованы на кафедре «Английский язык» ГОУ ВПО «ИжГТУ» для контроля знаний студентов по основным темам грамматики английского языка; на кафедре «Автоматизированные обработки информации и управления» ГОУ ВПО «ИжГТУ» в преподавании дисциплины «Инженерная графика», а также в преподавании дисциплины «Онтологии и инженерия знаний» для магистрантов направления «Информатика и вычислительная техника».

Апробация работы. Основные результаты диссертационной работы докладывались:

на Всероссийской научно-практической конференции (Пенза, 2006, 2009);

на 7-й Международной научно-технической конференции “Интеллектуальные системы” (AIS’07) и “Интеллектуальные САПР” (CAD-2007) (Дивноморское, 2007);

на первом форуме молодых ученых в рамках Международного форума “Качество образования 2008” (Ижевск, 2008);

на первой научно-технической конференция студентов, аспирантов, сотрудников и преподавателей "Информационные системы в промышленности и образовании" (Ижевск, 2009);

на VII Всероссийской научно-практической конференции (Томск, 2009).

Публикации. Результаты работы отражены в 11 публикациях, включая 2 в изданиях, рекомендуемых ВАК. Получено 2 свидетельства об официальной регистрации программ для ЭВМ, а также 4 акта о внедрении (использовании) результатов диссертационной работы.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложений. Основной текст изложен на 163 машинописных страницах с иллюстрациями. Список литературы включает 73 наименования.

Методы и системы морфологического анализа

По мнению многих исследователей в области АОТ [1, 2], общая схема обработки текстов подходит для любого ЕЯ, на котором написан исходный текст, и его анализ будет проходить пять стадий. Первые две - разбиение текста на отдельные предложения и слова - практически одинаковы для большинства естественных языков. Специфические черты анализа для выбранного языка - это обработка сокращений слов и обработка знаков препинания, определение конца предложения. Последующие две стадии - определение характеристик отдельных слов и синтаксический анализ, наоборот, очень сильно зависят от выбранного естественного языка. Последняя стадия - семантический анализ, также мало зависит от выбранного языка, однако, проявляется это лишь в общих подходах к проведению анализа.

Рассмотрим более подробно морфологический анализ и морфемный анализ. Морфологический анализ (МА) - определение морфологических характеристик каждого слова (часть речи, падеж, склонение, спряжение и т.д.). Морфемный анализ - определение состава слова (приставка, корень, суффикс и окончание).

Целью и результатом МА является определение морфологических характеристик слова и его основная словоформа. Перечень всех морфологических характеристик слов и допустимых значений каждой из них зависят от естественного языка. Тем не менее, ряд характеристик (например, название части речи) присутствуют во многих языках. Результаты морфологического анализа слова неоднозначны, что можно проследить на множестве примеров.

Существует три основных подхода к проведению морфологического анализа. Первый подход часто называется "четкой" морфологией. Для русского языка он основан на словаре A.A. Зализняка [3]. Второй подход основывается на некоторой системе правил, которые по заданному слову определяют его морфологические характеристики. В противоположность первому подходу, его называют "нечеткой" морфологией [4]. Третий, вероятностный подход [5], основан на сочетаемости слов с конкретными морфологическими характеристиками. Он широко применяется при обработке аналитических языков со строго фиксированным порядком слов в предложении и практически неприменим при обработке текстов на русском языке. Рассмотрим каждый из указанных способов морфологического анализа более подробно.

Словарь Зализняка содержит основные словоформы слов русского языка, для каждой из которых указан некоторый код. Известна система правил, с помощью которой можно построить все формы данного слова, отталкиваясь от начальной словоформы и соответствующего ей кода. Помимо построения каждой словоформы, система правил автоматически ставит ей в соответствие морфологические характеристики.

При таком подходе к проведению морфологического анализа заданного слова необходимо найти его в словаре, где уже хранятся точные, "окончательно известные" значения всех морфологических характеристик заданного слова. Возможно, что для одного и того же входного слова будут храниться сразу несколько вариантов значений его морфологических характеристик.

Данным способом не всегда удается воспользоваться, поскольку слова, поступающие на вход, могут не входить в словарь всех словоформ. Такая ситуация может возникнуть из-за ошибок в исходном тексте, наличия в тексте специфических слов, заимствованных слов, имен собственных, и т.д. В случае, когда метод точной морфологии не дает нужного результата, применяется неточная морфология.

Целью морфемного анализа [6] слова является разделение слова на отдельные лексемы: приставки, корни, суффиксы и окончания. В словаре морфем русского языка указанно разделение каждого слова на отдельные части, но не указаны типы каждой из получившихся частей (какая из них является приставкой, какая корнем и т.д.). Известно, что множество всех корней слов русского языка открыто, но множество всех возможных приставок, суффиксов и окончаний - ограничено. Кроме того, известно, что в любом слове сначала идут приставки, затем корни, далее суффиксы и окончание. Поэтому на основе словаря морфем русского языка можно построить другой словарь, который будет содержать не только разбиение каждого слова на части, но и тип каждой из них. В таком случае, для проведения морфемного анализа слова необходимо обратится к этому словарю. Подобная задача также решена.

Морфемный анализ не ограничивается обращениями к словарю. В ситуации, когда слово отсутствует в словаре, возможно непосредственное проведение анализа, на основе стандартного строения слов русского языка (приставка - корень — суффикс — окончание) и множества всех приставок, суффиксов и окончаний.

Когда не удалось определить характеристики слова с помощью методов точной морфологии, но удалось расчленить слово на отдельные части. Наличие тех или иных лексем может определять морфологические характеристики этого слова — можно построить систему правил, которая будет опираться на наличие или отсутствие каких-либо частей и выдавать одно или несколько предположений о морфологических параметрах. Данный набор правил можно построить двумя способами. Первый основан на морфемном анализе слов, содержащихся в словаре всех словоформ, и их морфологических характеристик. Задача построения такой системы правил может быть решена с помощью самообучающейся системы некоторого типа. В данном случае могут быть использованы деревья решений [7], ILP (Inductive Logic Programming) [8] и прочие алгоритмы. Второй подход заключается в формировании набора правил вручную.

Правила классификации и описания понятий

Сегодня для создания и поддержки онтологий существует целый ряд инструментов, которые помимо общих функций редактирования и просмотра выполняют поддержку документирования онтологий, импорт и экспорт онтологий разных форматов и языков, поддержку графического редактирования, управление библиотеками онтологий и т.д.

Наиболее известными системами являются следующие: Система Ontolingua - была разработана в Knowledge Systems Laboratory Стенфордского университета и стала первым инструментом инженерии онтологий. Она состоит из сервера и языка представления знаний [50].

Сервер Ontolingua организован в виде набора онтологий, относящихся к Web-приложениям, которые надстраиваются над системой представления знаний Ontolingua. Редактор онтологий — наиболее важное приложение сервера Ontolingua является Web-приложением на основе форм HTML. Кроме редактора онтологий Сервер Ontolingua включает сетевое приложение Webster (получение определений концептов), сервер ОКВС (доступ к онтологиям Ontolingua по протоколу ОКВС) и Chimaera (анализ, объединение, интегрирование онтологий). Все приложения, кроме сервера ОКВС, реализованы на основе форм HTML. Система представления знаний реализована на Lisp.

Сервер Ontolingua также предоставляет архив онтологий, включающий большое количество онтологий различных предметных областей, что позволяет создавать онтологии из уже существующих. Сервер поддерживает совместную разработку онтологии несколькими пользователями, для чего используются понятия пользователей и групп. Система включает графический браузер, позволяющий просмотреть иерархию концептов, включая экземпляры. Ontolingua обеспечивает использование принципа множественного наследования и богатый набор примитивов. Сохраненные на сервере онтологии могут быть преобразованы в различные форматы для использования другими приложениями, а также импортированы из ряда языков в язык Ontolingua.

Protg- локальная, свободно распространяемая Java-nporpaMMa, разработанная группой медицинской информатики Стенфордского университета [51].

Программа предназначена для построения (создания, редактирования и просмотра) онтологий прикладной области. Её первоначальная цель - помочь разработчикам программного обеспечения в создании и поддержке явных моделей предметной области и включение этих моделей непосредственно в программный код. Protg включает редактор онтологий, позволяющий проектировать онтологии разворачивая иерархическую структуру абстрактных или конкретных классов и слотов. Структура онтологии сделана аналогично иерархической структуре каталога. На основе сформированной онтологии, Protg может генерировать формы получения знаний для введения экземпляров классов и подклассов. Инструмент имеет графический интерфейс, удобный для использования неопытными пользователями, снабжен справками и примерами.

Protg основан на фреймовой модели представления знания ОКВС (Open Knowledge Base Connectivity) и снабжен рядом плагинов, что позволяет его адаптировать для редактирования моделей хранимых в разных форматах (стандартный текстовый, в базе данных JDBC, UML, языков XML, XOL, SHOE, RDF и RDFS, DAML+OIL, OWL).

Система OiitoEdit [52] первоначально была разработана в институте AIFB (Institute of Applied Informatics and Formal Description Methods) университета Karlsruhe (сейчас коммерциализован Ontoprise GmbH). Она выполняет проверку, просмотр, кодирование и модификацию онтологий.

В настоящее время OntoEdit поддерживает языки представления: FLogic, включая машину вывода, OIL, расширение RDFS и внутреннюю, основанную на XML, сериализацию модели онтологии используя OXML - язык представления знаний OntoEdit (OntoEdit s XML-based Ontology reprsentation Language). К достоинствам инструмента можно отнести удобство использования; разработку онтологии под руководством методологии и с помощью процесса логического вывода; разработку аксиом; расширяемую структуру посредством плагинов, а также очень хорошую документацию.

Так же как и Protg, OntoEdit - автономное Java-приложение, которое можно локально установить на компьютере, но его коды закрыты. Архитектура OntoEdit подобна Protg (рисунок 1.2).

Существует две версии OntoEdit: свободно распространяемая OntoEdit Free (ограничена 50 концептами, 50 отношениями и 50 экземплярами) и лицензированная OntoEdit Professional (нет ограничений на размер). Естественно, что OntoEdit Professional имеет более широкий набор функций и возможностей (например, машину вывода, графический инструмент запросов, больше модулей экспорта и импорта, графический редактор правил, поддержка баз данных JDBC и т.д.).

Синтаксические модели текста

С точки зрения СиА слова разных предложений не связаны друг с другом. В связи с этим фактом удобно избавиться от многовариантности морфологического анализа, создав варианты предложений таким образом, что каждое слово варианта предложения разобрано однозначно.

Каждый вариант предложения есть простое предложение или их последовательность, отношения между ними.

Основным понятием в синтаксическом анализе являются роли. Роли присваиваются словам или словосочетаниям, в зависимости от степени влияния слов друг на друга в предложении. Аналогом ролей в лингвистике являются члены предложения. Количество выделяемых ролей больше, чем количество членов предложения, поскольку роли более функциональны. Они позволяют выделить группы слов, разграниченные по функциям более конкретно, чем в членах предложения. Такое конкретное определение функций слов при помощи ролей помогает облегчить в дальнейшем этап семантического анализа.

Главной ролью является действие-процесс (сказуемое). Действие обычно выражено глаголом. В английском языке данный синтаксический объект присутствует в каждом предложении.

Участники процесса: 1) актор - главное действующее лицо, имеющий прототип в классической модели предложения «подлежащее». Актор обычно выражен существительным, местоимением или герундием, а также количественным числительным. Например, в предложении «А boy gave те a ball» актор - A boy. 2) объект - объект действия (дополнение). Выражается существительным, местоимением или герундием. В примере a ball — это объект; 3) реципиент - приемник действия, т.е. то, на что направлено действие. Выражается существительным или местоимением. В примере — те; 4) инструмент — инструмент, используемый при совершении действия. Выражается существительным или местоимением; 5) коагент - второй агент, помогающий совершать действие. Выражается существительным или местоимением; 6) сцена - место, где происходит действие (обстоятельство места). Выражается существительным, местоимением, наречием места; 7) время — время действия (обстоятельство времени). Выражается наречием или существительным; 8) атрибут - относительная или качественная характеристика, выраженная прилагательным, наречием, причастием или числительным (определение); 9) вводное слово - особая роль, отведенная для так называемых вводных слов, т.е. слов, стоящих в начале предложения и имеющих лишь функцию эмоциональной окраски предложения (к ним обычно относятся междометия и союзы); 10) слово-связка — особая роль, передающая связи между простыми предложениями (обычно выражается союзами, наречиями и знаками препинания). Синтаксический анализ рассматривает текст как совокупность простых предложений. Простое предложение, в свою очередь, есть цепочка слов, описывающих действие, выраженное глаголом, причастием, деепричастием и т.п., его участников, место и время его происхождения. В некоторых языках, в зависимости от того, в каком порядке стоят роли в предложении, можно определить тип предложения (повествовательное, восклицательное, вопросительное или повелительное). Выходными данными СиА будут являться преобразованные входные предложения, которые: 1) разбиты на простые предложения с однозначным морфологическим разбором слов, 2) вариант разбора предложения содержит вместе с морфологическими признаками установленные роли слов, связи между словами, связи между простыми предложениями. Иными словами, выходными данными синтаксического анализа текста являются синтаксические модели предложения.

Экспертная система комплексного анализа текста «ЭСКАТ»

Условие правила состоит из подусловий, соединенных логической операцией «или». Каждое подусловие состоит из нескольких простых условий, соединенных логической операцией «и». Простое условие — функция, переменная или константа логического типа.

Стратегия анализа предполагает, что в начале этапа располагаются правила поиска сложных конструкций языка. Ближе к концу этапа правила упрощаются. В конце этапа располагаются простые правила, справедливые для большинства ситуаций языка.

Правило работает с цепочкой слов, т.е. со смежными словами. Каждое правило содержит в своем составе последовательность условий, каждое из которых служит для отбора одного или нескольких слов текста. Условие правила позиционировано, если для него выбрано слово или группа слов и цепочки, удовлетворяющих содержанию условия.

Правило позиционировано, если: 1) на каждое слово отобранной цепочки позиционировано одно условие; 2) каждое условие правила позиционировано на одно или несколько смежных слов; 3) для любого слова цепочки справедливо: на предыдущее слово цепочки позиционировано предыдущее условие этого правила, либо это же условие. Правило содержит в своем составе также список операций, выполняемых над синтаксической моделью текста и списком слов, отобранных его условиями, в результате чего появляются новые факты. Каждое условие отбирает подмножество слов по значению их атрибутов. Синтаксические атрибуты закрепляются за синтаксической моделью. Различают атрибуты, закрепляемые за представлением слова в модели, и атрибуты, описывающие какие-либо свойства слова, учитываемые на этапе синтаксического анализа. Структура таких атрибутов аналогична морфологическим атрибутам. Слова могут быть отобраны по значениям таких атрибутов с помощью правил морфологического анализа. Роли слова используются также для установления связей. Связь — необходимый элемент модели. Она используется в следующих случаях: - два и более слов связаны: одно слово является признаком другого (атрибутивная связь), связью «часть-целое», «принадлежность» и другие (логическая связь слов), одно слово является общим для двух предложений (в этом случае вводится абстрактное пустое слово и соединяется ссылочной связью с общим словом); - два предложения связаны друг с другом логической связью (логическая связь предложений); - слово связано с предложением: подчиненное предложение является сложным словом главного предложения, (например, объектом). В этом случае создается пустое слово и связывается связью с простым предложением, являющимся подчиненным. Так, например, в предложении «The boy sees, that in the street it is raining (Мальчик видит, что на улице идет дождь)» подчиненное предложение «in the street it is raining» есть объект главного предложения.

Каждое слово может иметь собственные атрибуты. Эти атрибуты полностью аналогичны морфологическим, нод несут нагрузку промежуточных, а также контекстно-зависимых морфологических.

Имя правила уникально. Приоритет правила — предпочтение выполнения правил. Центральным является элемент условия правила (графа 2). Правило синтаксического анализа отображает элемент синтаксической структуры языка, поэтому оно основывается на структуре языка низшего порядка — морфологической. В зависимости от того, какой выбран признак условия (графа 3) выбираются соответствующие значения (графа 4). Элементы в операции (графа 5) формируются из элементов условия. Они могут следовать в произвольном порядке, упоминаться в операции не более 1 раза и связаны друг с другом конъюнктивно. В зависимости от признака операции (графа 6) формируются соответствующие этому признаку значения (графа 7). Логическая операция (графа 1) призвана упростить обработку правил и сделать представление строк условия правила более читабельным: . Помимо-перечисленных элементов каждое правило; содержит комментарий, поясняющий то или иное правило. . Правило синтаксического анализа, отображает элемент синтаксической структуры языка, поэтому оно основывается: на структуре языка низшего, порядка-морфологической. Признак условия (графа 3) может принимать следующие: значения: Часть речи , Значение: собственного синтаксического атрибута , Роль элемента , Связь , Согласованность , Слово . В зависимости от того; какой; выбран признак условия, отбираются соответствующие значения (графа, 4). Например для-признака "Часть речи" возможны следующие значения: существительное ,; местоимение , прилагательное , глагол , наречие , . причастие , герундий , артикль , наречие , союз , предлог , междометие , числительное , имя собственное . В; зависимости от выбранной части речи к. стандартным; типам призна- . ков добавятся:те, которые присущи выбранной: части речи. Так, например, если выбрана часть речи - существительное, то к Часть речи , Значение собственного синтаксического атрибута , Роль элемента , Связь , Согласованность и Слово добавятся Род , Число , Падеж , Одушевленность и Исчисляемость . Элементы в операцйи (графа 5) формируются - из элементов, условия: Они могут следовать в произвольном порядке, упоминаться в операции не более 1 раза и связаны друг с другом конъюнктивно. Признаки операции: (графа 6) могут принимать следующие значения: Морфологический признак , Значение роли , Роль , Значение собственного синтаксического атрибута , Собственный; синтаксический атрибут , Связь , Вариант разбора предложения , Отношение , Сцена . В зависимости от типа признака операции формируются соответствующие этому признаку значения. Так, например, для признака "Значение роли" возможны следующие варианты значений: актор1, действие1, реципиент , объект , инструмент , бенефициант , время начала , время окончания + список неповторяющихся элементов из условия.

Похожие диссертации на Разработка и исследование методов и системы семантического анализа естественно-языковых текстов