Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов Хаптахаева Наталья Баясхалановна

Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов
<
Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Хаптахаева Наталья Баясхалановна. Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов : диссертация ... кандидата технических наук : 05.13.11.- Улан-Удэ, 2005.- 200 с.: ил. РГБ ОД, 61 06-5/1412

Содержание к диссертации

Введение

1 Описание проблемы и обзор существующих решений , 11

1.1 Обзор систем приобретения знаний 11

1.2 Описание проблем по созданию систем приобретения знаний и предлагаемых подходов к их решению 15

1.3 Анализ методов построения грамматик 20

1.4 Выводы по главе и содержательное описание задачи 25

2 Представление решения задачи в виде системы продукций и язык ситуационного моделирования 29

2.1 Описание формального аппарата 29

2.2 Представление решения задач в виде систем продукций 31

2.2.1 Формализация методов морфологического анализа 31

2.2.1.1 Правила морфологического анализа 32

2.2.1.2 Диагностирующие конструкции морфологического анализа 37

2.2.2 Формализация методов решения задачи препроцессорной обработки научного текста 40

2.2.2.1 Правила препроцессорной обработки полнотекстового документа 40

2.2.2.2 Диагностирующие конструкции препроцессорной обработки 46

2.2.3 Формализация способа выделения терминов научного текста ...48

2.2.3.1 Правила выделения терминов научного текста 48

2.2.3.2 Диагностирующие конструкции выделения терминов научного текста 51

2.2.4 Представление знаний лингвистических словарей в виде базы фактов 52

2.3 Анализ систем продукций, представленных на естественном языке 54

2.4 Язык и грамматика ситуационного моделирования 57

2.4.1 Язык ситуационного моделирования 57

2.4.2 Грамматика ситуационного моделирования 59

2.5 Выводы по главе 62

3 Модель МП-процессора 63

3.1 Модифицированный синтаксически управляемый перевод продукционных правил с ограниченного естественного языка в классический вид 63

3.1.1 Постановка задачи 63

3.1.2 Схема синтаксически управляемого перевода и грамматика свойств ...65

3.1.3 Модифицированный синтаксически управляемый перевод 70

3.2 Реализация МСУ-схемы над ЬК(1)-грамматикой 72

3.2.1 Расщепление исходной грамматики 72

3.2.2 Система множеств 1Д(1)-ситуаций для грамматик-компонент 75

3.2.3 Построение множеств 1Л(1)-таблиц 86

3.2.3.1 Объединенная система множеств ЬК(1)-ситуаций для исходной грамматики 87

3.2.3.2 Множество 1Л(1)-таблиц по множествам Ы1(1)-ситуаций 90

3.2.3.3 Оптимизация множества 1Лф)-таблиц 96

3.2.4 Модель МП-процессора 100

3.3 Выводы по главе , . 121

4 Описание программного обеспечения и вычислительных экспериментов 122

4.1 Описание системы преобразования ядер продукций 122

4.2 Апробация корректности построенных предикатов первого порядка 129

4.3 Выводы по главе 134

Заключение 135

Список литературы

Введение к работе

Актуальность темы. Настоящее время характеризуется широким внедрением информационных и телекоммуникационных технологий во все сферы человеческой деятельности, что вызвано значительными успехами в области как теоретических, так и прикладных исследований в информатике. На современном зіапе наибольшее распространение получили системы обработки данных, построенные по технологии OLTP - OnLine Transaction Process. Вместе с тем, такие ингеллекгуальные информационные системы, как EIS - Executive Information System, DSS - Decision Support System, экспертные системы и другие подобные сисіемьі, широкою распространения не получили. Главной причиной такого относительно слабого промышленного внедрения систем, основанных на знаниях, по мнению аналитиков, является отсутствие проверенных источников знаний. Действи гелыю, основным источником знаний является эксперт. Передача знаний выполняется в процессе длительных и пространных собеседований между инженером по знаниям и экспертом в определенной предметной области, способным досгагочно чеіко сформулировать имеющийся у него опыт. Из-за низкой скорости процесса передачи знаний многие исследователи рассматривают функцию приобретения знаний п качестве одного из главных «узких мест» технологии экспертных систем. В результате это вызвало большой интерес к методам автоматической обработки естественно-языковых научных текстов (ОЕЯТ), что обусловило необходимость создания библиотеки этих методов.

Для создания библиотеки необходимо разработать систему приобретения знаний о методах естественно-языковой обработки научных текстов. Однако данные методы должны приобретаться у эксперта и вводиться в систему па некоюром подмножестве естественного языка. Это порождает научную проблему, связанную с созданием структурированного естественно-языкового представления методов и модели преобразователя, который переводит исходное описание в формальный классический вид. Решение этой проблемы позволит впоследствии сформировать библиотеку методов обработки научных текстов.

В связи с тем, что методы обработки научных текстов должны быть описаны на
естественном языке, необходимым является анализ предложений естесівениою
языка. Современные работы в области лингвистики утверждают, что единицы
текста (предложение, лексема, морфема и т.д.) создают некоторый ситуационный
контекст, который должен отражать форму и содержание текста в случае, если
единицей текста является предложение; предложения, если единицей тексіа
является лексема; лексемы, если единицей текста является морфема. Анализ іаких
языковых ситуаций в научном тексте составляет одну из основ современной
лингвистики. По мнению А.А. Залевской ситуационный подход заключается в
акцентировании внимания на том, что для человека, как пользователя яіьїком.
значение слова реализуется через включение его в некоторую более объемную
единицу - пропозицию, фрейм, схему, сцену, сценарий, событие, ментальную
модель и т.п. При этом подчеркивается важность функционирования значения слова
не в отдельности, а в определенных связях с другими словами. То есть элементам
текста свойственны каузальные отношения, кгнтгрыр клр'чир рпнгііппіпп с
помощью ситуационного подхода. / РОс- "АЦИональЪд<Г)

Ситуационный подход связан с понятиями репрезентации и ментальных моделей. Ментальная модель может быть определена как некоторое знание в долговременной или кратковременной памяти, структура которого соответствует структуре репрезентируемой ситуации. Чаще всего для описания ситуаций используют продукционные правила. При этом ментальные модели являются внутренними структурами, которые отражают взаимосвязь понятий. Следовательно, необходимо проанализировать отношения между понятиями, выполнить их классификацию, определить структуру каждой категории отношений, и в соответствии с этим определить структуру ядра продукции, которое затем может быть переведено в формулу предикатов первого порядка.

Таким образом, методы решения задач обработки естественно-языкового текста могут быть представлены в виде системы продукционных правил, описанных на естественном языке. Преобразование их в формальный вид должно осуществляться па основе методов теории формальных грамматик и автоматов.

Основываясь на вышесказанном, можно определить цель работы, которая сосюит в решении проблемы построения модели преобразователя для отображения естественно-языкового представления ядер продукции в формулы логики предикатов первого порядка.

Для достижения укашнной цели в работе поставлены и решены следующие задачи:

  1. анализ методов решения задач обработки естественно-языкового научною текста и представление их в виде систем продукций на естествеїгном языке с целью выявления диагностирующих конструкций, составляющих основу ядер продукций;

  2. построение грамматики, позволяющей выполнять отображение правил на ограниченном естественном языке в продукции на языке логики предикатов первого порядка;

  3. создание модели преобразователя для отображения естественно-языкового представления ядер продукции в формулы логики предикатов первого порядка.

Основная идея диссертации. Рассматриваемая работа строится на предположении, что предложение научного текста определяет ситуационный кон текст, в котором находятся единицы предложения лексемы. Это позволяет отношения между единицами предложения, определяющие некоторую ситуацию, описывать посредством продукций. Компоненты ядра продукции Л=>Н представляются конъюнкцией фактов. Каждый факт есть высказывание о взаимосвязи понятий, входящих в ситуационный коніекст. Взаимосвязь понятий определяется некоторым отношением, которое соотносится с глобальной классификацией отношений. Глобальная классификация разбивает отношения на категории, которые состоят из групп. Отношению в группе соответствует своя ментальная модель или структура, распознаваемая посредством диагностирующих конструкций. Таким образом, строится отображение «диагностирующая консірукция -» отношение)).

Метод естественно-языковой обработки научных текстов предназначен для решения таких задач, как, например, лексический, морфологический и синтаксический анализы, выделение терминов научного текста и другие. Каждая предмет пая область обладает совокупностью отношений, составляющих основу ситуационного подхода к описанию соответствующего метода. Исследование

отношений позволяет выявить множество диагностирующих конструкций, коюрые составляют основу структурированного описания метода. Унификация диагностирующих конструкций позволяет определить язык ситуационного моделирования методов обработки научного текста. Для описания языка строиіся грамматика, по которой создается схема синтаксически управляемою перевода (СУ-схема). Реализация СУ-схемы является основой для построения модели преобразователя.

Методы исследования. Методологической и теоретической основой исследования послужили методы теории искусственного интеллекта, логики предикатов первого порядка, формальных грамматик и автоматов, математической лингвистики.

При определении диагностирующих конструкций использованы классификации концептуальных объектов и концептуальных отношений лингвистов И. Дальберга, СЕ. Никитиной, а также классификации отношений ведущих специалистов в области искусственного интеллекта ДА. Поспелова, Г .С. Осипова и Д.Ш. Сулейманова. Структура продукции соответствует классической, приведенной в работах Д.А. Поспелова. За основу языка ситуационного моделирования взят язык ситуационного управления Д.А. Поспелова. Разработка граммаїики базируется на методах теории формальных грамматик Н. Хомского, а, именно, на методах наиболее широкого подкласса контекстно-свободных грамматик- ЬЩк)-гряммяічк. и грамматики свойств, описанных в работах Д. Кнута, Л. Ахо, Д Ульмана, Б.К. Мартыненко, Ю.Г. Карпова. При построении модели МП-пропессора применены методы синтаксическою анализа для ЬЩЛ)-грамматик, оптимизации LR(A)-анализаторов и методы реализации СУ-схемы над ЬЩЛ)-грамматнкой, представленные в работах Д. Кнута, А. Ахо, Д. Ульмана, Р.Сети, Ф.Л. Дс Ремера, А Дж. Кореньяка, ДжЛ. Хопкрофта, В Брауэра, Б.К Мартыненко и др.

Научная новизна. Основным результатом диссертационной работы является разработка модели преобразователя, обеспечивающего выполнение отображения ядер продукционных правил на естественном языке в формулы логики предикатов первого порядка. При этом получены следующие наиболее значимые результаты, содержащие, по мнению автора, элементы научной новизны:

  1. определены диагностирующие конструкции, которые отражают семантику онтологических отношений между понятиями и позволяют наполнить содержанием центральный элемент простых ядерных конструкций языка ситуационного управления в случае использования языка для анализа научных текстов;

  2. модифицирована схема синтаксически управляемого перевода с входной Ь11(1)-грамматикой, которая дополнена элементами грамматики свойств, а именно таблицами свойств, что обеспечивает независимость модели МП-процессора от конкретной задачи.

Пряісгичсскяя ценность исследования состоит в том, что полученные результаты могут быть применены при формализации методов решения задач с использованием ситуационного подхода и разработке системы приобретения знаний о методах решения задач обработки естественно-языковых текстов. Использование указанных результатов позволяет повысить эффективность разработки и качество проектирования системы приобретения знаний.

Внедрение результатов работы. Основные результаты работы используются в Бурятском региональном центре новых информационных технологий, Тверском региональном ресурсном центре, Южно-Российском региональном центре информатизации Ростовского государственного университета

Кроме того, материалы диссертации используются в учебной деятельности Восточно-Сибирского государственного технологического университета в рамках учебно-методического обеспечения дисциплин «Естественно-языковые системы» и «Теория языков программирования и методы трансляции», изучаемых студентами специальности 230105 «Программное обеспечение вычислительной техники и автоматизированных систем». В 2004 году работа была поддержана грантом Правительства Республики Бурятия для молодых ученых РБ.

Личный вклад автора. Автором исследованы методы решения задач автоматической обработки естественно-языковых научных текстов, и разработаны диагностирующие конструкции, на основе которых построены язык ситуационного моделирования и порождающая его грамматика. На базе построенной грамматики модифицирована схема синтаксически управляемого перевода, реализация которой позволила построить модель МП-процессора.

Апробация результатов исследования. Основные положения диссертационной работы докладывались и обсуждались на второй Всероссийской научно-технической конференции «Искусственный интеллект в XXI веке» (Пенза, 2004), шестой Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2005 г.), девятой Всероссийской конференции «Проблемы информатизации региона» (Красноярск, 2005 г.). Кроме этого основные результаты работы были опубликованы в журнале «Открытое и дистанционное образование» Ассоциации образовательных и научных учреждений «Сибирский Открытый Университет» (Томск, 2005).

Публикации. Основные результаты диссертационной работы опубликованы в 5 печатных работах общим объемом 1,8 п.л., получено 1 свидетельство об официальной регистрации программы для ЭВМ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и семи приложений. Работа содержит 200 страниц машинописного текста, в том числе основной текст- 143 страницы, 14 рисунков и 21 таблица Список литературы содержит 115 наименований. Объем приложений составляет 57 страниц.

Описание проблем по созданию систем приобретения знаний и предлагаемых подходов к их решению

Главным свойством систем приобретения знаний является обязательное наличие некоторой структуры знаний, заложенной их разработчиком, вне зависимости от функционального назначения системы [20]. Это требует структуризации приобретаемых знаний на предварительном этапе разработки системы. Поэтому одним из первых вопросов, возникающих при создании таких систем, является вопрос, какие знания будут приобретаться системой.

В настоящее время развитие мирового научно-технического прогресса породило проблему информационного взрыва, когда рост объема новой информации в единицу времени подчиняется экспоненциальному закону. В этих условиях особую актуальность приобретает задача обработки естественного языка посредством компьютера, что обуславливает необходимость приобретения знаний о методах автоматической обработки естественно-языкового текста. В связи с тем, что эти методы предназначены для обработки естественно-языковых научных текстов и, кроме того, должны быть описаны на естественном языке, для структуризации знаний о них необходимо выполнить анализ предложений естественного языка. Современные работы в области лингвистики [3, 48] утверждают, что предложение научного текста на естественном языке строится по определенным законам и описывает некоторую ситуацию, в которой находятся объекты предложения. Это позволяет использовать ситуационный подход [29] при анализе предложений естественного языка. В общем случае суть ситуационного подхода состоит в том, что познаваемое событие должно быть проанализировано с точки зрения составляющих его ситуаций. Поэтому любая естественно-языковая обработка научного текста связана с анализом ситуаций, отражающих форму и содержание единиц текста. То есть, рассмотрев множество возможных ситуаций с точки зрения необходимого анализа, и описав их в некотором виде, можно решить поставленную задачу.

Отсюда возникает задача создания средств описания ситуаций и правил их преобразования. Согласно работе [54] таким средством в модельной гипотезе мышления выступает язык. Таким образом, необходимо создать язык, который должен обладать средствами описания структурированных объектов, отношений на них, свойств объектов и их представлений. Кроме этого, он должен быть снабжен средствами создания новых объектов из элементарных [54]. В частности, такой язык должен удовлетворять требованиям Вудса: 1. Язык должен позволять описывать все существенные с точки зрения будущих задач объекты, их свойства, признаки и связи. 2. Язык должен позволять пренебрегать несущественными свойствами объектов и области вообще. 3. Язык должен давать возможность создавать новые объекты или рассматривать как таковые совокупности объектов, присваивать каждому такому объекту имя и в дальнейшем ссылаться на него. 4. Описание, при котором какие-либо объекты отсутствуют или имеют неописанные свойства должно рассматриваться не как чрезвычайное, а как естественное, а качество работы системы должно монотонно зависеть от полноты описания.

Первым шагом на пути построения такого языка и нахождения соответствующих механизмов является выделение в лексике языка групп, несущих определенную нагрузку при описании объектов, ситуаций и процедур преобразования ситуаций. Эти механизмы и составили содержание области исследований, возникшей в работах Д.А.Поспелова и Ю.И. Клыкова в конце 60-х годов, которую стали называть ситуационным управлением [54, 60]. Язык ситуационного управления обладает средствами для описания имен, признаков, понятий, отношений, действий. Основной единицей языка ситуационного управления является простая ядерная конструкция вида хгу. В средней ее позиции находится некоторое отношение или действие. В крайних позициях - понятия или имена. Простые ядерные конструкции считаются синтаксически правильными конструкциями. В эти конструкции разрешена подстановка в крайние позиции синтаксически правильных конструкций, результат такой подстановки является синтаксически правильной конструкцией. Синтаксически правильная конструкция образуется также связыванием синтаксически правильных конструкций знаками конъюнкции или знаками отношений или знаками действий.

В связи с этим при создании языка описания и моделирования ситуаций, удовлетворяющего требованиям Вудса, воспользуемся в качестве основы языком ситуационного управления, предложенного Д.А. Поспеловым. В контексте данной работы назовем создаваемый язык языком ситуационного моделирования. Таким образом, знания о методах автоматической обработки естественно-языковых текстов в работе предлагается приобретать в виде ситуаций, описание которых будет осуществляться посредством языка ситуационного моделирования.

Помимо структуризации знаний одной из проблем создания систем приобретения знаний является проблема, которую Ф. Хсйсс-Рот назвал «несоответствием представления» [80]. Ее суть заключается в расхождении между способом формулирования знаний экспертом и способом представления знаний в системе. Одним из методов уменьшения такого расхождения является возможность общения эксперта с системой на естественном языке. Здесь же следует отметить, что эксперт не всегда в состоянии сформулировать знания в той форме, в которой ему предлагается компьютерной системой. Обычно для представления описаний ситуаций используются продукционные правила. Поэтому в работе предлагается приобретать знания в виде продукционного правила на естественном языке. Продукции наряду с фреймами являются наиболее популярными средствами представления знаний в интеллектуальных системах. Они, с одной стороны, близки к логическим моделям, что позволяет организовывать на них эффективные процедуры вывода, а с другой стороны, более наглядно отражают знания. В продукциях отсутствуют жесткие ограничения, что даст возможность изменять интерпретацию элементов продукции [33, 66].

Серьезные проблемы в машинно-ориентироваином приобретении знаний возникают также из-за ограничений технологии, применяемой для разработки экспертных систем. Языки представления знаний, используемые в современных системах, ограничены по выразительным возможностям. Часто трудно или невозможно описать все необходимые предметные знания в одной заданной системе представления даже тогда, когда эксперт может передать свои знания инженеру. Поэтому при создании системы приобретения знаний нами предлагается возможность расширения языка, которая обеспечивается за счет декларативного представления основных его элементов.

Представление знаний - это формализация истинных убеждений посредством фигур, записей или языков. В контексте решаемой задачи формализация предполагает представление знаний в памяти ЭВМ. Это означает, что необходимо создать языки представления знаний, которые позволят автоматически преобразовывать представление па естественном языке в представление, пригодное для ввода и обработки в ЭВМ.

Представление решения задач в виде систем продукций

Морфологический анализ описывается следующим множеством правил: 1) определение части речи готовых (неизменяемых) словоформ; 2) определение части речи изменяемых словоформ; 3) определение флективного класса лексемы; 4) определение морфологической информации лексемы.

Правило определения части речи готовых (неизменяемых) словоформ. Это правило содержит гипотезу о том, что выделенная в процессе лексического анализа лексема существует в базе фактов готовых словоформ. Подтверждение или опровержение этой гипотезы осуществляется посредством оценки ситуации, которая описывается правилом на естественном языке:

Если текущая лексема принадлежит словарю готовых словоформ, выраженных существительными или наречиями или местоимениями или числительными или предлогами или союзами или междометиями или вводными словами или деепричастиями или частицами, то она является соответствующей частью речи «неизменяемое существительное» или «наречие» или «местоимение» или «числительное» или «предлог» или «союз» или «междометие» или «вводное слово» или «деепричастие» или «частица».

На ограниченном естественном языке правило будет иметь вид: ЕСЛИ лексема / "эквивалентна" готовая словоформа R_Word И ексема / "эквивалентна" лексема / И база фактов BF "имеет характеристику" атрибут Name И атрибут Name "тождественно равен" копстанта ["Словарь готовых словоформ"] И констаита ["Словарь готовых словоформ"] "тождественно равна" константа ["Словарь готовых словоформ"] И лекссма I "принадлежит базе фактов" ТО лексема / "имеет характеристику" часть речи Ps.

Если неуспех, то есть лексема не найдена в словаре готовых словоформ, то запускается функциональная процедура выделения окончания и основы лексемы, и срабатывает правило определения части речи изменяемых словоформ.

Правило определения части речи изменяемых словоформ. Под изменяемыми словоформами понимаются лексемы, структура которых изменяется в зависимости от грамматической формы. К таким словоформам относятся существительные, прилагательные и причастия, глаголы. Часть речи изменяемых словоформ можно определить по основе и окончанию. Здесь выдвигается гипотеза, описываемая следующей ситуацией:

Если текущая лексема имеет основу и основа принадлежит словарю основ существительных _ или прилагательных или причастий или глаголов, и текущая лексема имеет окончание и окончание принадлежит словарю окончаний той же части речи, что и основа, то лексема относится к данной части речи.

Данная ситуация на ограниченном подмножестве естественного языка имеет вид: ЕСЛИ основа Base "является частью" лексема / И база фактов BF "имеет характеристику" атрибут Name И атрибут Name "тождественно равен" константа ["Словарь основ"] И константа ["Словарь основ"] "тождественно равна" констаита ["Словарь основ"] И основа Base "принадлежит базе фактов" окончание End "является частью" лексема / И база фактов BF "имеет характеристику" атрибут Name И атрибут Name "тождественно равен" константа ["Словарь окончаний"] И константа ["Словарь окончаний"] "тождественно равна" констаите ["Словарь окончаний"] И окончапие End "принадлежит базе фактов" ТО лсксема / "имеет характеристику" часть речи Ps. Правило определения флективного класса. После определения части речи лексемы нужно определить код флективного класса. Согласно [7, 28] код флективного класса лексемы можно определить по основе. Тогда ситуация на естественном языке, описывающая эту гипотезу, будет иметь вид:

Если основа текущей лексемы принадлежит словарю флективных классов, то текущая лексема имеет код флективного класса, соответствующий данной основе. На ограниченном естественном языке: ЕСЛИ оспова Base "является частью" лекссма / И база фактов BF "имеет характеристику" атрибут Name И атрибут Name "тождественно равен" константа ["Словарь флективных классов"] И константа ["Словарь флективных классов"] "тождественно равна" константа ["Словарь флективных классов"] И основа Base "принадлежит базе фактов" ТО лексема / "имеет характеристику" код флективного класса Fk.

Правило определения морфологической информации лексемы. Обычно морфологическую информацию делят на две части: статическую и динамическую. К статической морфологической информации относят характеристику «часть речи» для всех частей речи, а также характеристики «род» и «признак одушевленности» для существительного. К динамической морфологической информации - «падеж» и «число» для существительного; «род», «падеж» и «число» для прилагательного; «лицо» и «время» для глагола. Статический набор морфологической информации определяется по коду флективного класса и части речи, динамический - по коду флективного класса и окончанию.

Опишем ситуацию, с помощью которой можно определить статический набор морфологической информации для существительного, на естественном языке.

Если текущая лексема является частью речи «существительное» и принадлежит словарю статической морфологической информации, и текущая лексема имеет код флективного класса, принадлежащий словарю СМИ, то эта лексема имеет соответствующие данному флеісгивному классу род и признак одушевленности.

Схема синтаксически управляемого перевода и грамматика свойств

Согласно теории перевода правило на ограниченном естественном языке является входной цепочкой или входным предложением, а формула логики предикатов первого порядка - выходом для данной входной цепочки или выходной цепочкой. Для реализации отображения правил с ограниченного естественного языка в формальное классическое представление будем использовать перевод, определяемый СУ-схемой [41]. Для организации информации о термах, семантических отношениях и словарях базы фактов используем таблицы свойств, которые доступны для внешней корректировки, т.е. в интерактивном режиме, без корректировки грамматики.

Таким образом, введем следующее определение модифицированной схемы синтаксически управляемого перевода, основанной на простой СУ-схеме, дополненной элементами грамматики свойств, а именно множеством свойств С.

Определение 3. Модифицированной схемой синтаксически управляемого перевода продукционных правил с ограниченного естественного языка в формальное классическое представление (сокращенно МСУ-схемой) Г назовем шестерку T=(N, Е, Л, С, R, 5), где 1) N - конечное множество нетерминальных символов; 2) 2 - конечный входной алфавит; 3) Д - конечный выходной алфавит; 4) R - конечное множество правил вида A- atp, где а є (TV u Z) , a є(ЛГиД) ; 5) S - начальный символ, выделенный нетерминал из N (аксиома); 6) С - конечное множество свойств, задаваемое таблицами свойств.

Для определения свойств входной цепочки а определим команду FIND(a,P), которая будет осуществлять поиск в таблице свойств выходной цепочки (3, соответствующей входной цепочке а.

Определим выводимые цепочки схемы Т: 1. (S, S) — выводимая пара, в которой символы S соответствуют друг другу. Если (aAp, а АР ) - выводимая пара, в которой два выделенных вхождения нетерминала А соответствуют друг другу, и А -» у , у - правило из R, то (аур, а у р ) - выводимая пара. Вхождения нетерминалов в у и у соответствуют друг другу также, как они соответствовали в правиле. Вхождения нетерминалов в а и р соответствуют вхождениям нетерминалов в а и р в новой выводимой паре также, как они соответствовали в старой выводимой паре.

Таблица расстановок имеет два поля: поле имени и поле указателя. В таблице данных находятся свойства или выходные цепочки В, поиск которых для данной а осуществляется командой F/JVD(CC,P) по указателю/?.

Определение 4. Определим правило из R, содержащее команду FIND, следующим образом: А— а, j3 FIND(a,B), где AeN, ає(//и2) , /3 - выходная цепочка, соответствующая входной цепочке а или результат работы команды FIND. Команда FIND осуществляет поиск цепочки В по заданной цепочке а в соответствующих таблицах свойств.

Для определения правил перевода необходимы следующие таблицы свойств: 1) таблица свойств семантических отношений; 2) таблица свойств словарей базы фактов; 3) таблица свойств термов.

Таблица свойств семантических отношений имеет вид, представленный таблицей 3.4. Здесь поле входной цепочки а содержит семантическое отношение из множества /?s Выходная цепочка В имеет свойство, с помощью которого определяется вид предиката (пропозициональный символ) и первый его аргумент.

Рассмотрим пример работы правила, содержащего FIND. Пусть имеется правило: І?5-У имеет характеристику", р FIND("nMeeT характеристику",р). Здесь входная цепочка а- имеет характеристику". Эта цепочка имеет свойство в таблице 3.4, с помощью которого определяется вид предиката и первый его аргумент. В

данном случае f3=«PPar("Char",». Команда FIND позволяет найти в таблице свойств значение цепочки /3. Таким образом, переводом цепочки "имеет характеристику" является цепочка «PPar("Char",».

Здесь надо обратить внимание на цепочку В= Name. Семантическое отношение "принадлежит" будем определять по-разному. Если это отношение встречается в посылке и обозначает принадлежность базе фактов, то оно определяется посредством таблицы свойств (таблица 3,5). Если это отношение обозначает, например, принадлежность окружности и т.п., то оно определяется посредством функциональных предикатов. Если же семантические отношения "принадлежит", "соответствует" и т.д. встречаются в заключении, то это просто утверждения. Знания словарей базы фактов представляются двуместным предикатом принадлежности P(Name, int), ще Name - название словаря, irtt(xi, х2, xj, х4, х5, х6) - вектор, определяющий структуру и содержание словаря (раздел 2.2.4).

Апробация корректности построенных предикатов первого порядка

Проверка корректности полученных предикатов была проведена в визуальной среде программирования Visual Prolog 5.2. Для этого были подготовлены документы (далее исходные данные), содержащие фрагменты научных текстов (Приложение G). Первый документ содержит фрагмент научной статьи «Основные аспекты построения онтологии верхнего уровня и предметной области», второй - фрагмент лекции «Статистическая обработка экспериментальных данных» и последний - раздел документа «Годовой отчет о НИР». Выбор указанных фрагментов обуславливался целью эксперимента, которая заключается в проверке корректности предикатов, построенных с помощью программного обеспечения "InTransSit".

Для выполнения эксперимента были приняты следующие условия и ограничения: возможна проверка предикатов, описывающих методы препроцессорной обработки естественно-языковых научных текстов; язык представления документов - русский; обрабатываемые документы должны быть представлены только текстовой составляющей документа; обрабатываемые фрагменты должны содержать сложные предложения и местоимения; лингвистическое обеспечение может быть представлено фактами и предикатами препроцессорной обработки научного текста.

Суть препроцессорной обработки текста заключается в разбиении сложных предложений на простые и в замене местоимений соответствующими существительными. Под разбиением сложных предложений на простые понимается замена знаков препинания (запятой, точки с запятой, двоеточия) или союза «и» точкой в соответствии с предложенными правилами разбиения сложных предложений. Замена местоимений осуществляется согласно следующему алгоритму: сначала ищется местоимение, далее в случае удачи в предшествующем предложении производится поиск существительного, на которое ссылается данное местоимение. При этом просматриваются все правила замены данного местоимения, когда найдено правило для данного местоимения и очередного существительного, это правило срабатывает, и в результате производится замена местоимения данным существительным.

Для программного обеспечения вычислительного эксперимента в среде Visual Prolog 5.2 создана программа, которая включает в себя постановку задачи в виде множества формул (раздел CLAUSES) и описание цели (GOAL). В постановке задачи описана предметная область задачи препроцессорной обработки текста посредством задания необходимых фактов и правил решения этой задачи. Цель содержит предикат view, который просматривает лексемы текста и предикат run, который проверяет, удовлетворяют ли лексемы текста заданным правилам разбиения и замены. При заданных фактах и правилах Пролог использует дедуктивные умозаключения для решения задачи [1,81].

На вход программы подается текст, прошедший лексический и морфологический анализ и представленный последовательностью предикатов (термов) вида texl(L), где L - лексема. Термы text(L) и индекс терма Ref записываются в файл "ddl.bin". Найденная морфологическая информация лексем текста хранится в файлах "dd2.bin", "dd3.bin", dd4bin" и "dd5bin". Файл "dd2.bin" содержит терм pPar_("Char", Ref, Ps), где Ps - часть речи лексемы, файл "dd3.bin" -терм pPar_(" Char", Ref, Numb), где Numb - число лексемы, "dd4bin" содержит терм pPar_("Char", Ref, Gen), где Gen - род лексемы и "dd5bin" содержит терм pPar_("Char", Ref, Case), где Case - падеж лексемы. Полная информация о лексеме доступна ее индексу Ref.

Список лексем, составляющих исходный текст и подаваемых на вход программы можно просмотреть (рис. 4.7), используя вызов предиката view. При этом текст открывается в новом окне.

Рисунок 4.7 - Результат работы предиката view Запуск программы на выполнение осуществляется вызовом предиката run, который открывает все исходные файлы с информацией о лексемах, берет индекс очередной лексемы и передает его в качестве входного параметра предикату text_lexem(Ref, Li), здесь Ref -индекс лексемы, Lj- лексема. Данный предикат предназначен для разбиения сложных предложений на простые и замены местоимений.

При разбиении предложений в последовательности лексем исходного текста ищутся лексемы : , ; , , и союз и . Если поиск успешен, например, встречается лексема ";", то это означает, что возникает ситуация вида text_lexem(Ref, ";") В этом случае срабатывают соответствующие полученной ситуации предикаты, а именно, которые описывают правило разбиения предложения, содержащее ; . В результате этого происходит замена лексемы, разделяющей простые предложения, точкой. Замена лексем без изменения ее морфологической информации обеспечивается вызовом предиката pFun("Act",f_upd(Ref lex)), где lex показывает, что будет заменяться лексема.

Поиск и замена местоимений осуществляется аналогичным образом в тексте, в котором уже проведено разбиение сложных предложений на простые. Например, замена относительного местоимения «которая» будет выполнена в случае возникновения ситуации text_lexem(Ref, "которая"). При этом поиск существительного, на которое отсылается заменяемое местоимение, производится в предшествующем предложении. При замене местоимения возникает необходимость в изменении морфологической информации заменяющего его существительного, которое должно быть поставлено в нужный падеж. В этом случае используется предикатpFun("Act",f_upd(Ref, lexem)).

В результате обработки исходного текста предикатами, описывающими методы препроцессорной обработки текста, выходными данными являются тексты, в которых произведены необходимое разбиение сложных предложений и замена местоимений. Результат работы предикатов при вызове предиката run выводится на экран (рис. 4.8) и сохраняется в виде последовательности лексем в том же файле ddl.bin.

Похожие диссертации на Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов