Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Михайлов Дмитрий Владимирович

Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности
<
Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Михайлов Дмитрий Владимирович. Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности : Дис. ... канд. физ.-мат. наук : 05.13.18 : Великий Новгород, 2003 164 c. РГБ ОД, 61:04-1/1-X

Содержание к диссертации

Введение

1 . Моделирование процесса распознавания сверхфразовых единств в тексте при сопоставлении со смысловым эталоном. постановка задачи 8

1.1 .Постановка задачи на функциональном уровне 9

1.2.Критерии адекватности формальной модели 15

1.3 . Анализ существующих подходов к распознаванию сверхфразовых единств применительно к выбранному методу моделирования 19

1.4.Концептуальная модель и общая формальная постановка задачи 25

1.5. Выводы по главе 29

2. Математическое моделирование процесса приведения глубинных синтаксических структур к целевому виду 31

2.1. Моделирование правила А-грамматики элементарной сетью Петри 31

2.2. Моделирование системы правил А-грамматики ограниченными сетями Петри 38

2.3. Исследование вопросов алгоритмической разрешимости и сложности построения целенаправленного вывода в А-грамматике 50

2.4. Исчисление сценариев для задачи приведения образов двух фраз к целевому виду 58

2.5. Выводы по главе 73

3. Моделирование построения образа суммарного смысла 76

3.1. Функциональная структура информационного наполнения узла дерева глубинного синтаксиса 76

3.2. Математическая модель входа/выхода правила Д-грамматики 84

3.3. Алгоритм построения образа суммарного смысла 106

3.4. Выводы по главе 118

4. Взаимодействие процессов построения образов сверхфразовых единств в анализируемом тексте и установления его эквивалентности смысловому эталону 120

4.1. Активизация информационных элементов и относительность синонимических замен 120

4.2. Применение результатов целевого вывода в Д-грамматике при установлении эквивалентности высказывания смысловому эталону 125

4.3. Подсистема распознавания сверхфразовых единств в структуре программного комплекса установления семантической эквивалентности высказываний 133

4.4. Пример построения образа суммарного смысла для четырех простых распространенных предложений русского языка 137

4.5. Выводы по главе 146

Заключение 148

Библиографический список 152

Введение к работе

Создание и развитие ЭВМ с расширением сфер их применения привело к потребности приближения языка общения конечного пользователя с ЭВМ к языку решаемой задачи. Появление в 60-е годы специализированных языков программирования высокого уровня для решения задач искусственного интеллекта, с одной стороны, и развитие в 90-е годы средств автоматизации программирования, с другой стороны, неизбежно ведут к потребности общения пользователя с ЭВМ на предметно-ориентированном языке, максимально приближенном к Естественному Языку (ЕЯ). Разработка таких языков требует моделирования различных аспектов языкового поведения человека в зависимости от задачи, для решения которой разрабатывается тот или иной язык.

Интерес к разработке систем общения с ЭВМ на ЕЯ проявляется как со стороны научных дисциплин, так и со стороны технических, связанных с разработкой и программной реализацией широкого класса интеллектуальных систем. Алгоритмически разрешимые процедуры распознавания смысловых образов высказываний ЕЯ, а также способы представления этих образбвТдопускающиеІсор1" ректно описываемые процедуры их переработки, позволят программно реализо-вывать интеллектуальные системы распознавания и синтеза речи, текста и изображений. Разработка таких систем относится к позиции "информационные технологии и электроника" перечня критических технологий федерального уровня от 21 июля 1996 г и образует самостоятельное направление, получившее название "Обработка естественного языка" [51].

Несмотря на значительный интерес к рассматриваемому направлению, прежде всего различным видам семантического анализа ЕЯ-текстов, на сегодняшний день отсутствует единый теоретический подход к решению практических задач компьютерного моделирования ЕЯ, учитывающий многоуровневость и взаимосвязь всех сторон этого явления. Прежде всего, такое положение обу- словлено отсутствием четкого понимания функциональной роли различных сторон языкового поведения при моделировании процессов обработки языковой информации и традиционной ориентацией моделей языка на формальные средства описания и представления знаний. Как следствие этого, большинство из известных на сегодняшний день компьютерных моделей ЕЯ являются редуцированными и недостаточно адекватны моделируемому ЕЯ, будучи разработанными из чисто практических соображений, без привлечения филологических знаний о данном ЕЯ, что в значительной степени сужает потенциальные возможности построенных на базе этих моделей информационных систем. Ориентация на последние достижения в области экспериментальных исследований языка, прежде всего семантики в ее взаимосвязи с лексикой, синтаксисом и морфологией, моделирование языковых функций, адекватных рассматриваемым ситуациям, дает возможность разрабатывать системы обработки ЕЯ, пригодные для практического применения в решении задач реальной степени сложности.

Сферой рассмотрения автора настоящего исследования являются задачи, требующие установления полной или частичной эквивалентности по смыслу (семантической эквивалентности) высказываний (текстов) ЕЯ [71,72]. К числу таких задач можно отнести применение заданий открытой формы в системах компьютерного дистанционного обучения и контроля знаний [1,49,67], поиск изображений и распознавание семантики сложных информацонных объектов по вербальному описанию [60,72,74,75].

Настоящая диссертационная работа посвящается решению проблемы полноты смыслового описания при установлении семантической эквивалентности текстов на ЕЯ [72] в рамках подхода " Смысл <=>Текст " [2,36].

Областью непосредственного применения теоретических результатов настоящей работы являются интеллектуальные системы, решающие перечисленные выше задачи обработки информации на ЕЯ в плане сопоставления с некоторым заданным смысловым эталоном-образцом.

Резюмируя анализ задачи установления семантической эквивалентности текстов на естественном языке в соотнесении с проблемой компьютерного моделирования ЕЯ, главную цель работы можно сформулировать следующим образом : разработка и исследование формальной математической модели процес са распознавания и построения формальных семантических образов сверхфразовых единств в высказываниях на ЕЯ для увеличения полноты смыслового описания при установлении семантической эквивалентности текстов.* Отсутствие на сегодняшний день единого подхода к описанию естествен- ных языков, учитывающих всю сложность и многообразие этого явления, недостаточный учет языкового поведения человека в различных видах деятельности разработчиками лингвистических компьютерных систем позволяют констатировать актуальность темы работы.

Для постановки общей задачи распознавания смысловой взаимной дополняемости фраз ЕЯ и определения частных задач исследования необходимо формально определить само понятие эквивалентности семантических образов текстов в рамках рассматриваемого подхода к теоретическому описанию языка, формализовть понятие применимости правила синонимического преобразования и учесть общие соображения по технике суммирования формальных образов смысла, предлагаемые самими авторами теоретического подхода к языку как преобразователю "Смысл<=>Текст". Кроме того, необходимо строго определить ряд понятий, связанных с применением подобной техники суммирования к формальным образам смысла, которыми оперирует модель семантической эквивалентности текстов в рамках указанного теоретического описания языка. Решению этих вопросов посвящено начало первой главы предлагаемого исследования. Далее показано, что ни один из известных на сегодняшний день подходов к распознаванию сверхфразовых единств в текстах ЕЯ не отражает специфики решаемой в диссертации задачи увеличения полноты смыслового описания срав- ниваемых текстов. Предложен новый подход к распознаванию сверхфразовых единств на базе системы синонимических преобразований Глубинных Синтаксических Структур (ГСС) [2,14,36].

Вторая глава данной работы посвящена исследованию процесса приведения смысловых представлений фраз к виду, допускающему нахождения образа суммарного смысла. С этой целью строится логическая модель системы правил А-фамматики как модель информационного пространства на базе офаниченных сетей Петри. При изучении свойств модели большое внимание уделяется исследованию динамики функционирования системы. Описывается исчисление сценариев на заданном информационном пространстве, позволяющее формально описать целевое состояние системы правил А-фамматики и построить алгоритм поиска пути к целевому состоянию на основе заданного начального с качественной оценкой найденных алгоритмом решений.

В третьей главе исследуется функционально-логическая модель элемента построенного во второй главе информационного пространства, отображающая различные ситуации использования одного и того же информационного элемента при единообразии его функционального описания. На основе предложенного функционального описания информационного наполнения дерева глубинного синтаксиса строятся алгоритмы установления функционального соответствия и построения суммарного образа двух глубинных синтаксических структур.

Четвертая глава диссертационной работы посвящается исследованию вопросов взаимодействия процессов установления семантической эквивалентности ЕЯ-текстов и распознавания сверхфразовых единств в сравниваемых текстах предлагаемым в работе методом. В завершении главы приводится пример построения образа суммарного смысла для четырех простых распространенных предложений русского языка.

В заключении работы сформулированы основные научные и практические результаты, обсуждаются перспективные направления дальнейших научных исследований.

Анализ существующих подходов к распознаванию сверхфразовых единств применительно к выбранному методу моделирования

Для анализа лингвистической корректности предлагаемого в диссертации подхода к распознаванию смысловой взаимной дополняемости глубинных синтаксических структур как формальных семантических образов фраз рассмотрим известные на сегодняшний день подходы к распознаванию сверхфразовых единств в текстах.

Следует отметить, что критерии адекватности того или иного подхода к распознаванию сверхфразовых единств в рамках рассматриваемого явления семантической эквивалентности высказываний следует формулировать следующим образом. - Используемый подход должен позволять выявлять большинство сверх фразовых связей в текстах рассматриваемого жанра; - Переносимость используемого подхода на тексты других жанров; - Соизмеримость сложности модели семантической эквивалентности и используемого механизма распознавания сверхфразовых единств.

Изучением сверхфразовых единств в ЕЯ — текстах занимается лингвистика, но она не сформировала единого понятия сверхфразового единства. В общем случае в распознавании сверхфразовых единств в текстах выделяются синтаксический, семантический, прежде всего лексико-семантический, семиотический и стилистический подходы.

Синтаксическое направление в изучении единиц сверхфразового уровня выделилось уже в конце 1940-х годов в работах А.И.Белича [6], Н.С.Поспелова [53,54], И.А.Фигуровского [64], В.А. Никольского [41]. В работах по синтаксису русского языка предложение обычно рассматривается как изолированная единица, исследуются только те синтаксические явления, которые наблюдаются в пределах одного предложения (простого или сложного). Но как было показано в те же 1940-е годы [41,64], при ограничении задач синтаксиса рассмотрением дискретных предложений остаются нераскрытыми ряд языковедческих проблем : определение порядка слов, смысловая неполнота предложений, обособление слов, логическое ударение в предложении и даже кардинальный вопрос о границах предложения. Было выдвинуто понятие сверхфразового единства, или сложного синтаксического целого, как особой синтаксической единицы, представляющей собой группу предложений, которые выражают "отдельное авторское высказывание, непосредственно адресованное слушателю или читателю [53]" и имеют "замкнутую синтаксическую структуру [54]". С этим понятием в те же годы сосуществует понятие дискурса как целого высказывания любой протяженности.

К этому же времени относится начало исследований грамматических средств выражения смысловых отношений между самостоятельными предложениями. Так, И.Л. Фигуровский [64] выделяет связь дискретных предложений посредством союза или местоименного наречия в начале следующего предложения для выражения определенной смысловой связи с предшествующим, смысловую связь смежных предложений с помощью вопросительных слов, связь посредством повторяющихся сцепленных слов — одной из разновидностей лексических повторов [57], логико-синтаксические связи. В числе смысловых отношений выделено дополнительное и определительное отношения, раскрытие подлежащего, раскрытие сказуемого, отношение причины, отношение следствия, отношение времени, отношение цели, сравнительное отношение, отношение места, отношение образа действия, противительное отношение, отношение взаимно исключающихся действий. Кроме этого, были выделены отношение общего к частному, выделительное отношение, возобновление действия или состояния, аргументация с допущением противоречащего факта.

Как результат исследований синтаксиса сверхфразовых связей в тексте, установлено, что смысловые связи могут осуществляться [64] : 1) Между соседними простыми предложениями, 2) Между простым предложением и частью сложного предложения, 3) Между частями сложных предложений, 4) Между одним предложением и несколькими предыдущими или последующими, 5) Между группами предложений,. В особую группу выделены логико-синтаксические отношения между предложениями [7,19,38,61,63,64].

Проблема смысловой неполноты предложений в лингвистике решается введением в рассмотрение всего текста как контекста дискретного предложения [7,10,39,41,43,45,50,57,58,62]. Однако единодушия к выработке точных методов определения контекста, допускающих представляющее практический интерес формальное описание, до недавнего времени выработано не было. Одна из выявленных литературоведами причин - зависимость способа объединения мыслей, выражаемых дискретными предложениями, в единый образ, от жанра текста [8,18,31,40,41,56].

Для изучения связи предложения и контекста при рассмотрении высказывания как единого структурно-семантического целого ряд исследователей [8,9,58,64,68] обращается к понятийному уровню, отображающему связь языка и мышления [66]. При этом исследуется связь мыслей, объединенных общей темой, и, как следствие, предложений, выражающих эти мысли.

Исследование вопросов алгоритмической разрешимости и сложности построения целенаправленного вывода в А-грамматике

Проведем предварительный анализ языка рассматриваемой сети Петри для отнесения к одному из классов, представленных в [32].

В рассматриваемой системе правил А-грамматики все события, в содержательной интерпретации - срабатывания правил лх,кг,...,лк_х,кк : У/є1,...Д єЯ \Л представлены переходами г/є 7 сети Nit следовательно, функционирование системы описывается в терминах последовательностей срабатываний переходов /J,/,2,..., "1,/ , каждая из которых есть слово т в языке L(N,).

Рассмотрим системные события, соответствующие переходам рассматриваемой сети, с точки зрения их тождественности, позволяющей рассматривать одни переходы как "одинаковые", а другие - как "разные" [32]. Можно показать, что в сети Петри N,, построенной из используемых в качестве примитивов моделей правил А-грамматики, образующих в этой грамматике систему, все переходы будут различны. Сформулируем данное утверждение в виде леммы и теоремы.

Лемма 1. Пусть Г% - расширенная лексико-синтаксическая А-грамматика [72], Я - множество расширенных элементарных преобразований в грамматике Г : Я с Пк - множество универсальных специальных преобразований, а П"\Пу - множество произвольных элементарных преобразований. Все правила л є (я \Пу)в грамматике Г различны.

Доказательство. Согласно доказанной в [14] теореме о моделировании произвольного элементарного преобразования специальными, произвольное элементарное преобразование л є\Пк\П ) в А-грамматике Г" моделируется конечной последовательностью правил я\л2,...,лт, где для \/k = l,...,m лк є Я . Эта же теорема означает, что правила лк є П выполняются группами, внутри которых существует жесткий порядок, и каждая группа соответствует одному правилу л-є(ял\Яу) А-грамматики Г . Таким образом, существует взаимнооднозначное соответствие между элементами множества произвольных элементарных преобразований П \Пц и конечными последовательностями правил я єЯу. Утверждение о наличии двух одинаковых последовательностей правил лк є Яу, моделирующих два произвольных элементарных преобразования лхе\ПК\П ) и л2\ПК\П )улх л2, противоречит условию указанной теоремы. Кроме того, наличие двух правил лх e[nR\n") и я2є\Пк\П ), моделируемых одной и той же последовательностью универсальных специальных преобразований яА,яг,...,лт, означало бы отсутствие ограничений на число произвольных элементарных преобразований, эквивалентных заданному к є(яй \Я ), что противоречит условию конечности множества элементарных преобразований. Таким образом, среди правил множества П \П нельзя выделить пары одинаковых, что и требовалось доказать.

Теорема 2. Пусть Ni - сеть Петри, построенная из примитивов, каждый из которых моделирует работу правила из некоторого /-го подмножества правил заданной А-грамматики, образующих систему. Тогда в сети N, все символы-переходы // є 7 различны.

Доказательство Каждый символ-переход tj соответствует некоторому произвольному элементарному преобразованию л-є(яй\Я ) Д-грамматики Г", выполняемому в одну сторону; двустороннему преобразованию соответствуют два различных символа-перехода // и tf, tj tf. Как следует из доказанной леммы, среди преобразований л = \ПК \Я ) нет пары одинаковых, следовательно, нет одинаковых и среди символов-переходов // є Tt, что и требовалось доказать.

Из доказанной теоремы следует, что в рассматриваемой сети нет "одинаковых" переходов. Следовательно, если рассматривать обозначения правил л-е(яй\Яу) А-грамматики Г" как символы алфавита Л, то помечающая функция Z: Tt - А [32] сопоставляет каждому переходу // є Tt свой символ, соответствующий принятому обозначению некоторого правила в заданной А-грамматике. Более того, в сети Nt отсутствуют .-переходы, которым не соответствует ни одного символа из А. .-переходы в рассматриваемой сети могут появиться только в том случае, если рассматривается моделирование произвольного элементарного преобразования л є [Пк \ П ) последовательностью универсальных специальных преобразований лх,лг,...,ят, где для Vk = l,...,m кк є Я , например, с целью оценки сложности выполняемых преобразований. Универсальным специальным преобразованиям из множества Я не соответствуют никакие символы из А, описываемые ими переходы будут вспомогательными и не связанными непосредственно с событиями системы в рассматриваемой сети. Сформулируем указанное свойство сети Nt в виде утверждения.

Утверждение. Пусть N, - сеть Петри, построенная из примитивов, каждый из которых моделирует работу правила из некоторого /-го подмножества правил nR\I7 заданной А-грамматики, образующих систему. Помечающая функция Z: Tt - А сети Nt будет частичной только в случае замещения как минимум одного из переходов // є Тп соответствующего правилу яj є (я \Яу) и имеющего пометку-символ из алфавита А, последовательностью непомеченных ( -переходов) г/1,//2,...,//", каждый из которых соответствует универсальному элементарному преобразованию из последовательности л\л2,...,лт : \/к = 1,...,т як є Я , моделирующей правило п} є (яя \Я ).

Функциональная структура информационного наполнения узла дерева глубинного синтаксиса

В настоящем разделе описывается функциональная структура информационного наполнения дерева ГСС, с которым оперирует представленная в разделе 3.2 логическая модель входа/выхода правила А-грамматики как объект описанного в предыдущей главе информационного пространства.

Согласно данному в [72] определению, моделирующая синонимические преобразования глубинных синтаксических структур фраз ЕЯ расширенная универсальная правильная лексико-синтаксическая А-грамматика есть упорядоченная пятерка: V- множество пометок на ветвях дерева : V={aj, ai, ..., aj; W - множество пометок на узлах; гах,аг, ,а матрица, задающая ограничения на характер ветвления и на размещение пометок на ветвях из V, где {nx,n2,—,nk}cN - подмножество натуральных чисел; ГҐ - множество расширенных элементарных преобразований, описывающих синтаксические замены (соответствует компоненту Г$ концептуальной модели); Z-множество вспомогательных правил описывающих лексические замены (соответствует компоненту Ls концептуальной модели). Следует отметить, что описанная в предыдущей главе модель оперирует входами/выходами правил множества 77 , подразумевая в первую очередь не синтаксические, а лексические замены. Поэтому, говоря о выполняемых грамматикой Г преобразованиях, в данной работе мы подразумеваем следующее соотношение лексических и синтаксических правил : исходными и независимыми являются лексические правила, а синтаксические как бы обслуживают их. Именно такой подход к применению правил использован в авторском описании теории языка как преобразователя "Смысл = Текст" И.А. Мельчука [36]. Построенная в предыдущей главе диссертации модель имеет дело с последовательно выполняемыми преобразованиями из множества L-, опуская из рассмотрения синтаксические преобразования из ITR, упоминания которых не требуется для описания логики последовательно выполняемых лексических замен. Для А-грамматики, моделирующей работу системы перифразирования некоторого ЕЯ, для каждой системы правил будут свои определяемые соотношениями (2.4.5) и (2.4.6) массивы. Как следует из соотношения (2.2.2), множество преобразований L А-грамматики описывается посредством n_sys массивов Z& (2.4.5) и таким же количеством массивов Z (2.4.6). Если дерево глубинного синтаксиса фразы % представить как : Т? у ={w?ir,V? v), где (3-1.2) W" y czW - множество узлов W/V - дерева Т" г; V v с V - множество ветвей W/V - дерева Т у, то вход/выход правила тг, на которое ссылается некоторый принадлежащий одному из массивов Л/} (2.4.6) элемент р{ е Р,\ i = l,...,n_sys, j = \,...,\P,\ представленного в предыдущей главе информационного пространства, может быть описан структурой следующего вида : Т =(wrv,vr\Ax), где (3-1.3) W" y - множество требований к содержимому узлов входного W/V - дерева V IV - множество требований к разметке ветвей входного W/V - дерева т" у; Ак - матрица смежности [33]: [О в противном случае При задании начальной разметки М сети N, происходит определение применимости каждого из представленных структурой (3.1.3) правил синонимических преобразований к каждому из пары входных деревьев, представленных структурой вида (3.1.2). Как было доказано в [72], задача применения правила л к некоторому W/V дереву представляет собой частный случай задачи "Изоморфизм подграфу", более точно - поиск поддерева в W/V-дереве. Исходя из этих соображений, структура (3.1.3) должна быть деревом, аналогичным (3.1.2). В настоящей работе, говоря об изоморфизме поддереву, мы будем подразумевать изоморфизм с точностью до функционального соответствия. Само функциональное соответствие автором определяется следующим образом. Определение 3.1.1. Два W/V дерева t\ и /, считаются изоморфными с точностью до функционального соответствия, если между множествами узлов этих деревьев существует взаимно-однозначное соответствие так, что в дереве /j из узла А в узел В идет ветвь с некоторой пометкой тогда и только тогда, когда в дереве tx из узла А в узел В идет ветвь с той же пометкой и узел А удовлетворяет требованиям, содержащимся в узле А, а узел В удовлетворяет требованиям, содержащимся в узле В. При этом считается, что узел А , дерева t\ функционально соответствует узлу А дерева ,, узел В дерева t\ функционально соответствует узлу В дерева г,. Следствие. Эквивалентность узлов А и В является частным случаем функционального соответствия. В содержательном плане требования к разметке ветвей должно пониматься как указание, какой из шести [14] существующих в реальных ЕЯ типов глубинных синтаксических связей должны соединяться узлы входного дерева Т" г (3.1.3) правилам. В целях формализации представления требований к содержимому узлов входных деревьев правил перифразирования рассмотрим характер информации, представляемой в глубинной синтаксической структуре. Согласно описанию И.А.Мельчука [36], в информации, характеризующей некоторый узел ГСС, следует выделить :

Подсистема распознавания сверхфразовых единств в структуре программного комплекса установления семантической эквивалентности высказываний

Рассмотрим структуру программного комплекса, использующего предложенный в диссертации подход к распознаванию распределенного по фразам единого смысла в сопоставляемом с эталоном высказывании.

Учитывая рассмотренный в разделе 4.2 процесс формирования ЛФ-синонимических множеств для ГСС сопоставляемого с эталоном высказывания, в структуре программного комплекса установления семантической эквивалентности высказываний следует выделить следующие компоненты, относящиеся к подсистеме распознавания сверхфразовых единств в сопоставляемом с эталоном высказывании (рис. 4.1) : база ГСС, база правил, модуль построения, суммарного смысла, модуль перифразирования. Из показанных компонент база ГСС, база правил и модуль перифразирования являются общими для подсистемы установления семантической эквивалентности и распознавания сверхфразовых единств.

Функциональная спецификация и диаграмма классов экспериментального программного комплекса, реализованного в соответствии с предложенной в настоящем разделе структурой, приводится в приложении.

Рассмотрим более подробно структуру и функциональное назначение каждого компонента.

В базу ГСС заносятся исходные деревья глубинного синтаксиса, составляющие смысловое описание анализируемого высказывания. Хранение деревьев в базе ГСС организовано группами : каждая группа есть список (массив) ЛФ-синонимичных глубинной синтаксической структуре Ф] W/V-деревьев, составляющих множество {Ф}) (4.2.7). Формат представления деревьев ориентирован на полученное в разделе 3.1 функциональное описание информационного наполнения узла дерева глубинного синтаксиса.

В базе правил хранятся описания входных и выходных деревьев правил в соответствии с предложенной в разделе 3.1 структурой, описание условий применимости в виде требований к компонентам входных деревьев, а также списков смежности, соответствующих матрицам инцидентности F и Н сетевого описания правил.

Ввод правил производится в любом текстовом редакторе (в реализованном экспериментальном программном комплексе для этой цели имеется встроенный текстовый редактор). Правила вводятся в списочном представлении в соответствии с (3.1.5), (3.1.6) и (3.1.7). Для перевода текстового представления вводимых правил в используемый программой списочный формат в структуру компонента, отвечающего за ввод правил, введен распознаватель-интерпретатор предложенного в разделе 3.1 формального языка описания глубинных синтаксических структур, реализующий лексический и синтаксический анализ введенной текстовой информации. При этом описания деревьев, не являющиеся допустимыми, отвергаются, а программой выдается сообщение об ошибке. В соответствии с выделенными в разделе 4.2 требованиями к используемым процедурой Qy концептуальной модели (1.4.2) правилам синонимических замен, вводимый массив описаний входов/выходов правил сортируется таким образом, что в начале массива оказываются расположенными описания входов/выходов правил П лск. Сортировка производится вручную при вводе новых правил, поскольку с точки зрения машинного представления описания правил выглядит единообразным. В функции модуля построения суммарного смысла входит : — Определение применимости правил из содержащихся в базе правил к каждому W/V-дереву, заносимому в базу ГСС с формированием списка вида (4.1.2) и занесением в узлы дерева информации в соответствии с (4.1.3); — Распознавание взаимной дополняемости деревьев из базы ГСС с построением последовательности их преобразований в соответствии с Алгоритмами 2.1 и 2.2; — Построение дерева, соответствующего суммарному смыслу взаимно дополняющих друг друга деревьев глубинного синтаксиса с корректировкой соответствующей информации в базе ГСС. Модуль перифразирования для анализируемых на взаимную дополняемость деревьев Ф) и Ф\ в соответствии с формируемыми модулем построения суммарного смысла последовательностями ссылок на выбираемые преобразования из Базы правил последовательно строит синонимичные дереву Ф) и дереву Ф) W/V-деревья с формированием множеств {Ф})-ЛСК и {Ф})-ЛСК (4.2.7). Следует отметить, что указанные множества в Базу ГСС не заносятся, являясь промежуточными результатами. В случае ложной взаимной дополняемости Ф) и Ф) множества {Ф}]-ЛСК и {Ф}1-ЛСК переносятся в Базу ГСС, где объединяются с {Ф}] и {ф}] в соответствии с приведенным в разделе 4.2 алгоритмом. Поскольку, как показано в разделе 4.2, при применении правила л[Пк \П") грамматики Г" композиционные метки (4.1.3) выделенных другими правилами узлов сохраняются, то модуль построения суммарного смысла в случае ложной взаимной дополняемости "приведенных" Ф) и Ф) может распознавать взаимную дополняемость Ф) или Ф] с другими ГСС смыслового описания анализируемого высказывания, взяв последнее из занесенных в множество {Ф}\ или {Ф}\ дерево, как и сделано в реализованном экспериментальном программном комплексе. В случае успешного нахождения суммарного смысла с построением дерева Ф5Ш, соответствующего суммарному смыслу Ф) и Ф), множества {Ф})-ЛСК и {Ф})-ЛСК уничтожаются, множества {Ф}\ и {Ф}) удаляются из Базы ГСС, а вместо удаленных множеств в Базе ГСС создается пустое множество синонимичных Ф5Ш W/V-деревьев, в которое сразу же заносится дерево Фзш.

Похожие диссертации на Моделирование процесса распознавания сверхфразовых единств в текстах при установлении их семантической эквивалентности