Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей Хлопотов Михаил Викторович

Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей
<
Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Хлопотов Михаил Викторович. Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей : Дис. ... канд. техн. наук : 05.13.11 : Уфа, 2004 135 c. РГБ ОД, 61:05-5/909

Содержание к диссертации

Введение

ГЛАВА 1. Основные понятие и обзор моделей онтологии ... 11

1.1. Гипертекстовый информационный ресурс (ГИР) 11

1.1.1. Понятие гипертекста 11

1.1.2. Понятие информационного ресурса 14

1.1.3. Классификация ГИР 16

1.2. Ошибки в ГИР 19

1.2.1. Понятие ошибки 19

1.2.2. Классификация ошибок 20

1.2.3. Обнаружение ошибок 22

1.3. Представление смысла 23

1.4. Обзор моделей онтологии 26

1.4.1. Семантическая сеть, RDF 26

1.5. Формулировка задачи автоматизации обнаружения семантических ошибок в ГИР 29

Выводы 30

ГЛАВА 2. Общая математическая модель семантики ГИР .31

2.1. Представление семантики ГИР на основе стандарта RDF 31

2.1.1. Интерпретация семантической сети 31

2.1.2. Следование семантических сетей 36

2.1.3. Понятие семантической целостности ...38

2.2. Онтология как математическое описание семантики предметной области 38

2.2.1. Классы объектов 39

2.2.2. Свойства и отношения между объектами 42

2.2.3. Ограничения на классах 46

2.3. Расширения модели онтологии 48

2.3.1. Контекстные свойства 48

2.3.2. Семантические правила 54

2.3.3. Операция «расширения» семантической сети 56.

2.4. Возможные парадоксы в семантической сети представления ГИР 61

2.4.1. Понятие парадокса 61

2.4.2. Парадоксы ограничений классов 61

2.4.3. Парадоксы свойств 64

Выводы 66

ГЛАВА 3. Алгоритмы обнаружения семантических ошибок в ГИР на основе онтологии 67

3.1. Основные операции 69

3.1.1. Структуры данных 69

3.1.2. Алгоритмическая поддержка объектов и свойств 75

3.1.3. Базовые алгоритмы 78

3.2. Алгоритм расширения семантический сети 81

3.2.1. Преобразование сети условий 81

3.2.2. Алгоритм выполнения расширительных правил 82

3.2.3. Формирование семантической сети на основе естественных текстов ГИР 87

3.3. Алгоритм проверки семантической целостности сети 89

3.3.1. Выполнение проверочных правил 89

3.3.2. Алгоритм поиска объектов-парадоксов 90

3.3.3. Формирование отчета об обнаруженных парадоксах 91

3.4. Архитектура информационной системы 91

3.4.1. Общая технологическая схема 92

3.4.2. Программные модули системы 94

3.4.3. Интерфейс пользователя 100

Выводы 100

ГЛАВА 4. Разработка онтологии и внедрение информационной системы 103

4.1. Базовая онтология веб-сайтов 103

4.1.1. Иерархия классов 103

4.2. Ограничения - правила 106

4.2.1. Правило: контекстные свойства 106

4.2.2. Правило: даты в диапазоне 110

4.3. Настройка ИС на примере A3 Урал 110

4.4. Взаимодействие с ИС 112

4.4.1. Ввод документов 114

4.4.2. Обнаружение, исследование и устранение парадоксов 114

Выводы 115

Заключение 117

Библиографический список 119

Приложение 130

Введение к работе

Развитие, распространение и доступность глобальной информационной сети Internet сделали Internet-ресурсы - одним из основных источников повседневной, деловой и оперативной информации. Оперативность размещения информации, отсутствие затрат на тиражирование и минимальные затраты на обслуживание объемных публикаций позволяют размещать в рамках Internet-ресурсов большие объемы справочной информации [18].

Полезность информационного ресурса возрастает с ростом объема доступной через него информации. Например, более детальная и разнообразная информация о предприятии и его продукции позволяют повысить сбыт продукции, укрепить положительный образ предприятия в массовом сознании и привлечь инвестиции.

Естественно, что для того, чтобы информационный ресурс был действительно полезным, представленная на нем информация не должна содержать семантических ошибок.

Достоверность информационных ресурсов является важным аспектом для государственных информационных ресурсов, исследование выполняется по тематике пункта №5 плана дополнительных мероприятий федеральной целевой программы «Электронная Россия»: «Разработка концепции и реализация практических мер по обеспечению общедоступности государственных информационных ресурсов с учетом мероприятий по обеспечению их целостности и достоверности»

На сегодняшний день наиболее популярным видом Internet-ресурсов являются гипертекстовые информационные ресурсы (далее - ГИР), представляющие информацию в виде набора гипертекстовых страниц, т.е. страниц текста, снабженных ссылками, позволяющими осуществлять быстрый переход к другим страницам.

Оперативная (on-line) природа ГИР обеспечивает возможность предоставления наиболее актуальной и достоверной информации, ведь если технически передача информации из ресурса к пользователю осуществляется непосредственно в момент запроса, устаревших сведений она содержать не должна.

К сожалению, на практике большинство документов, доступных через ГИР, содержат фактические противоречия даже с документами того же ГИР.

Документ, однажды размещенный в рамках ГИР, хранится в нем и не претерпевает никаких изменений за время своего существования, несмотря на то, что представленная в нем информация могла устареть по сравнению с информацией, приведенной в других документах.

Предприятие развивается, осваивает новые виды продукции, изменяет характеристики старой, меняет собственные реквизиты и т.д., а подготовленные ранее обзоры, спецификации и статьи по-прежнему содержат информацию о предыдущем состоянии дел.

Нередки случаи, когда изменение существенной информации о предприятии, организации или продукции отражено на главной странице ГИР, в разделе новостей или обновлений, но не отражено в других документах. Зачастую это связано с тем, что задача отслеживания актуальности документов чрезвычайно трудоемка - при появлении очередной новости требуется просмотреть все документы ГИР на предмет возможных изменений. Чем крупнее ресурс, тем больше вероятность того, что очередной документ содержит семантическую ошибку - редакторы ресурса просто не знают о необходимости внести исправления в конкретный документ.

Текстовые поисковые системы также не способны справиться с обнаружением устаревших или содержащих ошибки фрагментов документов -одна и та же информация может представляться в разной форме и с различной степенью детальности. Очевидно, что поиск взаимопротиворечащих

7 фрагментов может быть осуществлен только при помощи анализа смысла, содержащегося в ГИР, т.е. при помощи анализа семантики.

На сегодняшний день разработано большое количество моделей представления семантики[32,45,51] и программного обеспечения, осуществляющего извлечение семантики из естественного текста [3, 93], поэтому построение семантического представления документов (семантический анализ) не является задачей данного диссертационного исследования.

Для обнаружения смысловых ошибок ГИР помимо собственно представления семантики необходима информация о предметной области, свойственных ей понятиях и отношениях между ними, а также ограничениях, свойственным этим отношениям. Такую информацию принято называть Онтологией, и онтологическая информация может быть использована для эффективного обнаружения нарушений правил предметной области.

Такие нарушения будем называть парадоксами, и будем рассматривать поиск парадоксов как одну из задач исследования.

Цели и задачи диссертационного исследования

Основной целью диссертационного исследования является разработка методов и алгоритмов обнаружения семантических ошибок в ГИР на основе семантических моделей выявления парадоксов в информационных ресурсах.

Для достижения этой цели необходимо решить следующие задачи:

- разработать модель представления семантики ГИР, способной отражать понятия и структуры, свойственные текстам естественного языка;

разработать алгоритмы обработки семантики ГИР и проверки её соответствия ограничениям, характерным для конкретной предметной области;

разработать формальные методы записи и алгоритмы обработки контекста отношений, с учетом необходимости наложения ограничений на них;

предложить методы и алгоритмы проверки семантической целостности ГИР, и, как следствие, обнаружения семантических ошибок;

разработать базовую онтологию «ГИР организации» для использования при проверке информационных ресурсов;

разработать информационную систему «TergereLibrum», осуществляющую обнаружение семантических ошибок в ГИР.

Научная новизна и практическая ценность диссертационного исследования

- разработан метод обнаружения смысловых ошибок в ГИР , основанный на
исследовании семантической целостности семантической сети,
моделирующей ГИР, относительно онтологии, описывающей структуру и
свойства предметной области ГИР;

- предложены формализм «семантические правила», позволяющие
описывать алгоритмы семантической обработки в терминах семантических
сетей. Эти правила используются для создания особых объектов-парадоксов,
позволяющих описывать нарушения семантической целостности сети;

- разработана модель представления контекстной зависимости свойств
онтологии предметной области, соответствующей N-местным предикатам, а
также новый алгоритм обработки N-местных предикатов в виде набора 2-х
местных предикатов.

9
При выполнении исследования используется математический аппарат
теории множеств, теории графов, теории формальных семантик, логики
двухместных и N-местных предикатов. .

Основными практическими результатами исследования является следующее:

  1. Разработана информационная система «TergereLibrum», предназначенная для обнаружения семантических ошибок в ГИР и управления его содержимым.

  2. Разработана базовая онтология предметной области «ГИР организации».

  3. Разработана методика и алгоритмы обнаружения семантических ошибок в ГИР путем проверки семантической целостности семантической сети.

Практическая ценность результатов исследования

Разработанные в ходе диссертационного исследования модели, методы и алгоритмы используются в программных системах управления информационным ресурсом нескольких промышленных предприятий: ОАО «Автомобильный завод «Урал», ЗАО «Интерсвязь», Челябинский государственный университет.

Положения исследования докладывались на следующих научных и научно-практических конференциях:

Международная научно-практическая конференция «Автоматизированные системы управления промышленным предприятием АСУ-ПП 2003», г. Москва, ИПУ РАН 2003 г;

Международная научно-практическая конференция «Computer Science & Information Technology, CSIT 2003», г. Уфа, УГАТУ, 2003г;

Российская научно-практическая конференция «Реинжиниринг бизнес-процессов на основе современных информационных технологий.

10 Системы управления знаниями РБП-СУЗ 2004», г. Москва, МЭСИ и РАИИ, 2004;

- Международная научно-практическая конференция «Computer Science & Information Technology, CSIT 2004», г. Будапешт, Венгрия, 2004г

Основные положения исследования нашли отражение в 8 публикациях, в том числе в сборниках научных трудов и материалах научно-практических конференций.

Формулировка задачи автоматизации обнаружения семантических ошибок в ГИР

Международная стандартизирующая организация World Wide Web Consortium [108] в рамках проекта Semantic Web разработала стандарт RDF[99], представляющий собой формат хранения семантической сети, множество рекомендаций по применению стандарта, а также математические модели в терминах теории множеств.

Изначально язык предназначался для описания взаимосвязей между ресурсами Internet, представления метаданных, каталожной и библиографической информации. В дальнейшем он стал применяться для хранения более глубоких семантических отношений, и рабочая группа SemanticWeb опирается на RDF как на средство представления общей семантики на Web[65].

Как и в классической семантической модели, RDF представляет данные в виде ориентированного отмеченного графа, где элементом данных является дуга вместе со связанными ею вершинами, т.е. тройки вида («Объект», «Свойство», «Значение»). По сравнению с абстрактной моделью, RDF определяет следующие технические моменты: - формат хранения - семантическая сеть записывается в текстовом файле в формате RDF[106], основанном на языке XML - представление понятий и значений - RDF вводит разделение понятий и значений. Понятия называются ресурсами и именуются при помощи URL, а значения - литералами, и именуются собственными строковыми представлениями. При этом понятия могут находиться с любой стороны дуги, а значения не могут иметь исходящих дуг. - множества узлов и дуг - в RDF множества узлов и дуг объединены в единое множество ресурсов. Один и тот же ресурс может в одном утверждении участвовать как узел, а в другом - как дуга. - операции над сетью и элементами данных - RDF определяет базовые операции объединения и пересечения сетей, добавления и удаления утверждений и т.д. - смысловое наполнение некоторых узлов (класс, утверждение, список) Внеся четкость в эти вопросы, RDF сделал семантические сети доступными к применению. Формализация многих аспектов привела к появлению некоторых ограничений, которые выявились в ходе разработки систем. Кроме модели представления собственно семантики, для обнаружения семантических ошибок требуется еще и модель представления ограничений семантики предметной области. Таким образом, для обнаружения семантических ошибок необходимо: - производить семантический анализ поступающих в ГИР документов - хранить семантические образы всех находящихся в ГИР документов - хранить семантическое представление знаний о предметной области - описать формальные правила проверки семантики документов и ресурса - осуществлять проверку соответствия хранимых семантических образов правилам. Отсюда можно сделать вывод о необходимости построения информационной системы, для которой должна быть выбрана модель представления семантики и способы записи семантических правил. В целях развития технических средств обнаружения семантических ошибок в ГИР необходимо выбрать модель представления знаний, в которой, во-первых, можно было бы записать независимый от языка смысл, содержащийся в естественном тексте, а, во-вторых, для которой можно разработать механизм определения и проверки правил семантической целостности. Технические системы, работающие с семантикой естественного текста, существуют уже давно. К ним относятся, например, системы машинного перевода [3], системы автоматического реферирования, некоторые поисковые системы. Все они в своей работе используют для представления семантики так называемые семантические сети. Семантическую сеть можно рассматривать с нескольких позиций. С одной стороны семантическая сеть строится на основе концептуальных графов (являющиеся узлами), которые соединяются по заданным правилам (при этом образуются дуги). В этом случае концептуальный граф представляет собой логическую формулу. Имена и аргументы предикатов представлены в нем соответственно двумя типами узлов. Дуги графа соединяют имена предикатов с их аргументами [43, 70]. С другой стороны семантическая сеть - это ориентированный граф с отмеченными вершинами и ребрами. Вершины соответствуют понятиям, а ребра - отношениям между понятиями. И для понятий, и для связей в семантической сети допускаются не только различные типы представлений, но и описание нескольких видов их использования [17, 53, 54]. Это построение, с одной стороны, делает семантическую сеть универсальной структурой для представления объектов внутри ЭВМ, а с другой - сказывается на сложности реализации внутренней математики системы. Сетевое представление ПрО обладает рядом достоинств и недостатков [45-47]. Среди достоинств можно назвать: направленность на решение проблемы информационного поиска - связи между объектами определяют путь доступа, и относительно объекта собрана вся соответствующая информация, которая позволяет выделять содержания, взаимоотношения, внутреннюю структуру, уровни детализации; графическая нотация семантической сети позволяет относительно естественно, наглядно и понятно отобразить связи между объектами ПрО (как статистические, так и динамические); Среди недостатков сетевого представления выделяют следующие: - нерегулярность структуры и немалое количество дуг, несущих синтаксическую информацию, затрудняет разработку алгоритмов анализа семантической сети; - однородность системы зависимостей, понятийной структуры и средств описания по аналогии приводит к сложности графического представления некоторых математических отношений, конструкция, нотация и интерпретация которых на основе логики предикатов хорошо разработана (например, кванторные выражения, утверждения о количестве);

Онтология как математическое описание семантики предметной области

Не являясь самостоятельным объектом, реификатор полностью определен своим окружением, т.е. участниками контекстного отношения и типом этого отношения. Однако, поскольку реификатор обладает собственным идентификатором URL, может возникнуть ситуация, когда одно и то же отношение записано двумя разными реификаторами. Отсюда вытекает еще одно правило, необходимое для использования механизма реификации: если в семантической сети существуют два разных реификатора с одинаковым набором свойств, они должны быть признаны идентичными.

По своей природе у контекстных свойств может существовать явление парной эквивалентности — два кортежа объектов, не являясь эквивалентными поэлементно, эквивалентны в целом, т.е.: Два контекстных свойства, обладающие эквивалентными кортежами объектов, будем называть эквивалентными. И наоборот, если два контекстных свойства эквивалентны, то и кортежи их объектов эквивалентны. Для возможности описания ограничений на контекстных свойствах и дополнительных ограничений, которые могут потребоваться при составлении онтологии ПрО, включим в состав модели онтологии семантические правила[36]. Семантические правила определяют, какие утверждения следует добавить в семантическую сеть в зависимости от наличия и отсутствия в ней определенных наборов отношений (шаблонов). Запишем правило в виде трех RDF-сетей : С, N и А, где С - сеть условий, N - сеть отрицательных условий, и А - сеть расширения. Для обеспечения возможности записи гибких условий введем понятие пустого узла. Пустой узел может участвовать в отношениях наравне с URL и литералами (в качестве субъекта, объекта или предиката), и подразумевает собой существование ресурса, о природе и идентификации которого ничего не известно. - Определим В, множество пустых узлов сети. Чтобы интерпретировать сеть, содержащую пустые узлы: определим отображение Z из множества пустых узлов В во множество ресурсов R, N - RDF-сеть отрицательных условий, А - RDF-сеть расширения. Определим основное свойство правил: Если существует преобразование Z из анонимных узлов во множество ресурсов, такое что любая интерпретация I сети G истинна для сети условий и ложна для всех утверждений сети отрицательных условий, то эта интерпретация истинна и для сети расширения. Отсюда, набор правил, ассоциированных с сетью, определяет её специфическую интерпретацию. С помощью набора семантических правил можно давать семантическое описание элементов словаря Q, описанное в определении Определение 3. Отсюда набора правил Q соответствует Q-интерпретации. В контексте задачи данного диссертационного исследования будем различать правила, определяющие интерпретацию что это такое семантически целостных сетей, и правила, определяющие интерпретацию сетей с нарушениями семантической целостности. Это определяет существенное отличие разрабатываемой модели онтологии от модели OWL: в модели OWL, сеть, имеющая нарушения семантической целостности, не может быть интерпретирована, тогда как в данной модели для нарушений семантики существует особая интерпретация. Интерпретация семантической сети в контексте некоторого набора правил Q может быть истинной для утверждений, не содержащихся в самой сети. Исходя из этого для сетей определено отношение следования, обнаружение которого является частой задачей при работе с семантикой. Для перехода от обнаружения следования сетей к обнаружению принадлежности сетей определим понятие развернутой семантической сети. Развернутой семантической сетью называется сеть, для которой существует интерпретация, истинная только для отношений, составляющих эту сеть, и ложная для любых других отношений. Любая другая семантическая сеть называется естественной. Отсюда операцию расширения семантической сети G определим следующим образом: Определение 8 Расширение семантической сети G в Q-интерпретации есть операция построения развернутой сети G , Q-эквивалентной сети G. Поскольку и Q-интерпретация определена набором правил Q, то операция расширения семантической сети состоит в выполнении всех правил из Q на данной сети G.

Формирование семантической сети на основе естественных текстов ГИР

Формирование семантической сети на основе естественных текстов (семантический анализ) - сложная и многогранная задача. Анализ естественного текста не является задачей данного диссертационного исследования, и эта функция поручена разработкам третьих сторон.

На сегодняшний день существует множество средств анализа естественного текста. Некоторые из них ограничиваются построением семантических сетей, в которых узлы и дуги отмечены словами (корнями) естественного языка, некоторые устанавливают соответствие между словами и статьями тезауруса. Разные подходы используются и для раскрытия языковых неоднозначностей -статистический, нейронно-сетевой, онтологический и т.д.

Для формирования семантической сети на основе естественных текстов будем использовать языковый модуль проекта OpenCYC[92]. Проект содержит в себе множество различных модулей для интеллектуального анализа информации - модель представления знаний, основанную на логике п-местных предикатов, подсистему хранения данных, редактирования данных, блок логического вывода и модуль анализа естественного текста. Именно этот модуль и используется

Языковый анализатор из этого проекта отличается от многих других тем, что для повышения качества анализа использует не только языковую информацию, но и онтологии, используемые при анализе как «здравый смысл». В OpenCYC используется стандартная онтология верхнего уровня SUP ШЕЕ 1600.1 [102], и нормализация [20] слов и понятий естественного текста осуществляется к идентификаторам классов и отношений из SUP.

В качестве входных данных анализатор естественного языка OpenCYC принимает семантический блок, а выходными данными является фрагмент семантической сети в формате CycL. Хотя сам по себе формат CycL поддерживает запись N-местных предикатов, модуль семантического анализане использует эту возможность, и формирует классическую семантическую сеть, используя двух местные предикаты.

При помощи модуля CycL- RDF преобразуем текстовый формат CycL в основанный на XML язык RDF. Модуль преобразования выполняет переход от предикатов CycL к утверждениям RDF и преобразует обозначения, принятые для объектов и отношений в CycL в идентификаторы URL, принятые в RDF.

После внесения в семантическую сеть изменений, таких, как информация из очередного документа ГИР, в сети может возникнуть нарушение семантической целостности, т.е. сеть требует проверки.

Проверка семантической целостности семантической сети осуществляется после внесения изменений в сеть путем построения расширенной сети и выполнения проверочных правил, приводящих к появлению объектов-парадоксов.

Основной особенностью проверочных правил является возможное наличие в них отрицательных частей (см. 2.3.2) - т.е. условий, которые должны отсутствовать в исходной семантической сети. Отрицательная часть правила определяется как сеть отрицательных условий N, каждое из утверждений Рассмотрим проверку отрицательного условия в зависимости от количества неизвестных в нем (см. Таблица 3.1)

Отрицательное условие без неизвестных считается выполненным, если представляющее его утверждение отсутствует в семантической сети. Отрицательное условие с одной неизвестной считается выполненным, если не существует ни одного объекта семантической сети, такого, что при его подстановке утверждение будет существовать в семантической сети. Отрицательное условие с двумя неизвестными не выполняется никогда - его выполнение означало бы, что в сети существует ресурс, не участвующий в отношениях. Такая ситуация не возможна, поскольку элементами семантической сети являются утверждения, и в отрыве от утверждений ресурсы не существуют. 3.3.2. Алгоритм поиска объектов-парадоксов Проверочные правила создают в семантической сети объекты-парадоксы в соответствии с форматом, определенным в п. 3.1.1.. При однократном выполнении одно правило может создать один объект-парадокс. Рассмотрим два способа поиска объектов-парадоксов, которые могут быть использованы при поиске ошибок. Первый способ состоит в фиксации результатов работы проверочных правил - если очередное проверочное правило добавило хотя бы одно утверждение в семантическую сеть, то весь результат выполнения правила должен быть добавлен в отчет о парадоксах. При этом, в зависимости от режима поиска, проверка может быть остановлена или продолжена. Второй подход состоит в поиске объектов-парадоксов в расширенной сети после полного выполнения набора правил. Признаком необходимости такого поиска является существование специального утверждения - флага. Утверждение this:world log: inconsistent With log:semantics означает, что рассматриваемая семантическая сеть имеет нарушения семантической целостности. Объекты-парадоксы обнаруживаются по их принадлежности к особому классу pdx:Paradox, и для каждого найденного экземпляра этого класса извлекаются все значения свойства pdx:property, а также все свойства, связывающие данный объект с найденными значениями. Для представления информации о найденных ошибках и возможных путях их устранения заключительным этапом поиска семантических ошибок ресурса является составление отчета об обнаруженных парадоксах. Отчет о парадоксах включает в себя следующую информацию по каждому из парадоксов: 1. Каким правилом был обнаружен парадокс (тип парадокса). 2. Относительно какого ограничения был обнаружен парадокс. 3. Какие утверждения не соответствуют ограничению. 4. Из каких документов и семантических блоков получены данные утверждения. 5. Рекомендации по устранению парадокса.

Настройка ИС на примере A3 Урал

Большое внимание в онтологии, разрабатываемой для ГИР данного предприятия должно быть уделено его продукции. Согласно каталогу продукции, она делится на «Бортовые автомобили», «Вахтовые автобусы», «Шасси», «Седельные тягачи», «Самосвальные платформы».

В стандартной онтологии в разделе «транспортные средства» имеются два раздела, с которых начнем уточнение: «Автобусы» и «Грузовики».

Создадим подкласс «Вахтовый автобус» как уточнение «Автобуса», а бортовые автомобили, тягачи, платформы и шасси создадим как дочерние объекты по отношению к «Грузовикам». Создадим также класс «Автомобили УРАЛ», который будет являться дочерним классом для «транспортные средства», и родительским для всех созданных классов.

На основании спецификаций каталога для класса «Автомобили УРАЛ» определим перечень возможных характеристик (грузоподьемность, колесная база, и т.д.) и пределы их изменения. Далее, на основании описания рубрик каталога продукции опишем ограничения, свойственные каждому классу продукции - например, «шасси» поставляются без кабины, поэтому укажем, что свойство «тип кабины» не может иметь значений.

Дальнейший анализ ресурса показывает, что в описании продукции фигурируют не только сами автомобили, но и их компоненты и составные части - двигатели, кабины, кузова, шасси и т.д. Для них также необходимо создать индивидуальные классы или указать более общий класс, которым можно ограничить рассмотрение мелких деталей.

Для каждого из таких классов указывается, в какие виды автомобилей он может быть установлен, с какими частями соединяется, какими характеристиками обладает и какие характеристики ожидает от других устройств.

Взаимодействие с информационной системой осуществляется при помощи клиентской части. Клиентская часть исполняется на рабочем месте редактора ГИР, и предоставляет доступ к следующим возможностям: Обзор структуры документов ГИР Управление структурой документов ГИР Создание разделов Создание, наполнение и редактирование документов Изменение параметров отображения документов и разделов Индикация обнаруженных семантических ошибок Индикация документов, содержащих семантические ошибки Поиск семантических ошибок в тексте по мере ввода Интерфейс программы управления поделен на 4 зоны (Рис. 4.1): панель меню и инструментов (1), дерево структуры разделов (2), панель редактирования атрибутов (3), и панель редактирования текста (4). Панель меню и инструментов содержит строку меню, а также панель с кнопками для вызова наиболее часто используемых функций. К ним относятся: создание и удаление документа, работа с буфером обмена, изменение стиля текста и вставка элементов HTML (ссылок, изображений, таблиц) В панели 2 отображается дерево документов ГИР, организованное по принципу разделов. Панель поддерживает разворачивание и сворачивание ветвей дерева, перенос документов и ветвей, создание и удаление документов и разделов, а также выбор очередного узла дерева в качестве активного. Панель 3 отображает атрибуты выбранного документа или раздела, и позволяет изменять, добавлять и удалять атрибуты. Панель 4 представляет собой зону редактирования текстового представления документов. Основанная на компоненте Mozilla Composer, панель поддерживает разнообразные функции редактирования XHTML документов, работу с изображениями, ссылками, таблицами, стилями и шрифтами. Содержимое панели загружается из хранилища естественных текстов ГИР, как только пользователь выбирает документ в панели 1. Сохранение документа происходит автоматически при переходе к другому документу или закрытии программы. Обнаружение парадоксов - фоновый автоматический процесс, происходящий внутри ГИР по мере ввода документов и течения времени. Система формирует отчет о парадоксах и на его основании изменяет атрибуты разделов, документов и семантических блоков. Отчет о парадоксах отображается в специальном разделе верхнего уровня, называемом «Очередь парадоксов». Эго элементами, в противоположность обычным разделам, являются описания парадоксов. Описания содержат характеристику парадокса, цитаты из документов, приведших к возникновению парадокса, и ссылки для редактирования этих документов. Документы, содержащие парадоксальные семантические блоки отображаются в дереве с особой отметкой красного цвета, а сами семантические блоки, породившие парадоксы, выделяются синим пунктирным подчеркиванием (стиль выделения настраивается). В случае правильно проведенного семантического анализа и корректности онтологии единственный способ устранения парадокса — изменение текстовых документов, приведших к его возникновению и устранение из них противоречивой информации. Однако имея дело с текстами на естественном языке не следует забывать, что возможно неправильно понимание системой тех или иных ситуаций. На этот случай предусмотрены варианты устранения парадокса без изменений текста. Возможны следующие варианты устранения парадокса: - блокирование парадокса - ситуация признается исключительной, и информация правильной, несмотря на то, что она противоречит онтологии, - изменение классификации объектов - изменение принадлежности объектов к классам таким образом, что в новой классификации объекты не нарушают семантической целостности, - изменение отношения - отношение, установленное между объектами изменяется на непортиворечащее онтологии - изменение значения свойства - ввод нового значения числового или строкового свойства взамен неправильно распознанного Влияние этих изменений на различные виды парадоксов рассмотрено в главе 2. Выводы 1. Предложена общая технологическая схема и архитектура информационной системы, обеспечивающей поиск семантических ошибок в ГИР и управление им. Использование в ИС открытых международных стандартов и программного обеспечения с открытым исходным кодом позволяет добиться высокого уровня повторного использования компонентов и возможности простого расширения и развития информационной системы. 2. Рассмотрена базовая онтология понятий, характерных для коммерческих и корпоративных ГИР, описаны принципы и подходы к разработке онтологии, составлены основные семантические правила и даны рекомендации по их разработке. 3. Описан процесс внедрения ИС, настройки ИС на особенности предприятия и его ГИР, разработка локальных онтологии. Использование механизма локальных онтологии позволило избежать перегрузки общей онтологии при разработке базовой системы и добиться соответствия каждому конкретному ГИР. 4. Приведено описание использования информационной системы, наполнения ГИР содержимым, операций с документами и обработки парадоксов. Рассмотрена работа с парадоксами в клиентской части ИС, приведены методы нахождения парадоксов и способы их устранения.

Похожие диссертации на Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей