Содержание к диссертации
Введение
Глава 1. Проблема инженерии знаний в технологии Semantic Web 11
1.1 Цели и задачи развития технологии Semantic Web 11
1.2 Основные понятия и модели представления знаний, используемые для описания информационных ресурсов 17
1.3 Дескриптивная логика как средство формализации онтологии 28
1.4 Семейство языков OWL для описания онтологии в Semantic Web 35
1.5 Проблемы развития технологии Semantic Web 39
Основные результаты 47
Глава 2. Разработка базового формализма для полиморфического представления знаний и системы оперирования онтологическими описаниями 58
2.1 Проектирование общей ICF-онтологии для полиморфического
представления знаний с использованием дескриптивной логики 58
2.1.1 Основные понятия и определения 58
2.1.2 Основные отношения онтологии 50
2.1.3 Описание таксономии. Пример описания
2.2 Типизация концептов 57
2.3 Мета-отношения 58
2.4 Принципы построения общих регулярных ICF-онтологий
2.4.1 Принципы организации общих регулярных онтологии 59
2.4.2 Дихотомическая классификация концептов 62
2.4.3 Строгая родовидовая таксономия (Is-A) 63
2.4.4 Исключение множественного наследования 64
2.4.5 Строгая видо-видовая таксономия (Form) 66
2.4.6 Противоположность дочерних вершин в дихотомической триаде.66
2.4:7 Уникальность концептов. Редукция в смежное наследование 67
2.4.8 Минимальность пути смежного наследования 69
2.5 Правила реорганизации регулярных ICF-онтологий 70
2.6 Принципы проектирования прикладных регулярных ICF-онтологий
2.6.1 Формальные отличия прикладных онтологии от общей 72
2.6.2 Принципьі проектирования прикладных онтологии 76
2.6.3 Способы проектирования прикладных онтологии 79
2.6.4 Способ последовательного проектирования 81
2.6.5 Взаимодействие общей и прикладной онтологии 86
Основные результаты 87
Глава 3. Алгоритмы унификации и структуризации для моделей знаний в технологии Semantic Web 88
3.1 Дескриптивная логика с ICF-типизацией 88
3.1.1 Дескриптивная логикаи ее семантика 88
3.1.2 Проблема анализа документов для поиска 90
3.1.3 Прикладная ICF-онтология. Описание в DL-нотации 94
3.1.3.1 Описание сложных ситуативных структур 94
3.1.3.2 Ситуативные структуры на примере предметной области "программирование" 97
3.1.3.3 Пример описания предметной области 100
3.2 Унификация в прикладных ICF-онтологиях 105
3.3 Алгебраическая система онтологических признаковых структур 108
3.3.1 Концепция признаковых структур 108
3.3.2 Основные определения ПО
3.3.3 Свойства отношений и операций
3.4 Алгоритм унификации онтологических признаковых структур 118
3.5 Формальное описание алгоритма унификации 122
3.6 Схема алгоритма унификации 130
Основные результаты 137
Глава 4. Унификация и структуризация прикладных онтологических описаний в программной системе ICF PUTE 138
4.1 Назначение программной системы ICF PUTE 138
4.2 Проектирование архитектуры системы 138
4.3 Вопросы реализации алгоритма унификации 141
4.4 Поисковая подсистема 144
4.5 Диаграмма классов 148
4.6 Проектные решения в системе ICF PUTE 150
4.7 Экспериментальный анализ свойств системы и сравнение с
существующими аналогами 152
Основные результаты 157
Заключение 158
Библиография
- Дескриптивная логика как средство формализации онтологии
- Основные понятия и определения
- Проблема анализа документов для поиска
- Вопросы реализации алгоритма унификации
Введение к работе
Актуальность работы. Интенсификация развития современных технологий стала возможной за счет широкого внедрения средств информационной поддержки специалистов. К таким средствам относятся глобальные сети, распределенные информационные хранилища, интеллектуальные агенты и специализированные сервисы. В то же время существование востребованных данных, ликвидной информации или удобного программного сервиса в электронной форме не означает доступность этих средств для потребителя. Трудоемким остается не только их поиск, но и интегрирование информационных ресурсов в единую, совместимую для разных специалистов среду.
Решение проблемы видится ученым в семантическом подходе. Суть подхода в описании информационных ресурсов с помощью моделей знаний (МЗ), которые должны быть стандартизованы и понятны широкому кругу профессионалов в различных предметных областях (ПО). Весомые результаты в работах по представлению знаний связаны с такими учеными, как В.П. Гладун, Д.А. Поспелов, Э.В.Попов, В.Ф. Хорошевский, D.G. Bobrow, М. Minsky, R.C. Schenk, Т. Winograd.
Одним из наиболее известных современных подходов к стандартизации онтологического представления знаний является разработка консорциума W3C, развивающего Internet-технологии. Последняя версия стандарта в форме языка описания онтологии OWL (Web Ontology Language) была предложена научно-исследовательской группой W3C в 2004г. как основа новой технологии Semantic Web. Технология была распространена на решение широкого круга задач, к которым относятся не только интеллектуальный поиск информации, но также автоматическое аннотирование документов и семантическое сопровождение баз данных (информационных хранилищ). Наиболее известные работы в этой области принадлежат ученым: А.С. Клещев, А.В. Манцивода, T.Berners-Lee, T.R. Gruber, M.A. Musen, R. Staab, D. Studer.
В рамках Semantic Web различными группами специалистов разработаны и апробированы программы структуризации, оптимизации и конвертирования онтологических описаний (00), такие, как Protege, Chimaera, Ontolingua, ODE, GrOWL, FCA-Merge и др. Методологической основой таких программ являются оригинальные подходы к структуризации и унификации 00 с помощью их представления в специализированных МЗ. Опыт разработки реальных программ позволил выявить следующие проблемы, решение которых является наиболее актуальным.
Необходимо получить подробное и адекватное ПО онтологическое описание, учитывающее не только специфику тематической специализации, но и общую МЗ о мире, как основу совместимости знаний в разных ПО.
Существует проблема выделения ликвидных знаний из данных в условиях неоднородности и больших объемов первоначальной информации.
Необходимо иметь возможность реорганизации МЗ при внесении изменений в их первоначальную классификацию без дальнейших потерь при поиске.
Существует сложность в отыскании пользователя, нуждающегося в конкретной информации, с учетом различия задач, интересов и мотивации у разных пользователей.
Остается малоизученной проблема полиморфизма 00, предполагающая рассмотрение системы понятий под различными углами зрения различными специалистами из ПО.
Внесение изменений в существующие принятые формализмы не должно затрагивать их основания, т.е. принципов описания семантики.
Сложность решения перечисленных проблем является главной причиной низкой релевантности существующих поисковых систем и интеллектуальных агентов. Решение этих проблем связано с необходимостью получения новых модификаций известных формализмов, обладающих более хорошими возможностями представления знаний в МЗ, но не разрушающими достигнутые результаты по полноте и разрешимости логических теорий. Кроме того, необходимо получение новых программных средств, дающих возможность структуризации и унификации 00, делающих возможной оптимизацию, облегчающих автоматизацию проектирования и внесение изменений в 00.
Одному из подходов к решению этих проблем посвящена настоящая диссертация.
Целью диссертации является исследование и модификация формализма OWL-ориентированных онтологии, а также разработка алгоритмов унификации для моделей знаний, упрощающих оптимизацию, реорганизацию и автоматизированное проектирование их семантических описаний за счет использования полиморфических структур.
Достижение поставленной цели работы связано с решением следующих задач:
анализ и модификация дескриптивной логики DL на основе использования иерархической типизации концептов для учета родовидовой таксономии, обладающей свойством полиморфизма;
разработка представления 00 с использованием концепции признаковых структур (ПС) для выработки требований к регулярным формам онтологических ПС, позволяющим снизить трудоемкость их верификации и унификации;
разработка универсальной алгебраической системы онтологических ПС и исследование ее операций и отношений, влияющих на свойства отношений эквивалентности и подобия онтологии;
проектирование алгоритмов структуризации и унификации OWL-ориентированных 00, обеспечивающих возможность автоматизированной модификации и оптимизации семантических описаний ПО;
разработка программного инструментария унификации онтологии с учетом свойств их концептов и отношений, повышающего характеристики релевантности поисковых систем и интеллектуальных агентов, работающих в технологии Semantic Web.
Методы исследования
В работе использовались дескриптивная логика, теория унификации, концепция признаковых структур, универсальные алгебры и бинарные отношения, методы объектно-ориентированного анализа.
Научная новизна работы заключается в получении нового модифицированного формализма, основанного на использовании базового отношения ICF, обладающего свойством полиморфизма при онтологическом описании ПО. Формализм позволяет адекватно описывать семантику ПО, за счет чего повышается релевантность поиска в распределенных информационных сетях и хранилищах. Спроектированный в диссертации алгоритм унификации Web-ориентированных 00 дает возможность автоматизировать верификацию, дополнение и унификацию онтологии ПО, изначально разработанных различными специалистами.
На защиту выносятся
Новый формализм для адекватного онтологического описания ПО, обладающий возможностью полиморфического представления используемых в описании понятий и отношений.
Общие принципы построения регулярных онтологических структур, позволяющих снизить трудоемкость верификации и реорганизации МЗ ПО.
Метод последовательного синтеза регулярных OWL - ориентированных онтологии.
Алгебраические свойства операций и отношений, влияющие на формирование классов эквивалентности и подобия двух онтологии, изначально разработанных различными специалистами.
Оригинальный алгоритм унификации онтологии, позволяющий повысить характеристики релевантности поиска документов, данных и информационных сервисов в технологии Semantic Web.
Практическая значимость работы. На основе полученных теоретических результатов автором создана инженерная методика проектирования регулярных 00, состоящих из общей и прикладной онтологии для заданной ПО. Эффект от внедрения методики получается за счет следующего улучшения характеристик:
снижение трудоемкости проектирования и улучшения достоверности семантического описания ПО;
упрощение верификации соответствующей МЗ с выявлением противоречивых утверждений о понятиях и отношениях модели ПО;
упрощение достраивания МЗ при появлении новых описаний для понятий и отношений ПО;
унификация различных онтологии с целью обеспечения их совместимости для различных специалистов.
Практическим результатом является программная реализация инструментария ICF PUTE v. 2.01 для структуризации и унификации OWL-ориентированных онтологии в технологии Semantic Web, выполненная с использованием средств Protege и Microsoft Visual С#. Программа может использоваться в системах интеллектуального поиска, информационных сервисах
Internet и интеллектуальных агентах с целью улучшения характеристик точности поиска.
Реализация и внедрение результатов работы. Результаты исследования внедрены в форме программного информационного сервиса в автоматизированной системе Негосударственного пенсионного фонда «Алмазная Осень» в Республике Саха (Якутия) а также, в поисковой системе Рязанского Центра научно-технической информации (поисковом инструментарии компании ЕРАМ Systems). Методические результаты внедрены в учебный процесс Рязанского государственного радиотехнического университета при подготовке и выполнении практических занятий студентами специальностей 220400, 351400 по дисциплинам «Проектирование систем искусственного интеллекта» и «Перспективные методы программирования». Программные средства, разработанные автором диссертации, зарегистрированы в отраслевом фонде алгоритмов и программ (Свидетельства о регистрации №9885 от 15.02.2008, №10019 от 26.02.2008).
Апробация работы. Результаты исследований, составляющие основное содержание диссертации, докладывались на 9-й международных и 3-х всероссийских конференциях и семинарах:
МНТК «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций». Рязань, РГРТУ 2002, 2003, 2004,2005, 2008 гг.;
МНТК «Современные проблемы информатизации». Воронеж, ВГТУ 2005,2007,2008 гг.;
Всероссийская НТК «Новые информационные технологии в научных исследованиях и в образовании», Рязань, РГРТУ, 2003,2008 гг.;
International Conference «Interactive Systems». Ulyanovsk: U1STU, 2003;
Всероссийская НТК «Новые технологии в учебном процессе и производстве». Рязань, Рязанский ин-т МГОУ, 2006г.;
Всероссийская НПК «Актуальные проблемы информатизации». Москва, МИЭТ, 2007г.
Публикации. По теме диссертации опубликовано 19 научных работ: 6 статей, в том числе 3 статьи в изданиях, включенных в перечень ВАК, и 13 материалов докладов на международных и всероссийских конференциях и семинарах.
Структура и объем работы. Диссертация состоит из введения, 4-х глав, заключения, списка литературы и 3-х приложений, содержащих копии документов о внедрении и материалы, не вошедшие в основной текст диссертации. Общий объем работы составляет 185 страниц, в том числе основное содержание - 171 с, 34 рисунка, 15 таблиц, списка литературы на 12 с. (124 наименования), приложения - 14 с.
Дескриптивная логика как средство формализации онтологии
Модели представления знаний для описания семантики документов, баз данных и прикладных расчетно-логических задач начали разрабатываться с 70-х годов XX века. Различные подходы отличались собственной спецификой, более всего заметной на синтаксическом уровне формального инструментария описания смысла. Свое применение эти подходы находили в вопросно-ответных [22] и естественно-языковых системах [23], а также в интеллектуальных решателях задач и системах управления [24, 25]. Проблематика этого направления получила название "системы представления знаний" (knowledge based systems, knowledge representation systems and languages) [12, 13, 28]. К наиболее известным теоретическим концепциям можно отнести следующие:
Онтологии для описания семантики Концепт Индивид Свойство Фацет Структура Концепт (понятие, класс, сущность) - единое абстрактное понятие, характеризующее некоторое множество существующих в реальном мире предметов, отношений, свойств, процессов.
Индивид (денотат, объект, экземпляр) - существующий в единственном экземпляре представитель своего класса, которому можно присвоить уникальный индекс (например, "инвентарный номер").
Концепт может быть эксплицитно (перечислением) задан множеством конкретных индивидов или имплицитно (содержательно) определен с помощью описания через другие уже известные концепты.
Свойство (роль, признак, слот) - один из атрибутов концепта, характеризующих его с какой-либо точки зрения. Для концептов этот атрибут может иметь имя и не иметь точного значения, но должен иметь область определения значений. Для индивидов свойство имеет точное значение.
Область определения значений свойств (ограничитель, фацет) - множество возможных конкретных значений свойства, заданное либо их перечислением, либо пределами значений, либо описанное через другие уже известные области значений (типы, домены).
Отношение - множество пар или троек, или n-ок (кортежей п-ой размерности), задающее свойства концептов и индивидов, проявляемые ими при взаимодействии с другими концептами или индивидами. Принадлежность конкретного кортежа этому множеству говорит о существовании свойств у элементов кортежа, проявляемых в их взаимодействии.
Ситуативная структура (ситуация, сложное отношение, фрейм) - система (множество) отношений, определенных на конечном множестве концептов или индивидов, называемых в этом случае "элементами ситуации" или "элементами сложного отношения". Ситуативная структура может предполагать существование у ее элементов каких-либо свойств.
Далее приводится краткая характеристика основных моделей знаний. Семантические сети (СС) представляют собой описание знаний средствами теории графов. Сеть представляется множеством вершин, соответствующих понятиям, свойствам и значениям свойств, а направленные ребра (дуги) - типизированным отношениям. Существует множество подходов к типизации СС. Можно выделить, например, следующие разновидности СС [38]:
Важным положительным свойством СС является их универсальность с точки зрения применения в различных интеллектуальных задачах, обусловленная близостью к общей теории графов [39] . С другой стороны, фундаментальный характер СС не позволяет использовать их непосредственно, т.е. без соответствующей прикладной доработки, для какой-либо конкретной задачи.
Концептуальные сети (КС) - средство графического представления знаний, основанное на базовой типизации понятий (категорий) и их атрибутов. Типизация базовых категорий, которые считаются изначально «понятными» для системы представления знаний, характерна для большинства моделей знаний. В КС, например, классы понятий обозначаются через мнемонику "РР", действия, совершаемые представителями РР, через "ACT". Особо выделяются концептуальные синтаксические правила для описания концептуализации (рисунок 1.3). КС, располагая весьма мощными механизмами представления знаний, в то же время сложны для инженерного использования и организации таксономии как основных структурообразующих элементов инженерии знаний.
Ситуационное управление (СУ) - теория, использующая графические и языковые средства для интеллектуального управления сложными объектами. К графическим средствам относятся дискретные ситуационные сети [31, 40] и специализированные семантические сети СУ. Основным инструментарием в СУ является язык СУ (рисунок 1.4).
СУ является стройной апробированной теорией, используемой в системах интеллектуального управления сложными системами. В то же время, эта теория не предназначалась, например, для применения в задачах информационного поиска.
Основные понятия и определения
ICF-онтология предполагает отсутствие у концептов множественного наследования, поскольку в случае такого наследования нарушается единственность последовательного таксономического ряда наследования свойств, а также исчезает строгая иерархия родовидового дерева.
Отношение Form задает видо-видовую таксономию, с помощью которой образуется видо-видовая иерархия, которая в общих ICF-онтологиях полностью повторяет иерархию родовидового наследования (Is-A). Существование отношения Form(X, у) говорит о том, что концепт X может проявляться в форме концепта у, т.е. быть частью свойств, присущих X. Это отношение совместно с Is-A позволяет утверждать о возможности смежного наследования, т.е. взаимного наследования свойств двумя дочерними вершинами через общую родительскую. То же самое касается концептов более верхних уровней онтологии: Р4: (Is-A(X,y)&Is-A(X,z)}
Правильное понимание отношения Form позволяет не только структурировать онтологическое описание, но и давать правильные наименования концептам онтологии.
Пример Для предыдущего рисунка учет видо-видовых отношений даст только коррекцию имен концептов. "Элемент события" может проявляться в форме "Мгновенного события", "Элемента-границы", "Элемента состояния процесса" и т. д., поэтому множественное число в наименовании этих концептов в рассматриваемом случае неуместно.
Противоположность задается отношением Cont. Это означает, что два понятия непосредственно подчиненные по родовидовой и видо-видовой ие рархии одному родительскому понятию должны иметь явно выраженную противоположность. Они должны располагаться как бы "на полюсах" ряда однотипных понятий: Р5: {Is-A (X, у) & Is-A (X, z)} [Cont(y,z)], {Is-A (X, у) & Is-A (X, z) & Cont (y, z)}. В качестве примера можно привести фрагменты на рисунках 2.2а и 2.26. В этом случае дихотомическое разбиение было выполнено правильно, с учетом противоположности граничных событий "Начальная ситуация" и "Конечная ситуация". Противоположность сохраняется, но ослабляется на более высоких уровнях иерархии. Например, на рисунке 2.5 "Начальная ситуация" как граничное событие некоторым образом действительно противоположна "Элементу состояния процесса", но более точная противоположность "Заключительной ситуации" говорит о том, что это понятие занимает правильное место во фрагменте онтологии.
Этот принцип организации общей ICF-онтологии является одним из базовых. Он гарантирует безызбыточность онтологических структур. Если существуют два или более онтологических фрагментов, находящихся по своей семантике в полной аналогии, это означает, что существует единое уникальное описание концептов соответствующей структуры, свойства которого должны унаследовать по ICF-отношению все аналогичные структуры: Р6:
Пример Структура, заданная на рисунке 2.5, является фрагментом онтологии, вполне пригодным для его использования в тех областях знаний, где необходимо рассматривать только системы каких-либо событий. В то же время, существуют и другие понятия, которые можно рассматривать как сложные и элементарные, имеющие начало и конец. Для этого могут подойти любые сложные объекты, имеющие линейную структуру, например, очередь в магазине или железнодорожный состав. Учитывая это, можно составить общую уникальную иерархию.
Представленный на рисунке 2.6 фрагмент онтологии позволяет рассматривать с единым понятием линейной внутренней структуры и элементы процессов, и элементы статических объектов.
Принцип Р6 (редукция, аналогичных-друг другу онтологических- структур в смежное наследование) предполагает необходимость отыскания места в ICF-иерархии для включения вновь разработанного фрагмента онтологии. Достаточно найти необходимое место для "привязки" лишь корневого концепта, т.к. сложность заключается в соблюдении всех предыдущих принципов организации онтологии. При правильном построении нового фрагмента его внутренняя структура уже отвечает всем требованиям этих принципов: где т — число терминальных вершин, х] - корневая вершина, в которую сходятся все пути от терминальных вершин, а х"- терминальные вершины. Верхняя и нижняя части правила - мощности множества всех путей от терминальных вершин к корневой как элементов бинарного отношения Is-A , соответственно до реорганизации и после нее. Суть правила в возможности реорганизации онтологии, уменьшающей мощность этого множества.
Учитывая возможности смежного наследования, мест возможного включения нового фрагмента с корневым концептом может оказаться несколько. Действительно, ведь по определению, общая онтология описывает все возможные концепты, отношения и процессы различных предметных областей.
Такие абстрактные категории, как "пространство", "время", "конечность", "бесконечность", "элемент", "внутренняя структура", "динамика", "статика" и т.п., присущи всем индивидам любой предметной области. Следовательно, куда бы не включался корневой концепт нового фрагмента, его внутренняя структура будет унаследована всеми другими концептами общей онтологии. Верно и обратное, все свойства других концептов могут наследоваться новым концептом.
Проблема анализа документов для поиска
Для обозначения того факта, что какие-либо элементы не находятся в том или ином отношении будет использоваться заимствованный из элементарной логики знак отрицания "-і".
Рассмотрим содержание множества Q. Оно состоит из следующих операций. u - бинарная операция объединения двух признаковых структуру в результате которой элементы признаковых структур объединяются в единое множество (список), из которого удаляются (заменяются единственным) полностью эквивалентные элементы; одноименные элементы с отличием во внутренней структуре сохраняются в итоговом списке, как понятие, рассмотренное под разными углами зрения. О - бинарная операция выделения подобных ПС. п бинарная операция пересечения, выделяющая в результате полностью эквивалентные элементы исходных списков. Ф - операция выделения признаковых структур, имеющих совпадающие с точностью до синонимии (по тезаурусу) имена (два вида - полное совпадение имен с учетом типа, и без учета типа).
При объединении нескольких КПС, достаточных для описания точно очерченной предметной области в один универсум U, этот универсум может быть принят в качестве единичного элемента. Vx Uux = U,Unx = x, (U/x)ux = U, где (U / x) можно квалифицировать как ПС, обратную x. При унификации двух ПС, объединение этих ПС на основе общего атомарного базиса также можно- рассматривать как единичную ПС, ограниченную рамками алгоритма унификации.
Определение 3.5. Для любой КПС (рисунок 3.3) можно построить множество всех используемых в ней АП. Это множество назовем атомарным базисом КПС. Аналогинное множество дляТЛПС будет_ называться, атомарным базисом ППС.
3.4 Алгоритм унификации онтологических признаковых структур
Определение 3.6. Под унификацией [36] двух термов s и t понимают отыскание такой подстановки а, которая бы сделала уместным равенство: a(s) = a(t). В этом случае а называется унификатором для s и t, а сами термы s и t называются унифицируемыми.
Подстановка а состоит из множества замен переменных из термов на подходящие подтермы. Унификация ПС предполагает осуществление попытки привести две ПС к единственной эквивалентной им ПС при выполнении реорганизации исходных ПС в соответствии с рассмотренными ранее свойствами операций и отношений. Для этого в ПС находятся классы эквивалентности и подобия всех составляющих. Две ПС могут оказаться неунифицируе-мыми, унифицируемыми и унифицируемыми с некоторой мерой подобия.
Алгоритм унификации имеет целью поиск всех отношений, в которых находятся две ПС. По мощности этих отношений можно делать вывод о степени схожести ПС. При этом имеет смысл сначала исследовать соотношения между атомарными базисами ПС (рисунок 3.4). выделить в каждой из исходных КПС подмножества независимых ППС для последующего удаления их из списка унифицируемых ППС; сравнение мощностей полученных множеств независимых ППС и подобных (тождественных) ППС дает возможность сделать вывод о возможности дальнейшей унификации исходных КПС в зависимости от существующих коэффициентов унифицируемости; если принимается отрицательное решение, алгоритм заканчивается с отрицательным результатом, в противном случае выполняется следующий шаг; вычисленный коэффициент унификации и полученные классы тождественности и подобия для двух первоначальных КПС выдать в качестве результата алгоритма унификации.
Результирующие ППС часто являются, в результате изменений, внесенных в п. 18 алгоритма унификации, неэквивалентными" ППС, присутствовавшими в первоначальных КПС, участвовавших в унификации. Вследствие этого, результат алгоритма может быть полезен как для абонента поиска документов, так и для автора самого документа или администратора банка документов. Таким администратором может быть, например, администратор информационного Web-сайта.
Результирующие ППС позволяют дополнить или- исправить семантическое описание информационного ресурса или предметной области абонента таким образом, чтобы поиск стал более точным. Следовательно, унификация позволяет повысить релевантность и пертинентность для последующего аналогичного поиска за счет внесения уточнений (согласований) абонентов и авторов. В конечном итоге, множественное- использование- уііификации коллективами специалистов, работающих в одной предметной области, может привести к единому стандарту в семантическом описании [4].
В то же время, решение о внесении изменений в КПС принимают их авторы, следовательно, изменение онтологических описаний предметных областей опирается и на субъективную составляющую. Можно предположить, что общепринятыми онтологическими изменениями станут лишь наиболее полезные и обоснованные, внесенные наиболее квалифицированными специалистами.
Вопросы реализации алгоритма унификации
Quintura отличается дружественным пользовательским интерфейсом, который позволяет сделать поиск более быстрым и эффективным. Система Quintura также включена в число систем для сравнения в эксперименте.
Поскольку на современный момент семантические Web-технологии еще не приобрели достаточной популярности, будет целесообразным включить в рассмотрение наиболее популярные поисковые серверы русскоязычного Интернета - Yandex и Google.
Сравнение поисковой подсистемы ICF PUTE с системами Sindice, Quintura, Yandex и Google производилось по таким показателям качества поиска, как релевантность и пертинентность результатов, а также время поиска. Поисковая подсистема ICF PUTE при тестировании запускалась в метапоиско-вом режиме. В качестве поискового сервера был использован Google.
В связи с семантической спецификой некоторых из сравниваемых поисковых систем использование современных автоматизированных методов тестирования не позволяет получить адекватные результаты. В следствие этого в эксперименте использован метод экспертных оценок. Оценка выбранных систем независимо проводилась тремя пользователями-экспертами. Экспертам было предложено решить один и тот же набор задач поиска. Для решения каждой задачи разрешалось ввести в каждую систему по одному запросу, после чего оценить показатели релевантности и пертинентности.
В качестве тестовых примеров использовались запросы пользователя различной сложности. В качестве предметной области запросов была выбрана область «Программирование».
Целью эксперимента являлась проверка эффективности предложенных в настоящей диссертации алгоритма унификации и модели представления знаний. Особое внимание было уделено рассмотрению одних и тех же понятий предметной области под разными углами зрения.
Результаты тестирования качества поиска (таблица 4.3) показали, что показатели релевантности поисковой подсистемы TCF PUTE ниже, чем в других поисковых системах. Это объясняется тем, что в результаты поиска ICF PUTE включены документы, не содержащие непосредственно ключевых слов запроса, но содержащие их синонимы. Кроме того, результаты поиска разработанной системы содержат слова, обозначающие близкие по смыслу понятия, рассмотренные с нужной пользователю точки зрения, поэтому важнейший в исследовании показатель, пертинентность, у ICF PUTE существенно выше.
Для определения зависимости времени поиска от сложности запроса и количества обработанных документов проведена еще одна серия экспериментов.
Полученные результаты (рисунок 4.8) показывают, что зависимость времени поиска от количества обрабатываемых запросов близка к линейной, что является хорошим показателем вычислительной сложности алгоритма.
Как показал эксперимент, время поиска не зависит напрямую от количества примитивных признаковых структур в запросе или модели пользователя. В то же время, существует зависимость времени поиска от количества понятий, использованных при формировании запроса. По полученным результатам сложно выявить характер этой зависимости, но очевидным является тот факт, что использование сложных запросов не столь значительно увеличивает время их выполнения в реальной сети.
В абсолютном измерении время работы алгоритма в 2,5 — 10 раз больше, чем время поиска в существующих ИПС. Несмотря на это, разработанный алгоритм в ряде случаев имеет значительное качественное преимущество (пертинентность выше в 1,5-8 раз), поскольку он выдает готовые результаты, для которых не требуется повторного поиска вручную.
Основные результаты
1. Разработана оригинальная объектно-ориентированная архитектура поисковых систем, ориентированных на полиморфическое представление знаний.
2. Приведены проектные решения, позволяющие оптимизировать программную реализацию алгоритмов унификации онтологии.
3. Программно реализована система ICF PUTE v.2.01, использующая основные результаты теоретической части диссертации.
4. Экспериментально доказана эффективность полиморфического поиска по критериям релевантности и пертинентности.
5. Предложен удобный пользовательский интерфейс, дающий возможность адаптировать информационный поиск под особенности предметной области и индивидуальный подход пользователя, используя характеристики тождественности и подобия онтологических структур, описывающих предметную область.