Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Интеграция и поиск распределённых данных на основе Semantic Web технологий Сысоев Тимофей Михайлович

Интеграция и поиск распределённых данных на основе Semantic Web технологий
<
Интеграция и поиск распределённых данных на основе Semantic Web технологий Интеграция и поиск распределённых данных на основе Semantic Web технологий Интеграция и поиск распределённых данных на основе Semantic Web технологий Интеграция и поиск распределённых данных на основе Semantic Web технологий Интеграция и поиск распределённых данных на основе Semantic Web технологий Интеграция и поиск распределённых данных на основе Semantic Web технологий Интеграция и поиск распределённых данных на основе Semantic Web технологий Интеграция и поиск распределённых данных на основе Semantic Web технологий Интеграция и поиск распределённых данных на основе Semantic Web технологий
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Сысоев Тимофей Михайлович. Интеграция и поиск распределённых данных на основе Semantic Web технологий : диссертация... кандидата технических наук : 05.13.18 Москва, 2007 105 с. РГБ ОД, 61:07-5/2567

Содержание к диссертации

Введение

1 Подходы к интеграции данных 8

1.1 Архитеюуры интегрирующих систем 8

1.2 Построение канонической схемы 11

1.3 Обработка запросов 14

2 Интеграция данных с помощью онтологии 17

2.1 Описание информационных источников 28

2.2 Понятия канонической схемы данных 30

2.3 Вспомогательная метаинформация 35

2.3.1 Индекс 35

2.3.2 Описатель коллекции 38

2.3.3 Поддержка обмена 41

2.3.4 Управляющая информация 42

2.4 Операции распределённой информационной системы 43

2.4.1 Локальный поиск 49

2.4.2 Совместный поиск 51

2.4.3 Выгрузка данных 54

2.4.4 Загрузка данных 57

2.4.5 Индексирование 57

2.4.6 Создание описателя 60

2.4.7 Оценка запроса по индексу 60

2.4.8 Оценка запроса по описателю 61

2.5 Реализация операций 62

2.5.1 Локальный поиск 62

2.5.2 Совместный поиск 64

2.5.3 Обмен данными 68

2.5.4 Индексирование 74

3 Применение разработанных моделей и технологий 78

3.1 Применение в ЕНИП 78

3.1.1 Статистическая информация 82

3.1.2 Поиск 83

3.1.3 Распределённый (совместный) поиск 91

Заключение 98

Литература

Введение к работе

Актуальность исследований

Вместе с повсеместным распространением сетевых технологий и Интернет значительно упростился доступ к данным, независимо от их физического местоположения. Это позволяет одновременно получить доступ к большому числу источников данных, связанных между собой каким-либо образом, и, с помощью объединения результатов запросов, получить полезную информацию, которая физически не хранится в одном источнике. Этот процесс автоматизируют системы интеграции данных, то есть такие информационные системы, которые предоставляют пользователю доступ к интегрированному представлению информации, содержащейся во множестве источников данных.

Задача интегрирования данных осложняется тем, что источники информации, как правило, являются автономными - они разрабатываются и поддерживаются независимо от приложений, которые могут их использовать. Архитектура таких источников, протоколы коммуникации и производительность определяются их владельцами. Информация в них может быть представлена в различных моделях данных: от реляционной или объектно-ориентированной до спабострукіурированннх файлов (HTML/TXT). Источники работают на различных аппаратных платформах, используют различное программное обеспечение, имеют различные интерфейсы доступа (CGI,RM,CORBA,SOAP).

В последнее время на подходы к интеграции данных большое влияние оказывает инициатива Semantic Web ([34]). В частности, в рамках этой инициативы были предложены формат данных (XML), модель данных (RDF) и стандарты описания схем данных (RDFS,OWL), которые позиционируются как средства обмена информацией, данными, и знаниями с учётом их семантики.

Цель исследований

Целью работы является разработка моделей и технологий создания информационных систем, предназначенных для поиска и интегрирования данных, содержащихся в распределённых неоднородных информационных источниках, с применением технологий Semantic Web. В работе исследованы и решены следующие задачи:

• Исследование и сравнительный анализ существующих подходов и моделей поиска данных и интеграции данных распределённых неоднородных информационных систем.

• Формализация основных операций в распределён ной системе (поиск, совместный поиск, обмен).

• Создание моделей выполнения операций и разработка алгоритмов их реализации.

• Разработка технологии построения интегрирующей информационной системы на основе модели данных RDF/RDFS.

• Реализация компонентов информационной системы, соответствующей выбранным моделям, методам и технологиям в виде комплекса программ.

Научная новизна

В диссертационной работе получены следующие новые результаты:

• Разработана схема данных для информации, описывающей и классифицирующей интегрируемые источники данных;

• Произведено формальное описание операций поиска и обмена данными в

распределённой информационной системе

• Разработана модель и алгоритмы выполнения указанных операций

Практическая ценность

Практическая ценность данной работы состоит в том, что разработанные модели и алгоритмы позволяют создавать интегрирующие информационные системы, эффективно решающие поставленные перед ними задачи. Предложенные решения были применены на практике в нескольких информационных системах, наиболее масштабной из которой на текущий момент является Единое Научное Информационное Пространство (ЕНИП) -инициатива, направленная на предоставление унифицированного доступа к интегрированной научной информации институтов РАН.

Содержание работы

В первой главе приведен обзор существующих методик построения систем, предоставляющих пользователям интегрированный доступ к данным, хранящимся в различных информационных источниках. Рассмотрены подходы к решению проблем, вызванных автономностью и разнородностью источников.

Во второй главе представляется подход к интеграции данных информационных систем, основанный на использовании онтологии источи и ков данных. Приведены отличия данного подхода от классических методов, описаны используемые модели данных и метаданных, набор операций, и предложены алгоритмы их реализации.

В третьей главе описано применение разработанных решений на практике. Основное внимание уделено инициативе ЕНИП (Единое Научное Информационное Пространство) РАН.

В заключении приводятся основные результаты, полученные в рамках этой работы.

Общая характеристика

Диссертация состоит из введения, трёх глав, заключения, списка использованных источников, включающего 85 работ, одного приложения. Работа изложена на 107 страницах.

Построение канонической схемы

Одной из основных проблем, возникающей при объединении информации из разнородных источников, является проблема интеграции схем: требуется специфицировать (возможно, новую) каноническую схему, которой будет соответствовать вся информация, предоставляемая интегрирующей системой ([28]).

Прежде всего, следует отметить, что перед построением канонической схемы следует определиться с моделью данных, в которой она будет выражена. Для этого может использоваться объектная, реляционная, или какая-то иная модель.

Сложности построения канонической схемы обусловлены проблемами двух видов: логическими проблемами, и проблемами организационного характера. Ко вторым относят сложности, которые могут быть вызваны автономностью источников: недостаток информации о схеме конкретного источника, возможность изменения схемы источника в любой момент времени, неудобная структура схем. Кроме того, поскольку, в настоящий момент, процесс построения канонической схемы требует человеческого участия (исследования по автоматизации ведутся, но пока не привели к ощутимым результатам), для интегрирующих систем большого масштаба количество и сложность схем источников могут превзойти возможности людей, которые разрабатывают каноническую схему.

Среди логических проблем выделяют [3], [4]: 1. Проблемы, вызванные разнородностью: в различных объединяемых схемах могут применяться различные модели данных; 2. Проблемы именования: одно и то же обозначение в различных схемах может применяться для различных понятий, либо одно и то же понятие именуется по-разному; 3. Семантические конфликты: для описания одной и той же сущности могут использоваться различные уровни абстракции; 4. Стр ктурные конфликты: одна и та же информация может быть представлена различным образом; 5. Различные схемы могут использовать отличающиеся типы данных для представления одних и тех же данных; 6. В одном источнике часть данных может быть выражена в рамках схемы, а в других та же информация представляет собой обычные данные; 7. Проблемы идентификации [5]: не всегда возможно точно определить, что различные источники описывают одну и ту же сущность.

Для оценки качества построения канонической схемы разработан специальный набор метрик. Как будет описано далее, процесс построения канонической схемы может быть итеративным, и в этом случае данные метрики могут помочь определить необходимость следующих шагов и изменения, которые надо внести. Выделяют следующие метрики: доступность: все данные, необходимые от источников для того, чтобы построить интегрированное представление, могут быть получены; непротиворечивость: данные, полученные от источников и/или от интегрированного представления, соответствуют друг другу; полнота: степень, с которой существенная для информационной системы информация присутствует в схеме данных; корректность: степень, с которой интегрированная схема соответствует потребностям пользователей [18]; минимальность: насколько при процессе интеграции удалось избежать появления избыточной информации; прозрачность интеграции: возможность интегрирующей системы предоставить такие представления, которые выглядят как данные одного из источников; информационная ёмкость: возможность интегрирующей схемы выражать любую информацию, которую может выразить источник данных;

Создание канонической схемы ([3], [4]), как правило, включает в себя следующие стадии: 1. предварительная стадия: выбор схем, которые будут интегрированы, порядок интеграции, сбор дополнительной информации о схеме источников (метаинформации) 2. сравнение схем, с целью поиска конфликтов и соответствий; 3. разрешение конфликтов, которое потенциально может включать в себя изменение схем источников (если есть такая возможность); 4. непосредственно создание интегрированной схемы; 5. спецификация отображений между глобальной схемой и схемами источников.

Основная задача интегрирующей системы - обработка пользовательских запросов ([35]). По сравнению с традиционным процессом обработки запросов, состоящим из разбора, оптимизации и выполнения, выполнение распределённых запросов усложняется по следующим причинам: для выполнения запроса следует подобрать релевантные источники, то есть источники, данные которых могут быть использованы в результате; источники могут иметь ограниченные возможности в плане выполнения запросов; часть данных может дублироваться; часть источников по каким-либо причинам может быть недоступна в момент выполнения запроса.

Обработка запросов

Выделяют следующие подходы к интеграции данных с использованием онтологии ([17], [27]): Подход с использованием единой онтологии. В этом случае онтологии информационных источников и каноническая онтология совпадают. Каноническая онтология может в этом случае быть комбинацией нескольких специализированных онтологии, при этом комбинирование может осуществляться для поддержки модульности потенциально большой онтологии. Такой подход обычно применяется для задач интеграции, когда все информационные источники, подлежащие интегрированию, обеспечивают практически одинаковое представление данных проблемной области. Но в тех случаях, когда один из источников имеет отличное от других представление данных, например, из-за применений другой степени детализации, проблема поиска минимальной онтологии является сложной задачей.

Такой подход чувствителен к изменениям в информационных источниках, которые могут повлиять на концептуализацию предметной области, описываемой онтологией. В зависимости от характера изменений в одном информационном источнике, может потребоваться изменения в канонической онтологии и отображениях в других информационных источниках.

Подход с использованием нескольких онтологии ([25]). В таких подходах, каждый информационный источник описывается своей собственной онтологией. У онтологии различных источников может не быть общего словаря. Для таких подходов требуется дополнительный механизм описания отображений между понятиями различных онтологии. Такой механизм идентифицирует семантически идентичные понятия онтологии различных источников. Но ещё он должен учитывать возможность того, что различные источники могут иметь различное представление данных, например отличающийся уровень детализации или по-разному представленные отношения. В [17] утверждается, что реализация такого подхода на практике является сложной задачей, поскольку приходится иметь дело с проблемами, вызванными разнородностью онтологии.

Гибридный подход был разработан для преодоления проблем, свойственных использованию методов интеграции с единой или несколькими онтологиями. Семантика данных каждого информационного источника описывается своей собственной онтологией, аналогично подходу с использованием нескольких онтологии. Но для того, чтобы можно было сравнивать онтологии различных источников, они строятся на основе единого, совместно используемого глобального словаря. Такой словарь состоит из базовых понятий (примитивов) предметной области. Для того, чтобы построить более сложные понятия, используется комбинирование этих примитивов с помощью различных операторов. Поскольку каждое понятие онтологии информационного источника построено на базе одних и тех же примитивов, эти понятия намного проще сравнивать между собой, чем в подходе с использованием нескольких онтологии. Иногда общий словарь сам является онтологией. Преимуществом такого подхода является то, что новые источники могут быть легко добавлены без необходимости модификации отображения или общего словаря. Недостатком такого подхода является то, что существующие онтологии источников не могут быть легко использованы, но должны быть разработаны заново с самого начала, поскольку понятия должны ссылаться на общий словарь.

В этой работе мы будем придерживаться подхода, похожего на подход с использованием единой онтологии. Будем считать, что существует общая схема данных, при этом схемы всех источников либо совпадают с ней, либо являются её расширениями. Расширением схемы будем называть дополнение её новым классом, свойством, либо дополнение области определения свойства (rdfs:range). При этом потенциально могут возникнуть семантические конфликты, например, когда источники, независимо друг от друга, расширяют каноническую схему одним и тем же понятием, но называют его по-разному. Подобных конфликтов можно избежать, если при расширениях схемы руководствоваться стандартами метаданных предметной области, в случае их наличия.

Для целей задачи интеграции в этом разделе описывается базовая схема, содержащая понятия, которые используются для построения схем данных,

соответствующих конкретным информационным источникам, и являются основой для семантической интеграции. Схема определяет следующие понятия:

Ресурс (metadata:resource). Ресурс можно охарактеризовать как единицу хранения: распределённый поиск рассматривает каждый источник как коллекцию ресурсов. Ресурс хранится в репозитории целиком: все его простые (rdfs:Literal) и составные свойства определены в том же репозитории, что и сам ресурс. У ресурса определено текстовое свойство "URI" - глобально-уникальный идентификатор, имя ресурса в системе. Среди свойств ресурса выделяются свойства, доступные для использования в поисковых выражениях.

Зависимый объект (metadata:dependent). Экземпляры данного класса являются составной частью ресурсов (отношение агрегации).

Связь: свойство, значением которого является ресурс. Связанный ресурс не обязан храниться в том же информационном источнике, в котором определён основной.

Вспомогательная метаинформация

Под локальным поиском понимается операция поиска данных, выполняемая в рамках одного информационного источника. Мы будем рассматривать операцию локального поиска только для источников, схема которых является расширением базовой схемы данных В, поскольку поиск рассчитан на работу с ресурсами, понятие которых вводится в базовой схеме. Введём следующие определения: Определение. Путём до значения (в схеме S) будем называть последовательность идентификаторов свойств pif Р2, рз—» PnC properties(S) таких, что: 1. range(pi)Esubclasses(S, metadata:resource); 2. Vi, l i n-l: domain(pi-i)crange(p); 3. domain(p„)GL

Путь до значения является такой последовательностью свойств, что область определения каждого последующего свойства включает область значений предыдущего, первое свойство принадлежит какому-либо ресурсу, область значений последнего свойства является классом литералов.

Определение. Атомарным запросом будет называть выражение вида: путь до значения = литерал Определение. Множеством запросов Q(S) будем называть множество, в которое входят следующие элементы: 1. атомарные запросы; 2. выражения вида qi & q2, eomqi, (\г Є Q; 3. выражения qі q2, еслиЦі, Оц Є Q; 4. выражения qi &л q2, если qi, q2 Є Q.

Множество запросов мы определяем как множество логических выражений над атомарными запросами. В свою очередь, атомарный запрос представляет собой запрос на поиск веет ресурсов, значение определённого атрибута которого удовлетворяет заданному ограничению.

Определение. Пусть задан граф данных G с RDFS схемой S. Будем говорить, что идентификатор Resubjects(G) удовлетворяет атомарному запросу, если: type(R)Gsubclasses(S, metadata:resource); Существует ПОСЛеДОВатеЛЬНОСТЬ Идентификаторов Гі, Г2, ...Гп-1, соответствующая пути Р = (Єї, ег, ..., еп) такая, что: n=R; Vrk, 2 k n-l: rk-i, ek, rk є G; гп-ь en литерал є G.

Определение. Пусть задан граф данных G с RDFS схемой S. Будем говорить, что множество идентификаторов R=(Ri, R2, -.-, Rn) удовлетворяет атомарному запросу qeQ(S), если оно состоит из всех элементов множества subjects(G), которые удовлетворяют запросу q, и только из них.

Определение. Пусть задан граф данных G с RDFS схемой S. Будем говорить, что идентификатор Resubjects(G) удовлетворяет запросу qeQ(S), если справедливо одно из следующих высказываний: q является атомарным запросом, R удовлетворяет Q; q является выражением вида qi & Цї, R удовлетворяет qi и q2; q является выражением вида qi (\г\ R удовлетворяет qi или q2; q является выражением вида qi д q?; R удовлетворяет qi и не удовлетворяет q2. Операцию локального поиска мы определим как функцию search(S, С, q), которая каждому запросу из множества Q ставит в соответствие множество удовлетворяющих ему идентификаторов.

Операцию совместного поиска можно охарактеризовать как поиск информации в нескольких узлах одновременно с последующей интеграцией результатов. Для операции совместного поиска задаётся запрос такого же вида, как и для локального поиска, вместе с коллекцией узлов, на которые следует разослать данный запрос. Важной особенностью операции совместного поиска является возможность поиска данных с учётом атрибутов связанных с ними объектов, притом, что связанные друг с другом ресурсы могут находиться на разных узлах. При этом допускаются как непосредственные связи, так и связи через произвольное количество промежуточных ресурсов.

Локальный поиск может, с точки зрения пользователя системы, не работать корректно в тех случаях, когда в запросе задаются условия на связанный объект, и удовлетворяющий им связанный объект находится в другом информационном источнике. В таких случаях информации в рамках локального источника недостаточно для выполнения запроса, и часть удовлетворяющих запросу ресурсов будет не найдена.

Если для локального поиска задача выполнения запроса ложится целиком на информационную систему (см. в разделе 2.4.1 метод построения SQL запросов, применяемый в реализации), то совместный поиск выполняется при взаимодействии нескольких информационных источников и посредника, роль которого играет программный компонент.

Распределённый (совместный) поиск

Форма состоит из следующих управляющих элементов; Список узлов с возможностью индивидуального выбора. Пользователь может самостоятельно выбрать серверы, на которых будет осуществляться поиск. По умолчанию, все серверы отмечены. Форма для ввода текста запроса. Опция «выбрать удалённые узлы автоматически на основе текста запроса» позволяет серверу не обращаться к узлам, на которых заведомо нет данных, подходящих под запрос. Данная функциональность достигается с помощью репликации «описателей коллекций». Опция «расширенный интерфейс представления результатов» позволяет следить за ходом выполнения запроса, и по умолчанию включена. Данная функциональность доступна не во всех браузерах.

Язык запросов

В простейшем случае поисковый запрос состоит из одного слова. Будут отображены все ресурсы, в атрибутах которого присутствует заданное слово. Пример простого запроса: "информатика".

В словах допускаются метасимволы (любое число любых символов) и (любой символ), так, например, запрос "информат%" найдёт ресурсы со словом "информатизация".

Слова запроса можно объединять логическими операциями & (И), (ИЛИ),! (НЕ), и скобками. Например, если нужно найти материалы одновременно по информатике и экономике, но не являющиеся учебниками, можно задать запрос "информат% & эконом % & ! (учебник)".

Имеется возможность указывать, к какому атрибуту ресурса должно относиться слово. Для этого перед термом следует указать название атрибута и знак равенства; список допустимых атрибутов доступен на странице http://enip.ras.ru/root/search/sample.html. Так, например, можно найти публикации, в названии которых есть слово "перспектива" с помощью запроса publicationTitlc/valuc- перспектива", или персон, в исторической справке которых есть слово "МГУ": "history/textContent=Mry".

Допускается поиск по связям: например, чтобы найти все публикации автора "Иванов", можно задать запрос "author/personName/last=4iBaHOB" или просто аиШог=Иванов\ Расширенный интерфейс представления результатов Страница расширенного интерфейса представления результатов выглядит следующим образом:

Её можно условно разделить на две области: Таблица полученных результатов. В таблице отображаются результаты выполнения запроса, полученные к настоящему моменту. В колонке «Ссылка» приводится название найденного ресурса, и ссылка на страницу просмотра. В поле «Источник» отображается название узла ЕНИП, которому принадлежит ресурс. Выделение узла источника в этой колонке курсивом означает, что результат был получен не от источника, а от кеша центрального узла. Такая ситуация возможна, если узел в данный момент не доступен, или он не был выбран для поиска. Последняя колонка содержит «вес» результата - численная оценка соответствия результата поисковому запросу.

В таблице результатов первые данные появляются не раньше, чем поступит первая группа результатов с каждого из участвующих узлов -это необходимо для правильной сортировки результатов по их весу. В процессе выполнения поиска таблица результатов может пополняться. Информация о количестве найденных результатов становится точной только после окончания выполнения запроса.

Статус выполнения запроса. В данной области для каждого участвующего ума отображается его состояние. Возможны следующие варианты:

Зелёная полоска - от узла получены все результаты поиска. На иллюстрации это - локальный кеш, ИСК РАН, БЕН РАН, ИМСС.

Красная полоска - обработка запроса завершилась с ошибкой. Возможно, в настоящее время узел недоступен.

Желтая полоска - идёт передача данных. Визуально объём переданных данных можно оценить по отношению закрашенной области к ширине полоски. На иллюстрации видно, что от узла ВЦ РАН к настоящему моменту передана примерно половина всех результатов.

Похожие диссертации на Интеграция и поиск распределённых данных на основе Semantic Web технологий