Введение к работе
Актуальность исследования. Электронные библиотеки (ЭБ) представляют собой информационные системы, позволяющие автоматизировать работу пользователей с различными видами электронных ресурсов (ЭР), например, такими, как документы, изображения, аудио и видеофайлы. В классических ЭБ ресурсы обычно описываются только с помощью различных метаданных их контекста, а их содержание (контент ресурса) представляется только в виде набора терминов. Это приводит к таким проблемам, как:
отсутствие у системы понимания смысла ресурсов из-за таких особенностей естественных языков, как синонимия, полисемия и омонимия;
слабая интеграция разнородных информационных ресурсов (таких, как ЭР, профили пользователей, схемы классификации предметных областей знаний и др.), описанных с использованием различных метаданных;
недостаточно высокая точность выполнения поиска, автоматической категоризации и формирования рекомендаций;
отсутствие удобных средств навигации между информационными ресурсами.
Решение перечисленных проблем и повышение качества предоставляемых сервисов ЭБ может быть достигнуто за счет описания смысла (семантики) содержания ЭР и реализации работы с ними путём использования моделей представления знаний, например, таких как семантические сети, фреймы или онтологии. В настоящее время более совершенными и выразительными считаются онтологические модели. Это объясняется тем, что они основываются на формальных (дескриптивных) логиках, и для работы с ними в рамках концепции Semantic Web разработан набор стандартных технологий, позволяющих создавать, описывать и использовать онтологические модели. К технологиям Semantic Web относятся такие языки, как RDF {Resource Description Framework), RDFS (RDF Schema), OWL (Ontology Web Language) и SPARQL (Simple Protocol And RDF Query Language). Кроме этого, разработано много программных систем для работы с онтологическими моделями (редакторы, системы логического вывода, RDF-хранилища и т.п.).
В мире уже активно ведутся исследования по использованию технологий Semantic Web в таких областях, как электронные библиотеки, интеграция и поиск информации в сети Интернет и системы управления знаниями. Перспективность данного направления подтверждается результатами исследований таких зарубежных учёных, как J.A. Hendler, S.R. Kruk, В. McDaniel, S. Linckels, С. Mainel, H. Bulskov и др., а также российских ученых: В.А. Серебрякова, A.F. Марчука, М.Р. Когаловского, Ю.А. Загорулъко, В.З. Ямполъского, А.Ф. Тузовско-го и др.
Однако до сих пор нет согласованного и обоснованного набора моделей и методов, позволяющих создавать и поддерживать работу с явным описанием семантики ЭР библиотеки. В связи с вышесказанным можно утверждать, что проблема создания ЭБ, позволяющих работать с семантикой ресурсов с использованием технологий Semantic Web, является актуальной и недостаточно исследованной.
Целью диссертационной работы является разработка методов, способов и алгоритмов решения задач функционирования электронных библиотек, основанных на явном описании семантики информационных ресурсов с использованием технологий Semantic Web для повышения качества предоставляемых сервисов.
Для достижения этой цели необходимо было решить следующие основные задачи:
-
Предложить подход к описанию информационных ресурсов электронных библиотек с использованием логических утверждений и онтологических моделей.
-
Разработать способ оценки семантической близости между метаописа-ниями электронных ресурсов и запросами пользователей.
-
Разработать способы семантического аннотирования, поиска, категоризации и формирования рекомендаций на основе метаописания электронных ресурсов и профилей пользователей.
-
Создать алгоритмы и программы, реализующие разработанные способы, и провести вычислительные эксперименты с целью выявления и повышения их эффективности.
Объектом исследования являются основные функции электронных библиотек, управляющих использованием информационных ресурсов.
Предметом исследования являются подходы и методы использования семантических технологий Semantic Web в электронных библиотеках для реализации информационных процессов на семантическом уровне.
Методы исследования. Для решения поставленных задач в работе использовались методы системного анализа и семантического моделирования, теории графов и множеств, теория экспертных оценок, объектно-ориентированного проектирования и программирования.
Научная новизна диссертационной работы заключается в следующем:
-
Предложены семантические модели информационных ресурсов электронных библиотек, отличающиеся явным описанием семантики не только контекста, но и контента с использованием наборов простых логических утверждений (триплетов) на основе единой онтологической модели, что позволяет управлять, интегрировать и выполнять навигацию между ними.
-
Разработаны способы оценки семантической близости между информационными ресурсами, учитывающие не только контекстные, но и контент-ные метаданные, что дает возможность более точно определять их сходство.
-
Предложены алгоритмы решения задач семантического поиска, автоматической категоризации и формирования рекомендаций, использующие семантические модели информационных ресурсов, что значительно повышает качество сервисов, предоставляемых электронной библиотекой.
Теоретическая значимость исследования заключается в том, что полученные в диссертационной работе результаты вносят вклад в развитие теории создания нового поколения информационных систем, основанных на онтологическом моделировании и технологиях Semantic Web.
Практическая ценность
-
Предложенные в работе модели, подходы и алгоритмы могут быть применены для создания программного обеспечения электронных библиотек на основе явного описания семантики ресурсов с использованием технологий Semantic Web.
-
Разработанные прототипы программных систем (SemDL [9] и SemARC [10]) могут быть использованы для реализации систем управления семантических электронных библиотек с использованием технологий Semantic Web.
Внедрение результатов работы
Разработанное программное обеспечение прошло опытную эксплуатацию в компании NAISCORP (г. Ханой, Вьетнам) в составе подсистемы управления электронными ресурсами и профилями сотрудников и в компании ООО «ТЗРО» (г. Томск, Россия) в составе электронной библиотеки организации.
Предложенные в диссертационной работе модели и алгоритмы также использованы в учебном процессе кафедры оптимизации систем управления Института кибернетики Томского политехнического университета.
Практическое использование результатов диссертационной работы подтверждено соответствующими актами внедрения.
Основные положения, выносимые на защиту:
-
Семантические модели информационных ресурсов электронных библиотек, отличающиеся явным описанием семантики не только контекста, но и контента с использованием наборов простых логических утверждений (триплетов) на основе единой онтологической модели.
-
Способы оценки семантической близости между информационными ресурсами, учитывающие не только контекстные, но и контентные метаданные.
-
Алгоритмы решения задач семантического поиска, автоматической категоризации и формирования рекомендаций, использующие семантические модели информационных ресурсов.
Личный вклад автора. Выносимые на защиту результаты получены автором самостоятельно. Постановка задач была выполнена автором совместно с научным руководителем.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих конференциях:
-
XV Всероссийская научная конференция RCDL'2013 «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (Ярославль, 2013).
-
IV Всероссийская конференция с международным участием «Знания -Онтологии - Теории» (Новосибирск, 2013).
-
XVIII Международная научно-практическая конференция студентов и молодых ученых «Современные техники и технологии» (Томск, 2012);
-
V и VI Всероссийские научно-практические конференции «Научная инициатива иностранных студентов и аспирантов российских вузов» (Томск, 2012,2013).
-
IX и X Всероссийские научно-практические конференции студентов,
аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2012, 2013).
Публикации. Основные результаты диссертационного исследования изложены в 10 печатных работах, в том числе в 5 статьях из списка рецензируемых журналов, рекомендованных ВАК РФ.
Структура и объем диссертации. Диссертация содержит введение, 4 главы, список литературы (130 наименований) и 7 приложений. Общий объем диссертации составляет 181 страницу, включая 9 таблиц и 45 рисунков.