Содержание к диссертации
Введение
Глава 1 Исследование современных справочных нис и определение требований, предъявляемых к интегрированным нис 27
1.1 Анализ недостатков существующих нис 27
1.2 Определение требований, предъявляемых к нис 28
1.3 Обзор наиболее близких решений 33
Выводы к главе 1 37
Глава 2 Информационная модель нис 38
2.1 Информационная модель нис 38
2.2 Информационная модель документа 44
2.3 Выбор схемы данных 47
2.4 Модель отношений между документами 51
Выводы к главе 2 59
Глава 3 Информационное хранилище 60
3.1 Выбор модели хранения коллекций .' 60
3.2 Уровень реализации хранилища данных 61
3.3 Отображение информационной модели отношений на реляционную модель 66
3.4 Представление информации на нескольких языках 70
3.5 Описание информационных коллекций 78
Выводы к главе 3 91
Глава 4 Реализация и внедрение 92
4.1 Технологические принципы реализации нис 92
4.2 Описание приложения "бд организаций и сотрудников со ран 100
4.3 Описание приложения "администратор бд организаций и сотрудников со ран" 112
Выводы к главе 4 117
Заключение
- Определение требований, предъявляемых к нис
- Информационная модель документа
- Уровень реализации хранилища данных
- Описание приложения "бд организаций и сотрудников со ран
Введение к работе
Актуальность исследования
Информационные ресурсы, переведенные в электронную форму, приобретают новое качество, которое обеспечивает им более широкое распространение и эффективное использование. Важными аспектами успешной научной деятельности являются информационная поддержка подготовки проектов, обеспечение научных мероприятий справочной информацией.
Необходимым условием деятельности для крупного территориально распределенного научного сообщества, такого как Сибирское отделение РАН (СО РАН), является доступ к управленческо-административным ресурсам (УАР). УАР [58] - это информация о структуре научных организаций, контактная информация, данные о руководстве организаций, научных сотрудниках, описания проектов и т.п. Поэтому построение научной информационно-справочной системы (НИС), предназначенной для предоставления доступа к УАР СО РАН, является актуальной задачей.
Существует большое число справочных информационных систем, функционирующих на серверах. организаций и хранящих информацию о научном сообществе, но эта информация разобщена по интерфейсам систем, что не дает возможности осуществления общего поиска по всем ресурсам. Необходимость объединения разрозненных научных информационных ресурсов в концептуально единую справочную информационную систему, обеспечения централизованного поиска и доступа через единый интерфейс к информации является актуальной задачей.
Не все имеющиеся справочные системы удовлетворяют требованиям интероперабельности, то есть способности к взаимодействию с другими информационными системами, что делает невозможным интеграцию ресурсов этих систем и осуществление единого поиска по всем ресурсам. Важным системообразующим элементом построения единой справочной системы является унификация доступа к совокупности источников информации, что позволяет создать у пользователя иллюзию объединенного источника информации. Для успешной интеграции ресурсов в справочную систему требуется преодолеть различия в форматах и структуре данных, поставляемых в нее из разных информационных источников.
Поэтому выработка технологических решений для построения единой информационно-справочной системы, обеспечивающей интеграцию существующих и вновь
5 создаваемых информационных ресурсов в общее информационное пространство, является актуальной задачей. Важнейшие аспекты этой задачи:
интеграция информационных ресурсов в единое пространство;
использование метаданных для описания информационных ресурсов;
применение открытых стандартов взаимодействия систем, поиска, обмена и представления информации.
При формировании своей содержательной информации НИС должна использовать информацию, которая находится в организациях СО РАН, например, такие информационные ресурсы как кадровые базы, информационные системы, содержащие управленческо-административную информацию.
Взаимодействие НИС с другими информационными системами может строиться на общих стандартах OSI, единых схемах данных, согласовании схем данных НИС и подключаемых информационных систем. Для обеспечения доступа должна быть решена доверительность на уровень поиска и сформулированы правила доступа, реализованные в НИС.
Разработанная НИС может быть использована как единая «точка входа» для доступа к различным ресурсам, создаваемых в организациях СО РАН, включая и кадровые базы.
Таким образом, при создании НИС были решены следующие важные задачи:
интеграция информационных ресурсов;
разработка удобного для пользователя интерфейса;
— соблюдение требований интероперабельности.
Для обеспечения решения этих задач была проделана следующая работа.
Построена модель документов, формализована структура обменных документов для обеспечения интероперабельности.
Построена модель взаимодействия НИС с другими системами.
Разработаны механизмы представления пользовательских интерфейсов НИС на основе шаблонов, описывающих способ визуализации информации.
Степень изученности проблемы
Идея сетевого и унифицированного доступа к справочным электронным ресурсам не нова.
Одним из крупных проектов построения единой справочной информационной системы была разработка рекомендаций Х.500, описывающего работу электронного справочника.
Рекомендации справочника3 Х.500 разработаны Международным телекоммуникационным союзом - ITU, как справочная служба для систем передачи сообщений на основе стандарта Х.400. Х.500 (ISO 9594) представляет собой группу стандартов и рекомендаций для построения справочников [68]. Первая его версия появилась в 1988 году, затем она дорабатывалась в 1993 и 1996 годах. Х.500 предлагает описание модели, услуги протоколов взаимодействия справочных систем и является частью модели взаимодействия открытых систем (ВОС, OSI). Главная его цель - обеспечить доступ различных систем (почтовых служб, систем выдачи сертификатов, электронной подписи) к единой справочной информации. С этой точки зрения Х.500, как и другие стандарты OSI, определяет правила "внешнего" поведения систем с минимальными предположениями об их внутреннем устройстве.
Справочник Х.500 может содержать сетевую информацию, адреса электронной почты, телефонные номера и другую информацию, например, касающуюся идентификации и авторизации пользователей. Услуги справочника могут предоставляться как другим приложениям, так и конечным пользователям. Человек может искать в справочнике номер телефона, а приложение - например, сетевой адрес какого-либо другого процесса.
Стандарт Х.500 появился, конечно же, не на пустом месте - у него есть предшественники, опыт использования которых был учтен в ходе разработки. Среди них важное место занимает протокол finger, при помощи которого пользователи ОС Unix получали информацию друг о друге.
Предшествующий опыт позволил сформулировать требования, предъявляемые к идеальному справочнику [33]. Он должен иметь:
децентрализованное управление: каждый сервер должен отвечать только за свою локальную часть базы справочника, чтобы обновление данных и сопровождение можно было выполнять немедленно;
мощные возможности поиска, позволяющие пользователям создавать запросы произвольной степени сложности;
единое глобальное пространство имен по аналогии с DNS ;
структурированный информационный каркас, допускающий локальные расширения;
3 В русскоязычной литературе встречается также термин "служба каталогов", однако, по мнению автора, он не
подчеркивает справочной специфики описываемой технологии.
4 DNS - служба доменных имен, основное предназначение которой - хранить информацию о соответствии IP-
адресов доменным именам и наоборот, а также множество других полезных сведений, например адреса сервера
почтового обмена для домена.
7 — стандартный интерфейс, единый протокол доступа. Приложения, нуждающиеся в
ресурсах справочника, должны производить запросы, используя стандартизированный
протокол, одинаковый для всех платформ.
Всем этим требованиям как раз и отвечают системы, построенные на основе рекомендаций Х.500.
Большие изменения в технологии Х.500 и в построении систем на базе этой технологии произошли в 1997 году [46]. Были приняты изменения в рекомендациях, которые позволяли использовать международные символьные наборы в справочниках. В литературе появился термин "распределенные глобальные" справочники (global distributed directory).
Глобальные распределенные справочники подразумевают справочники, в которых части информации размещены на различных серверах, объединенных по определенным правилам, и, с точки зрения пользователя, образуют единый логический каталог.
Доступ к справочникам, построенным по Х.500 технологии, осуществляется по протоколу DAP, имеющего все механизмы доступа к справочникам, включая реплицирование, механизмы защиты и другие. Протокол DAP реализован в ряде операционных систем, например, в Windows 2003 (Active Directory) и на отдельных платформах Unix.
Для доступа к справочникам в среде Internet в 1997 году был разработан протокол LDAP. Фактически создание протокола LDAP было попыткой приспособить стандарт Х.500 к стеку протоколов TCP/IP. LDAP отвечает только за доступ клиентских систем к каталогам Х.500, в то время как полное соответствие Х.500 предполагает наличие совместимости между серверами.
Этот прорыв, как в технологии построения глобальных справочников, так и в технологии доступа к ним, породил бурное развитие прикладных приложений на базе технологии Х.500.
В 1997 году был создан первый распределенный глобальный мировой справочник Challenge'97 [6]. Он был построен более чем на 30 серверах справочников, расположенных в 9 странах мира. При построении данного справочника использовалось программное обеспечение различных фирм производителей.
В России технологии Х.500 были применены для построения справочников, используемых в различных отраслях. Например, на Центральном телеграфе была создана "Единая Справочная Служба Главных телеграфных узлов" [45], которая представляет собой распределенную службу справочных серверов Х.500, содержащих адресную и другую дополнительную информацию о различных сетях и субъектах (организациях, фирмах,
8 частных лицах). В рамках Ассоциации документальной электросвязи построен справочник контактных координат людей и организаций АДЭ ().
Почти параллельно с Х.500 развивалась справочная информационная система WAIS5 [23], использовавшая простой язык -упРавления> близкий к естественному. WAIS базировалась на протоколе Z39.50, который описывает прикладной уровень взаимодействия распределенных информационно-поисковых систем. С развитием протокола HTTP6 WAIS была вытеснена системой поиска ресурсов WWW. Фактически Z39.50 - это протокол доступа к каталогам, а не к самим ресурсам. Поэтому WAIS - это система доступа к каталогам. (Каталог является более широким понятием, чем справочник)
В результате проводимых библиотекой конгресса США исследований и разрабо-
ток, технология WAIS превратилась в распределенную систему доступа к каталогам, содержащих каталожные карточки (метаданные) - описания некоторых неэлектронных информационных ресурсов, а протокол Z39.50 в 1998 году был принят как международный стандарт ISO-23950. Это сыграло ключевую роль в развитии распределенных систем доступа к каталогам и организации метаданных на базе стандарта Z39.50. В России наибольшее распространение протокол Z39.50 [43, 44] получил в системах доступа к библиотечным каталогам. При этом область применения протокола Z39.50 не ограничивается библиотечными каталогами. Поскольку справочник - это частный случай каталога, на базе протокола Z39.50 может быть организован доступ к справочникам, в которых может содержаться и административная информация.
Кроме того, существуют также не стандартизированные справочные информационные системы, функционирующие на серверах организаций, которые содержат информацию о научном сообществе, такую, как данные о публикациях, конференциях, проектах, информацию о структуре организаций, сотрудниках отдельных организаций, связях, совместных программах и т.п.
Особой разновидностью справочника являются системы доступа к каталогам библиотек, издательств и т.п.
В настоящее время в институтах СО РАН библиотечных ресурсов представлено мало. Библиотечные ресурсы представлены на сайтах отдельных институтов СО РАН. Библиотечные информационные системы имеются только в Государственной публичной научно-технической библиотеке г. Новосибирска (ГПНТБ) и Объединенном институте геологии, геофизики и минералогии СО РАН (ОИГГМ), и в некоторых библиотеках научных
5 WAIS (Wide Area Information Servers) - распределенная информационно-поисковая система сети Internet,
которая обеспечивает поиск документа по определенной теме на основе ключевых слов
6 HTTP (HyperText Transfer Protocol) - протокол прикладного уровня для распределенных, совместных,
многосредных информационных систем
9 центров, которые являются филиалами ГПНТБ. В ОИГГМ О.Л. Жижимовым и А.Н. Мазовым был создан корпоративный каталог библиотек Новосибирска и Сибири, работающий на базе протокола Z39.50 [44]. Этот каталог интегрирует электронные каталоги библиотек Новосибирска: ГПНТБ, Областной научной библиотеки и крупных библиотек в других городах Сибири [35].
В издательстве СО РАН автором диссертации был разработан сводный электронный полнотекстовый каталог журналов и электронный каталог книг, выпускаемых в СО РАН.
Примером НИС является Интегрированная система информационных ресурсов Российской Академии Наук (ИСИР РАН) созданная коллективом ученых под руководством В.А. Серебрякова [42]. Основной целью проекта ИСИР РАН являлась разработка концептуальной структуры для интеграции разнородных информационных и вычислительных ресурсов РАН в единое информационное пространство. Текущая версия ИСИР РАН реализована как информационно-поисковый справочник РАН, ориентированный на накопление и предоставление оперативной научно-административной информации. ИСИР РАН обеспечивает доступ к данным об институтах, ученых, проектах, публикациях.
Коллективом, возглавляемым СИ. Париновым, была разработана система "Соционет", которая содержит информацию о различных информационных ресурсах [67]. Среди них архивы электронных публикаций, оглавления онлайновых журналов, каталоги новых поступлений библиотек, планы издательств и др., информация об организациях, персонах.
На сервере ГосНИИ информационных технологий и телекоммуникаций М.В. Булгаковым и С.С. Внотченко создана информационная система "Информика", содержащая ряд баз данных по организациям, персонам, технологиям, конференциям в Российской Федерации, журналам и газетам в сфере образования и информационных технологий [38]. С точки зрения структуры информации - это наиболее полная система, предназначенная для информационной поддержки научно-образовательного сообщества.
Зарубежными учеными также ведутся разработки НИС.
Хельсинский университет технологий (Helsinki University of Technology, HUT) создал информационную систему для отчетной деятельности о событиях, видах деятельности, и другой. научной информации о проводимых университетом исследованиях. Следует отметить, что HUT удалось интегрировать в одну информационную систему и связать процессы научной и учебной деятельности [31].
Шью (Shyu), Ю-Мей (Yuh-Mei), Чию-Фэнг (Chiu-Fang) [29] была создана информационная система для обеспечения информационных потребностей управления наукой и прикладными исследованиями Government Research Bulletin (GRB). Предложена
10 схема жизненного цикла информации о проектах, в которой участвуют как ученые, так и академические и правительственные чиновники. Система интегрирует данные о проектах, отчетах, патентах, исследователях.
А. Ассерсон (A. Asserson), К. Джеффери (К. Jeffery), А. Лопатенко (A. Lopatenko) была разработана модель ИСС на базе стандарта CERIF для описания научных ресурсов и научных баз данных [1].
Проведенный анализ показал, что в настоящее время существуют различные рекомендации и стандарты построения справочных систем. Также в научных учреждениях ведутся работы по созданию электронных справочных информационных ресурсов, в том числе и с использованием Интернет-технологий. Однако для того, чтобы придать этому процессу системный характер, облегчить поиск необходимых ресурсов, необходимо, на наш взгляд, перейти к созданию интегрированных информационных систем научных учреждений, построенных на основе согласованных стандартов и с применением современных информационных технологий.
Цель диссертационной работы состоит в выработке технологических решений построения НИС, которые допускают как интеграцию разнородных информационных ресурсов, так и интеграцию с другими информационными системами.
Для достижения этой цели решены следующие основные задачи:
Исследованы современные справочные информационные системы и определены требования, предъявляемые к информационным системам для построения интегрированных НИС.
Проведен анализ существующих технологий, протоколов и стандартов в области проектирования и построения информационно-справочных систем с доступом через Internet.
Разработана модель информационных процессов в НИС.
Определены схемы данных для представления информации рассматриваемой предметной области.
Реализована прикладная логика и пользовательские интерфейсы НИС, обеспечивающие выполнение предъявляемых требований. Построена НИС на основе объектной модели документа, поддерживающая много языков (как для интерфейсов, так и для хранимых документов), предоставляющая удобные интерфейсы для поиска, просмотра, редактирования документов и обеспечивающая разные права доступа к документам для разных категорий пользователей.
Исходя из поставленных целей в работе были получены следующие основные результаты.
Построена структурированная модель документа и предложена информационная модель представления документа в системе на основе коллекционного подхода. Информационная система рассматривается как множество связанных различными отношениями документов. Документ обладает структурой и содержанием. Структура документа - это набор структурных элементов. Содержание документа - объединение значений экземпляров элементов, составляющих документ. Коллекция - это множество документов, обладающих одинаковой структурой и одинаковой содержательной направленностью. Эта модель не зависит от конкретной предметной области и может быть адаптирована к другой предметной области путем введения метаданных.
Предложена многоуровневая модель информационных процессов, обеспечивающая функционирование многопользовательской НИС и интероперабельность с другими системами.
Модель информационных процессов имеет пять уровней:
уровень хранения выполняет выборку информации из информационного хранилища;
уровень коллекции выполняет вычисление отношений и подтверждение прав доступа запроса к документу на уровне его структуры;
уровень обмена выполняет генерацию внутреннего представления документа;
уровень отбора выполняет отбор необходимых элементов документа на основании запроса и прав доступа;
уровень презентации генерирует презентационное представление документа в виде, удобном для представления пользователю.
Предложена модель описания отношений между документами, даны примеры отображения модели отношений в общепринятые модели представления информационных структур (реляционная, графовая модели). Для описания отношений между документами в НИС выбран язык описания структурированной информации RDF7. Отношения в НИС выстраиваются на уровне элементов, определяющих структуру документов.
Предложена реализация НИС в виде следующих коллекций документов:
— коллекций, содержащих основную информацию в системе - «Персоны» и «Организации»;
7 RDF (Resource Description Framework) - Схема описания ресурсов, стандарт RDF. Основанный на языке XML стандарт, утвержденный консорциумом W3C. Вводит правила создания метаданных, позволяет стандартным образом описывать содержание ресурсов Интернет.
12 — дополнительных коллекций, включающих в себя
о коллекцию «Неструктурированные документы», содержащую дополнительную
информацию, как по персонам, так и по организациям; о коллекцию «Каталог» (публикаций, проектов и т.д.). На основе международных стандартов и рекомендаций выбраны следующие схемы данных для описания структуры документов в коллекциях: для представления персон и организаций - схемы данных Dublin Core8 (DC) и LDAP, а для дополнительных коллекций - схема данных Dublin Core. Количество коллекций в системе может быть расширено при необходимости.
Реализована модель информационного хранилища, предоставляющего по запросу доступ к таблицам, соответствующим одной коллекции, которые могут быть распределены по сети.
Разработанные технологические принципы реализованы в ИС «База данных организаций и сотрудников СО РАН», и применены в «Электронном полнотекстовом каталоге журналов» и «Электронном каталоге книг» для Издательства СО РАН.
На защиту выносятся следующие положения:
Предложены технологические требования, предъявляемые к основным элементам реализации НИС, позволяющие создавать интегрированные НИС, которые обеспечивают доступ через Интернет к разнородным информационным ресурсам.
Предложена информационная модель представления документов в системе, построенная на основе коллекционного подхода, которая не зависит от конкретной предметной области. На основе международных стандартов и рекомендаций обоснован выбор схем данных, позволяющих описывать структуры документов в коллекциях НИС.
Предложена новая многоуровневая модель процессов в НИС, разработанная на основе современных международных стандартов взаимодействия открытых систем, которая обеспечивает функционирование многопользовательской НИС и интероперабельность с другими системами. Предложена информационная модель отношений между документами, построенная на основе RDF, позволяющая описывать отношения между персонами и организациями, персонами и проектами, организациями и подразделениями и т.п. Построена модель информационного хранилища, позволяющая реализовать доступ к распределенным БД.
На основе выработанных технологических решений разработаны научные информационно-справочные системы:
8 Dublin Core - Стандарт метаданных Дублинского ядра (Dublin Core), набор элементов для описания широкого спектра сетевых ресурсов.
«База данных организаций и сотрудников СО РАН», которая предоставляет доступ к справочной управленческо-административной информации СО РАН;
«Электронный полнотекстовый каталог журналов», который предоставляет доступ к аннотациям и полным текстам статей из научных журналов, издаваемых в СО РАН;
«Электронный каталог книп>, который предоставляет доступ к описаниям учебников, научных и научно-популярных книг, издаваемых в СО РАН, с возможностью заказа книг.
Научная новизна работы связана с разработкой технологии построения НИС.
Предложены технологические требования, предъявляемые к.основным элементам реализации НИС, которые должны учитываться при построении интегрированных НИС.
Впервые в научных справочных информационных системах был применен коллекционный подход для представления документов в системе, позволяющий настраиваться на требуемую предметную область информационно-справочной системы.
Впервые предложена многоуровневая модель информационных процессов, обеспечивающая функционирование многопользовательской НИС и интероперабельность с другими системами.
Разработана информационная модель отношений между документами, позволяющая описывать отношения между персонами и организациями, персонами и проектами, организациями и подразделениями.
Практическая ценность
Предложенная информационная модель НИС реализована в информационной системе «База данных организаций и сотрудников СО РАН», а также в «Электронном полнотекстовом каталоге журналов» и «Электронном каталоге книг» для Издательства СО РАН.
Исходя из технологических требований к НИС, разработанная технология их построения может быть перенесена на другую предметную область. Примером такого переноса являются созданные автором «Электронный полнотекстовый каталог журналов» и «Электронный каталог книг» для Издательства СО РАН.
Достоверность и обоснованность результатов диссертационной работы подтверждаются:
1. Результатами анализа существующих технологий, протоколов и стандартов в области
проектирования и построения информационно-справочных систем с доступом через
Internet. . .
Результатами анализа существующих научных информационно-справочных систем на соответствие технологическим требованиям.
Теоретическим обоснованием построенных моделей НИС.
Успешным практическим использованием системы «БД организаций и сотрудников СО РАН», заполнение которой осуществляется Президиумом СО РАН, отделами кадров институтов СО РАН.
Успешным практическим использованием в Издательстве СО РАН «Электронного полнотекстового каталога журналов» (содержит 18 журналов) и «Электронного каталога книг» (содержит информацию о ~ 800 книгах).
Признанием достижений автора на конференциях и присуждением автору диплома второй степени конкурса молодых ученых, проведенного администрацией Новосибирской области в 2002 г.
Личный вклад автора. Основные результаты, представленные в работе, получены непосредственно автором, а именно: технологические требования, предъявляемые к НИС, структурированная модель документа, модель представления отношений между документами, модель информационных процессов, обоснование выбора схем данных для описания структуры документов, модель информационного хранилища, информационные системы «БД организаций и сотрудников СО РАН», «Электронный полнотекстовый каталог журналов» и «Электронный каталог книг» для Издательства СО РАН.
Апробация работы Научные результаты, изложенные в диссертации докладывались на следующих конференциях.
Конференция молодых ученых, посвященная 10-летию ИВТ СО РАН, Новосибирск, 2000;
VI-ое Международное рабочее совещание по электронным публикациям (El-Pub2001), Новосибирск, 2001;
Конференция, посвященная 90-летию со дня рождения А.А. Ляпунова, Новосибирск, 2001;
Конференция молодых ученых по математике, математическому моделированию и информатике, Новосибирск, 2001;
Международная конференция «Вычислительные технологии и математическое моделирование в науке, технике и образовании», Алма-Ата, 2002;
Международная конференция молодых ученых по математическому моделированию и информационным технологиям, Новосибирск, 2002;
УП-ая Международная конференция по электронным публикациям " El-Pub2002", Новосибирск, 2002;
Четвертая Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Дубна, 2002;
Международная конференция "Вычислительные и информационные технологии в науке, технике и образовании", Усть-Каменогорск, 2003;
УШ-ая Международная конференция по электронным публикациям "El-Pub2003", Новосибирск, 2003;
Г/-ая Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям, Красноярск, 2003;
Ш-я Всероссийская конференция «Математика, информатика, управление», посвященная памяти профессора О.В. Васильева, Иркутск, 2004;
13.1Х-ое Международное рабочее совещание по электронным публикациям (El-Pub2004),
Новосибирск, 2004; 14. Международная конференция "Вычислительные и информационные технологии в науке, технике и образовании", Алма-Ата, 2004.
Работа «Интегрированная информационная система научного сообщества» в 2002 г. была награждена дипломом второй степени конкурса молодых ученых, проведенного администрацией Новосибирской области.
Публикации. По теме диссертации опубликовано 17 печатных работ из них 8 тезисов.
Структура и объем работы
Диссертация состоит из введения, 4 глав, заключения, списка цитированной литературы, 5-ти приложений. Основное содержание работы изложено на 128 страницах текста, содержит 46 рисунков, 7 таблиц. Список цитированной .литературы включает 71 наименование.
Во введении обосновывается актуальность темы диссертационной работы, рассматривается изученность проблемы, представляются цель и задачи исследования. Определяются научная новизна и практическая значимость, приводятся основные результаты работы. Также формулируются основные положения, выдвигаемые на защиту.
Первая глава посвящена исследованию современных справочных НИС и определению требований, предъявляемых к интегрированным НИС.
В разделе 1.1 определены и охарактеризованы недостатки некоторых-функционирующих НИС. Обозначена проблема, связанная с обновлением информации функционирующих НИС - ее актуализация. Для решения проблемы актуализации в
информационно-справочных системах предлагается располагать информацию таким
образом, чтобы она сопровождалась (администрировалась) непосредственно людьми,
собирающими эту информацию на местах, например администраторами институтов, т.е.
информация должна собираться там, где она образуется. '
В разделе 1.2 обозначены задачи, которые должна решать НИС и сформулированы требования потенциальных пользователей НИС. На основании пользовательских требований определены технологические требования, предъявляемые к основным элементам реализации НИС:
1. Распределенность. Информация должна храниться там, где образуется (например, на
разных компьютерах, распределенных в сети, в разных таблицах), но вся обработка
информации должна выполняться центральным диспетчером, т.е. система должна
быть централизованно-распределенной. Распределенность нужна только в некоторых
случаях:
при необходимости хранения документов в месте их создания;
если некоторые части НИС являются уже существующими ИС, такими, как кадровые базы.
Соответственно для обеспечения интеграции ресурсов НИС СО РАН должна допускать возможность работы с коллекциями, расположенными на различных серверах, различных аппаратно-программных платформах. Коллекция состоит из таблиц, имеющих одинаковую логическую структуру.
Децентрализация. Коллекции и/или их части могут администрироваться различными людьми, обеспечивающими актуализацию информации. НИС должна предоставлять различные уровни административных прав по доступу к информации. Например, администратор системы имеет полный доступ к информационным ресурсам системы, а администратор подразделения может модифицировать только информацию о своем подразделении.
Сопряжение с другими системами. Это требование вытекает, в том числе, из распределенности.
Должен использоваться унифицированный интерфейс запроса и ответа, позволяющий интегрировать ресурсы НИС с другими системами. Приложение должно взаимодействовать с НИС, которая перенаправляет запросы информационному хранилищу, используя унифицированный формат запроса (именованный запрос) и получать результат в унифицированном формате, например XML (extensible Markup Language - расширяемый язык для разметки текстовой информации).
4. Открытость и расширяемость. В качестве интеграционной основы информационная
система должна использовать принципы открытых систем, суть которых состоит в
обеспечении совместимости используемых программных компонентов за счет
применения развивающихся, общедоступных и общепризнанных стандартов на
продукты информационных технологий. Поэтому общая схема системы должна
удовлетворять двум основным требованиям:
иметь многоуровневую структуру, аналогичную иерархической модели открытых систехМ (OSI - Open System Interconnect);
должна быть основана на метаданных для описания структуры и содержания ресурсов, что сразу обеспечит выполнение требования сопряжения с другими системами. Для выполнения этого требования необходимо при подключении таблиц использовать единый стандарт именования полей (схемы данных, например, LDAP для персон) или использовать таблицу соответствия полей. Также необходимо использовать унифицированные словари значений для унификации ввода информации и организации поиска. При подключении таблицы должны быть приведены в соответствие с существующими словарями.
Независимость системы от структуры коллекции. Настройка НИС на работу с другой коллекцией должна выполняться без изменения программного кода системы, что достигается использованием метаданных. НИС может работать с коллекцией, если документы коллекции имеют правильное метаописание.
Обеспечение навигации между документами на основе классификационных признаков и связей. Это требование не является принципиальным.
Метапоиск обеспечивается выполнением трех требований:
объединение распределенных таблиц при поиске, что обусловлено требованием распределенности, и достигается использованием метаданных. При поиске система должна настраиваться по метаописанию на зарегистрированные в ней таблицы и выполнять одновременный поиск по всем этим таблицам. Полученные в результате поиска данные, должны обрабатываться системой (извлечение данных для внешнего представления, сортировка и т.п.).
использование различных видов атрибутного поиска, что обусловлено справочным
назначением системы:
— поиск по словарю (тематический) обладает большей точностью и полнотой по сравнению с простым контекстным поиском, так как позволяет искать документы по заданной теме;
— поиск с учетом синонимов с одной стороны увеличивает полноту выборки, а с
другой стороны увеличивает объем "шума". Однако в некоторых случаях он
просто необходим, например, в случае различных сокращений может иметься
несколько вариантов написания слова;
3) применение каталогизации, которая необходима для более точного описания документов, что облегчает их поиск. Документ в своей структуре наряду с информационным содержанием должен содержать элементы каталожной карточки
- описательные метаданные, такие как автор, название, дата создания и т.д.,
используемые при организации поиска не по пространству первичных
документов, а по их описаниям.
На основании проведенного анализа некоторых функционирующих НИС (ЕНИП, Соционет, Информика) выявлено, что ни одна из рассмотренных НИС не удовлетворяет в полной мере сформулированным технологическим требованиям, предъявляемых к построению интегрированных НИС. Это обстоятельство приводит к необходимости разработки собственной НИС, которая соответствовала бы сформулированным требованиям.
Вторая глава посвящена разработке информационной модели НИС.
В разделе 2.1 рассматривается информационная модель представления документов в системе. НИС представляется как множество связанных различными отношениями документов. Даются определения документа и коллекции.
Документом di называется пара: */,= ,
-где Si - структура документа в соответствии с выбранной схемой данных;
Vi - содержание документа (информационное наполнение). В НИС документом является информационный ресурс, которому приписаны структурные метаданные.
Коллекция - это множество документов с выделенной фиксированной структурой, содержание которых имеет одинаковую тематическую направленность. Унифицированность работы с документами достигается благодаря тому, что документы, принадлежащие одной коллекции, имеют одинаковые структурные метаданные. Описывается модель информационных потоков в НИС, имеющая пять уровней. Движение информации между уровнями осуществляется в обе стороны, что обеспечивает возможность, как презентации информации, так и внесения изменений.
Функционирование информационной модели потоков при направлении движения информации "уровень презентации - уровень хранения" представлено следующим образом:
"Уровень хранения" - выполняет выборку информации из информационного хранилища.
"Уровень коллекции" - выполняет вычисление отношений и подтверждение прав доступа запроса к документу на уровне его структуры.
"Уровень обмена" - выполняет генерацию внутреннего представления документа. Внутреннее представление - это промежуточный документ, содержащий полный набор элементов (без учета прав доступа) в обменном формате (содержащий в себе описание структуры данных и сами данные) для внешних запросов. Для выполнения поиска и каталогизации ИС необходим доступ к документу, содержащему полную информацию, вне зависимости от прав. Кроме того, при выполнении обмена информацией между различными системами также необходимо передавать полный документ.
"Уровень отбора" - на основании запроса и прав доступа выполняет отбор необходимых элементов документа {усеченный документ). Усеченный документ необходим при просмотре документа.
"Уровень презентации" - генерирует презентационное представление документа в виде, удобном для пользователя.
В разделе 2.2 приводится описание структурированной модели документа. Даются основные определения.
Схема данных — совокупность элементов, имена которых фиксированы. Элемент схемы данных коллекции называется структурный элементом (далее просто элемент). Элемент имеет идентификатор и обладает некоторыми свойствами, определяющими характер работы с элементом. Тип элемента является его свойством. Экземпляр элемента имеет значение (или содержание). Структура документа - это набор элементов. Содержание документа — объединение значений экземпляров элементов, составляющих документ.
На множестве значений элементов могут быть заданы функции. Основным предназначением функций является генерация виртуальных элементов, например, преобразование имени, отчества в инициалы. Здесь совокупность двух элементов отображается в новый элемент, отсутствующий в системе, но определенный в схеме данных.
Документ может быть простым или сложным. Простой документ, в отличие от сложного, не имеет связей с другими документами.
В разделе 2.3 обосновывается выбор схем данных для описания структуры документов.
НИС содержит следующие коллекции:
— коллекции, содержащие основную информацию в системе - «Персоны» и «Организации»;
— дополнительные коллекции, включающие в себя
коллекцию «Неструктурированные документы», содержащая дополнительную информацию, как по персонам, так и по организациям:
коллекцию «Каталог» (публикаций, проектов и т.д.).
Дополнительные коллекции могут быть и внешними по отношению к НИС, например, «БД основных разработок институтов СО РАН».
Имена элементов схемы данных формируются в соответствии с требованиями международных стандартов (если они есть). Для представления персон и организаций выбраны схема данных Dublin Core (стандарт метаданных Дублинского ядра, набор элементов для описания широкого спектра сетевых ресурсов) и схема данных LDAP, а для дополнительных коллекций - схема данных Dublin Core.
В разделе 2.4 рассматривается модель описания отношений между документами. В основу нашей модели отношений между документами в НИС легла модель RDF (Resource Description Framework). Основное отличие предлагаемой модели от модели RDF состоит в том, что выстраиваемые в НИС отношения переносятся на уровень элементов, определяющих структуру документов. В НИС само отношение определяется не ресурсом, а структурными метаданными коллекций документов системы.
В НИС связи между документами устанавливаются путем задания на множестве документов бинарных отношений, которые в соответствии с правилами RDF могут быть записаны в виде A(R,V): объект R имеет атрибут А со значением V. Например, тот факт, что Иванов А.И. занимает некоторую должность (post) в ИВТ СО РАН, записывается как Post('HBT СО РАН', 'Иванов А.И.'), где Post -то или иное значение из списка (тезауруса) должностей. В НИС выделяются два вида отношений:
— Отношение порядка между документами, выстраивающее иерархию подчинения в
коллекции, например отношение подчиненности между документами в коллекции
«Организации»: Head ('ИВТ СО РАН', 'НИЦ').
Отметим, что такой тип отношения предполагает установление только односторонней связи между документами.
— Отношение связи между документами, например отношение "принадлежности"
между документами коллекции «Организации» и документами коллекции «Персоны»:
Post ('ИВТ СО РАН', 'Иванов А.И.'). Этот тип отношения допускает установление двусторонней связи между документами, в том смысле, что одновременно может существовать и обратная связь, например Position
('Иванов А.И.', 'ИВТ СО РАН'). Направленность связи определяется порядком записи
аргументов отношения A(R,V). Отношения первого типа, как правило, имеют не более одного атрибута, например "тип подчинения" (территориальное, научно-методическое и т.д.).
Отношения второго типа, как правило, имеют несколько дополнительных атрибутов. Например, отношение "Post" не просто описывает принадлежность персоны к организации, но и обладает следующими атрибутами: название должности, ключевые слова, дата назначения, дата освобождения от должности, видимость документа и др.
Для отношения A(R,V) аргументом R называется головной документ, а V - подчиненный документ. В НИС выделено четыре вида отношений и все они - отношения типа "головной-подчиненный". В документе можно выделить два вида элементов:
элементы, содержание которых не зависит от значений атрибутов отношения;
элементы, содержание которых может зависеть от значений атрибутов отношения (например, от должности персоны в организации зависит служебная информация).
Заметим, что элементы второго вида могут содержать списки ссылок на другие документы, списки вставок.
В третьей главе приводится описание информационного хранилища.
В разделе 3.1 дается обоснование выбора реляционной модели для модели хранения коллекций.
В разделе 3.2 описана реализация информационного хранилища, которое представляет собой надстройку над СУБД, по запросу предоставляющую доступ к таблицам, соответствующим одной коллекции, которые могут быть распределены по сети. В этом же разделе формулируются технологические принципы построения информационного хранилища:
Регистрация. В системе выполняется определение прав доступа и физического расположения базы данных. Базе данных сопоставляется соответствующий идентификатор для доступа к ней в системе, физический адрес в сети, права и пароли доступа.
Именование. К системе могут подключаться различные таблицы, которые могут не соответствовать стандартной схеме данных коллекции. На уровне именования выполняется установление взаимосвязи между стандартной схемой данных коллекции и схемой данных конкретной таблицы.
22 3) Провайдер данных. Использование провайдера данных позволяет приложению абстрагироваться от типа СУБД, под которыми функционируют конкретные базы данных в информационном хранилище. Другими словами, приложение обращается к провайдеру^ данных стандартным образом, а провайдер данных уже обращается к конкретной СУБД. Здесь же описана реализация технологических принципов в информационном хранилище и взаимодействие с базой данных. Провайдер данных представляет собой совокупность Ядра и набора драйверов. Коллекция направляет именованные запросы провайдеру данных. . Именованный запрос отличается от SQL-запроса тем, что в нем указываются не реальные названия таблиц и полей, а названия стандартной схемы данных. Ядро, приняв именованный запрос от коллекции, в зависимости от метода доступа конвертирует его в синтаксис SQL-запроса к конкретной базе данных. Далее Ядро активизирует определенный драйвер этого типа БД и передает ему SQL-запрос для выполнения.
В разделе 3.3 дается отображение информационной модели отношений на реляционную модель. Для представления отношений в информационном хранилище выбран способ "таблица на свойство", в котором для каждого отношения строится своя матрица инцидентности. Такая модель представления отношений отвечает предъявляемым требованиям к системе, поскольку такое представление является унифицированным и не зависит от конкретного свойства и позволяет моделировать как отношения, так и дополнительные свойства, которые, как правило, появляются в процессе существования системы. Тем самым появление новых свойств не отражается на общей целостности системы.
В разделе 3.4 на основе модели отношений описывается представление информации на нескольких языках. Свойство-отношение "язык" - отношение первого типа. В документах НИС выделяются два типа элементов:
элементы, содержание которых не зависит от языка;
элементы, содержание которых зависит от языка.
Для НИС построена модель представления многоязычной информации, которая является аналогом модели представления многоязычной информации в тезаурусе, модифицированной с учетом модели документа. Рассматривается модель представления многоязычной информации в информационных коллекциях и словарях и ее отображение на реляционную модель.
В разделе 3.5 описываются информационные. коллекции. Приведено описание схем данных информационных коллекций. Описывается представление свойств-отношений (второго типа) в документах на примере свойства "Position".
Персона может занимать различные позиции: быть автором или редактором публикации, занимать некоторую должность в организации, быть председателем или членом совета и т.д.
В документах коллекции «Персоны» выделяются два вида элементов:
элементы, содержание которых не зависит от позиции персоны в организации;
элементы, содержание которых зависит от позиции персоны в организации (служебная информация).
Отмечено, что элементы второго вида, как правило, являются множественными. Все версии служебной информации персоны содержатся во внутреннем. представлении документа. При запросе выбирается нужная версия служебной информации. В этом же разделе приводится реляционное представление информационных коллекций. Также описывается тезаурус «Position», применяемый для классификации отношений между персонами и организациями. Тезаурус «Position» содержит список наименований позиций и отношения между ними, существующих в рамках научных организаций. Тезаурус «Position», прежде всего, необходим:
для именования отношения принадлежности персоны к организации;
для группировки (сортировки) персон по должностям.
Часть из позиций являются должностями, а часть - названиями групп должностей.
В четвертой главе содержится описание программного обеспечения с использованием представленной в работе технологии построения НИС
В разделе 4.1 рассматриваются технологические принципы построения НИС. Технологическая часть НИС основывается на многоуровневой модели клиент-сервер. НИС реализована в виде Web-приложения и функционирует в режиме запрос-ответ. В информационной модели НИС внутреннее представление документа отделено от презентационного представления документа, поэтому при реализации НИС вьщеляются два компонента:
ядро НИС (далее ядро), обеспечивающее работу клиентов с НИС;
приложения НИС (далее приложения), реализующие клиентские запросы и формирование человеко-машинного интерфейса, который обеспечивает работу пользователей с НИС. Приложения посылают запрос ядру НИС согласно протоколу запроса.
Реализованными приложениями являются:
— информационная система «БД организаций и сотрудников СО РАН»;
«Электронный полнотекстовый каталог журналов» и «Электронный каталог книг» для Издательства СО РАН
приложения, предназначенные для сборки составных документов.
Ядро предоставляет интерфейсы для выполнения запросов от приложений. Реализованы интерфейсы, поддерживающие выполнение следующих запросов от приложений:
запрос на выдачу списка документов из коллекции (персон, организаций, должностей, метаданных и т.д.);
запрос на выдачу документа из коллекции (о персоне, организации, метаданных элемента и т.д.);
запрос на обновление документа в коллекции (добавление, исправление, удаление) информации;
По функциональному назначению интерфейсы ядра НИС разбиваются на два типа:
интерфейсы для извлечения информации - получают запрос от приложения, а в качестве ответа возвращают внутреннее представление документа (ВПД);
интерфейсы для модификации информации - получают запрос от приложения, выполняют операцию над документом (исправление, удаление, добавление) и возвращают стандартный ответ, соответствующий успешному или неуспешному выполнению запроса.
При выполнении запроса на извлечение информации работа приложения разделяется на три этапа:
формирование запроса через человеко-машинный интерфейс;
извлечение ВПД из хранилища;
обработка приложением управляющих параметров шаблона и генерация презентационного представления документа.
В разделе 4.2 описывается информационная система "База данных организаций и сотрудников СО РАН". Стартовая страница информационной системы содержит переключатель между русскоязычной и англоязычной версиями и ссылки на четыре раздела:
Список организаций;
Поиск сотрудников СО РАН;
Поиск организаций СО РАН;
Авторизованный вход.
Первые три раздела предназначены для доступа к публичной информации и относятся к пользовательской части системы. Последний раздел относится к административной части системы.
25 Пользовательская часть ИС обеспечивает следующие возможности:
Просмотр информации и навигацию по структуре;
Поиск информации по запросам и просмотр выданной по запросам информации. Раздел "Список организаций" отражает организационно-структурное деление СО РАН. Навигация позволяет получить информацию о научно-методическом подчинении и структурных подразделениях СО РАН, обеспечивает доступ к информационным ресурсам этих подразделений, к информации об основных направлениях деятельности подразделений, к данным об администрации и о сотрудниках подразделений.
Страница данного раздела обеспечивает навигацию по структуре зависимостей иерархической модели подчинения, сходящейся к одному подразделению или человеку. Связи подчинения могут быть следующих типов:
территориальное подчинение;
научно-методическое подчинение;
административное (юридическое) подчинение.
Навигационная часть ИС (навигатор) построена по принципу тезауруса и позволяет пользователю перемещаться по иерархии дерева, начиная от корня.
Когда пользователь перемещается по узлам дерева, то на странице ИС он видит семантическую информацию текущего узла (организация) и список подчиненных узлов дерева (подчиненные подразделения), представленный гиперссылками. Выбрав нужную гиперссылку, пользователь может открыть страницу подразделения, содержащую информацию об этом подразделении и его структуре.
На странице организации имеется раздел "Администрация", содержащий ссылку на документ с информацией о руководящем составе и сотрудниках организации. Списки сотрудников формируются в соответствии с правилами выдачи и сортировки:
для каждого элемента списка выдается краткая визитная карточка сотрудника или ФИО со ссылкой на полную визитную карточку сотрудника, выдаваемую по шаблону сотрудника;
используется сортировка сотрудников по должностям в соответствии с тезаурусом «Position».
Определение требований, предъявляемых к нис
НИС предназначена для решения следующих задач:
— Интеграция информационных ресурсов в единое пространство. Например, во всех организациях есть кадровые базы - ресурсы, которые в настоящее время в большинстве случаев слабоструктурированы, не имеют стандартизированного электронного представления и унифицированного доступа. Задача НИС - интегрировать эти ресурсы в единое целое.
— Возможность оперативного изменения информации, удобный пользовательский интерфейс, включающий в себя возможности навигации и быстрого эффективного поиска необходимой информации.
— Информационное согласование распределенных по сети различных коллекций системы. Между фактами, описывающими какое-либо понятие из предметной области, могут существовать различные причинно-следственные отношения, например, ассоциативные отношения, когда факты как-либо связаны между собою по своему смыслу (персона является сотрудником института). НИС должна поддерживать отношения между различными коллекциями, к примеру, коллекция «Служебная информация . сотрудников» должна быть связана с коллекциями «Персональная информация сотрудников» и «Подразделения».
Пользовательские требования На основании задач, решаемых системой, можно сформулировать следующие требования потенциальных пользователей НИС:
1) представлять информацию об институтах, сотрудниках, научных разработках, проектах, публикациях, достижениях и других аспектах, связанных с работой СО РАН в объеме, достаточном для использования ее как справочной.
2) обеспечивать: — работу с документами различного происхождения - информация может браться из различных источников: из кадровой базы данных, LDAP-каталога, из баз данных организаций; — удаленную (распределенную) поддержку сбора и актуализации информации -информация должна собираться на местах; НИС должна предоставлять различные уровни административных прав по доступу к информации, должен обеспечиваться контроль за правильностью информации;
3) обеспечивать удобный поиск информации: о контекстный поиск - поиск в документах заданной последовательности ключевых слов; о атрибутный поиск10 - поиск документов по определенным классификационным признакам; о поиск информации на основе словарей" - поиск документов по определенной теме, выбираемой из словаря; о навигацию. Содержательная часть информации о сотрудниках и организациях (подразделениях) в объеме, достаточном для использования ее как справочной, должна иметь структуру, которая в дальнейшем будет отражена в схеме данных [55]. Информация о подразделениях: — визитная карточка, т.е. полное и сокращенное название подразделения, список подчиненных подразделений, адрес и контактные атрибуты - URL, E-mail, телефон, факс; — информация по желанию, т.е. информация об организациях управления и дополнительная информация - историческая справка, основные направления научной деятельности (список выполняемых проектов), ключевые слова, список информационных ресурсов, фотографии;
Структура информации для персоны аналогична: — визитная карточка, т.е. имя, должность, ученая степень, ученое звание, контактные данные - e-mail, телефоны, ссылка на персональную страничку; — дополнительная информация, т.е. образование, специальность, краткое описание деятельности, участие в научных советах, редколлегиях, награды, участие в проектах, преподавание - названия учебных заведений, читаемые курсы.
Публикации, проекты, разработки и другая дополнительная информация должны приводиться в соответствии с требованиями международных стандартов каталогизации.
Технологические требования
На основании сформулированных пользовательских требований были определены технологические требования, предъявляемые к основным элементам реализации системы. 1. Распределенность, понимаемая в более узком смысле, т.е. информация должна храниться там, где образуется (например, на разных компьютерах, распределенных в сети, в разных таблицах). Однако вся обработка информации должна выполняться-центральным диспетчером, т.е. система должна быть централизованно-распределенной. Распределенность нужна только в некоторых случаях:
Информационная модель документа
В нашей системе имеется два типа коллекций: информационные коллекции и словари. К информационным коллекциям относятся — коллекции, содержащие основную информацию в системе - «Персоны» и (# «Организации»; — дополнительные коллекции, включающие в себя о коллекцию «Неструктурированные документы», содержащую дополнительную информацию, как по персонам, так и по организациям; о коллекцию «Каталог» (публикаций, проектов и т.д.).
Отметим, что дополнительные коллекции могут быть и внешними по отношению к нашей системе, например, «БД основных разработок институтов СО РАН».
К словарям относятся: — словари значений и классификаторы, используемые системой для унификации ввода и поиска информации (словари должностей, званий, степеней); следует отметить, что словарь должностей является тезаурусом (см. Гл.З); — словарь схемы данных, содержащий множество имен элементов схемы данных.
В соответствии с технологическими требованиями НИС должна быть открытой для запросов других систем, информация из основных коллекций (обычно это визитные карточки организаций и персон) должна передаваться в дополнительные коллекции. Для унификации запросов информация в другие коллекции должна передаваться во внутреннем представлении документа, записанном в XML-формате. objectclass Person /objectdass last_name Матвеев /last_name first_name Александр /first_name middle_name Васильевич /middIe_name ou ИПОС CO PAH /ou position Зам. директора по научной работе /position
Внутреннее представление документа «Визитная карточка»
Внутреннее представление документа (рис. 5) - объединение структуры документа (например, last_name) и содержания документа (например, Матвеев). Внутреннее представление документа формируется в соответствии со схемой данных. Схема данных -это набор элементов, которые составляют структуру документа. Имена элементов схемы данных должны быть сформированы в соответствии с требованиями международных стандартов (если они есть). Выбор схемы данных также должен отвечать требованиям пользователя для запроса информации.
В нашей системе метаданные документа содержат схему данных и описание содержания. Напомним, что метаданные разделяются на описательные и структурные (рис. 2.6). Документом является ресурс, которому приписаны структурные метаданные. Если у ресурса есть только описательные метаданные, он не является документом, поскольку ресурс, не имеющий описания своей структуры, нельзя поместить в коллекцию.
Для более точного понимания отличия этих типов метаданных, можно сказать, что описание схемы данных — структурные метаданные, а содержание полей схемы данных -описательные метаданные. Структурные метаданные содержат также правила преобразования и представления документов, на их основе осуществляется поиск документов, вывод результатов поиска, управление (навигация) и выбор формы представления документов, а так же взаимодействие между ними.
Отметим, что структурные метаданные в системе представляются в виде документов, содержащихся в коллекции метаданных (см ГЛ.З). element id=l name last_name /name type Word /type titIe OaMniiHfl /title /element element id=2 name first. name /name Рис. 2.6 Структурные метаданные (схема данных) для документа «Визитная карточка»
Поскольку описательные метаданные, по сути, являются частью содержания документа, структура документа должна содержать элементы, соответствующие описательным метаданным. Структура документа строится в соответствии с выбранной схемой данных. Согласно рекомендации модели взаимодействия открытых систем (OSI) любая схема данных должна содержать элементы схемы Dublin Core.
Инициатива "Дублинское ядро" (Dublin Core) [10, 11] предприняла попытку каталогизировать Интернет-ресурсы, которая не привела к успеху. Однако данная инициатива привела к тому, что основные рекомендации OSI, которые содержат описание схем данных для различных систем (включая ISO), являются расширенными спецификациями Dublin Core (DC) - схемы данных, например стандарт CIMI, погружены в схему DC. Так как рекомендация DC определяет минимальный набор элементов для описания ресурсов, то возникает необходимость его дополнения собственным набором элементов. Подробное описание элементов DC приведено в приложении I.
Структура документа может быть частично описана схемой данных DC, поскольку любой документ в обменном представлении должен иметь заголовок. Для основных коллекций: «Персоны» и «Организации», - схемы данных DC недостаточно. Поэтому возникает необходимость использования дополнительной схемы данных. Для дополнительных коллекций схема данных DC является минимальной схемой.
Для представления персон и организаций нами была выбрана схема данных LDAP [2, 30, 32, 66] по следующим причинам: схема данных LDAP - производная RFC Х.500, которая изначально предназначалась для представления справочной информации и, кроме того, RFC Х.500 - это единственная схема, имеющая международное обозначение (код ISO). На основе RFC Х.500 разные производители ПО21, например, Microsoft и ШМ, создают собственные представления vCard, которые отличаются друг от друга, т.е. не существует какой-либо стандартизованной схемы данных vCard, в то же время схема данных LDAP стандартизована. Полное описание схемы данных LDAP приведено в приложении П.
Документы коллекции «Каталог» - публикации, проекты и т.д. относятся к документам типа Публикация. Схема данных дополнительной коллекции погружена в DC. В дальнейшем схема данных дополнительной коллекции может быть расширена схемой данных стандарта RUSMARC для библиографических и авторитетных данных.
Документы коллекции «Неструктурированные документы» имеет самую бедную схему данных. Фактически кроме элемента Document_Title и элемента, содержащего текстовую информацию, они ничего не используют. Надо отметить, что документы коллекции «Неструктурированные документы» используются на промежуточном этапе работы системы с дополнительной информацией о персонах и организациях, для которой пока не существует стандартизованной схемы данных. Например, "основные направления деятельности" или "история института", которые нельзя отнести к документам типа "Публикация", но они исторически присутствуют в документах коллекций «Организации» или «Персоны».
Элементы схемы данных определяют структуру обменного формата. Как говорилось ранее, обменный формат - это документ в формате XML. Схема данных определяет структуру DTD XML-документа. Основное ограничение DTD состоит в количестве типов данных, поскольку в этой рекомендации W3C существует только два типа: строковый и смешанный. При этом смешанный тип подразумевает, что данные этого типа могут быть чем угодно. Однако при использовании объектной модели документа и схем данных, мы пришли к выводу, что содержание элементов является типизированным. XML-схема позволяет типизировать элементы. Предлагается следующая типизация элементов [56]: Word - слово из группы не пустых символов; Word list - одно или несколько слов разделенных пробелами; String — строка, рассматриваемая целиком, без разделения на отдельные слова; Numeric string-строка, представляющая собой число;
Уровень реализации хранилища данных
Технологии построения распределенных информационных систем28 (РИС) основываются на следующих принципах [69]: 1) регистрация; 2) именование; 3) провайдер данных.
В НИС распределенный доступ к базам данным реализуется в соответствии с технологическими требованиями построения РИС.
Регистрация. На уровне регистрации базы данных в системе выполняется определение прав доступа и физического расположения базы данных. Базе данных сопоставляется соответствующий идентификатор для доступа к ней в системе, физический адрес в сети, права и пароли доступа.
Именование. К системе могут подключаться различные таблицы, которые не обязаны соответствовать стандартной схеме данных коллекции. На уровне именования выполняется установление взаимосвязи между стандартной схемой данных коллекции и схемой данных конкретной таблицы.
Провайдер данных. Использование провайдера данных позволяет приложению абстрагироваться от типа СУБД, под которыми функционируют конкретные базы данных в информационном хранилище. Другими словами, приложение обращается к провайдеру данных стандартным образом, а провайдер данных уже обращается к конкретной СУБД.
В информационном хранилище в основу регистрации и конверсии протокола легла предложенная фирмой Microsoft идеология ODBC, в которой предусматривается регистрация отдельных таблиц.
Регистрация
Результатом процедур регистрации и именования таблицы в системе является отображение таблицы в коллекцию.
Каждая коллекция ссылается на интегрированную таблицу - совокупность однотипных содержательных таблиц. При этом выделяются головная и дополнительные таблицы. Головная таблица (присутствует в каждой коллекции) - обычно «первый» зарегистрированный экземпляр таблицы или экземпляр таблицы, созданный суперадминистратором. Дополнительные таблицы (могут отсутствовать) - экземпляры таблиц, расположенные в различных базах данных (как локальных, так и распределенных), функционирующих под управлением различных СУБД.
При регистрации в системе для таблицы указывается следующая информация. Название таблицы (ID_Table). IP-адрес или доменное имя машины, на которой функционирует таблица. Реальное имя таблицы в системе, которое определяется следующим образом: db_name.table_name, где db_name - внутреннее имя базы данных, a table_name -внутреннее имя таблицы. Флаг головная/дополнительная. Информация о правах доступа к таблице. Флаг разрешения/запрета модификации таблицы. Запрет модификации указывает на невозможность удаленного выполнения запросов обработки данных в таблице. Базы данных могут предоставлять различные интерфейсы для доступа к своим данным, которые могут быть только частично совместимы с системой запросов НИС. Например, запросы на модификацию данных в таблице реализуются посредством функций, содержащихся в базе данных или являющихся частью логики приложения, а запросы на выбор данных из таблицы - посредством запросов в синтаксисе SQL. В таких случаях возможно только выполнение запросов на извлечение данных из таблицы [57].
Именование таблиц
При именовании имена полей таблиц привязываются к элементам абстрактной схемы данных коллекции. В таблице соответствий имен указывается соотношение имен элементов из схемы данных коллекции и имен полей таблицы. В этой таблице указываются следующие значения: ГО таблицы; ГО элемента коллекции (абстрактное имя, используемое в запросе); название поля таблицы. Провайдер данных
Провайдер данных позволяет скрыть от приложения особенности общения с конкретной СУБД, что достигается использованием расширенной идеологии ODBC.
Архитектура ODBC является легко наращиваемой. Для добавления нового типа БД нужно лишь написать драйвер и зарегистрировать его. Еще одно преимущество, вытекающее из такого построения ODBC — пользовательское приложение взаимодействует с физической БД через провайдер данных, фактически ничего не зная о типе используемой БД. Взаимодействие провайдера данных и самих драйверов стандартно, так что с точки зрения пользователя все источники данных обладают практически одинаковыми свойствами.
Описание приложения "бд организаций и сотрудников со ран
Стартовая страница приложения выполняет навигацию по структуре зависимостей иерархической модели подчинения, сходящейся к одному подразделению или человеку.
Навигационная часть приложения (навигатор) отражает иерархические связи подчинения между организациями. Связи подчинения могут быть следующих типов.
Территориальное подчинение, т.е. институты, входящие в региональный научный центр, подчинены Президиуму научного центра.
Научно-методическое подчинение, т.е. организации научно-методически подчинены Объединенному ученому совету по направлениям наук либо Научно-координационному совету. Объединенные ученые советы и Научно-координационные советы научно-методически подчинены Президиуму СО РАН.
Административное (юридическое) подчинение, т.е. региональные институты подчинены ассоциативному или объединенному институту, филиалы или подразделения институтов подчинены институтам СО РАН.
Навигатор построен по принципу тезауруса, имеет древовидную структуру и позволяет перемещаться по иерархии дерева, начиная от корня. Каждый узел дерева содержит семантическую информацию. При построении навигатора можно выделить три дерева (рис. 4.3): дерево административного подчинения, дерево территориального подчинения и дерево научно-методического подчинения.
Анализируя структуру подчинения в СО РАН, для построения навигатора было принято решение объединить деревья территориального и административного подчинения в одно дерево, поскольку дерево административного и дерево территориального подчинения имеют один общий корень - СО РАН. У дерева научно-методического подчинения корень другой - Президиум СО РАН. Президиум СО РАН - это выборный орган, который с точки зрения научно-методического подчинения не имеет головной организации, но административно он подчиняется СО РАН. Президиуму СО
РАН научно-методически подчинены Объединенные ученые советы (ОУС), а организации научно-методически подчиняются Объединенному ученому совету по направлениям наук.
Таким образом, в структуре навигатора было выделено два дерева: дерево научно-методического подчинения и дерево территориально-административного подчинения.
Когда пользователь перемещается по узлам дерева, то на странице ИС он видит семантическую информацию текущего узла (организация) и список подчиненных узлов дерева (подчиненные подразделения), представленный гиперссылками. Выбрав нужную гиперссылку, пользователь может открыть страницу подразделения, содержащую информацию об этом подразделении и его структуре.
Для организации навигации используется модуль dep, посылающий запрос с методом List ядру. Пользователь посылает запрос модулю dep в следующей форме: http://www.sbras.ru/sbras/db/dep.phtml? ГО_коллекции+ГО_документа+язык.
В качестве ответа модуль dep выдает презентационное представление документа, содержащего информацию об организации (головной), идентифицированной ГО_документа, и список подчиненных организаций.
В презентационном представлении документа можно выделить статические части (колонтитулы) и непосредственно содержание (контент) документа. Различают верхний (header) и нижний (footer) колонтитулы. Обычно верхний колонтитул содержит заголовочную информацию (шапку) и навигационные элементы. В нижнем колонтитуле, как правило, указывается авторство документа и контактные данные. Верхний и нижний колонтитулы относятся не столько к самому документу, сколько к коллекции документов. ф Так как эта часть зависит от коллекции и не зависит от конкретного документа, то здесь можно использовать единый шаблон, который бы применялся ко всем документам коллекции. Для формирования содержательной части документа может использоваться стандартный шаблон коллекции - системный шаблон, загружаемый из файла, либо может применяться собственный шаблон документа. Шаблон состоит из двух частей: русской и английской, загружаемых системой в зависимости от управляющего параметра шаблона
Шаблон строится по определенным правилам. Шаблон - это программный код на языке РНР, содержащий внутренние переменные (переменные шаблона), которые заменяются присвоенными им значениями (данными). Идентификатор переменной шаблона - это имя элемента в схеме данных или идентификатор управляющего параметра, которым предшествует метасимвол45 "_". Каждый шаблон может содержать любое число переменных шаблона.
Шаблон состоит из одного или нескольких логических блоков, применяемых при ф создании структурированных элементов HTML-страниц. Присвоение стандартного имени каждому блоку позволяет различать приложению эти логические части (шаблона). Имеется три стандартных имени, каждое из которых соответствует определенной части шаблона: $Shablon_head - заголовок шаблона, $Shablon_foot - нижняя часть шаблона и $Shablon_row -содержание шаблона.
Например, шаблон списка состоит из трех блоков: заголовка списка, содержания списка и конца списка. Соответственно блоки шаблона списка будут иметь имена $Shablon_head (заголовок списка), $Shablon_foot (конец списка) и $Shablon_row (содержание списка).
В системе имеется два вида шаблонов: шаблоны визитной карточки и шаблоны списков. Шаблон визитной карточки предназначен для печати одной записи, а по шаблону списка печатается множество записей. Однако для программы принцип использования этих шаблонов одинаков, поскольку в программе по шаблону списка (шаблону содержания списка, см. ниже) печатается один элемент списка.