Содержание к диссертации
Введение
ГЛАВА 1 Обзор методов и средств интеграции информационных ресурсов 11
1.1 Проблема обмена и использования данных 11
1.2 Состояние и тенденции развития информационных технологий обмена и интеграции данных 14
1.2.1 Существующие информационные системы 14
1.2.2 Характеристика сбора, накопления и использования данных об обстановке в Мировом океане 17
1.3 Прикладные технологии реализации 24
1.3.1 Язык XML 24
1.3.2 Язык реализации Java 2 26
1.3.3 Технология Grid 28
1.3.4 Web-сервисы 29
1.4 Выводы и обобщенные потребности в интеграции данных 30
ГЛАВА 2 Методические основы интеграции разнородных и пространственно-распределенных данных 32
2.1 Концептуальный подход 32
2.1.1 Классификация информационных ресурсов 32
2.1.2 Основные аспекты модели интеграции 37
2.1.3 Основные аспекты реализации модели интеграции 45
2.2 Метод унификации данных 47
2.2.1 Словарь атрибутов метаданных 47
2.2.2 Словарь параметров 48
2.2.3 Общие коды и кодификаторы 49
2.2.4 Сервисные метаданные 49
2.2.5 Тематические метаданные 50
2.3 Схема интеграции данных 51
2.3.1 Архитектурный подход 51
2.3.2 Схема описания распределенных информационных ресурсов 56
2.4 Оценка минимизации затрат при интеграции информационных ресурсов 62
2.4.1 Информационные процессы 62
2.5 Математическая модель источника ресурсов для расчета основных нагрузочных характеристик 67
ГЛАВА 3 Технология интеграции информационных ресурсов есимо 78
3.1 Структура метаданных для описания информационных объектов 78
3.1.2. Записи метаданных 95
3.2 Протокол обмена данными 104
3.2.1 Транспортный файл данных 105
3.2.2 Сообщение-запрос 113
3.2.3 Сообщение-ответ 114
3.3 Программная реализация технологии интеграции информационных ресурсов ЕСИМО 115
3.3.1 Архитектура технологии 117
3.3.2 Программные компоненты технологии 120
3.4.3 Описание процесса интеграции 135
Вывод 143
Заключение 144
Список использованной литературы 145
- Проблема обмена и использования данных
- Состояние и тенденции развития информационных технологий обмена и интеграции данных
- Классификация информационных ресурсов
- Структура метаданных для описания информационных объектов
Введение к работе
Актуальность проблемы. В современных условиях ключевым фактором повышения эффективности морской деятельности становится обеспечение управления значительными и постоянно возрастающими информационными ресурсами в области изучения, освоения и использования Мирового океана. Это базы (массивы) гидрометеорологических и гидрофизических данных, сведений о биоресурсных и углеводородных запасах и их добыче, портовой инфраструктуре, морским транспортным операциям и другим дисциплинам, программы обработки данных и моделирования морских процессов, экспертные системы, нормативная методическая и правовая информация и т.д.
В Российской Федерации информационные ресурсы рассматриваемой тематики сосредоточены в более чем 30 информационных системах федеральных органов исполнительной власти Российской Федерации и Российской академии наук. Возможности удаленного доступа к ресурсам с применением современных луеЬ-ориентированных сетевых технологий выводят обслуживание морской деятельности на другой, более высокий уровень. Однако эффективность применения сложившейся инфраструктуры сегодня остается невысокой. Информационные системы функционируют, как правило, без необходимого взаимодействия и их ресурсы не интегрированы как логически (по моделям и структурам описания и представления, системам кодирования), так и физически (по форматам данных, средствам описания ресурсов, платформам хранения данных и др.). В связи с этим, получение пользователем в короткое время полной и систематизированной информации о морской среде и морской деятельности затруднено, приходится выполнять трудоемкие и длительные работы по преобразованию и комплексированию информации о Мировом океане, создаваемой различными системами.
Проблемы интеграции информационных ресурсов теоретически изучены достаточно полно, разработаны разнообразные подходы к их решению: системы неоднородных баз данных, семантика распределенных информационных ресурсов, слабоструктурированные данные. Однако, практическая реализация теоретических выводов не получила широкого развития.
Поэтому разработка методов и средств интеграции распределенных и разнородных информационных ресурсов является на сегодняшний день актуальной задачей не только в области изучения, освоения и использования Мирового океана. Об этом свидетельствуют программы федерального, регионального и отраслевого масштаба, такие как Единая государственная система информации об обстановке в Мировом океане (Программа ФЦП «Мировой океан", Постановление Правительства № 919 от 10 августа 1998 г., ), единая стандартизированная среда электронного взаимодействия (ФЦП «Электронная Россия», указ Правительства Российской Федерации от 12 февраля 2001 г., № 207-р, ), Единая информационная система Российской академии наук (ЕИС РАН), (программа «Информатизация научных учреждений и Президиума РАН»), «Электронная Земля» (), проект IARnet (ИСА РАН, ) и др.
Мировые тенденции также состоят в движении от разрозненных информационных ресурсов к интегрированным системам, взаимодействующих на основе совместимых стандартов метаданных и других средств информационного взаимодействия. В области информации о Мировом океане реализуется ряд крупных инициатив в Европе (программа Европейского сообщества SeaDataNet, ) и США (US-DMAC, ), международных организациях - информационная система Всемирной метеорологической организации (WMO Information System, WIS, ), портал океанографических данных Межправительственной океанографической комиссии ЮНЕСКО (OceanPortal, ), система систем глобальных наблюдений за Землей (GEOSS, ). Активно ведутся разработки приложений стандартов метаданных
Международной организации стандартизации (ИСО серии 191хх) и Web- сервисов (СЮС, 1Щр://шшш.ореп2;еозрайа1.отЛ для обмена разнородными данными об океане.
Конкретной задачей в рамках этой проблемы является разработка единой среды метаданных и программного обеспечения управления распределенными и неоднородными информационными ресурсами, поиска данных и доступа к ресурсам, которая относится к приоритетным направлениям прикладных научных исследований как «прорывная» информационная технология.
Объект исследований. Распределенные географически, семантически и структурно разнородные информационные ресурсы, формируемые разнообразными информационными системами в области изучения, освоения и использования Мирового океана.
Цель работы. Основной целью работы является разработка методической основы и инфраструктуры интеграции информационных ресурсов в области изучения, освоения и использования Мирового океана.
Задачи работы: уточнить проблемы обмена и совместного использования данных- по тематике Мирового океана различного логического и физического представления и дать систематизированное описание свойств распределенных и разнородных информационных ресурсов; развить методы стандартизации метаданных для управления информационными ресурсами, поиска данных и удаленного доступа к информационным ресурсам; усовершенствовать методы семантической унификации доступа к информационным ресурсам и представления разнородных данных в едином информационном интерфейсе; разработать решения и программные средства управления и доступа к распределенным и разнородным информационным ресурсам в области изучения, освоения и использования Мирового океана.
Научная новизна: Научная новизна работы состоит в реализации качественно нового- комплексного подхода к вопросу интеграции информационных ресурсов в области изучения, освоения и использования Мирового океана и формулируется в следующих положениях:
Предложена комплексная модель интеграции информационных ресурсов по тематике Мирового океана, учитывающая логическую и физическую разнородность данных, аспекты управления распределенными источниками данных и доступа к ним. Модель основана на современных подходах по стандартизации процессов обмена и распространения данных с использованием web-ориентированных информационных технологий.
Впервые разработаны единая динамическая среда и средства описания объектов интеграции: информационные ресурсы, источники данных, системы кодирования, пользователи и другие, обеспечивающие стандартизацию и многоуровневую поддержку метаданных для отображения содержания и представления, организации информационного взаимодействия множества объектов, а также совместимость с международным стандартом метаданных ISO 19115 и представляющие его существенное расширение.
Новыми являются методика и средства унификации разнообразных структур, кодов и классификаторов данных, обеспечивающие представление разнородных информационных ресурсов в едином интерактивно формируемом обменном формате данных с возможностью настройки на тематическое содержание, специфику представления и другие свойства локальных данных.
Впервые разработана технология интеграции данных по различным дисциплинам, с различными системами хранения, форматами представления и другими логическими и физическими свойствами, обеспечивающая формирование единого информационного поля в рамках Единой государственной системы информации об обстановке в Мировом океане.
На защиту выносится комплекс методических положений и средств интеграции распределенных и разнородных информационных ресурсов в области изучения, освоения и использования Мирового океана, обеспечивающих: стандартизацию описания объектов интеграции (информационных ресурсов, систем кодирования, пользователей и др.); унификацию полидисциплинарных данных, представляемых в разных форматах, структурах и системах хранения; управление ресурсами распределенных источников данных на основе метаданных, профилизацию информационного пространства (создание федераций источников данных) для различных классов конечных пользователей и внешних программных приложений; построение и навигацию запросов пользователей в пространстве распределенных источников данных, безопасность использования информационных ресурсов с учетом прав владельцев.
Практическая значимость: Результаты исследований использованы при выполнении проектов подпрограммы 10 "Создание Единой системы информации об обстановке в Мировом океане" (далее, ЕСИМО) "ФЦП Мировой океан" (1999-2007) и составили основу технологии интеграции информационных ресурсов ЕСИМО, которая принята к приемочным испытаниям по вводу в постоянную эксплуатацию в составе технологического комплекса первой очереди единой системы. Технология внедрена в 18-ти организациях-центрах ЕСИМО, представляющих морские информационные системы 12-ти федеральных органов исполнительной власти и Российской академии наук. Компоненты технологии использованы в нескольких пилотных проектах в рамках программ Межправительственной океанографической комиссии (МОК) ЮНЕСКО и Всемирной метеорологической организации.
Диссертация состоит из введения, 3 глав, заключения, библиографического списка из 94 наименования, и содержит 151 страниц, 13 таблиц и 30 рисунков.
В Главе 1 представлен обзор методов и средств интеграции информационных ресурсов. Рассмотрена проблема обмена и использования данных в области изучения, освоения и использования Мирового океана. Проводится анализ состояния и тенденций развития информационных технологий обмена и интеграции данных. Рассматриваются прикладные технологии реализации программных средств технологии интеграции - язык разметки XML, язык Java, технология Grid и web-сервисы. На основе проведенного анализа сформулированы основные проблемы интеграции информационных ресурсов.
В Главе 2 описаны методические основы интеграции разнородных и пространственно-распределенных данных. Представлена классификация информационных ресурсов, выделены основные моменты модели интеграции информационных ресурсов и аспекты ее реализации. Предложен метод унификации данных с использованием словарей атрибутов > метаданных (пространства имен), параметров, кодов и классификаторов. Рассмотрено применение классификаторов, позволяющее использовать любую нотацию кодирования без какого-либо влияния на информационное взаимодействие. Представлен архитектурный подход построения технологии интеграции, предложена схема описания информационных ресурсов. Изложены математические выкладки оценки минимизации затрат при интеграции информационных ресурсов и математическая модель источника ресурсов для расчетов основных нагрузочных характеристик.
Проблема обмена и использования данных
За прошедшие десятилетия накоплен огромный объем разнородной информации для обеспечения деятельности связанной с Мировым океаном - от данных о среде до социально — экономической информации, многократно возросли количество и мощности используемых ЭВМ, расширилось число функции и возможностей программных средств [1]. Процесс интеграции данных ставит множество проблем, вызванных, в частности, автономностью и разнородностью источников, количественными и качественными требованиями к обработке запросов.
Большая часть существующих и вновь собираемых данных об океане размещается в организациях России - центрах участников программы ЕСИМО (Единая система информации об обстановке в Мировом океане). Единая система информации об обстановке в Мировом океане (ЕСИМО) создается в рамках Подпрограммы, 10 ФЦП «Мировой океан» организациями 10 министерств и ведомств России: Росгидромет, Минобороны России, Росрыболовство, МПР России, РАН и другие. Принципиальным моментом в создании системы, подобной ЕСИМО, является интеграция ведомственных информационных систем мореведческой направленности в единое информационное пространство.
В рамках деятельности органов государственной власти, государственных и негосударственных предприятий, научных, учебных и общественных организаций ведется сбор, накопление, обработка и распространение информации об обстановке в Мировом океане, т.е. постоянно осуществляются процессы создания и потребления информационных ресурсов по предметной области морской деятельности.
Наиболее эффективно используемой частью информационных ресурсов являются ресурсы, создаваемые автоматизированными комплексами, основное место среди которых занимают базы данных, системы файлов данных, ГИС- проекты и другие хранилища данных.
Состав и содержание информационных ресурсов определяются задачами обеспечивать управление (собирать, хранить, обрабатывать, предоставлять пользователям) информацию о широком спектре разнообразных объектов предметной области ЕСИМО: информацию о состоянии морской среды в акваториях морей и океанов, Арктике и Антарктике, на островах, прибрежных территориях, которая- содержит сведения о природных процессах, происходящих на морском дне и в его недрах, в водной толще и воздушном пространстве над нею, в том числе на границе сред; экологические, природоресурсные и иные сведения/ технико-экономическую информацию (ТЭИ), которая содержит характеристики функциональных направлений морской деятельности, включая морской транспорт, рыболовство, добычу нефти и газа и т.д.; нормативно-методическую, метрологическую, технологическую информацию (НМИ), которая содержит необходимые сведения для организации мониторинга состояния окружающей природной среды и состояния искусственных объектов; нормативно-правовую информацию (НПИ), которая содержит сведения о правовых нормах, формирующих единое правовое пространство; социально-экономическую информацию (СЭИ), которая содержит сведения о результатах мониторинга экономических, социальных условий морской деятельности; научно-техническая информация по всем направлениям морской деятельности.
Главная проблема системы, подобной, ЕСИМО состоит в сложности интеграции разнородных потоков оперативной информации, существующих и вновь создаваемых массивов и баз данных, разнообразных программно- технологических и аппаратных средств, управлении функционированием системы, как единым информационно-технологическим образованием.
Состояние и тенденции развития информационных технологий обмена и интеграции данных
Исходя из объема и специфики задач, распределенная система [6] информации о Мировом океане, относится к классу сложных информационных систем [7]. В соответствии со сложившимися понятиями информационная система представляет собой взаимосвязанный комплекс специальных методов и средств (математических, информационных, программных, языковых, организационных, технических) для сбора, хранения, поиска, обработки по заданным алгоритмам и выдачи информации потребителям по их запросам в требуемой форме.
Можно выделить три класса информационных систем, функции которых так или иначе связаны с осуществлением сбора, накопления, хранения и распространения информации по морской природной среде и искусственным объектам в Мировом океане.
Первый класс представляют информационные системы, развиваемые отраслями хозяйства, непосредственно связанными с получением, подготовкой и использованием информации о состоянии морской среды в интересах защиты жизни населения, экономики, обороны страны и научных исследований. К ним относятся соответствующие системы Росгидромета, Минобороны России, МПР России, Минсельхозпрода России и-других министерств (ведомств).
Информационные системы этого класса, различаясь по тематической направленности, обладают достаточно общей структурой и представляют совокупность подсистем: получения данных (производства наблюдений); сбора, первичной обработки и передачи данных; обработки данных; хранения информации; представления и доведения информации до пользователя.
Рассматриваемые информационные системы имеют различный и, в целом, невысокий уровень связанности подсистем и автоматизации управления и обработки данных. Значительная часть работ по подготовке информационной продукции осуществляется коллективами специализированных учреждений ведомств с применением вычислительной техники для выполнения конкретных операций по обработке данных.
Основным аспектом функционирования систем является решение задач обслуживания народно-хозяйственного и оборонного комплекса страны данными и информацией по морской природной среде. В качестве примера перечислим комплекс работ по обслуживанию, выполняемый Росгидрометом: своевременное предупреждение об опасных и стихийных гидрометеорологических явлениях на морских акваториях; обеспечение информацией о текущем и ожидаемом (прогностическом) состоянии различных аспектов морской природной среды, включая загрязнение; выдача консультаций и рекомендаций по учету и (или) использованию в практической деятельности сложившихся и ожидаемых природных условий; предоставление справочных пособий по режимному состоянию морской природной среды и др.
По профилю работ информационного направления морские учреждения и организации, поддерживающие функционирование ведомственных тематических информационных систем, можно также разделить на несколько групп. Первую группу составляют специализированные институты, выполняющие научные и прикладные задачи, стоящие перед ведомствами и проводящие комплексные исследования физических, химических, биологических и геологических процессов в океанах и морях. Во вторую группу входят учреждения и институты, специализирующиеся . ; в одном из направлений исследований.
Третью, наиболее многочисленную группу составляют производственные предприятия и организации, занимающиеся сбором данных и решением задач обслуживания пользователей на региональном уровне. К этой группе относятся территориальные управления (УГМС) Росгидромета, бассейновые управления морской промысловой разведки и гидрометеорологические центры ВМФ.
Особую роль в области информационных ресурсов по Мировому океану играют: ведомственные институты и учреждения, обеспечивающие на постоянной основе формирование, ведение и распространение данных о состоянии природной среды, живых и неживых ресурсов океанов и морей, международный обмен океанографической информацией, а также обеспечение их долговременного хранения. Их деятельность и возможности составляют ядро информационных систем рассматриваемого класса.
Второй класс информационных систем образуют разрабатываемые в настоящее время информационно-телекоммуникационные системы, обладающие высоким уровнем автоматизации и способные обеспечить информационную поддержку принятия решений в режиме реального времени как в сфере управления экономикой, так и в области безопасности личности, общества, государства: информационно-коммуникационная система специального назначения (ИТКС) ФСО; информационно-телекоммуникационная система МЧС России; единая телекоммуникационная система Минобороны России «Широта».
К информационным системам третьего класса относятся системы технологического назначения, обеспечивающие среду или специфические средства получения и передачи информации (связь, вычислительные сети и т.п.). К таким системам относятся средства Минсвязи России и РКА.
Классификация информационных ресурсов
Интеграция разнородных данных локальных систем происходит за счет использования определенной техники представления метаданных и данных. Соглашения и правила унифицированного представления объединены в виде модели, которая здесь названа схемой распределенных информационных ресурсов.
Важную роль играет унифицированность понятий и представлений, в связи с этим в работе были подготовлены следующие определения, которые вертикально проходят в рамках всей работы.
Объект технологии — сущность, используемая для реализации функций технологии. Структуры технологии (классы, записи) обеспечивают представление и использование объектов технологии.
Данные - сведения, полученные путем измерения, наблюдения, логических или арифметических операций, представленные в форме, пригодной для постоянного хранения, обработки и передачи.
Метаданные — данные о данных. Метаданные в общем смысле — это данные из более общей формальной системы, описывающей заданную систему данных.
Локальная система данных - удаленный набор данных (метаданных), характеризуемый собственными моделью и форматом представления, форматом хранения, методом доступа и ограничениями на доступ.
Источник данных - абстракция, обеспечивающая интерфейс между локальной системой данных и сервисами технологии. Сервис - программный компонент технологии, обеспечивающий реализацию заданных функций. Информационный ресурс — набор данных (виртуальный), генерируемых источником данных от локальной системы данных (метаданных). Протокол обмена данными — набор правил, регулирующих обмен между локальной системой данных и сервисами технологии, а также между самими сервисами. Протокол обмена состоит из сообщения-запроса, сообщения-ответа и транспортного файла данных. Транспортный файл данных — набор данных, возвращаемый источником данных в качестве результата запроса к локальной системе. Пользователь — объект, использующий сервисы технологии в соответствии с привилегиями.
Поименованная совокупность данных, генерируемых источником от локальной системы данных, названа здесь как информационные ресурсы. Этот термин используется для того, чтобы абстрагироваться от разнородных данных, хранящихся в локальных системах данных и с этой точки зрения, информационные ресурсы — это данные локальной системы после применения к ним операций, реализуемых поставщиком данных. В» связи с тем, что продуцирование информационного ресурса осуществляется только в ответ на г запрос к источнику данных, распределенные информационные ресурсы системы можно рассматривать как динамическое "виртуальное" информационное пространство. И в этом случае термин "информационный ресурс" в большей степени отражает аспект отражения- локальной системы данных в системы распределенных (интегрированных) информационных ресурсов.
В связи с этим, информационный аспект системы может быть выражен в общем виде через интеграционные возможности системы, группируемые в четыре ключевых интегрирующих функциональности, представляющие интегрированность содержания, именования и кодирования, размещения и \ структуризации (гранулирования) информационных ресурсов.
Интегрированность содержания информационных ресурсов возможность идентифицировать содержание и состояние (доступность) информационного ресурса, генерируемого источником данных, и построения запроса к распределенным ресурсам (или реализации административных функций) без обращения к каждой локальной системе. Эта возможность обеспечивается соответствующими атрибутами сервисных метаданных, отражающих содержание и жизненный цикл информационных ресурсов. Интегрированность именования и кодирования информационных ресурсов - возможность идентифицировать требуемые локальные данные и трансформировать их в структуры информационных ресурсов без явного использования их локальных имен и других спецификаций (единиц измерений, точности представления и другие), используемых в локальной системе данных. Эта возможность обеспечивается системными словарями атрибутов и параметров, общими таблицами кодов. Интегрированность размещения информационных ресурсов - это возможность идентифицировать требуемые информационные ресурсы без явного знания, где находится та или иная локальная система данных. Эта возможность обеспечивается путем использования соответствующих атрибутов сервисных метаданных, которые содержат уникальный логический идентификатор информационного ресурса в системе распределенных информационных ресурсов и уникальный физический адрес информационного ресурса (соответствующего источника данных) и уникальный логический идентификатор информационного ресурса в локальной системе данных (например, номер рейса, код буя и др.).
Структура метаданных для описания информационных объектов
Согласно приведенной в п.2.1.1 классификации ресурсов, выделены основные категории свойств информационных ресурсов. Эти свойства описываются с помощью классов и элементов. Описание ресурса представлено на двух уровнях: локальном и глобальном. Разработан и предложен формат описания ресурсов и других объектов технологии интеграции распределенных информационных ресурсов на языке разметки XML [68]. Данный формат описания изначально базировался на стандарте ISO 19115, однако попытки прямого применения стандарта описания метаданных ISO 19115 к данным по морской среде показали [69], что он является недостаточным для покрытия всех информационных аспектов описания ресурсов по морской среде. Например, в нем отсутствуют такие важные свойства как описание связи с источником данных, описание уровней гранулирования данных информационного ресурса, связь с тематическими метаданными и пр.
На глобальном уровне описание ресурса включает следующие общие разделы: общая информация и идентификация, спецификации доступа к ресурсу, содержательные характеристики представления и описание жизненного цикла. Таким образом, выделен следующий список классов, отражающий свойства описываемого объекта: Идентификация объекта Дополнительная информация Дата Контактная информация Структурирование данных Сведения о системе кодирования Описание кода Описание элемента Географические характеристики Временное обобщение Вертикальное обобщение Информация о качестве данных Связь с источником данных/метаданных Сведения о распространении данных Сведения о транспортном файле данных Ограничения на использование Сведения о проекте Сведения об инструментах Сведения о наблюдательной платформе
Общая информация и идентификация содержит уникальный идентификатор ресурса в распределенной системе, версию описания ресурса и именование ресурса.
Идентификация ресурса описывается классом «Идентификация объекта» (именуется как E2EObjectID). Класс описывает семантическую [70] идентификацию объекта внутри технологии (рис.11). Класс используется также для описания идентификации других объектов технологии. Содержит тип объекта, идентифицируемого классом, имя записи, идентификатор версии формата описания, URI-идентификатор объекта и его уникальный идентификатор.
Элемент objectType указывает тип объекта, который идентифицируется данным классов. Тип объекта может принимать одно из следующих значений resource — ресурс, code — код, element — концептуальный элемент, ter m — рубрикатор, user - пользователь, provider - источник данных, interface интерфейс пользователя. Рисунок 11 - Диаграмма структуры класса Идентификации ресурса
Элемент оЦе&Яесогс1Нате указывает запись (набор классов, представляющий полное описание объекта), которой принадлежит идентифицируемый объект. Элемент оЦеМЯе аБе представляет собой идентификатор версии формата описания. Элемент оЦесЮпИпеМ содержит уникальный 1Ж1-идентификатор данного описания. Элемент оЦеМЗуягетЫ - уникальный идентификатор объекта в системе. Правила идентификации специфицированы в зависимости от типа объекта. Идентификаторы для записей ресурса и источника данных задаются и являются уникальными в рамках всей системы распределенных источников данных. Записи вспомогательных метаданных идентифицируются уникальными системными кодами, генерируемыми автоматически.