Введение к работе
Актуальность темы. Одной из наиболее характерных тенденций развития современных информационных систем (ИС) является интеграция данных, связанная с применением ИС для построения наукоемких распределенных компьютерных технологий в различных областях науки и техники. Интегрированные распределенные базы данных (РБД) становятся необходимым компонентом обеспечения таких ИС, а степень интегрированное данных на различных уровнях их представления во многом определяет успешность достижения требуемого качества информационной продукции прикладных технологических процессов.
Интеграционные возможности РБД определяются степенью однородности на двух основных уровнях представления данных - семантическом и объектном. Возможность объектной интеграции РБД предопределена широким применением в настоящее время реляционной модели данных (РИД), практически обеспечивающей объектную однородность РБД. Семантический уровень представления связан с проектированием концептуальных схем прикладных баз данных (БД) и РБД в целом на основании выбранной системы (систем) классификации и терминологически-понятийного определения структур предметной области. Семантическая разнородность РБД при этом оказывается чрезвычайно высокой. Существующие методы и средства технологии баз знаний (БЗ), основанные на моделях представления знаний, и технологии БД решения задачи семантической интеграции РБД либо не обеспечивают, либо обеспечивают в недостаточной степени.
Таким образом представляется актульной и имеющей важное практическое значение разработка системы автоматизации семантической интеграции распределенных баз данных на основе комбинированных методов и средств технологий БД и БЗ. Данное направление является одним из приоритетных в составе работ, проводимых в Балтийском государственном техническом университете имени Д.Ф. Устинова рядом авторов.
Диссертационная работа выполнялась в соответствии с планами ряда госбюджетных и хоздоговорных НИР (УДК 55:[002.513.5: 681.3] (47+57), УДК 002. 6:550.8:529(084. ЗМ200), N 1-94-27/7, Государственный контракт N134) во Всероссийском научно-исследовательском геологическом институте (ВСЕГЕИ). на кафедре вычислительной техники Балтийского государственного технического
университета и в специализированном информационно-компьютерном центре по региональной геологии (СпецИКЦ РГ) по программе фундаментальных научных исследований ВСЕГЕИ по линии АН СССР и РАН, программам Мингео СССР, Роскомнедра, Министерства природных ресурсов по геологическому изучению территории . России, программе Гособразования СССР.
Целью работы является разработка системы автоматизации семантической интеграции распределенных баз данных на основе комбинированных методов и средств технологий БД и БЗ.
Для достижения поставленной цели в диссертационной работе решаются следующие задачи:
классификация и формулирование требований к методам и средствам семантической интеграции РБД;
разработка методов семантической интеграции РБД на основе комбинирования методов теории реляционных БД и модели представления знаний в виде семантических сетей;
разработка программного обеспечения адаптируемой системы автоматизации семантической интеграции РБД;
применение разработанного математического и программного обеспечения для решения прикладных задач построения семантически интегрированных технологий работы с первичными геологическими данными, картографическими данными и поддержки отраслевой службы ведения геологического информационно-поискового языка в рамках технологии производства Госгеолкарта-200 и -1000.
Методы исследования. Для проведения теоретических исследований использовались методы теории реляционных БД, реляционной алгебры, математической логики и методы представления знаний. Экспериментальные исследования проводились на ЭВМ с применением методов математического моделирования и разработанных программных средств адаптируемого динамического комплекса (ADK).
Основные результаты диссертационной работы заключаются в следующем.
-
Впервые разработана комбинированная модель на основе реляционной модели данных и модели представления знаний в виде семантических сетей, обеспечивающая возможность достижения семантической однородности распределенной базы данных с сохранением ее объектной однородности.
-
Разработан инструментальный метод построения типовых
программных модулей, реализующих реляционные и семантические отношения комбинированной модели в интегральной инструментальной среде.
-
Разработано программное обеспечение системы автоматизации семантической интеграции распределенных баз данных.
-
Разработана методическая основа применения системы автоматизации семантической интеграции распределенных баз данных для построения прикладных наукоемких компьютерных технологий.
Научная новизна. В диссертационной работе получены следующие научные результаты.
-
Сформулирован язык описания семантики данных (F-язык) на основе модели представления знаний в виде семантических сетей, составляющий основу комбинированной модели данных и знаний системы автоматизации семантической интеграции распределенных баз данных.
-
Разработан комплекс методов интеграции семантики F-языка с реляционными прикладными базами распределенной базы данных:
разработана математическая система нормализации и минимизации семантических отношений F-языка (F-метод);
разработана математическая система исчисления семантических отношений F-языка (R*-алгебра) на основе системы реляционной алгебры;
сформулирован метод анализа и вывода семантических зависимостей (F-зависимостей) для наполнения и актуализации F-языка по обратной связи из прикладных баз данных.
Практическая ценность и внедрение результатов работа. На основе полученных в диссертационной работе научных результатов разработано программное обеспечение многофункциональной и предметнонезависимой системы ADK. Комбинированные методы и система ADK использованы для разработки отраслевых информационных стандартов представления первичных геологических данных, построения инфологических моделей фундаментальных БД технологии производства Госгеолкарта-200 и -1000. Система ADK вошла в состав базовых программных средств, обеспечивающих технологию построения Государственного банка цифровой геологической информации (ГБЦГИ) и отраслевую технологию производства Госгеол-карт масштабов 1:200000 и 1:1000000. Система ADK обеспечивает ведение геологического информационно-поискового языка в рамках соответствующей отраслевой службы. Кроме того, ADK использова-
на для построения отраслевого банка описания легенд Госгеол-карт. Разработанные комбинированные методы и программное обеспечение применимы в любых областях науки и техники для решения задач интеграции данных и позволяют:
сократить трудоемкость и затраты времени на построение специфических механизмов семантической интеграции РБД ИС;
повысить качество информационных продуктов прикладных компьютерных технологий за счет обеспечения терминологически-понятийного единства данных прикладных БД РБД;
сократить трудозатраты на формирование семантически интегрированных промежуточных и итоговых БД для их передачи внешним системам и технологиям;
сократить сроки проектирования инфологических моделей фундаментальных и прикладных БД и существенно упростить выполнение таких процедур для пользователя;
сократить сроки разработки и внедрения информационных стандартов представления данных;
упростить процедуру крупномасштабного внедрения единых классификационных систем, базовых справочников по классификационным разделам и т.п.
Результаты диссертационной работы использованы и внедрены в десятках организаций Роскомнедра (акты N11-9/211 от 30.05.96 и акт N11-9/212 от 30.05.96).
Апробация работы. Основные теоретические положения, результаты, выводы и рекомендации диссертационной работы доложены и обсуждены на Всероссийских рабочих совещаниях по созданию ГБЦТИ (6-ое в апреле 1994 г. в г. Голицыно Московской обл., 7-ое в октябре 1994 г. в Московской обл., 8-ое в апреле 1995 г. и 9-ое в декабре 1995 г. в г. Зеленограде Московской обл.). на Всероссийских рабочих совещаниях пользователей компьютерных технологий при ГДП-200 (2-ое в ноябре 1994 г. и 3-е в декабре 1995 г. в г. Екатеринбурге), на международных симпозиумах "Минерально-сырьевая база России" (в 1995 и 1996 гг. в г. Санкт-Петербурге), на региональных совещаниях "Фундаментальные БД при ГДП-200. Рассмотрение информационных стандартов" (в ноябре 1995 г. в г. Санкт-Петербурге по северо-западному региону РФ и в декабре 1995 г. в г. Москве по центральному региону РФ) и на семинарах кафедры вычислительной техники Балтийского государственного технического университета.
Публикации по теме диссертации. Основное содержание дис-
сертации отражено в 5-ти печатных работах и отраслевой инструкции Роскомнедра.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и приложений. Содержит 159 страниц сквозной нумерации, в том числе 100 основного текста, список использованных источников из 164 наименований на 11 страницах и иллюстрирована 12 рисунками на 11 страницах.