Введение к работе
Актуальность темы исследования. Интеграция распределенных источников данных необходима при создании сводных баз данных и объединении данных одной предметной области в глобальной телекоммуникационной сети, в сетях межкорпоративного взаимодействия, а также в корпоративных сетях укрупняемых (объединяемых) предприятий при необходимости оперативного логического объединения нескольких идентичных по назначению баз данных.
Основным назначением системы интеграции данных является обеспечение доступа ко множеству подсоединенных к ней независимых источников данных.
Условия задач, которые приходится решать системе интеграции данных, сильно зависят от области ее применения. При расширении сетей предприятий и при объединении данных нескольких сотрудничающих предприятий задача интеграции данных характеризуется следующими особенностями:
-  большое число источников данных; 
-  как правило, для совместного использования предоставляется только ограниченное подмножество имеющихся данных (то есть отдельный источник данных предоставляет небольшой объем информации); 
-  высокая вероятность недоступности некоторого числа источников данных; 
-  относительно высокая стоимость доступа к источникам данных; 
-  контроль над источниками данных осуществляется различными группами администраторов, но при этом существует возможность согласованного администрирования источников данных; 
-  отсутствие необходимости (а зачастую и возможности) изменять данные в подсоединенных источниках данных. 
Методы обработки и уменьшения времени выполнения запросов к совокупности источников данных в распределенной сети описываются в работах O.Duschka, A.Halevy, A.Motro и других авторов. Однако, им свойственен ряд недостатков, не позволяющий быстро получать релевантные ответы на запросы при интеграции данных в распределенных корпоративных и межкорпоративных сетях, в частности, ориентация на интеграцию нереляционных данных.
Таким образом, актуальной является разработка методов и средств интеграции данных для объединения реляционных источников данных в распределенных сетях TCP/IP, обеспечивающих быстрое получение ответов на запросы пользователей к рассматриваемой совокупности источников данных. При разработке подобных методов и средств целесообразно использовать модель данных, близкую к реляционной модели, потому что это позволяет при обработке запросов к системе интеграции данных формировать запросы к подсоединенным источникам данных, быстро обрабатываемые реляционными СУБД.
Объектом исследований являются методы и средства интеграции данных в распределенных сетях TCP/IP.
Целью диссертационного исследования является сокращение времени ответа на запрос к совокупности реляционных источников данных.
Научная задача состоит в разработке методов, обеспечивающих минимизацию времени получения релевантного ответа на запрос к совокупности реляционных источников данных в распределенной сети TCP/IP.
Частные научные задачи диссертационного исследования:
-  -  анализ существующих методов и средств интеграции данных; 
-  расширение логического языка запросов Datalog для его применения в области интеграции данных; 
-  разработка методов построения системы интеграции данных, предназначенной для работы в распределенной сети; 
-  разработка системной архитектуры системы интеграции данных, предназначенной для работы в распределенной сети; 
-  разработка алгоритмов обработки и сокращения времени выполнения пользовательских запросов к системе интеграции данных, создание на основе разработанных алгоритмов прототипа такой системы; 
-  выполнение оценки эффективности разработанных методов. 
 Методы исследования. При проведении исследований были использованы элементы теории баз данных, элементы теории графов, методы объектно- ориентированного программирования, методы построения синтаксических анализаторов. Достоверность и обоснованность полученных в работе результатов подтверждены непротиворечивостью формальных построений теории баз данных, практическими экспериментами, апробацией научных результатов на международных и всероссийских конференциях, а также практическими внедрениями результатов работы. Наиболее существенные научные положения, выдвигаемые для защиты: -  -  -  Современные методы интеграции данных не обеспечивают адекватной скорости получения ответов на запросов к совокупности реляционных источников данных в распределенной сети, что определяет актуальность темы исследования. 
-  Сокращение времени выполнения запроса к совокупности реляционных источников данных в распределенной сети достижимо на основе отслеживания зависимостей между операциями извлечения информации из различных источников данных за счет прекращения выполнения операций, которые не могут быть успешно завершены в связи с недоступностью источников данных, параллельной обработки не взаимосвязанных операций, а также объединения обращений к одним и тем же данным в разных частях обрабатываемого запроса. 3) Процесс подсоединения новых источников данных к системе интеграции данных может быть упрощен и сделан более «прозрачным» для приложений за счет поиска предикатов в схеме виртуальной базы данных, предоставляемой системой интеграции, на основе совпадения имен предикатов и имен части требуемых для выполнения запроса аргументов. 
 Наиболее существенные новые научные результаты, выдвигаемые для защиты: -  -  -  -  новый метод обработки запросов к распределенной совокупности источников данных, отличающийся применением процедур выделения и параллельного выполнения групп не взаимосвязанных операций, отслеживания зависимостей между ними и объединения обращений к одним и тем же данным в разных частях обрабатываемого запроса; 
-  новый метод определения источников данных, используемых в запросе к распределенной совокупности источников данных, отличающийся осуществлением поиска предикатов в схеме виртуальной базы данных, предоставляемой системой интеграции, на основе совпадения имен предикатов и имен части требуемых для выполнения запроса аргументов; 
-  алгоритм трансляции Datalog-подобных программ в язык реляционной алгебры и реляционного исчисления, отличающийся от известных процедурой унификации предикатов, которая формирует дополнительное множество условий на равенство аргументов предикатов. 
 Практическая ценность работы. Разработанный алгоритм трансляции Datalog-подобных программ в язык реляционной алгебры и реляционного исчисления позволяет обрабатывать рекурсивные запросы без постоянного контроля со стороны системы интеграции данных при помощи программы на процедурном языке СУБД. Разработанные методы и средства позволяют сократить время получения ответа на запрос пользователя в условиях возможной недоступности части источников данных в зависимости от характера обрабатываемых запросов на 20%-50%, в 3-4 раза сократить затраты времени прикладных программистов на модернизацию корпоративных информационных систем при добавлении новых источников данных. Диссертация соответствует пункту 4 («Системы управления базами данных и знаний») паспорта специальности 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей». Апробация результатов работы. Результаты работы докладывались и обсуждались на всероссийских и международных научно-техничесикх конференциях: на XIV-XVIII всероссийской научно-методической конференции «Телематика» (2007-11, г. С.-Петербург), на XIV-XVI конференции представителей региональных научно-образовательных сетей «Relarn» (200709, г. Нижний Новгород), на международной конференции «Информационные технологии в науке, образовании, телекоммуникации и бизнесе IT+SE» (200810, г. Гурзуф), международной научно-технической конференции МВУС (2009, с. Дивноморское). Основные научные результаты диссертации опубликованы в 14 научных изданиях, в составе которых 2 статьи в журналах, рекомендованных ВАК для публикации результатов диссертаций [1][2] общим объемом 18 с. (авторские 66%), 2 свидетельства об официальной регистрации программы для ЭВМ [3][4], 8 тезисов в сборниках тезисов международных и всероссийских конференций [5-12] общим объемом 18 с. (авторские 94%), 2 отчета по НИР общим объемом 231 с. (авторские 12%) [13,14]. Основные результаты работы реализованы в следующих документах: -  в технической документации интегрирующего информационного комплекса в Южно-Российском региональном центре информатизации Южного федерального университета (акт внедрения); 
-  в технической документации каталога электронных образовательных ресурсов в Тамбовском государственном техническом университете (акт внедрения), 
 а также использованы -  в отчете по НИР «Разработка методов, технологий и программных средств построения распределенной инфраструктуры образовательных и научных информационных ресурсов университета федерального уровня (20092010 г., № гос. регистрации 01.2009.56224); 
-  в отчете по НИР «Разработка и программная реализация проекта развития прототипных версий программных средств построения распределенной инфраструктуры образовательных и научных информационных ресурсов университета федерального уровня» (2011, № гос. регистрации 01.2011.56016). 
 Личный вклад автора. Все научные результаты диссертации получены автором лично. Структура и объем диссертационной работы. Диссертация состоит из введения, четырех глав, заключения, списка использованных источников и четырёх приложений. Работа содержит 152 страницы основного текста, 38 рисунков, 7 таблиц, список используемой литературы из 75 источников, 17 страниц приложений. Похожие диссертации на Методы и средства интеграции независимых баз данных в распределенных сетях TCP/IP
-  
 
-  
 
-  
 
-  
 
-  
 
-  












