Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Торшин Дмитрий Вячеславович

Методы интеграции данных компьютерных систем на основе универсального формата обмена данными
<
Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными Методы интеграции данных компьютерных систем на основе универсального формата обмена данными
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Торшин Дмитрий Вячеславович. Методы интеграции данных компьютерных систем на основе универсального формата обмена данными : диссертация ... кандидата технических наук : 05.13.11 / Торшин Дмитрий Вячеславович; [Место защиты: Уфим. гос. авиац.-техн. ун-т].- Уфа, 2009.- 133 с.: ил. РГБ ОД, 61 09-5/2782

Содержание к диссертации

Введение

Глава 1. Анализ подходов к интеграции разрозненных компьютерных систем обработки данных в единое информационное пространство и выбор путей решения . 9

1.1 Анализ проблемы интеграции данных в разрозненных компьютерных системах обработки данных 9

1.2 Анализ известных подходов к решению 16

1.3 Анализ известных программных решений и применимости сервисно-ориентированной архитектуры для интеграции данных 22

1.4 Постановка задачи — цели и задачи исследования 28

Выводы по главе 29

Глава 2. Разработка архитектуры единого интегрированного информационного пространства и методов организации и управления обработкой данных. 31

2.1 Разработка архитектуры единого интегрированного пространства, основанной на подходе консолидации данных 31

2.2 Выбор метода сопоставления структур данных компьютерных систем 36

2.3 Разработка подходов корректировки, сопоставления и сохранности данных в центральном концентраторе 42

2.4 Реализация принципов обратной связи при управлении импортом данных в централизованное хранилище 53

2.5 Разработка метода обмена данными между компьютерными системами во времени 56

Выводы по главе 58

Глава 3. Разработка моделей данных и алгоритмического обеспечения для интеграции разрозненных компьютерных систем 61

3.1 Разработка математической модели единого интегрированного информационного пространства и постановка задачи 61

3.2 Разработка моделей представления данных и форматов их преобразования 64

3.3 Разработка математической модели преобразования данных с использованием шаблонов преобразования данных 76

3.4 Разработка моделей построения централизованного хранилища с системным историзмом и хранением собственной структуры данных (метаданных) 80

3.5 Разработка алгоритмического обеспечения обработки данных центральным концентратором 84

Выводы по главе 91

Глава 4. Разработка прототипа программного обеспечения и анализ эффективности предложенного подхода на основе пилотного внедрения данного прототипа 93

4.1 Разработка прототипа программного обеспечения на основании предложенного подхода 93

4.2 Анализ эффективности предлагаемых методов на основе пилотного внедрения разработанного прототипа программного обеспечения 108

4.3 Определение применимости, анализ преимуществ и недостатков предлагаемого подхода 112

4.4 Анализ этапов внедрения разработанного прототипа программного обеспечения и экономической эффективности 116

4.5 Анализ перспективности развития предложенного подхода 120

Выводы по главе 121

Заключение 123

Список использованной литературы 125

Приложение

Введение к работе

Компьютерные системы обработки данных, внедренные на предприятиях и в некоммерческих организациях, зачастую представляют собой автономные системы, которые слабо или никак не связаны с другими системами, базами данных и программами автоматизации деятельности предприятий. Такие компьютерные системы могут быть разработаны разными компаниями, на различных платформах, с использованием разных типов баз данных.

В процессе развития крупной организации, включая государственные и муниципальные органы власти, все актуальнее становится задача эффективного управления информационной структурой. При этом многократно возрастают информационные потоки обмена данными, все более значимой становится правильно построенная информационная структура организации.

Ключом к достижению успеха процесса автоматизации организации, развивающей информационную инфраструктуру для повышения эффективности своей деятельности, является разработка способа интеграции данных из компьютерных систем.

Объектом исследования является процесс интеграции данных компьютерных систем.

Предметом исследования является разработка методов интеграции и постоянного обмена данными, которые обрабатываются компьютерными системами автоматизации деятельности организаций (информационных систем управления взаимоотношения с клиентами, систем планирования ресурсов предприятия, аналитических систем и др.).

Анализ отечественной, зарубежной литературы и источников сети Интернет позволяют сделать вывод, что исследованием и разработкой методов решения вышеуказанной задачи занимаются крупные информационные компании, такие как Microsoft, IBM, Oracle и др. Каждая из данных компаний предлагает проприетарные программные средства и технологии, и все они являются закрытыми программными продуктами для конечного потребителя,

что не позволяет на их основе строить интегрированные системы обмена данными в рамках концепции открытых информационных систем. Среди российских ученых, изучающих проблемы интеграции данных, можно отметить работы А.Кудинова, Н.Ермакова, А.Черноусова и др.

Можно сделать вывод, что задача интеграции данных из разных компьютерных систем представляется недостаточно исследованной, а большинство проектов по интеграции данных из различных компьютерных систем обработки не завершаются успехом из-за отсутствия обобщенного подхода к решению данной задачи.

Все вышесказанное подчеркивает актуальность тематики данной исследовательской работы.

Цель диссертационной работы

Целью диссертационной работы является повышение в организации эффективности процессов комплексной обработки данных, находящихся в разных компьютерных системах в различных структурах и форматах представления, на основе разработки методов интеграции этих данных в единое интегрированное информационное пространство.

Задачи исследования

Для достижения цели диссертационной работы необходимо решение следующих задач.

  1. Разработка архитектуры интеграции данных разных компьютерных систем обработки данных.

  2. Разработка моделей, методов представления, преобразования и обработки данных компьютерных систем для обеспечения их интеграции, а также метода организации хранения таких данных.

  3. Разработка алгоритма сохранения данных в централизованном хранилище с обеспечением синхронизации данных.

  4. Разработка прототипа программного обеспечения, реализующего предлагаемые методы и алгоритмы в рамках описанных моделей, с последующим проведением анализа эффективности предлагаемого подхода.

Методы исследования

Для решения поставленных задач в диссертационной работе был использован широкий спектр научных методов. При анализе функций систем интеграции данных и описании модели данных были использованы методы системного анализа, а в качестве средства моделирования была применена методология объектно-ориентированного проектирования. При разработке системы интеграции данных были использованы методы модульного, объектно-ориентированного и системного программирования, а также реляционная методология организации хранилища данных.

Основные научные результаты, выносимые на защиту

  1. Архитектура интегрирующей системы для организации единого интегрированного информационного пространства разных компьютерных систем обработки данных.

  2. Метод сопоставления данных в различных структурах и форматах, метод обеспечения сохранности данных в централизованном хранилище и обмена данными в едином информационном пространстве.

  3. Математическая модель преобразования данных универсальным конвертором на основе универсального формата обмена данными.

  4. Алгоритм сохранения (и изменения) данных в централизованном хранилище данных интегрирующей системы.

Научная новизна работы

Научная новизна работы содержится в следующих результатах.

1. Предложена архитектура интегрирующей компьютерной системы обработки данных, составленной из разных компьютерных систем обработки данных, основанная на применении универсального формата обмена данными. В отличие от известных, архитектура применима для одновременной интеграции данных компьютерных систем с требованием минимального вмешательства во внутренние структуры, а также для организации периодического обмена данными между этими системами. Это позволяет как проводить комплексную обработку данных, так и осуществлять обмен данными между отдельными компьютерными системами.

  1. Разработана математическая модель преобразования данных между различными структурами с применением универсального конвертора данных в различных форматах на основе задания шаблона преобразования, что позволяет производить подключение новых систем в единое интегрированное информационное пространство путем задания одного шаблона преобразования при подключении каждой новой системы. Предложен метод сопоставления данных в различных структурах, основанный на определении уникальности объекта по группам ключевых полей, что позволяет сопоставлять и связывать между собой объекты в различных форматах, создавая в центральном хранилище эталонное представление объекта, а также задавать связи между компьютерными системами. Предложен метод хранения данных в интегрирующей системе с обеспечением их сохранности, что позволяет восстановить данные после некорректного изменения.

  2. Разработан двухпроходный алгоритм обработки данных на основе многоступенчатой защиты от внесения некорректных данных в централизованное хранилище, что позволяет сформировать централизованное хранилище из проверенных, связанных между собой данных.

  3. Разработан прототип программного обеспечения интеграции данных компьютерных систем обработки данных, позволяющий оценить эффективность предложенных методов и алгоритмов.

Практическая значимость

Практическая значимость полученных результатов содержится в разработанном прототипе программного обеспечения интеграции и комплексной обработки данных, находящихся в разных компьютерных системах в различных структурах и форматах представления на основе разработанных методов интеграции этих данных в единое интегрированное информационное пространство.

Разработанный прототип программного обеспечения, реализующий предлагаемый подход, прошел пилотное внедрение в Администрации городского округа город Уфа Республики Башкортостан.

Результаты работы внедрены в учебный процесс УГАТУ в рамках курса «Технология разработки программного обеспечения» для студентов специальности 010503 «Математическое обеспечение и администрирование информационных систем». На модуль прототипа программного обеспечения получено свидетельство об официальной регистрации программы для ЭВМ в Роспатенте.

Связь с научными программами

Исследования проводились в рамках грантов РФФИ №06-07-89228-а (2006-2008гг.) и НИР № ИФ-ВК-01-08-03.

Апробация работы

Основные научные и практические результаты диссертационной работы докладывались и обсуждались на следующих конференциях: 7-й и 9-й Международных конференциях «Компьютерные науки и информационные технологии» (CSIT), Уфа-Ассы, 2005; Уфа-Красноусольск, 2007; Региональной зимней школе-семинаре аспирантов и молодых ученых, Уфа, 2006, 2007, а также семинарах регионального уровня.

Публикации

Основные результаты диссертационной работы опубликованы в 8 научных трудах, в том числе в виде научных статей в 2 научных изданиях, рекомендованных для публикации Высшей аттестационной комиссией Минобразования РФ. Перечень публикаций отражен в списке используемой литературы.

Структура работы

Диссертационная работа состоит из 133 страниц машинописного текста, включающего в себя введение, четыре главы, заключение, рисунки, таблицы, список литературы из 87 наименований и приложение.

Анализ известных программных решений и применимости сервисно-ориентированной архитектуры для интеграции данных

Среди участников рынка систем интеграции данных выделяются такие компании, как Oracle, SAP, Microsoft, Business Objects, SAS Institute, Sybase, Cognos и Tibco Software. Некоторые из них относятся к так называемым нишевым игрокам; их предложения не отличаются универсальностью, не реализуют всех ключевых аспектов интеграции данных и не могут быть причислены к решениям корпоративного уровня. В число лидеров, предлагающих реальную конвергенцию отдельных инструментов в единую платформу интеграции данных, с отрывом от остальных, попали только IBM и Informatica. В IBM одними из первых сделали ставку на технологии федеративного объединения данных в системе DB2 Information Integrator (сегодня Federation Server). После приобретения в 2005 году компании Ascential Голубой гигант вышел в лидеры ETL-решений. Группа продуктов по интеграции данных от IBM относится к семейству WebSphere и включает в себя Federation Server, ETL-систему DataStage, системы Information Analyzer и Quality Stage для профилирования и очистки данных, сервер метаданных Metadata Server. Недавно все эти продукты вошли в состав нового пакета IBM Information Server, реализующего единую, построенную на принципах многократного использования сервисов архитектуру интеграции данных и управления разнородной информацией. Ядром этой архитектуры является среда управления метаданными, пользователям предоставляется возможность многофункциональной работы с данными посредством ролевых интерфейсов, имеются мощные механизмы параллельной обработки больших объемов данных. Informatica, также ветеран рынка интеграции данных, является крупнейшим поставщиком, специализирующимся только на решениях этого класса. Функции интеграции сосредоточены в системе Informatica PowerCenter, которая изначально была разработана для реализации возможностей ETL, но со временем (с приобретением других компаний, лицензированием и разработкой новых технологий) пополнилась возможностями федеративного объединения данных (Data Federation Option), профилирования и обеспечения качества данных (Data Profiling Option, Data Cleanse and Match Option), поддержки неструктурированных источников (Unstructured Data Option) PI управления метаданными (Metadata Exchange Option и Metadata Manager).

В версии системы PowerCenter 8.5 реализована единая платформа интеграции данных с централизованной инфраструктурой метаданных и функциями интеграцрш в качестве сервисов. PowerCenter обеспечивает доступ к данным реляционных баз, файлов, унаследованных систем на мэйнфреймах, источникам неструктурированных данных и очередей сообщений, поддерживая пакетную доставку данных, доставку в реальном времени и в режиме извлечения только модифицированных данных. Модуль Metadata Exchange Option координирует технические и бизнес-метаданные из инструментария моделирования данных, систем бизнес-анализа, каталогов исходных и целевых баз данных и репозиториев самой системы PowerCenter. Решение Metadata Manager, входящее в состав расширенной версии PowerCenter Advanced Edition, обеспечивает сбор метаданных из различных источников, а также средства анализа метаданных и отчетности по ним.

Для масштабной интеграции данных, при которой требуется обработка большого объема данных, в том числе в реальном времени, PowerCenter включает опцию поддержки корпоративных grid-инфраструктур, построенных их многоузловых кластеров на базе стандартных Intel-серверов или серверов-лезвий. Enterprise Grid Option включает в себя консоль управления grid-средой с возможностью ее конфигурирования, контроля и миграции узлов и сервисов данных, сложный алгоритм адаптивной балансировки нагрузки и средства динамического разбиения данных для оптимальной параллельной интеграции.

Аналитики отмечают, что компания Informatica делает упор на интеграцию данных в процессе межкорпоративного взаимодействия, что пока не свойственно большинству участников рынка.

Microsoft BizTalk Server, часто называемый просто «BizTalk», является сервером управления бргзнес процессами (business process management (ВРМ [17]) server). Благодаря использованию так называемых «адаптеров», позволяющих обмениваться данными с различными программными системами в большой корпоративной среде, решение позволяет компаниям интегрировать и автоматизировать бизнес-процессы.

BizTalk предоставляет такое возможности и функции, как автоматизация бизнес-процессов (Business Process Automation), моделирование бизнес-процессов (Business Process Modeling), коммуникация между бизнесом (Businesso-business communication), интеграция корпоративных приложений (Enterprise Application Integration) и управление сообщениями (Message Broker).

В общем случае, Microsoft BizTalk Server позволяет компаниям управлять бизнес-процессами путем обмена деловыми документами (например, счетами к оплате) между различными приложениями, во внутреннем или внешнем контуре организации.

Как уже было отмечено, ключевым элементом, позволяющим связывать воедино несколько различных компьютерных систем, является специально разработанный адаптер. Большим преимуществом Microsoft BizTalk Server является то, что к нему уже разработаны сотни адаптеров для практически всех самых популярных и распространенных промышленных информационных систем - начиная от систем Microsoft и заканчивая системами SAP, IBM, Sun, Oracle и других. Стоимость самого продукта определена и составляет $34999 на один процессор.

Выбор метода сопоставления структур данных компьютерных систем

Задача конвертации зачастую считается простой и не заслуживающей особого внимания, а между тем именно от качества преобразования данных зависит эффективность работы компьютерных систем в совокупности.

Для начала можно обратиться к общей логической схеме конвертации данных между двумя компьютерными системами. Для простоты рассмотрения данного вопроса обратимся к примеру в Главе 1, — имущественному комплексу, а именно - Почтовым адреса (см. Рисунок 7): На схеме показан пример того, что разработанные независимо компьютерные системы могут описывать одно и то же понятие - «Адрес» - с различной точностью к деталям. Кроме того, даже при одинаковой структуре (наборе полей таблицы базы данных или свойств класса) типы данных полей могут отличаться. Поэтому центральное положение на схеме занимает конвертор - специальный программный инструмент, устанавливающий соответствие данных между двумя различными структурами.

Сам по себе «Адрес» существует объективно, т.е. такое понятие не связано жестко с представлением и хранением в какой-либо компьютерной системе. Деятельность каждой административно-территориальной единицы регламентируется правовыми актами, устанавливающими атрибуты адреса. Однако такие акты редко учитывают специфику, которая появляется при переложении понятия «Адрес» на плоскость компьютерных систем и баз данных. То, что человек воспринимает совершенно обычно (например, «дробь» в номере дома), для компьютерной системы может оказаться неприемлемо, ведь от того, насколько продумана структура адреса в системе и как качественно ведутся данные в этой структуре, зависит работоспособность, полнота и общее качество всех данных системы.

В приведенной схеме структура Адреса в первой компьютерной системе является более полной и «правильной» с точки зрения обработки информации, но при этом создание такой сложной структуры не всегда оправдано.

Например, если вести речь о мобильном телефоне, в записной книжке которого можно присваивать адреса субъектам, то разработчики программного обеспечения часто отказываются от подробной структуры в пользу более краткой как, например, показано во второй компьютерной системе. Немаловажным является и тот факт, что во второй компьютерной системе Адрес представляется пользователю в более наглядной форме, которая значительно проще для восприятия. Данные об Адресе из первой компьютерной системы необходимо предварительно обработать, чтобы получить более компактное и удобное представление для пользователя. Некоторые известнейшие программные продукты, например, Microsoft Office Outlook, применяют для этого следующий подход: информация об адресе хранится в сложной структуре, а пользователю автоматически «собирается» наглядное однострочное представление адреса. Выводом из сказанного можно считать признание факта неизбежности различного представления одних и тех же объективных понятий в разных компьютерных системах.

Очевидно, что подходы к решению задачи конвертации данных условно можно разделить на два направления, при этом оба имеют право на существование: 1. написание функции прямой конвертации данных из одной структуры в другую. 2. создание обобщающего, наиболее полного формата данных, который «покроет» оба формата компьютерных систем. Затем будут разработаны функции конвертации в этот формат и из этого формата.

Первый вариант очень часто применяется на практике из-за своей кажущейся дешевизны и простоты: необходимо расставить соответствие разных полей баз данных и перенести данные несколькими (чаще всего) несложными запросами. Задача будет легко решена, если мы говорим о переносе данных из первой компьютерной системы во вторую, т.е. из более полной и четкой структуры Адреса в более простой, однако трудности возникнут при обратном преобразовании, когда будет необходимо писать анализатор строки адреса, возможно, с применением Теории грамматик.

Второй вариант более универсальный и намного лучше подходит при реализации крупной интегрирующей информационной системы, поэтому именно он и ляжет в основу данной диссертационной работы. Подход дает следующие преимущества: возможность создания «эталонного»1 представления Адреса. В дальнейшем, при внесении корректив в существующие компьютерные системы может быть принято решение об использовании данного формата в качестве основного - «внутреннего стандарта». конверторы данных из компьютерных систем можно разрабатывать без учета того, в какую именно систему данные должны в дальнейшем попасть. Данные, которые будут переведены в единый «эталонный» формат Адреса, могут быть сконвертированы в формат любой компьютерной системы, участвующей в обмене данными в рамках информационного пространства. данный формат можно расширять фактически независимо от формата представления Адреса в используемых системах. Создание такого формата - первый шаг на пути создания единого информационного пространства, поскольку формат становится универсальным языком обмена данными. Вовлечение в конвертацию и перенос данных третьей и последующих систем будет осуществляться независимо, быстро и просто, поскольку уже будет существовать единый формат обмена данными внутри некого информационного пространства.

Разработка моделей представления данных и форматов их преобразования

УФОД - Универсальный Формат Обмена Данными - предлагаемый в рамках Архитектуры единого интегрированного информационного пространства инструмент для описания структуры данных всех сущностей в пространстве, а также всех блоков данных, которые перемещаются в пространстве или в нем хранятся (в централизованном хранилище или в любой компьютерной системе, подключенной к пространству).

Это определение следует из концепции единого интегрированного информационного пространства, рассматриваемого в рамках данной диссертационной работы, согласно которой требуется сформировать единую структура (формат) для централизованного хранилища, пакетов данных, передаваемых между системами и запросов данных между системами.

Первым этапом формирования всех форматов в таком пространстве является выработка структуры данных централизованного хранилища. Данная структура описывается с помощью какой-либо нотации, например, на XML. В структуре отмечаются классы, их свойства, связи (агрегации и ассоциации).

На основе данной структуры и формируется УФОД - структурированный набор правил оформления данных, которые перемещаются между информационной системой и центральным концентратором, подвергаясь различным преобразованиям. Данные, описанные в УФОД, имеют ту же структуру, что и централизованное хранилище.

Наконец, формируется язык запросов данных путем расширения УФОД, когда в уже установленной структуре описываются не конкретные сущности, а требования к ним - поисковые шаблоны, ограничения на данные.

Таким образом, структура данных в едином интегрированном информационном пространстве описывается один раз, а затем расширяется путем добавления специальных маркеров и ключевых слов, требуемый для классификации тех или иных данных в УФОД. Для упрощения изложения дальнейшего материала будем понимать под УФОД как структуру хранилища данных, так и формат обмена данными и запроса данных.

Следует отметить, что модель данных УФОД рассматривается в рамках парадигмы XML, поскольку полностью основывается на ней и заложенных в ней принципах структурирования и определения данных.

Нельзя также не отметить, что УФОД не является «готовым» форматом данных, а скорее набором соглашений и правил по описанию структуры данных. В каждом конкретном едином интегрированном информационном пространстве УФОД отличается. УФОД оперирует такими понятиями, как класс (объект, сущность), свойство (поле) класса (объекта), связь между объектами путем их вложенность друг в друга (агрегация) и ссылка между объектами путем установления ассоциации между ними. Дополнительно вводится понятие роли для каждой связи, поскольку разные объекты двух классов могут по-разному соотноситься друг с другом. Например, между классами Фильм и Человек существует несколько ролей: конкретный человек может быть связан ассоциацией с конкретным фильмом по роли «режиссер» или по роли «оператор», а может быть - и по обеим ролям сразу. Поскольку в центральном концентраторе и едином интегрированном информационном пространстве УФОД играет сразу несколько ролей, в него добавляются несколько ключевых слов, которые позволяют промаркировать каждый блок данных в УФОД по типу: запрос ли это данных или пакет с данными для обновления. Кроме того, именно к УФОД приводятся шаблоны преобразования данных, и сама структура центрального концентратора также описывается на УФОД. Значения полей в УФОД могут представлять собой либо значения конкретных сущностей или их полей, либо условия на поиск данных в данном поле (сущности). УФОД - это определенная формализованная структура, в которой представляются отдельные блоки данных и все информационное пространство в целом. Каждый блок данных в УФОД включает в себя: 1. заголовок, определяющий: а. отправитель блока (уникальное в данном интегрированном информационном пространстве имя компьютерной системы-источника); б. получатель блока (уникальное в данном интегрированном информационном пространстве имя компьютерной системы-получателя); в. дата и точное время формирования пакета; г. версия УФОД, в которой данный пакет описан; д. вид пакета: передача данных или запрос данных. 2. тело, включающее в себя иерархическую структуру данных. Для простоты изложения данные, представленные в вышеуказанной структуре УФОД, будем называть здесь и далее пакетом данных.

Анализ эффективности предлагаемых методов на основе пилотного внедрения разработанного прототипа программного обеспечения

Прототип данной системы и ее отдельные части внедрялись в организациях, подведомственных Администрации городского округа город Уфа Республики Башкортостан: - Комитет по Управлению Муниципальной Собственностью г. Уфы (КУМС) - источник данных (внедрение конвертора и клиента); - Главное управление архитектуры и градостроительства г. Уфы (Главархитектура) - источник данных (внедрение конвертора и клиента); - Муниципальный Информационно-Технологический Центр г. Уфы (МИТЦ) - администратор системы (вся серверная часть, обслуживание системы). Прототип системы внедрялся в указанных выше организациях на протяжении 2005-2007 годов и подразумевал интеграцию данных имущественного комплекса города Уфы - информации об адресном плане города, нежилых помещениях и финансовой составляющей - договорах аренды, платежах и т.п. Каждая из указанных выше организаций имела свои собственные компьютерные системы обработки данных и базы данных в проприетарных форматах и структурах, при этом никаких средств интеграции с другими системами не предполагалось. Создание единой интегрированной информационной системы позволило выявить разницу в данных, которые имеются в различных организациях (по сути, синхронизировать все основные городские справочники и реестры, относящиеся к имущественному комплексу), а также выявить те данные, которые могут быть признаны ошибочными или неполными.

После такой синхронизации уже в ручном режиме были внесены тысячи изменений в существующие в данных системах данные, что серьезно улучшило качество информационных ресурсов в Администрации города Уфы. Во время проведения пилотного внедрения данного программного обеспечения было выполнено: - из компьютерной системы обработки данных, содержащей информацию об адресном плане города Уфы, были выгружены данные о 72000 адресах. Общий объем сформированного XML-пакета составил 17,7 Мбайт. - данные были переданы в центральный концентратор, который затратил на обработку данных 2 часа 12 минут, в результате чего в центральное хранилище были добавлены 67499 адресов объектов в городе Уфа. - по результатам обработки был создан обратный пакет данных, который описал ошибки в адресах, имеющихся в профильной системе (всего 4501 или около 6,25% адресов оказались с ошибками). В частности, 211 адресов (или около 0,3%) оказались дубликатами. Данный пакет был возвращен на сторону Главархитектуры для принятия мер по внесению корректив в муниципальный адресный реестр. Результаты анализа адресного реестра города демонстрируют хорошее качество данных (см. Рисунок 30). - Из системы одного из комитетов были выгружены данные о 23000 объектах недвижимости. - Данные объекты были синхронизированы центральным концентратором за 3 часа 21 минута, в результате чего были выявлены: о ошибки в адресах (неполные адреса) или несоответствие адресов объектов адресному плану города - 3478 объектов. о дубликаты адресов объектов - 7688 объектов. о приняты в систему - 11834 объектов (около 51,5%). Графически данные результаты представлены на диаграмме (Рисунок 31). Экспертная оценка данных, которые были использованы для тестирования прототипа программного обеспечения, показали близкие значения к результатам работы системы (Таблица 4).

Привлечение экспертов при близких результатах привело к временным затратам около 115 человеко-часов, работа прототипа программного обеспечения - 5,5 часов, что доказывает преимущество в производительности при проведении такого анализа - более чем в 20 раз.

Похожие диссертации на Методы интеграции данных компьютерных систем на основе универсального формата обмена данными