Содержание к диссертации
Введение
1. Проблема обеспечения качества данных в современных информационных системах 9
1.1. Особенности построения и работы современных информационных систем 9
1.1.1. Архитектура современной информационной системы 9
1.1.2. Особенности работы интегрированной ИС 14
1.1.3. Проблемы обеспечения качества данных в интегрированной ИС 17
1.2. Общие подходы к оценке качества данных информационной системы 20
1.2.1. Оценка качества баз данных : 20
1.2.2. Оценка качества данных 27
1.3. Политика обеспечения качества данных в информационной системе 31
1.3.1. Задачи обеспечения качества данных 31
1.3.2. Подсистема оценки и обеспечения качества данных 32
Выводы .' 37
2. Задачи оценки и обеспечения качества данных в интегрированных информационных системах 39
2.1. Задачи администрирования данных в информационной системе 39
2.1.1. Администрирование данных 40
2.1.2. Администрирование баз данных 42
2.2. Характеристики качества данных 43
2.3. Оценка и обеспечение полноты и актуальности данных 47
2.3.1. Полнота данных 47
2.4. Статистические методы обследования данных 52
2.4.1. Сплошное обследование 53
2.4.2. Обследование специально отобранных единиц 55
2.4.3. Выборочный метод 56
2.5. Задачи обеспечения и оценки полноты и актуальности данных 58
2.5.1. Обеспечение и оценка полноты данных 59
2.5.2. Задачи актуализации данных 64
Выводы 69
3. Математические модели для расчета дополнительной нагрузки при оценке и обеспечении полноты и актуальности данных 71
3.1. Математические модели для оценки полноты базы данных 71
3.1.1. Модель двухступенчатой выборки 71
3.2. Математические модели для оценки актуальности базы данных 80
3.2.1. Актуализация не проводится 80
3.2.2. Актуализация производится 84
3.2.2.1. Оценка затрат на актуализацию данных 85
3.2.2.2. Оценка величины штрафа 88
3.3.2.1. Оценка затратна проведение актуализации данных 91
3.3.2.2. Подбор оптимальных значений параметров Т и D 93
3.3. Модели для оценки загрузки телекоммуникационной и
компьютерной сетей 97
3.3.1. Расчет дополнительной нагрузки при оценке и обеспечении полноты данных 102
3.3.2. Расчет дополнительной нагрузки при обеспечении актуальности данных 103
Выводы
- Особенности построения и работы современных информационных систем
- Общие подходы к оценке качества данных информационной системы
- Задачи администрирования данных в информационной системе
- Математические модели для оценки полноты базы данных
Введение к работе
На сегодняшний день большое количество предприятий и организаций различных форм собственности имеют свои локальные информационные системы, где хранится необходимая для обеспечения их деятельности информация.
Развитие и объединение предприятий, расширение круга решаемых задач обуславливают необходимость интеграции локальных данных в единое информационное пространство. При этом резко возрастают объемы хранимой и обрабатываемой информации. Информационные системы становятся все более крупномасштабными как по объемам хранимых и обрабатываемых данных, так и по функциональному назначению решаемых задач.
В этих условиях особое внимание должно уделяться обеспечению качества данных, поскольку оно определяет эффективность применения информационной системы, обоснованность и правомерность принимаемых решений. От качества используемой в информационных системах информации часто зависит принципиальная возможность ее использования при принятии управленческих решений. Поэтому наряду с качественным и количественным ростом информационных систем, значимость проблемы обеспечения качества данных будет постоянно возрастать.
Однако, если вопросы оценки и обеспечения качества данных на теоретическом уровне достаточно хорошо исследованы в работах по теории вероятностей и математической статистике, то реализация алгоритмов и моделей для оценки и обеспечения качества данных в реальных условиях требует проведения дополнительных исследований.
Это обусловлено тем, что когда в информационных системах хранятся и обрабатываются очень большие объемы данных (109 - 1012) записей, работы по оценке и обеспечению качества данных становятся весьма трудоемкими, сильно загружая телекоммуникационные и вычислительные средства информационной системы дополнительными потоками данных и программным обеспечением.
Для проведения таких работ, в рамках существующей информационной системы, целесообразно создавать специализированные подсистемы, использующие уже имеющиеся телекоммуникационные и серверные ресурсы. При этом необходимо оценивать дополнительную нагрузку, вносимую данной подсистемой, чтобы исключить перегрузки и снижение качества обслуживания основных задач.
В связи с этим тематика диссертационной работы, направленная на решение задач, связанных с оценкой нагрузки на телекоммуникационные и вычислительные средства информационной системы при решении задач оценки и обеспечения качества данных, актуальна как на сегодняшний день, так и на достаточно удаленную перспективу.
Целью работы является разработка структуры подсистемы обеспечения качества данных в распределенной информационной системе и создание математических моделей для количественной оценки нагрузки на телекоммуникационную сеть и серверное оборудование информационной системы при решении задач обеспечения полноты и актуальности данных.
Для достижения поставленной цели в работе сформулированы и решены следующие задачи:
проведен анализ параметров качества данных и методов их оценки и
поддержания на заданном уровне;
разработаны алгоритмы обеспечения полноты и актуальности данных в интегрированной информационной системе;
разработаны математические модели для расчета показателей полноты и актуальности данных;
разработана структура подсистемы обеспечения качества данных;
разработаны математические модели для вычисления необходимых объемов данных для обеспечения заданных значений показателей полноты и актуальности данных и расчета нагрузки на каналы связи и серверы обработки данных подсистемы обеспечения качества данных.
На защиту выносятся:
алгоритмы обеспечения полноты и актуальности данных в распределенных интегрированных информационных системах;
комплекс математических моделей для расчета характеристик полноты и актуальности данных;
комплекс математических моделей для расчета нагрузки на каналы связи и серверы при решении задач обеспечения полноты и актуальности данных для заданной структуры подсистемы обеспечения качества данных.
Научная новизна полученных результатов заключается в разработке математических моделей для комплексной оценки полноты и актуальности данных, ориентированных на конкретные алгоритмы интеграции и поддержания качества и методов оценки нагрузки на телекоммуникационную сеть и серверы обработки данных информационной системы.
Практическая ценность результатов диссертации состоит в создании методов расчета показателей полноты и актуальности данных,
позволяющих определять необходимые объемы выборок для достижения заданных значений показателей и связанную с этим нагрузку на каналы связи и серверы информационной системы, что дает возможность обоснованно выдвигать требования к качеству каналов связи и параметрам серверов для обслуживания подсистемы обеспечения качества данных.
Достоверность и обоснованность результатов диссертации
обеспечиваются соответствием разработанных алгоритмов и
математических моделей, известным теоретическим результатам и практическому опыту по оценке и обеспечению качества данных в информационных системах, применением при разработке моделей современных методов математической статистики и подтверждаются положительными данными об их применении в реальной информационной системе.
Методы исследований. При решении поставленных в диссертации задач применялись методы теории систем, теории вероятностей и математической статистики, теории множеств, математического программирования, а также использовались данные о современных методах создания распределенных интегрированных информационных систем, распределенных баз данных, телекоммуникационных систем.
Реализация и внедрение результатов исследований. Результаты проведенных исследований применялись при исследовании качества данных в системе учета иностранных граждан, а также использовались в учебном процессе в Московском государственном институте электроники и математики и Московской финансово-юридической академии.
Апробация работы: Результаты работы докладывались на отечественных и зарубежных научно-технических конференциях, обсуждались на семинарах в МФЮА, МИЭМ.
Особенности построения и работы современных информационных систем
Современная информационная система является сложной территориально распределенной могокомпонентной системой сбора, хранения и обработки информации, включающей разнообразные типы оборудования, программного обеспечения и информационных ресурсов. Здесь под термином тип применительно к оборудованию и программному обеспечению понимается совокупная характеристика, включающая производителя, функциональное назначение, условия эксплуатации, а применительно к информационным ресурсам (данным) владелец, семантика, форма представления, условия согласованности и т.д [7, 13, 16, 18,21,48,52 58].
Свойство гетерогенности в данном случае обусловлено применением большого количества функционально ориентированных аппаратных и программных средств, что вызвано необходимостью работы с разнообразными по содержанию, структуре и форме представления данными для удовлетворения запросов пользователей системы.
Большинство современных ИС имеет, как правило, иерархическую структуру, где каждый уровень ориентирован на решение определенного класса задач по сбору, обработке и хранению данных, обработке запросов пользователей [3,48, 67].
Структура информационной системы представлена на рисунке 1.1.
Базовыми компонентами современной ИС являются; телекоммуникационная (сетевая) подсистема, предназначенная для передачи разнообразной информации; вычислительная сеть, построенная на основе телекоммуникационной системы; программное обеспечение, обеспечивающее решение прикладных задач в среде вычислительной сети; система данных, собираемых, хранимых, передаваемых и обрабатываемых тремя первыми компонентами системы.
Организация работы и взаимодействие этих компонент в основном определяет качество работы всей информационной системы.
К настоящему времени создано и освоено разработчиками ИС множество разнообразных технологических, аппаратных и программных решений по созданию и взаимодействию перечисленных компонент, которые в совокупности составляют значительную часть современных информационных технологий [10, 11, 21, 23, 24, 29, 37, 42].
Кроме того, создано большое количество стандартов для различных уровней построения системы от передачи до хранения и представления данных и взаимодействия процессов [46, 47, 39, 40, 41]. Поэтому объединение в единую систему совокупности аппаратных и программных средств, которые будут реализовать заданные алгоритмы (программы) обработки и передачи информации, как правило, не является сложной проблемой. Техническая и программная компоненты архитектуры ИС достаточно хорошо отработаны на практике и поддерживаются большим количеством производителей, предлагающих соответствующие продукты с необходимой адаптацией (настройкой).
Сложнее дело обстоит с компонентой, представляющей систему данных. Сама система данных включает все данные, необходимые для решения прикладных задач ИС, обработки запросов пользователей, а также вспомогательную информацию для интеграции, поиска требуемых данных, обеспечения качества данных и управления данными.
Необходимость интеграции данных обусловлена тем, что крупные современные информационные системы федерального, регионального и отраслевого уровней, как правило, обеспечивают пользователям доступ к информации сосредоточенной в более мелких (подчиненных) информационных системах, и обработку запросов к совокупности таких данных, что требует решения задач интеграции. Например, при получении справки по физическому лицу, можно обращаться к информационным системам пенсионного фонда, МВД, МИД и т.д. выдавая в качестве результата интегрированную информацию об этом лице, содержащуюся в перечисленных системах. Здесь задача поиска также усложняется тем, что современная ИС как правило это интегрированная система и необходимы специальные средства для поиска и доступа к данным в подчиненных подсистемах.
Общие подходы к оценке качества данных информационной системы
Для определения и оценки качества базы данных могут быть полезны методы и стандарты, разработанные для анализа сложных программных средств [39, 40].
При анализе качества баз данных целесообразно рассматривать два компонента: систему программ управления данными и совокупность данных, упорядоченных по некоторым правилам. Хотя эти компоненты тесно взаимодействуют при реализации конкретной базы данных, первоначально они создаются независимо и могут рассматриваться в своем жизненном цикле как два объекта, которые различаются [39]: номенклатурой и содержанием показателей качества, определяющих их назначение, функции и потребительские свойства; технологией и средствами автоматизации разработки и обеспечения всего жизненного цикла объекта; категориями специалистов, обеспечивающих создание, эксплуатацию и применение баз данных и комплектами эксплуатационной и технологической документации, поддерживающими жизненный цикл объекта.
Практически весь набор характеристик и атрибутов из стандарта ISO 9126 «Качество программных средств» в той или иной степени может использоваться в составе требований к СУБД.
Во всех случаях важнейшими характеристиками качества СУБД являются требования к функциональной пригодности процессов формирования и изменения информационного наполнения баз данных администраторами, хранения и представления данных в нужной форме и требуемом количестве, доступа к данным и представления результатов пользователям.
Различия конкретных требований к характеристикам качества БД привели к созданию широкого спектра локальных, специализированных и распределенных СУБД. В зависимости от области применения, приоритет при оценке качества может отдаваться различным характеристикам. Однако, практически во всех случаях для каждой из них необходимо оценивать приоритет при конкретной сфере применения, меры и шкалы необходимых и допустимых характеристик качества, что соответствует, в частности, определению весовых коэффициентов в формуле (1.2).
Формализация характеристик качества баз данных, на основе стандартов, разработанных для оценивания программных средств, открывает путь для применения апробированных на комплексах программ методов систематизации, определения и повышения их качества. Это способствует повышению качества баз данных в целом, с учетом их программных и информационных компонентов, возможности достоверного определения их реальных характеристик при разработке, испытаниях и сертификации.
Итак, к наиболее значимым характеристикам (показателям) качества баз данных относятся [39]:
Мобильность базы данных можно характеризовать длительностью и трудоемкостью их наполнения и инсталляции, адаптации и замещаемости при переносе на иные аппаратные и операционные платформы.
Информация об объектах предметной области и процессах, происходящих во внешней среде, может иметь большие объемы и трудоемкость первичного накопления и актуализации. Возможны ситуации, когда подобные данные являются уникальными и невосстанавливаемыми. Как правило, формирование и заполнение информацией баз данных достаточно сложный и трудоемкий процесс, технико-экономические показатели которого сильно зависят от структуры, состава, объема, связности и других характеристик исходной информации.
Возможность переноса при первичном формировании и наполнении базы данных часто не предусматривается и проявляется после длительной эксплуатации. Сложность, трудоемкость и длительность переноса в этом случае значительно возрастают и требуют тщательного планирования и организации работ, приближающихся к созданию новой базы данных. Одновременно должно быть обеспечено сохранение или повышение качества ее функционирования на новой платформе.
Задачи администрирования данных в информационной системе
Данные, хранящиеся и обрабатываемые в интегрированной информационной системе должны обеспечивать решение прикладных задач, на которые ориентирована система, принятие обоснованных решений по управлению как самой информационной системой, так и объектами для управления и обслуживания которых создается информационная система.
В связи с этим к качеству данных предъявляются очень высокие требования.
Обеспечение выполнения этих требований, наблюдение за качеством данных и поддержка качества данных возлагаются на службу администрирования данных, которая, входит в состав системы администрирования информационной системы. Поскольку данные, в основном, хранятся в базах данных, хранилищах данных, то администрирование данных тесно связано с администрированием баз и хранилищ данных [37, 38, 42, 53, 54, 64].
Однако администрирование данных имеет свою специфику, которая определяется решаемыми службой администрирования данных задачами. Ниже приводятся задачи, решаемые службой администрирования данных и службой администрирования баз данных.
Среди основных вопросов, возникающих при работе интегрированной информационной системы, решение которых связано с администрированием данных, можно выделить следующие [39, 40, 42]: обеспечение согласованности данных в различных подсистемах; обеспечение контроля данных при поступлений и загрузке в различные БД; контроль согласованности (целостности) данных в системе; обеспечение выполнения правил хранения данных; обеспечение актуальности данных; оценка и обеспечение полноты данных; обеспечение резервирования, архивирования и восстановления данных; обеспечение качества данных на всех этапах жизненного цикла базы данных информационной системы; контроль соблюдения регламентов по обмену данными с внешними информационными системами и между подсистемами интегрированной системы.
Решение перечисленных задач администратором позволяет обеспечить требуемое качество данных, решать спорные вопросы с поставщиками и потребителями информации распределенной системы, гарантировать выполнение требований к данным со стороны потребителей информации. На практике, однако, не каждая организация выделяет отдельную должность для администрирования данных. Часто многие организации возлагают обязанности по администрированию данных на администраторов баз данных.
Администрирование данных отделяет деловые аспекты управления информационными ресурсами от технологии, использующейся для управления данными, оно ближе к деловым пользователям данных. Администратор данных (АД) отвечает за понимание делового лексикона и преобразование его в логическую модель данных. На практике администратор данных должен быть больше вовлечен в фазы сбора требований, анализа и проектирования, а администратор баз данных - в фазы проектирования, разработки, тестирования и эксплуатации.
Таким образом, администрирование данных это управление информационными ресурсами, включая планирование баз данных, разработку и внедрение стандартов на качество данных и процессы обработки данных, определение ограничений и процедур при обработке данных, а также концептуальное и логическое проектирование баз данных 3}
Администратор данных в интегрированной информационной системе отвечает за следующие задачи, связанные с получением, представлением, хранением и обработкой данных ["3] создание концептуальной и логической модели данных для точного описания связи между элементами данных в деловых процессах и определение состава данных, требуемых пользователям, что обеспечивает необходимую для решения прикладных задач семантическую или логическую полноту данных; определение необходимого для решения прикладных задач объема данных - обеспечение физической полноты данных; создание полной модели данных, которая объединяет все данные, сосредоточенные в локальных подсистемах и используемые во всех процессах обработки информации; установление политики работы с данными в интегрированной информационной системе и ее подсистемах; определение владельцев и распорядителей данных; установка и обеспечение исполнения стандартов качества, контроля и использования данных.
Математические модели для оценки полноты базы данных
Проведем сначала оценку возникающих дополнительных потоков данных. При этом будем оценивать объемы передаваемых данных без указания конкретных точек источников и приемников. Для расчетов примем о внимание алгоритм интеграции данных, приведенный и исследованный в разделах 2.5.1. и 3.1. В соответствии с этим алгоритмом происходит слияние проведенных из генеральной совокупности выборок. Эти выборки могут быть реализованы как отдельные массивы или базы данных интегрируемых локальных информационных подсистем. При интеграции необходимо по каждой процедуре слияния проводить фильтрацию данных (поиск повторов), что требует проверки интегрируемых массивов. Для проверки необходимо передавать интегрируемые данные приложению. Будем считать, что приложение установлено на одном из серверов, где хранятся интегрируемые данные, и при этом передается наименьший из массивов данных. Следовательно, на каждом шаге интеграции требуется передавать массив объемом Щттт = ШШ{л (г],М(/ + 1)}, Это и будет минимальное число записей, которое необходимо предавать по каналам связи. Если обозначить через 7) интервал времени между процедурами интеграции 102 номер / и (/+1), то интенсивность потока дополнительных данных равна: KHm=vrRimmITimm, (3.3.12) где vr - объем записи в байтах.
Таким образом, на каждом шаге интеграции требуется передача объема данных, определяемого формулой (3.3.12). Этот же объем данных должен быть отфильтрован на сервере, где хранится другой массив. Следовательно, будет задержка в работе основных приложений. Длительности задержки можно вычислить по формулам (3.3.2), (3.3.3) и (3.3.10), (3.3.11) для каналов связи и серверов, соответственно.
Если проводится только оценка полноты путем выборочной проверки (фильтрации) статистических данных, собранных из генеральной совокупности, то для расчета интенсивности потока дополнительных даных можно использовать формулу: inon»=vrMnomITnom , (3.3.13) где Мпош - объем записей в выборке, Тпош интервал времени сбора и передачи статистики.
Естественно, что если процедуры интеграции и оценки полноты проводятся в одно время, то интенсивности потоков дополнительных данных складываются.
Нагрузка при проведении актуализации возникает в связи с тем, что необходимо извлекать из из БД выборку для проверки и передавать в БД результаты проверки выборочных данных. При этом объем выборки остается неизменным независимо от того, извлекается она из центральной БД, полученной при интеграции, либо и локальных БД, если при интеграции центральная БД не создавалась (создавалась виртуальная центральная БД).
Определим интенсивность потока данных, передаваемых при проведении актуализации. Как отмечалось в разделе 3.2.2, количество записей в выборке равно D, а длительности интервалов между актуализациями имеют экспоненциальное распределение с параметром \1Т. При этом интенсивность потока данных, передаваемых по каналам связи равна DIT записей в единицу времени. Если объем записи равен угбайт, то интенсивность потока данных, связанных с актуализацией, равна vrD/T байт в единицу времени. Это есть интенсивность дополнительного потока данных в телекоммуникационной сети информационной системы, т.е. Я =vrD/T. Теперь для проведения расчетов по вычислению разности между различными режимами работы каналов связи и серверов можно воспользоваться формулами (3.3.2), (3.3.3) и (3.3.10), (3.3.11).
При проведении процедур актуализации и интеграции одновременно, интенсивности потоков соответствующих данных складываются.