Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Технология структуризации информационных массивов взаимосвязанных объектов Шоргин Всеволод Сергеевич

Технология структуризации информационных массивов взаимосвязанных объектов
<
Технология структуризации информационных массивов взаимосвязанных объектов Технология структуризации информационных массивов взаимосвязанных объектов Технология структуризации информационных массивов взаимосвязанных объектов Технология структуризации информационных массивов взаимосвязанных объектов Технология структуризации информационных массивов взаимосвязанных объектов Технология структуризации информационных массивов взаимосвязанных объектов Технология структуризации информационных массивов взаимосвязанных объектов Технология структуризации информационных массивов взаимосвязанных объектов Технология структуризации информационных массивов взаимосвязанных объектов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Шоргин Всеволод Сергеевич. Технология структуризации информационных массивов взаимосвязанных объектов : диссертация ... кандидата технических наук : 05.13.17. - Москва, 2005. - 227 с. : ил. РГБ ОД,

Содержание к диссертации

Введение

1 Постановка задачи структуризации информационных массивов взаимосвязанных объектов и ее место среди задач анализа данных 34

1.1 Задачи интеллектуального анализа данных 34

1.2 Содержательная постановка задачи структуризации информационных массивов взаимосвязанных объектов. Примеры реальных постановок 40

1.3 Задача структуризации информационных массивов взаимосвязанных объектов как одна из задач исследования структуры данных в ИАД 47

1.4 Системы управления базами данных как инструментарий технологий структуризации 54

Правила реляционных СУБД 60

1.5 Цель и задачи диссертации 62

1.6 Модель информационных структур для задачи структуризации. Математическая постановка типовой задачи 64

1.7 Выводы по разделу 1 76

2 Задача структуризации больших бизнес-групп. анализ нормативной базы и модель информационных структур 77

2.1 Общая характеристика задачи 77

2.2 Объект исследования и анализ нормативной базы 79

2.3 Математическая модель информационных структур и постановка задач структуризации бизнес-групп 92

2.4 Выводы по разделу 2 110

3 Задача структуризации больших бизнес-групп. описание программного комплекса «корпоративные отношения» 112

3.1 Структура программного комплекса 112

3.2 База данных по физическим и юридическим лицам 115

3.3 Общие сведения об алгоритмах и технологии реализации расчетных модулей 121

3.4 Алгоритмы выявления групп лиц 124

3.5 Алгоритмы выявления аффилированности 141

3.6 Алгоритмы определения контроля 146

3.7 Алгоритм выявления лиц, входящих в ИБГ, с вычислением степени их принадлежности 152

3.8 Пользовательский интерфейс для просмотра и редактирования данных, управления расчетами в программном комплексе «Корпоративные отношения» .153

3.9 Технология визуального формирования многокритериальных запросов

сложной структуры к БД 165

3.10. Выводы по разделу 3 170

4 Задача структуризации информационных массивов в АСУР 172

4.1 Вводные замечания 172

4.2 Общая характеристика АСУР 173

4.3 Комплекс программ экспорта и импорта данных БД АСУР 182

4.4 Задача выявления скрытых взаимосвязей в среде объектов учета на уровне ЦП АСУР 198

4.5 Утилита «Построитель запросов» 207

4.6. Выводы по разделу 4 208

Заключение 210

Литература

Введение к работе

Многие научные исследования и прикладные разработки приводят к постановке задачи выяснения «скрытых» («неявных») связей или отношений между объектами в рамках некоторой предметной области на основе имеющейся информации о «явных» связях между объектами, в том числе выражаемых качественно и количественно. Так, в настоящее время четко обозначились многочисленные прикладные задачи, приводящие к проблемам выявления «неявных» связей или отношений внутри структур и между структурами (холдинги, корпорации, другие формальные и неформальные группы юридических и физических лиц, те или иные технические объекты и системы, и т.п.). Установление таких связей особенно важно с прикладной точки зрения (технологической, правовой, юридической, финансовой и т.п.). Исходные данные о «явных связях» при этом требуется предварительно формализовать надлежащим образом, чтобы свести к логическим или численным переменным. Тем самым осуществляется формализация исходных данных («явных связей»). По совокупности этих переменных и должны быть вычислены отношения связи, свойства, структура рассматриваемого множества объектов («неявные связи»). В результате выявляются те или иные группы (кластеры) внутри рассматриваемого множества объектов и их иерархия. Каждый кластер показывает одну грань явления; взаимный анализ различных кластеров дает возможность определить приоритеты, предпочтения, те или иные рекомендации или необходимые технические решения, юридические выводы и т.п.

Тем самым всё более актуальной становится задача разработки методов и средств анализа информационных массивов большой размерности, характеризующих те или иные взаимосвязанные объекты, с целью выявления внутренних системных, априори неизвестных взаимосвязей между объектами

таких массивов. Задача структуризации (определения внутренней структуры такого массива) должна решаться как с точки зрения выявления «вертикальных» отношений внутри таких массивов (именуемых в разных предметных областях отношениями влияния, предпочтения, руководства, логического следования, использования, включения, цитирования и т.п.), так и с точки зрения выявления «горизонтальных» отношений взаимодействия (связи, родства, союза, близости по тематике и т.п.) на основе имеющейся информации о «явных», априори заданных взаимосвязях между этими объектами. Выявление «вертикальных» отношений назовем задачей стратификации анализируемого массива; выявление «горизонтальных» отношений назовем задачей кластеризации анализируемого массива.

В частности, необходимость в разработке методов и средств такого рода возникла при решении задач анализа структурных корпоративных отношений в больших бизнес-группах (холдингах) и задач структуризации информационных объектов (выявления скрытых взаимосвязей в среде объектов учета) в Системе учета наличия, движения и качественного состояния технических и программных средств Информационно-телекоммуникационной системы (ИТС) Банка России - автоматизированной системе учета ресурсов (АСУР), а также в ряде других предметных областей

Такого рода задачи можно отнести к классу задач интеллектуального анализа данных (английский термин - Data Mining). Интеллектуальный анализ данных (ИАД), согласно определению одного из ведущих мировых специалистов в этой области, Г.Пятецкого-Шапиро [90] - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Данной тематике посвящены многочисленные работы таких специалистов, как Н.Г.Загоруйко [26], АЛ.Самойленко, В.А.Дюк [23], А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод [11], R.S.Michalski, R.Stepp [86], Jiawei Han,

M.Kamber [80], D.Hand, Heikki Mannila, P.Smyth [81], Ian H. Witten, Eibe Frank [97] и др.

Одним из важнейших типов знаний, извлекаемых с помощью методов ИАД, являются определенные правила, закономерности, связывающие свойства объектов предметной области. В основу ИАД положена идея «шаблонов» (концептов), отражающих закономерности, свойственные подвыборкам данных. Чтобы сделать сложные результаты прозрачными, в ИАД рекомендуется использовать широкий набор вспомогательных средств в виде простых для понимания заготовок (моделей, концептов).

Приведенное выше определение ИАД является весьма общим и охватывает широчайшее множество задач и методов. В частности, значительное число постановок, результатов и технологий данной области относится к ситуациям, когда исходные данные неформализованы или неструктурированы (или формализованы или структурированы частично), а выявляемые закономерности априори неясны. Важность этих постановок и соответствующих разработок трудно переоценить. В то же время известные отечественные специалисты в области ИАД В.А.Дюк и А.П.Самойленко отмечают в книге [23], что среди «мифов» относительно возможностей ИАД имеется следующий: «средства интеллектуальной обработки данных автоматически обнаруживают различные закономерности». На самом деле, как отмечается в этой книге, хотя многие средства такой обработки действительно позволяют в ряде ситуаций автоматически выявлять закономерности в исследуемых данных, тем не менее, ставить им конкретные цели необходимо, а в ряде предметных областей не удается получить сколь-нибудь осмысленных и практически важных результатов без задания упоминавшихся типовых шаблонов для группировки объектов и т.п.

Одним из важных специальных направлений ИАД является постановка и решение новых задачи в области выявления взаимосвязей, относящихся к априори заданным типам, для предметных областей, в которых исходные

данные уже по некоторым признакам упорядочены. В частности, к этому классу задач относится рассматриваемая в данной диссертации проблема структуризации по заданным шаблонам массивов взаимосвязанных объектов, информация о которых (прежде всего информация о «явных» взаимных связях) задана. Задача разработки технологии структуризации больших информационных массивов взаимосвязанных объектов является весьма актуальной и в таком виде до настоящего времени не ставилась.

Цель и задачи работы. Целью диссертации является разработка технологии структуризации больших информационных массивов на основе имеющейся информации о взаимных связях элементов массивов.

Для достижения этой цели ставятся следующие задачи:

формулировка проблемы структуризации больших массивов взаимосвязанных объектов как задачи определения неявных связей по заданным явным связям на основе определенных решающих правил;

разработка модели информационных процессов и структур в рамках задачи структуризации больших массивов взаимосвязанных объектов, ее представление в виде формальной постановки типовой задачи структуризации больших массивов, математического описания характеристик и решающих правил;

разработка технологии и специального программного обеспечения стратификации и кластеризации для задачи анализа структурных корпоративных отношений, рассматриваемой в качестве представительного варианта общей проблемы;

разработка технологии и специального программного обеспечения для решения задачи анализа отношений использования оборудования в АСУР.

разработка программных средств для импорта и экспорта данных и для построения многокритериальных запросов в интересах обеспечения оперативного решения задач структуризации

Методы исследования. В работе использованы методы теории графов, системного анализа, теоретической и прикладной информатики.

Научная новизна диссертации определяется результатами, впервые полученными в данной работе, и заключается в следующем.

  1. Впервые сформулирована задача разработки технологии структуризации больших информационных массивов взаимосвязанных объектов - определения неявных связей по заданным явным связям на основе определенных решающих правил.

  2. Впервые разработана модель информационных структур и осуществлена формализация постановки типовой задачи структуризации в рамках проблематики структуризации больших массивов взаимосвязанных объектов;

  3. Впервые исследована нормативная база для анализа структурных корпоративных отношений; на основе этого анализа разработана модель информационных структур и осуществлена формализация постановки задачи структуризации больших бизнес-групп.

  4. В качестве представительного варианта общей проблемы впервые разработана и реализована информационная технология стратификации и кластеризации для задачи анализа структурных корпоративных отношений.

Практическая ценность работы состоит в том, что она является основой для создания современных информационных технологий структуризации больших массивов взаимосвязанных объектов.

Реализация результатов работы:

на основе результатов диссертации разработан программный комплекс «Корпоративные отношения», внедренный в Металлургической страховой компании, Российском Центре поддержки конкуренции.

основные принципы разработанной технологии применены для решения прикладной задачи анализа отношений использования оборудования в

АСУР; разработано специальное алгоритмическое и программное обеспечение для решения задач анализа отношений использования оборудования в АСУР Банка России.

Апробация результатов. Материалы диссертации докладывались и

обсуждались на следующих международных и всероссийских конференциях и

научных форумах.

  1. Всероссийская конференция «Экономическая наука современной России» (Москва, ноябрь 2000 г.)

  2. I Научная сессия Института проблем информатики РАН (Москва, апрель 2001 г.)

  3. VII Международная конференция «Информационные сети, системы и технологии» (ICINASTe-2001) (Минск, октябрь 2001)

  4. IV Всероссийский симпозиум по прикладной и промышленной математике (осенняя сессия) (Сочи, октябрь 2003 г.)

  5. II Научная сессия Института проблем информатики РАН (Москва, апрель 2005 г.)

а также научных семинарах в МГУ им. М.В.Ломоносова, РЭА им. Г.В.Плеханова, МСЦ РАН, ИЛИ РАН.

Публикации. По теме диссертации опубликовано 11 печатных работ, список которых приведен в конце реферата.

Кроме того, по теме диссертации выпущено 4 научно-технических отчета в ИЛИ РАН и более 20 томов документации на Систему учета наличия, движения и качественного состояния технических и программных средств ИТС Банка России - АСУР.

Структура диссертации.

Диссертация состоит из введения, четырех разделов, заключения, списка литературы и одного приложения.

Содержание работы

Во Введении обоснована актуальность работы, сформулирована ее цель, определена научная новизна и практическая ценность работы. Кратко изложены основные результаты.

Содержательная постановка задачи структуризации информационных массивов взаимосвязанных объектов. Примеры реальных постановок

Как отмечено в п. 1.1, в число основных методов ИАД входят кластеризация и классификация. Различные методы классификации всегда были в числе наиболее распространенных информационных технологий. Необходимость вызывалась расширением и углублением областей познания природы, ростом объемов печатных источников, накоплением информации и данных об объектах культурного, научного, общественного, художественного, исторического и иного наследия, о хозяйствующих объектах, физических лицах и т.п. Изначальной целью создания и развития классификаций было присвоение каждой единице классификации адреса или индекса, по которому можно было эту единицу быстро найти в совокупности всех объектов, включенных в данную классификацию. Так появились классификации перечислительного типа (алфавитные, например телефонный справочник), иерархического типа (пирамиды управленческих структур или классификаторы, например рубрикатор базы данных), фасетные (совокупности нескольких независимых классификаций, осуществляемых одновременно по различным основаниям), кластерные (совокупности, сгруппированные по произвольному признаку).

Одной из особенностей конкретной классификации любого из названных типов, является то, что ее объекты, будучи расположены по принципам данной классификации, не раскрывают связи или отношения между объектами. Исключение составляет только иерархические классификации, в которых, однако, отношение или связь объектов нижнего и верхнего уровней всегда ограничивается иерархией, т.е. подчинением объектов более низкого уровня объектам более высокого уровня.

Вместе с тем, внутренняя структура и отношения совокупности объектов может быть эффективно изучена, если эту совокупность разбить на группы (кластеры). Эти кластеры могут быть ранжированы или сгруппированы по любому признаку или свойству, и затем эти группы могут быть сравнены с неким эталоном, заданием или проанализированы в плане решения поставленной задачи. Тем самым важнейшим развитием проблематики классификации является постановка задач кластеризации (структуризации) совокупностей изучаемых объектов.

В то же время многие стороны общественной жизни и многие научные исследования приводят к постановке задачи выяснения «скрытых» («неявных») связей или отношений между объектами в рамках некоторой предметной области на основе имеющейся информации о «явных» связях между объектами, в том числе выражаемых качественно и количественно. Так, в настоящее время четко обозначились проблемы выявления «неявных» связей или отношений внутри структур и между структурами (холдинги, корпорации, другие формальные и неформальные группы юридических и физических лиц). Эти отношения или связи могут быть самого различного свойства: родственные, дружеские, финансовые, уставные, дисциплинарные, юридические, законные, преступные и иные.

Установление таких связей и выражение их по формальным признаком особенно важно с прикладной точки зрения (правовой, юридической, финансовой и т.п.). При установлении и доказательстве таких связей или отношений, если того требует закон, юрист, представитель правоохранительных, налоговых и подобных им органов имеют дело с такими категориями как факт, событие, предмет, слова или действия физического лица, «было - не было», «видел - не видел», «знаю - не знаю» и т.д. Такие категории не могут быть прямо алгоритмизированы. Эти данные требуется предварительно формализовать надлежащим образом, чтобы свести к логическим или численным переменным. Тем самым осуществляется формализация исходных данных («явных связей»). По совокупности этих переменных и должны быть вычислены отношения связи, свойства, структура рассматриваемого множества объектов («неявные связи»), В результате будут выявлены те или иные кластеры рассматриваемого множества объектов и их иерархия. Каждый кластер показывает одну грань явления. Взаимный анализ различных кластеров дает возможность определить приоритеты, предпочтения, те или иные рекомендации или необходимые юридические выводы, технические действия и т.п.

Математическая модель информационных структур и постановка задач структуризации бизнес-групп

На основании анализа реальных задач структуризации бизнес-групп и общей модели информационных структур для задачи структуризации взаимосвязанных объектов, представленной в разделе 1, разработана модель информационных процессов и структур применительно к рассматриваемому в разделе 2 классу задач. Формализованным описанием этой модели является приводимая в данном подразделе математическая постановка задачи.

В соответствии с общими принципами постановки типовой задачи структуризации (раздел 1), опишем основные объекты и их характеристики. A. Имеется массив объектов, относительно которых задана некоторая информация (описываемая ниже): M-{aJ, i—l,...,N.

Этими объектами в данном случае являются юридические и физические лица, входящие в анализируемую бизнес-группу. Про каждый из объектов априори известно, является ли он юридическим или физическим лицом. B. Имеется множество характеристик каждого объекта: для объекта ait i-J,...,N, характеристики обозначаются символами {хц}. Характеристики могут быть как числовыми, так и логическими переменными. Характеристика I может быть задана не для всех номеров объектов.

В рамках рассматриваемой предметной области случае индивидуальными характеристиками юридических лиц являются: 1) общие сведения (наименование, организационно - правовая форма, место нахождения, почтовый адрес и т.п.); 2) банковские реквизиты; 3) данные о регистрации, коды Госкомстата и т.п.; 4) перечень финансово-промышленных групп, в которые входит данное юридическое лицо.

Индивидуальными характеристиками физических лиц являются: фамилия, имя, отчество, паспортные данные, дата рождения, место жительства, ИНН.

Эти данные должны получить отображение в Базе данных, так как формируемые программной системой результирующие документы в обязательном порядке должны содержать соответствующую информацию. Однако при анализе структурных корпоративных отношений эти данные как таковые не используются, за исключением информации о вхождении юридических лиц в финансово-промышленные группы. Опишем характеристики, отражающие эту информацию.

Если в рамках данной задачи входят в рассмотрение М 0 финансово-промышленных групп Gj, G2,.--JGM , то вводятся М характеристик хл, Хі2,.--)ХіМ xip = TRUE, если объект aj входит в ФПГ Gp, xjp = FALSE, если объект а; входит в ФПГ Gp. С. Имеется множество характеристик {и$} упорядоченных пар объектов (ait а ; i,j=l,...,N, і j. СІ. Задается логическая «парная» характеристика иуь отражающая отношения родства: Ujji = TRUE, если физические лица (объекты a;, aj) являются родственниками (мать-отец, брат-сестра, муж-жена); Ujji = FALSE, если объекты a;, aj не являются родственниками.

При ЭТОМ Ujji = Ujji. Эта характеристика может быть истинной только для пар вида «физическое лицо - физическое лицо»; для остальных пар она равна FALSE. С2. Задается логическая «парная» характеристика Ujj2, отражающая отношение «априорного контроля» (формулируемое в определениях отношений контроля и ГЛ как «наличие права определять условия ведения предпринимательской деятельности»): Ujj2 = TRUE, если объект а; априори полагается «априорно контролирующим» по отношению к объекту aj; Ujj2 = FALSE, если это не так.

Эта характеристика может быть истинной только для пар вида «физическое лицо - юридическое лицо» и пар вида «юридическое лицо - юридическое лицо»; для остальных пар она равна FALSE. СЗ. Задаётся логическая «парная» характеристика иу3: Ujj3 = TRUE, если объект щ имеет право назначать более 50 процентов состава коллегиального исполнительного органа и (или) совета директоров (наблюдательного совета) объекта (юридического лица) aj; Ujj3 = FALSE, если это не так.

Эта характеристика может быть истинной только для пар вида «физическое лицо - юридическое лицо» и пар вида «юридическое лицо - юридическое лицо»; для остальных пар она равна FALSE.

База данных по физическим и юридическим лицам

Создание собственной БД (см. рисунок 1) для ПККО было обусловлено несколькими обстоятельствами: в организации, использующей программный комплекс, может не быть единой базы данных по всем связанным с ней физическим и юридическим лицам, предусматривающей хранение всех данных, необходимых для корректного выполнения расчетов; в случае изменения законодательства может возникнуть необходимость в доработке программных модулей, выполняющих расчеты. Внесение же соответствующих изменений в структуру базы данных стороннего разработчика может вызвать серьезные затруднения, как с точки зрения практической реализации, так и с точки зрения соблюдения авторских и патентных прав; структура собственной базы данных ПККО оптимизирована для наиболее быстрого выполнения расчетов.

Необходимо также добавить, что адаптация к сторонней базе данных возможна и не потребует значительной доработки программного обеспечения, т.к. для работы с базой данных программа использует стандартный интерфейс ODBC (Open Database Connectivity), поддерживаемый большинством СУБД.

БД ПККО представляет собой реляционную базу данных в третьей нормальной форме. Основными таблицами являются таблицы физических и юридических лиц. Для ускорения выполнения некоторых типовых запросов, в том числе и при расчете групп лиц, используется ряд представлений. Кроме того, представления используются при проверке полномочий пользователя на выполнение определенных операций с данными. Также в БД ПККО задействовано несколько хранимых процедур, предназначенных для выполнения ряда часто используемых вспомогательных операций.

Структура базы данных является открытой, она достаточно подробно документирована. Это открывает широкие возможности по интеграции программного комплекса «Корпоративные отношения» с другими автоматизированными системами. Например, если в какой-либо организации ведется своя база данных, аналогичная по информационному наполнению БД «Корпоративные отношения», то не составит труда реализовать конвертер данных. Данный конвертер будет автоматически переносить данные из внешней системы в БД «Корпоративные отношения», после чего появляется возможность использования расчетных функций ПККО. При этом исходная информация ведется только во внешней системе, что позволяет избежать двойной работы при заполнении БД. Нет необходимости обучать персонал работе с новой программой и оснащать ей рабочие места.

При выборе СУБД для реализации ПККО рассматривались различные варианты. Несетевые (локальные) базы данных не подходят для решения поставленных в техническом задании задач, поэтому не рассматривались. Поскольку планировалась достаточно интенсивная работа с данными в режиме чтения (особенно это актуально при выполнении расчетов), то подбиралась СУБД с оптимальными соответствующими показателями. К объему хранимых данных больших требований система не предъявляет, поскольку количество рассматриваемых экономических субъектов ограничено. Исходя из реалий современных холдингов и бизнес-групп, вряд ли можно предполагать, что в БД будет занесено более 10 000 физических и юридических лиц. Не последнее место при выборе СУБД занимали вопросы отказоустойчивости и надежности, в том числе и с точки зрения защиты информации от несанкционированного доступа.

Окончательный выбор происходил между СУБД Microsoft SQL Server и Oracle. Обе эти системы управления базами данных вполне удовлетворяют всем требованиям программного комплекса «Корпоративные отношения». Эти СУБД широко распространены и используются во многих крупных распределенных автоматизированных системах. Они хорошо зарекомендовали себя и в вопросах надежности, и по параметрам быстродействия. Окончательное решение было принято исходя из стоимости систем (как приобретения, так и администрирования). В качестве СУБД для ПККО была выбрана Microsoft SQL Server 7.0.

Комплекс программ экспорта и импорта данных БД АСУР

Первоначальное наполнение типовой региональной БД представляет собой сложную задачу, связанную с большим количеством ручного труда. Это связано с тем, что в организациях и подразделениях БР учет ведется с помощью различного программного обеспечения в зависимости от конкретных задач каждого подразделения или сотрудника. Можно выделить следующие варианты используемых компьютерных методов учета технических и программных средств: бухгалтерские программы или бухгалтерские компоненты в системах управления предприятием. Примерами таких систем являются «1С-Предприятие», «РАБИС-2»; специализированные платформы учета сетевых ресурсов или соответствующие компоненты учета в системах управления (Accuqgraph, VisioNel, HP OpenView, CA Unicenter TNG и т.д.); файлы накладных передачи материальных ценностей (формат MS Excel, MS Word); спецификации и формуляры на поставляемые в БР системы; локальные БД отдельных пользователей (MS Access, MS FoxPro и др.) и т.д.

Многообразие перечисленных вариантов усугубляется тем, что и представленные продукты часто используются неправильно (т.е. не так, как рассчитывал разработчик). Например, в реальной БД бухгалтерской системы учета, в одной записи могут храниться данные не об одном ОУ, как планировал разработчик, а сразу о целой партии однотипных ОУ. При этом вместо одного инвентарного номера указывается целый диапазон, причем в произвольном стиле (через запятые, тире и т.п.). Это вызвано тем, что оператор (бухгалтер), вводивший данные «оптимизировал» рутинные операции ввода, уменьшив свои трудозатраты.

Понятно, что разработать универсальный продукт, который в автоматическом режиме мог бы работать с данными, представленными в указанных выше видах, практически невозможно. В тоже время и перенабирать вручную большое количество данных сложно и трудоемко. По этой причине ряд некоторых зарубежных фирм при внедрении своих систем учета информационных активов рекомендует растягивать этот процесс на длительное время, т.е. заносить во внедряемые системы данные по вновь поступающему оборудованию, а данные по устаревшему оборудованию «откладывать на потом». Специфика задач учета технических средств и программного обеспечения БР не позволяет воспользоваться таким разумным методом.

В таких ситуациях, оптимальным решением является использование некоторого промежуточного формата для подготовки данных для импорта в типовую региональную подсистему. Таким промежуточным форматом может служить формат программы MS Excel. Достоинства этого варианта следующие:

1) возможность достаточно простого экспорта табличных данных в формат электронной таблицы MS Excel из другого приложения (MS Word, СУБД Oracle, СУБД MS SQL Server, MS Access, MS FoxPro и др.) за счет наличия многочисленных конверторов из разных форматов в формат MS Excel и интеллектуальных "мастеров" импорта данных;

2) MS Excel в составе пакета Microsoft Office присутствует практически на всех АРМ сотрудников БР;

3) хорошее знакомство с продуктом MS Excel практически всех сотрудников БР, связанных с проблематикой учета технических средств и программного обеспечения;

4) возможность задания типов ячеек в таблицах MS Excel, что позволяет проводить некоторую первоначальную верификацию еще на стадии подготовки данных для импорта;

5) возможность эффективного доступа к электронным таблицам MS Excel из других программ.

В связи с этим в состав типовой региональной подсистемы АСУР включено специально разработанное в рамках данной диссертационной работы ПО, обеспечивающее импорт основных данных из таблиц MS Excel в БД АСУР.

Основные этапы этого технологического процесса можно описать следующим образом [8].

Шаг 1. Оператор осуществляет закачку данных в виде «плоских» таблиц в MS Excel. При этом для получения данных из СУБД используется интерфейс ODBC (ADO), а для файлов формата отличного от MS Excel удобнее всего использовать буфер обмена (clipboard) MS Windows. При этом в данные включаются названия ОУ, инвентарные номера, заводские номера, ценовые характеристики, дата постановки на баланс и т.д.

Шаг 2. Производится просмотр данных в MS Excel и задаются типы столбцов, соответствующие хранимой в них информации. Например, для названия - «общий» тип, для дат - тип «дата/время», для числовых показателей - «числовой» тип. На этом этапе выявляются первые ошибочные ситуации -неправильное задание даты, числа и т.п., которые необходимо исправить.

Шаг 3. На этом этапе осуществляется передача данных из MS Excel в программу импорта. В программе импорта задаются некоторые общие характеристики для порции данных, такие как тип ОУ, местоположение, организация балансодержатель и т.д. Также обеспечивается возможность сопоставления столбцам исходных данных соответствующих столбцов из БД АСУР.

Шаг 4. Производится попытка размещения данных в БД типовой региональной подсистемы АСУР. При этом происходит проверка данных на соответствие правилам целостности БД. В случае отсутствия ошибок данные попадают в БД АСУР и становятся пригодными для дальнейшей работы.

Особенностью разработанной программы импорта данных из MS Excel (см. рисунок 13), входящей в состав АСУР, является возможность работы с любыми условными обозначениями, используемыми в исходных данных файла MS Excel. Дело в том, что многие поля АСУР являются классификационными, т.е. ссылаются на позиции того или иного классификатора или справочника. Значения этих полей представляются в базе данных в виде кодов. Понятно, что в большинстве случаев, исходные данные об ОУ, хранящиеся в файле MS Excel используют иные классификаторы и справочники, и, следовательно, содержат в столбцах классификационных полей недопустимые с точки зрения АСУР значения. Для корректной обработки таких ситуаций программе импорта данных необходим диалог с пользователем, который сопоставит обозначения или коды исходных данных соответствующим понятиям классификаторов АСУР. Программа запоминает однажды введенные сопоставления, являясь таким образом обучаемым приложением. Это позволяет максимально автоматизировать процесс импорта данных из MS Excel.

Похожие диссертации на Технология структуризации информационных массивов взаимосвязанных объектов