Введение к работе
Актуальность темы. В настоящий момент имеет место тенденция широкого использования информационных технологий для хранения, обработки и анализа данных. Данная тенденция является следствием роста объема информации, используемой для принятия управленческих решений и развития методов интеллектуального анализа данных. Разработка информационно-аналитических систем, обеспечивающих внедрение информационных технологий, является ресурсоемким процессом. Однако построение математических моделей данных и обработки данных для информационно-аналитических систем позволяет сократить количество итераций разработки и уменьшить затраты ресурсов за счет использования процедуры доказательства корректности моделей обработки данных.
Процессы обработки и анализа данных, а также методы доказательства корректности моделей обработки данных исследовались в работах А. А. Барсегяна, С. А. Васильева, Б. А. Кулика, Ф. А. Новикова, K. Ar-row, Э. Кларка (E. Clarke), R. Creeth, E. Emerson, R. Floyd, Ч. Хоара (C. Hoare), M. Lacroix, T. Pedersen, N. Pendse, A. Pirotte, Т. Саати (T. Saaty), J. Ullman и др.
Процессы обработки и анализа данных во многом зависят от модели представления данных. Выбор модели данных определяет применимые операции обработки данных и скорость проведения анализа данных. Исследованию моделей представления данных посвящены работы А. В. Вискова, Н. А. Левина, И. Д. Манделя, В. И. Мунермана, В. П. Сер-гееева, R. Agrawal, Э. Кодда (E. Codd), К. Дейта (C. Date), Б. Инмона (W. Inmon), Р. Кимбала (R. Kimball) и др.
Несмотря на успехи в этих направлениях, остаются нерешенными несколько проблем. Первая проблема связана с недостаточной развитостью подхода к формализованному описанию данных, обеспечивающих решение задач статистического, оперативного и интеллектуального анализа данных, а также анализа данных, определяемого бизнес-процессами организации. Сложность решения проблемы построения математических моделей данных обусловлена:
отсутствием методик построения моделей данных, удовлетворяющих требованиям, выдвигаемым тестом FASMI (Fast Analysis of Shared Multidimensional Information быстрый анализ разделяемой многомерной информации);
использованием, как правило, интуитивного подхода к разработке многомерных моделей данных и моделей вычислительных процессов.
Вторая проблема связана с недостаточной проработанностью методов проектирования с применением проверки корректности моделей обработки данных.
Третья проблема обусловлена малой исследованностью методик предварительной обработки данных, представленных в виде комплектов, при вычислении ключевых показателей эффективности с использованием номинальных и порядковых шкал. В этом случае традиционный подход к предварительной обработке данных, основанный на использовании метода анализа иерархий, не реализуем. Необходимость решения названных выше проблем определяет актуальность данного диссертационного исследования.
Целью диссертационной работы является разработка и исследование моделей представления данных, процессов обработки и анализа данных в информационно-аналитической системе с настраиваемыми метриками на основе ключевых показателей эффективности.
Для достижения поставленной цели решены следующие задачи:
анализ процессов сбора, хранения, предварительной обработки и анализа данных в информационно-аналитических системах, реализуемых с применением настраиваемых метрик на основе ключевых показателей эффективности;
теоретическое обоснование и исследование математических многомерных моделей данных для сбора и хранения, проведения оперативного и интеллектуального анализа средствами информационно-аналитической системы;
теоретическое обоснование и исследование математических моделей обработки данных в процессе наполнения хранилища данных, проведения оперативного и интеллектуального анализа данных;
разработка на основе предложенных модельных представлений данных и процессов транзакционной базы данных, многомерного хранилища данных, клиентских приложений прототипа информационно-аналитической системы и проведение экспериментов.
Предметом исследования являются математические модели и структуры многомерного представления данных, модели процессов извлечения, преобразования и загрузки данных, модели и алгоритмы обработки и анализа данных.
Объектом исследования являются процессы сбора, накопления, предварительной обработки, загрузки и анализа данных при создании информационно-аналитической системы.
Методы исследования основаны на алгебре кортежей, теории нечетких множеств, методах оперативного и интеллектуального анализа данных, теории принятия коллективных решений, теории матроидов, методах концептуального моделирования. При разработке программных средств использованы объектно ориентированный и реляционный подходы.
Научная новизна работы:
-
Предложена методика построения математической модели данных на основе настраиваемых метрик ключевых показателей эффективности, отличающаяся представлением объектов и связей в виде С-систем алгебры кортежей и обеспечивающая проверку модели данных на соответствие моделям проектируемых процессов предварительной обработки, загрузки и анализа данных аналитическими методами.
-
Доказано соответствие структуры многомерной модели данных матроидной структуре, в которой максимальные независимые подмножества функциональных взаимосвязей между мерами и измерениями являются базами, что позволяет автоматизировать эквивалентные преобразования структуры реляционных хранилищ данных.
-
Предложен жадный алгоритм поиска структуры реляционного хранилища данных, отличающейся представлением группы измерений и мер в виде матроида. Алгоритм обеспечивает выполнение требований по ограничению времени выполнения запросов в соответствии с тестом быстрого анализа разделяемой многомерной информации (FASMI).
-
Предложено формализованное описание процессов сбора, загрузки в хранилище и анализа данных с использованием операций алгебры кортежей, что позволяет осуществить доказательство корректности моделей процессов формальными методами.
-
Разработана процедура предварительной обработки комплектов данных, отличающаяся применением рациональной и решающей функции для вычисления ключевых показателей эффективности, что позволяет уменьшить объем хранилища данных и сократить время на проведение анализа данных.
Практическая значимость исследований. Разработанные программные средства для реализации информационной технологии хранения, обработки и анализа данных при управлении организацией на основе ключевых показателей эффективности обеспечивают осуществление процессов сбора, предобработки, оперативного и интеллектуального анализа данных. Разработанный алгоритм поиска структуры реляционного хранилища данных системы оперативной аналитической обработки данных со сложностью позволяет строить хранилища данных с учетом требований скорости выполнения запросов. Разработанный подход к проектированию процессов обработки и анализа данных позволяет сократить количество итераций разработки программных средств за счет доказательства корректности моделей обработки и анализа данных на этапе проектирования.
На защиту выносятся:
1. Методика построения математических моделей данных на основе концепции многомерного пространства данных и операций алгебры кортежей.
2. Модельное представление структуры многомерных данных, отражающих совокупность ключевых показателей эффективности и используемых при принятии управленческих решений, в виде группы матроидов.
3. Алгоритм поиска структуры модели данных, удовлетворяющей требованию минимума затрат времени на выполнение запроса к многомерному реляционному хранилищу данных.
4. Модели сбора данных, преобразования и загрузки реляционного хранилища данных, оперативного и интеллектуального анализа данных в информационно-аналитической системе.
5. Процедура предварительной обработки и агрегации данных с применением рациональной и решающей функции ранжирования.
Реализация и внедрение результатов работы.
Теоретические и практические результаты диссертационного исследования внедрены:
в Пензенском государственном университете при разработке информационно-аналитической системы оценки деятельности преподавателей, кафедр и факультетов на основе ключевых показателей эффективности;
в ООО «Мое дело» г. Пензы для оценки деятельности сотрудников отдела «ERP» на основе ключевых показателей эффективности с применением Web-технологий.
Достоверность и обоснованность. Обоснованность и достоверность результатов определяются корректным использованием строгих и апробированных методов исследования и подтверждаются практическим применением полученных результатов при разработке программных средств, что подтверждено актом о внедрении результатов работы, а также апробацией работы на всероссийских и международных конференциях.
Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях: VII Всероссийской научно-практической конференции «Системы автоматизации в образовании, науке и производстве» (Новокузнецк, 2009); Международной конференции «Information Technologies in Education for All» (Киев, 2009); III Международной научно-практической конференции «Информационная среда вуза XXI века» (Петрозаводск, 2009); XII Всероссийской объединенной конференции «Интернет и современное общество» (Санкт-Пе-тербург, 2009); IX Международной научно-технической конференции «Новые информационные технологии и системы» (Пенза, 2010); XV Международной научно-методической конференции «Университетское образование» (Пенза, 2011); Международной научно-практической конференции «Молодежь и наука: модернизация и инновационное развитие страны» (Пенза, 2011); V Международной научно-практической конференции «Информационная среда вуза XXI века» (Петрозаводск, 2011).
Публикации. Основные положения диссертации опубликованы в 12 статьях и тезисах конференций. Среди них 2 статьи в журналах из перечня ВАК.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 128 наименований и
6 приложений. Общий объем – 182 страницы. Основное содержание диссертации включает 19 рисунков и 46 таблиц.