Введение к работе
Актуальность работы. Оперативная обработка и анализ накопленной информации является актуальной проблемой для многих предприятий. Имея оперативный доступ к огромным массивам данных, сотрудники предприятия не в состоянии сделать из них какие-либо выводы без использования специальных методов представления и обработки информации. Наиболее популярным способом решения указанной проблемы в настоящее время является технология оперативной аналитической обработки данных OLAP (online analytical processing). Основой OLAP-технологии является построение гиперкубического (многомерного) представления данных.
Не менее актуальна проблема автоматизации анализа данных и для пользователей сравнительно небольших баз данных. Поскольку одни и те же данные приходится многократно реорганизовывать вручную для поиска скрытых в них закономерностей.
Многие аналитики OLAP придерживаются точки зрения, что кубическое представление данных должно быть постоянно хранимым и периодически обновляемым из операционной базы данных (MOLAP). Основным аргументом в пользу такого дублирования данных выдвигается требование минимального времени отклика системы на запросы пользователя. При этом предполагается, что на одном гиперкубе будут удовлетворены все потребности пользователя в анализе данных. Другой подход заключается в преобразовании схемы исходной операционной базы данных в "звезду" или "снежинку" (ROLAP). Такой подход нарушает принцип независимости данных, в частности независимость схемы операционной базы данных от места и способа использования данных. Общий недостаток этих двух подходов в регламентированности предполагаемых операций анализа данных. И если пользователю потребуется по иному сгруппировать данные, то ему придется ни один рабочий день потратить на реорганизацию данных совместно со специалистом по информационным технологиям. Это и является основным сдерживающим фактором широкого распространения технологий аналитической обработки данных.
В данной работе предлагается следующая технологическая последовательность обработки данных:
Исходные данные должны быть представлены в реляционном нормализованном виде, и к ним обеспечивается доступ по технологии OLTP (online transaction processing);
Пользовательское представление данных в виде гиперкубов, реализующее технологию OLAP, обеспечивается инструментарием, преобразующим исходные данные в необходимый на данный момент гиперкуб.
Гиперкубическое представление данных далее используется для классификации, кластеризации, прогнозирования и т.д.
Существенные затраты времени для формирования схемы и реализации гиперкуба в данной работе предлагается сократить за счет автоматизации этого процесса с использованием свойств схемы исходной операционной базы данных.
Целью работы является исследование задачи автоматизации формирования схемы и представления данных в виде гиперкуба из реляционного представления данных при наложении ограничений на результирующее представление.
Методы исследования. При выполнении работы использовались методы межмодельных коммутативных преобразований, теория проектирования реляционных схем, теория алгоритмов. При проведении аналитической обработки данных использовались методы математической статистики.
Научная новизна работы. Разработана теория и алгоритмы формирования гиперкубического представления ограниченного набора данных на основе теории межмодельных преобразований данных.
Практическая ценность работы. Реализовано программное обеспечение генерации гиперкубов на основе межмодельных преобразований данных при наложении контекстных ограничений на данные. С использованием программного обеспечения проведена подготовка и анализ данных по оценке печеночной недостаточности. На основе анализа результатов по печеночной недостаточности разработано программное обеспечение для визуальной интерпретации состояния пациентов.
Реализация и внедрение результатов работы.
Работа выполнялась в рамках проекта № 2.2 «Алгоритмы и методы инструментальной и интеллектуальной поддержки технологий принятия решений» ОМН РАН.
Работа поддержана грантом Российского фонда фундаментальных исследований № 09-07-00059-а.
Результаты диссертационной работы используются в Государственном
учреждении здравоохранения Омской области «Клинический медико-
хирургический центр Министерства здравоохранения омской области» и
Федеральном государственном учреждении «Западно-сибирский
медицинский центр Российского здравоохранения».
Внедрение результатов диссертационных исследований подтверждено соответствующим актом.
Достоверность научных результатов, полученных в диссертации, подтверждается строгими математическими доказательствами и экспериментальными исследованиями.
Апробация работы. Результаты работы доложены на следующих конференциях и семинарах:
VIII Школа-семинар «Математическое моделирование и информационные технологии». - Улан-Удэ, 2006.
Всероссийской конференция с международным участием «Знания -Онтологии - Теории» (ЗОНТ-07). - Новосибирск, 2007.
Семинар лаборатории МППИ ОФИМ СО РАН им. С.Л. Соболева. - Омск, 2008.
Публикации. По теме диссертационной работы опубликовано 5 работ, из них: статьи в изданиях из перечня ВАК - 1. Получено 1 свидетельство об отраслевой регистрации разработки.
Основные положения диссертации, выносимые на защиту.
Разработана технология наложения контекстных и логических ограничений на гиперкубическое представление данных.
Адаптирована технология формирования гиперкуба на основе межмодельных преобразований данных при наложении ограничений на данные.
Разработан алгоритм проверки существования соединения отношений и доказана его корректность.
Исследованы свойства реализованных зависимостей, которые используются для направленного перебора отношений при формировании контекстов. Разработан алгоритм автоматического формирования контекстов.
Реализовано программное обеспечение генерации гиперкубов на основе межмодельных преобразований данных при наложении ограничений на данные.
С использованием программного обеспечения проведена подготовка и анализ данных по оценке эффективности методов лечения пациентов с печеночной недостаточностью. На основе анализа результатов разработано программное обеспечение для визуальной интерпретации состояния пациентов.
Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературных источников, изложенных на 77 страницах, а также приложений на 16 страницах.