Введение к работе
Актуальность темы. В настоящее время практически во всех предметных областях широко используются специализированные инструментальные системы статистической обработки информации, такие как SPSS, STATISTICA, Systat, SAS, Statgraphics и др. Однако реальные информационные потоки, характерные в том числе для медицинских систем различного уровня и являющиеся основой проведения комплексного статистического анализа и моделирования, обладают специфическими свойствами, характеризующимися: произвольной функцией распределения; наличием как количественных, так и качественных показателей; отсутствием части содержательных фрагментов данных; недостоверностью данных, связанной с ошибками при регистрации и их вводе; параметрической избыточностью.
Следует отметить, что существующие средства, включенные в состав большинства инструментальных систем, дают возможность решать ряд перечисленных задач. Однако данные средства не позволяют осуществлять качественную обработку произвольного набора данных, некоторые из алгоритмов (исключение многомерной недостоверной информации, формирование интегральных оценок) не имеют эффективной реализации. При этом достаточно сложно осуществить их модификацию применительно к специфическим особенностям объектной области. Все это обусловливает необходимость разработки дополнительных средств математического и программного обеспечения процедур предварительной обработки информации для систем статистического анализа и моделирования, реализующих алгоритмы численного преобразования качественных показателей, исключения недостоверных данных, заполнения пробелов, исключения параметрической избыточности, формирования интегральных оценок, расширяющих функциональные возможности существующих инструментальных систем статистической обработки информации.
Таким образом, актуальность темы диссертационного исследования определяется необходимостью разработки дополнительных средств математического обеспечения процедур предварительной обработки информации, реализуемых в рамках инструментальных систем статистического анализа и моделирования.
Тематика диссертации соответствует одному из научных направлений ГОУ ВПО «Воронежский государственный технический университет» «Вычислительные системы и программно-аппаратные комплексы».
Цель и задачи исследования. Целью диссертационной работы является разработка комплекса средств математического обеспечения процедур предварительной обработки данных для систем статистического анализа и моделирования, включающего модифицированные методы исключения не достоверных данных, заполнения пробелов, анализа значимости показателей, оптимизации признакового пространства, формирования интегральных оценок и их реализации в рамках программного комплекса.
Для достижения поставленной цели необходимо решить следующие задачи:
провести анализ проблематики процессов предварительной обработки статистических данных в условиях специфических особенностей медицинской информации, а также методов и средств их реализации;
сформировать структуру комплекса процедур предварительной обработки информации для статистического анализа и моделирования;
осуществить модификацию методов предварительной обработки информации как основы разработки: алгоритмов исключения недостоверных данных и заполнения пробелов, существенно повышающих достоверность исходных данных; алгоритмов оценки информационной значимости параметров для моделей классификации и прогнозирования; сокращения размерности признакового пространства в задачах моделирования; формирования интегральных оценок, позволяющих провести анализ состояния моделируемой системы с учетом значимости и характера изменения контролируемых параметров;
осуществить практическую реализацию предложенных средств предварительной обработки статистических данных.
Методы исследования. Для решения поставленных задач использовались основные положения теории вероятностей и математической статистики, методы математического моделирования, кластерного, регрессионного, корреляционного анализа, объектно-ориентированного программирования.
Научная новизна работы. В диссертации получены следующие основные результаты, характеризующиеся научной новизной:
модификация метода «ZET» заполнения пробелов, отличающаяся использованием уравнений регрессии высших порядков, формированием однородных групп объектов и выполнением нескольких итераций, что позволяет значительно повысить точность заполнения;
алгоритмы анализа значимости признаков, отличающиеся процедурой вычисления комплексной оценки по нескольким критериям в зависимости от характера решаемой задачи;
алгоритмы вычисления интегральных показателей, комплексно оценивающих состояние моделируемого объекта, отличающиеся учетом значимости отдельных составляющих и характера их изменения, исходя из предположения, что важность нормализации контролируемых показателей изменяется по заданному закону;
структура специального математического обеспечения процедур предварительной обработки данных для систем статистического анализа и моде лирования, отличающиеся возможностью обеспечения повышенного уровня достоверности информации за счет комплексного использования алгоритмов исключения недостоверных данных, заполнения пробелов, оптимизации признакового пространства и формирования интегральных оценок.
Практическая значимость работы. В результате проведенного исследования разработаны средства математического обеспечения процедур предварительной обработки информации для статистического анализа и моделирования, адаптированные для медицинских данных, которые характеризуются рядом особенностей, связанных с технологией формирования информационной базы. Предложенные алгоритмы позволяют добиться комплектности данных, исключить недостоверные показатели, осуществить выбор оптимального набора показателей, наиболее полно характеризующих исследуемый объект при сокращении параметрической избыточности.
Разработан ряд программных модулей, позволяющих использовать созданные вычислительные процедуры в качестве дополнения к существующим инструментальным системам статистического анализа и моделирования.
Реализация и внедрение результатов работы. На основе предложенного подхода выполнена обработка информационной базы данных о больных с атеросклерозом, и построены модели, имеющие более высокую оценку адекватности по сравнению с ранее разработанными. Результаты внедрены в деятельность кардиологического отделения Воронежской областной клинической больницы № 1.
Теоретические и практические результаты работы, реализованные автором в программном комплексе предварительной обработки информации для статистического анализа и моделирования внедрены в учебный процесс на кафедре технологических и автоматизированных систем электронного машиностроения ГОУ ВПО «Воронежский государственный технический университет».
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах: Международной научно-технической конференции «Системные проблемы надежности, качества, математического моделирования, информационных и электронных технологий в инновационных проектах» (Москва-Сочи, 2006); научно-технической конференции «Интеллектуализация управления в социальных и экономических системах» (Воронеж, 2007); V Всероссийской конференции «Теория конфликта и ее приложения» (Воронеж, 2008); научно-методических семинарах кафедры технологических и автоматизированных систем электронного машиностроения ГОУ ВПО «Воронежский государственный технический университет» (2006-2008).
Публикации. По теме диссертации опубликовано 5 научных работ, в том числе 2 - в изданиях, рекомендованных ВАК РФ. В работах, опубликованных в соавторстве и приведенных в конце автореферата, лично соискателю принадлежат: подсистемы заполнения пробелов и анализа значимости показателей [1,4, 5]; процедура анализа значимости показателей при построении моделей [2]; алгоритм фильтрации на основе вычисления суммарного расстояния между объектами [3].
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 140 наименований и приложения. Основная часть изложена на 118 страницах, содержит 11 рисунков и 14 таблиц.