Введение к работе
Актуальності» проблемы. Важным направлением теории обучающихся систем является моделирование объектов в условиях априорной неопределенности о закономерностях и.х функционирования, когда основная исходная информация сосредоточена в экспериментальных данных. В настоящее время проблема анализа малых выборок остается еще недостаточно исследованной. Вместе с тем, спектр областей, для которых характерно наличие малых выборок достаточно широк. Примером могут служить медико-биологические и экологические системы. Причинами наличия малых выборок, как правило, являются:
несовершенство средств контроля за изучаемой системой;
невозможность проведения частых экспериментов над системой с целью получения дополнительной информации либо их реализация сопряжена со значительными затратами;
временная изменчивость системы, не позволяющая использовать традиционные методы восстановления зависимостей и сокращающая фактический объем выборки.
Широкое распространение при восстановлении зависимостей в условиях малых выборок получили в основном алгоритмы МГУ Л и эвристические методы. Другим направлением решения данной задачи является искусственное увеличение объема выборки либо преобразование пространства признаков с целью увеличения отношения "объем выборки / размерность".
В данной работе исследуется подход к восстановлению зависимостей использующий сочетание преимуществ параметрических и непараметрических методов, что позволяет обойти проблему детальной формулировки математической модели путем целенаправленной статистической интерпретации исходной информации.
Учитывая важность решения проблемы сокращения размерности в задачах восстановления нестационарных зависимостей, в работе предлагается новый метод определения информативных признаков, основанный на непараметрических моделях коллективного типа.
На этой основе разработано программное обеспечение, которое используется при прогнозировании состояния здоровья населения по данным санитарно-эпидемиологических служб.
Диссертационная работа выполнена в рамках программы Госкомвуза РФ "Технические университеты России" раздел "Интеллектуальные информационные технологии" и гранта РФФИ №97-01-01043.
Цель работы состояла в разработке и исследовании непараметрических моделей нестационарных временных зависимостей в условиях малых выборок, создании на их основе информационной системы и ее внедрения при прогнозировании уровня заболеваемости населения региона в конкретных экологических условиях.
Цель достигается путем решения следующих задач:
синтез и анализ непараметрических алгоритмов коллективного типа для восстановления нестационарных временных зависимостей в условиях малых выборок, решение вычислительных аспектов их применения;
создание программного обеспечения, реализующего непараметрические алгоритмы восстановления зависимостей в условиях малых выборок;
применение разработанного программного обеспечения при прогнозировании уровня заболеваемости населения региона в конкретных экологических условиях в составе информационной компьютерной системы "Здоровье населения - окружающая'среда", внедренной в Центре Госсанэпиднадзора Красноярского края.
Научная новизна диссертации состоит в разработке и исследовании новых непараметрических моделей нестационарных стохастических зависимостей, обеспечивающих эффективное решение задач анализа данных в условиях малых выборок. В частности:
разработаны непараметрические алгоритмы восстановления нестационарных временных зависимостей в условиях' малых выборок;
определены аналитические условия применения предложенных непараметрических моделей, обеспечивающие сочетание преимуществ параметрических и локальных методов аппроксимации;
установлены области компетентности разработанных непараметрических моделей коллективного типа;
на основе предложенных непараметрических моделей нестационарных временных зависимостей разработан метод определения информативных признаков. В отличие от традиционных методов предлагаемая методика позволяет определять условную
информативность отдельных признаков с учетом нестационарное восстанавливаемой зависимости.
Практическая ценность диссертации состоит в разработке алгоритмического и программного обеспечения для решения задач восстановления нестационарных зависимостей в условиях малых выборок, на основе которого создана подсистема "Прогноз" информационной системы "Здоровье населения - окружающая среда". Данная система используется в Центре Госсанэпиднадзора Красноярского края для прогнозирования показателей заболеваемости, определения неблагоприятных экологических параметров внешней среды и формирования вариантов изменения экологических условий с целью достажения заданного уровня заболеваемости.
Научные и практические результаты диссертационной работы могут быть использованы:
- при восстановления нестационарных временных зависимо
стей, когда отношение "объем выборки / размерность" близко к
единице;
при прогнозировании процессов в уникальных медико-биологических, экологических и экономических системах в условиях малых выборок;
при выделении информативных признаков в смежные интервалы времени контроля за параметрами системы.
Методы исследования. Для решения поставленных задач использовались аппарат непараметрической статистики, теории адаптивных обучающихся систем, методы коллективных решений и статистического моделирования.
Автор защищает:
-
Непараметрические модели нестационарных временных зависимостей в условиях малых выборок, вычислительные аспекты их применения и свойства.
-
Метод определения информативных признаков в конкретных условиях на основе непараметрических моделей коллективного типа.
-
Зависимости показателей эффективности непараметрических моделей коллективного типа от объема и степени зашумленности исходной выборки, размерности пространства входных переменных.
-
Информационную подсистему моделирования-динамики показателей заболеваемости населения в изменяющихся экологических условиях внешней среды.
-
Результаты применения непараметрических моделей нестационарных временных зависимостей в задачах социально-гигиенического прогнозирования.
Реализация результатов работы. Разработанные непараметрические модели нестационарных временньк зависимостей в условиях малых выборок и программное обеспечение внедрено в Красноярском краевом центре Госсанэпиднадзора в рамках информационной системы "Здоровье населения - окружающая среда".
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на региональных и Всероссийских конференциях: 1. Межрегиональная конференция "Проблемы информатизации региона" (г. Красноярск, 1995); 2. Межвузовская конференция студентов и аспирантов (г. Красноярск, 1996); 3. Второй Сибирский Конгресс по Прикладной и индустриальной математике (г. Новосибирск, 1996); 4. Научно-практическая конференция с международным участием, посвященная 60-летшо науки на севере "Факторы малой интенсивности -экология европейского севера" (г. Архангельск, 1996); 5. Второй международный симпозиум "Конверсия науки - международному сотрудничеству (Сибконверс'97)" (г. Томск, 1997); 6. Всероссийская конференция "Здоровье общества и безопасность жизнедеятельности" (г. Красноярск, 1997).
Публикации. Результаты проведенных теоретических и экспериментальных исследований опубликованы в 10 печатных работах.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, библиографии (87 наименований), содержит 133 страницы машинописного теста, иллюстрируется 31 рисунком и 4 таблицами.