Содержание к диссертации
Введение
Глава 1. Методы построения решающих функций и способы оценивания их качества
1.1 Описание проблемы 14
1.2 Введение основных понятий 15
1.3 Подходы к оцениванию качества решающих функций и качества методов их построения в задачах распознавания образов и регрессионного анализа 19
1.4 Обзор методов решения задач распознавания и регрессионного анализа 28
1.5 Методы построения решений в классе логических решающих функций
1.5.1 Класс логических решающих функций (ЛРФ) 38
1.5.2 Алгоритмы распознавания и построения регрессионной функции в классе ЛРФ 42
Глава 2. Оценивание качества методов построения решающих функций в некоторых задачах регрессионного анализа
2.1 Постановка задачи 49
2.2 Оценивание качества порогового метода построения кусочно-постоянных решающих функций в одномерном случае 51
2.3 Обнаружение значимого подмножества переменных мнк-метода построения линейной регрессионной функции 61
2.4 Метод выбора значимых переменных в ЛРА, основанный на методе случайного поиска с адаптацией 75
2.5 Заключение 79
Глава 3. Метод построения решающих функций для прогнозирования системы разнотипных переменных и оценивание его качества
3.1 Постановка задачи прогнозирования системы разнотипных переменных (ПСРП) 80
3.2 Критерий качества логической решающей функции при заданной стратегии природы. Свойства критерия 85
3.3 Упорядочение распределений по сложности в классе ЛРФ 95
3.4 Эмпирический функционал качества 96
3.5 Методика моделирования при исследовании качества метода построения решающих функций 99
3.6 Алгоритм MLRP и GenMLRP. Примеры сгенерированных распределений 101
3.7 Исследование зависимости качества MLRP-метода при ПСРП от сложности стратегии природы, сложности класса решающих функций, размерности пространств и объема выборки 118
3.8 Эффект влияния разнотипности пространства переменных на качество прогноза 128
3.9 Заключение 131
Глава 4. Применение методов прогнозирования в прикладных задачах
4.1 О соотношении прозрачности воды и концентрации фитопланктона в озере Байкал 134
4.2 Гелиогеофизические факторы среды при пренатальном развитии в вероятностной модели прогноза здоровья человека 136
4.3 Прогнозирование объема воды, температуры и осадков в контрольной точке г. Колпашево 140
Заключение 147
Список литературы
- Подходы к оцениванию качества решающих функций и качества методов их построения в задачах распознавания образов и регрессионного анализа
- Оценивание качества порогового метода построения кусочно-постоянных решающих функций в одномерном случае
- Критерий качества логической решающей функции при заданной стратегии природы. Свойства критерия
- Гелиогеофизические факторы среды при пренатальном развитии в вероятностной модели прогноза здоровья человека
Введение к работе
Актуальность темы. Одним из важных направлений в области информатики является решение задач построения решающих функций на основе анализа эмпирической информации, заданной в виде таблиц данных, временных рядов и экспертных знаний. Хорошо известны такие задачи как распознавание образов и задачи регрессионного анализа. Методы построения решающих функций с успехом применяются в различных научных исследованиях при решении задач в таких областях, как экология, медицина, социология, археология и т.д. К настоящему времени разработано большое количество методов построения решающих функций, основанных на различных идеях, гипотезах и принципах, но тем не менее работы в данном направлении остаются актуальными. Появляется большое число исследований, использующих нейросети (Anil К. Jain, S. Raudys, А.Н. Горбань и др.), коллективы решающих функций (Ю.И. Журавлев, В.Д. Мазуров, Н.Г. Загоруйко, А.В. Лапко и др.), логические решающие функции (А.В. Тимофеев, В.И. Донской, RS Michalski, LeoBreiman, Г.С. Лбов и др.), экспертные знания при анализе временных рядов (В.Б Головченко). Однако существующие подходы и методы построения решающих функций в задачах анализа многомерной эмпирической информации ориентированы в основном на случай одной целевой переменной (например, задача распознавания образов, регрессионного анализа). Случай одновременного прогнозирования нескольких переменных рассматривался, например, для количественных переменных в задачах многооткликовой регрессии (N.R. Draper, W.G. Hunter, M.J. Box, C.A. Айвазян). Кроме того, существует большое число работ [79,84] в области многомерного статистического анализа, посвященных изучению статистических связей между двумя совокупностями случайных величин. Однако в этом случае, во-первых, не ставится вопрос о прогнозировании и, во-вторых, обе совокупности переменных включают в себя только количественные переменные. Таким образом, задача построения моделей прогнозирования системы разнотипных переменных является актуальной.
При решении задач анализа данных важной в теоретическом и практическом плане является проблема оценивания качества метода построения решающих функций, суть которой заключается в том, чтобы найти взаимосвязь между качеством метода, сложностью распределения, сложностью используемого класса решающих функций и объемом обучающей выборки. В работах данного направления понятие сложности распределения, сложности класса решающих функций формализуется по-разному. Под сложностью распределения может пониматься равенство или неравенство матриц кова-риации для разных классов при нормальном законе распределения, гладкость функций распределения в непараметрических методах, независимость, зависимость между двумя, тремя и т.д. бинарными переменными в ряде Бахадура и т.д. Под сложностью класса решающих функций может пониматься ёмкостная характеристика класса (VC-ёмкость), степень полинома восстанавливаемой зависимости или размерность пространства при фиксированной степени полинома, в классе логических решающих функций - число конечных вершин дерева решений и т.д.
Исследования, проводимые в данном направлении, дают возможность строить наилучшую решающую функцию (модель) предлагаемым методом при ограниченном объеме обучающей выборки с учетом сложности распределения, сложности класса решающих функций. Основные результаты решения этой проблемы получены в области построения решающих функций распознавания. Известными работами в данном направлении являются работы В.Н. Вапника, А.Я. Червоненкиса, Ш.Ю. Раудиса. Этой проблеме посвящен и ряд работ в институте математики СО РАН (Г.С. Лбов, Н.Г. Старцева, В.Б. Бериков, В.М. Неделько). Подход В.Н. Вапника, А.Я. Червоненкиса основан на принципе равномерной сходимости частот к вероятностям. Дж. Хьюджом, А.А. Боровковым, Ш.Ю. Раудисом был использован байесовский подход. Из теоретических исследований следует, что чем более сложные модели используются для построения решений, чем больше переменных и меньше число наблюдений (объем выборки), тем больше вероятность по лучения «плохого» решения - решения сильно отличающегося от оптимального. Так, например, может оказаться, что квадратичная решающая функция распознавания будет хуже, чем линейная, либо линейная функция, заданная на всем множестве переменных, будет хуже линейной функции, заданной на некотором их подмножестве.
Необходимость прогнозирования системы разнотипных переменных и исследование качества метода построения таких моделей обуславливается существованием достаточно широкого круга прикладных задач. В качестве примера можно привести задачу выявления взаимосвязи между характеристиками экологической обстановки и характеристиками здоровья населения региона, в которой необходимо по характеристикам экологической ситуации предсказать набор (систему) характеристик здоровья населения. В подобного рода задачах, как правило, переменные разнотипные, что значительно усложняет построение решающих функций. Указанную особенность (разнотипность) необходимо учитывать при разработке новых методов прогнозирования. Как показывают теоретические и экспериментальные исследования [60], наиболее подходящим классом функций для анализа разнотипной эмпирической информации является класс логических решающих функций, который и стал основным средством исследований, проводимых автором.
Цель работы заключается в разработке и исследовании качества метода построения логико-вероятностной модели прогнозирования системы разнотипных переменных, в частности, исследование методов построения кусочно-линейных регрессионных функций.
Методы исследований. В работе используется аппарат теории вероятностей, математической статистики, теории статистических решений, линейного регрессионного анализа, распознавания образов.
Научная новизна. В работе впервые получены следующие результаты: • разработан способ оценивания качества метода прогнозирования системы разнотипных переменных (ПСРП);
• предложен метод прогнозирования системы разнотипных переменных в Щ классе логических решающих функций;
• получены зависимости, позволяющие определить влияние типа переменной (с упорядоченным и неупорядоченным набором значений) на качество решения при ПСРП в условиях малой выборки;
• получены зависимости качества метода ПСРП от сложности распределения, сложности класса решающих функций и объема выборки;
• для порогового метода построения кусочно-постоянных решающих функций (одномерный случай) при заданном классе распределений получена нижняя оценка его качества в зависимости от сложности класса решающих функций (число областей разбиения) и объема выборки;
• предложен критерий обнаружения значимого подмножества переменных МНК-метода построения линейной регрессионной функции. Практическая ценность результатов работы.
Теоретические исследования и методы, предложенные в данной работе, позволяют решать прикладные задачи выбора значимого подмножества пе-ременных в линейном регрессионном анализе, задачи прогнозирования системы разнотипных переменных, что существенно расширяет круг прикладных задач анализа данных, анализа многомерных временных рядов. Результаты были использованы при решении прикладных задач из области медицины и экологии. Программная реализация разработанных методов является эффективным инструментом в статистической обработке данных и может быть применена в научно-исследовательских работах в области медицины, экологии, гидрологии и других естественнонаучных областях.
На защиту выносятся:
Разработка способа оценивания качества метода прогнозирования системы разнотипных переменных.
Метод построения логико-вероятностной модели прогнозирования системы разнотипных переменных, основанный на предложенном критерии, с , учетом влияния разнотипности пространства.
Результаты анализа зависимости качества метода ПСРП от сложности распределения, сложности решающих функций, объема выборки.
Результаты оценивания качества порогового метода построения кусочно-постоянных функций в зависимости от сложности класса решающих функций и объема выборки при известном классе распределений.
Критерий обнаружения значимого подмножества переменных МНК-метода построения линейной регрессионной функции.
Апробация работы. Основные положения работы докладывались и обсуждались на Конгрессе по индустриальной и прикладной математике (ИН-ПРИМ-98, Новосибирск); Всероссийских конференциях «Математические методы распознавания образов» (ММРО-99, 2001, 2003, 2005, Москва); VI Международной конференции «Современные методы математического моделирования природных и антропогенных катастроф» (2001, Красноярск); Международной конференции «Искусственный интеллект» (2002, 2004. Алушта); Международной конференции «Информационные системы и технологии » (IST2002, 2004, Минск); VII и VIII Международной научной конференции (PRIP-2003, 2005, Минск); Всероссийской конференции «Математические и информационные технологии в энергетике, экономике, экологии» (2003, Иркутск); научной немецко-российской школе-семинаре «Распознавание образов и изображений» (2003, Алтай); Международной конференции «Knowledge-Dialogue-Solution» (KDS 2005, 2006, Bulgaria).
Связь с государственными программами. Работа выполнена в рамках проектов №98-01-00673, 01-01-00839, 04-01-00858 поддержанных РФФИ; Интеграционного проекта СО РАН №13.10 «Анализ и моделирование экстремальных гидрологических явлений».
Публикации. По теме диссертации автором опубликована 21 работа.
Структура и объем работы. Диссертация объемом 155 страниц состоит из введения, четырех глав, заключения, списка литературы из 92 наименований.
Краткий обзор работы,
Первая глава является вводной и содержит краткий обзор существующих методов построения решающих функций и способов оценивания их качества в задачах распознавания образов [1,4,5,6,8,9,22,34,51,52] и регрессионного анализа [4,5,7,26,27,28,41,42,57,76,75] по выборкам ограниченного объема. Рассматривается общая постановка задачи восстановления зависимости, в которой под функционалом качества решающей функции понимается хорошо известный риск, определяемый через средние потери. Функция потерь определяется в зависимости от типа переменной и специфики решаемой задачи. Показывается, что задачи распознавания образов и регрессионного анализа являются частными случаями представленной в работе постановки. При оценивании качества решающей функции, кроме риска, многими авторами используется понятие трудоемкости алгоритма построения решающей функции известным методом. Однако риск является наиболее важным, поэтому при определении качества именно он и рассматривается.
По обучающей выборке ограниченного объема некоторым методом строится выборочная решающая функция из заданного класса. Под методом понимается отображение из множества выборок в заданный класс решающих функций и сам способ его построения (алгоритм). Задача состоит в том, что необходимо определить качество предлагаемого метода построения модели и исследовать его в зависимости от сложности стратегии природы, сложности класса решающих функций и объема обучающей выборки. Результаты исследований позволят судить о возможности применения (области применимости) метода (получения хороших решений) при анализе данных ограниченного объема. На практике, как правило, стратегия природы (распределение) и вид решающей функции неизвестны, поэтому принимаются предположения о виде распределения (ограничения на класс распределений), о постулируемой модели (ограничения на класс решающих функций). Разнообразие сделанных предположений на класс стратегий и вид решающей функции указывает на существование достаточно большого количества исследований, проводимых при изучении качества метода.
Отметим, что при фиксированном методе обучения, результаты исследований позволяют также оценить качество алгоритма, провести сравнительный анализ алгоритмов по данному критерию качества в заданном классе решающих функций.
При заданной стратегии природы определим качество метода через ожидаемый по выборкам функционал качества. Такой способ был использован Ш.Ю. Раудисом, Г.С. Лбовым, Н.Г. Старцевой, В.Б. Бериковым и др. для задачи распознавания образов, когда функционал качества определялся вероятностью ошибки [65,66,83,85]. В данном подходе могут быть вычислены степень неадекватности класса решающих функций к стратегии природы и степень отклонения от оптимального в классе для метода, которая тоже может быть рассмотрена как некоторая дополнительная мера качества метода. Исследование сводится к нахождению функциональной зависимости величины качества метода от сложности класса решающих функций, в котором работает метод, и от объема обучающей выборки.
Если на множестве всех стратегий природы задано распределение, то качество метода определяется как усредненный по стратегиям природы и выборкам функционал качества. Исследование сводится к нахождению функциональной зависимости величины качества метода от сложности класса стратегий природы, сложности класса решающих функций и объема обучающей выборки [2,3,85].
Если же стратегия природы неизвестна, то о качестве метода, построения решающих функций, вообще говоря, судить сложно, поскольку всегда найдется стратегия, при которой данным методом может быть получена плохая решающая функция.
Отдельный вопрос, который затрагивается в третьей главе, - оценивание качества решающей функции, построенной по фиксированной выборке при неизвестной стратегии природы. Для его решения в литературе существует хорошо известный подход Вапника-Червоненкиса [19,20,32], основанный на т определении доверительной границы отклонения риска от эмпирического риска. Для получения аналитических оценок данным способом необходимо знание или возможность вычисления ёмкостной характеристика класса решающих функций, в котором строятся решения. Однако многие методы, используемые на практике, обладают бесконечной ёмкостью либо трудно вычислимой. В диссертационной работе для некоторых параметрических семейств стратегий эмпирически было оценено смещение функционала качест ва от эмпирического функционала качества, которое позволяет судить о ка честве решающей функции по значению эмпирического функционала. Отметим, что, например, в регрессионном анализе оценивание качества решающей функции часто заключается в получении хороших оценок (несмещенность, состоятельность, робастность, эффективность) параметров модели.
Одновременно с определением качества метода возникают вопросы о том, как вводить ограничения на класс распределений, на класс решающих функций, как определять сложность класса стратегий и сложность класса решающих функций, каков должен быть достаточный объем обучающего материала для достижения заданного качества. Многие из этих вопросов остаются открытыми до сих пор.
В работе автором рассматриваются методы построения решающих функций из заданного класса, основанные на минимизации (максимизации) эмпирического функционала качества. Для построения логико-вероятностной модели в разнотипном пространстве переменных был использован класс логических решающих функции (ЛРФ), описание которого приводится в § 5.
# Во второй главе рассматриваются две задачи как частные случаи прогнозирования системы разнотипных переменных. В первой задаче проведено исследование качества порогового метода построения кусочно-постоянной регрессионной функции при заданном классе распределений. Результаты оценивания качества приводятся в виде ожидаемого по выборкам риска в зависимости от сложности распределения, сложности решающей функции и объема выборки. Сложность класса решающих функций определяется числом подобластей разбиения области определения функции. Стратегия природы задается равномерным распределением в областях постоянства, а её сложность - числом таких областей.
Во второй задаче предложен критерий обнаружения значимого подмножества (набора) переменных в линейном многомерном регрессионной модели и проведено исследование его качества. Под сложностью решающей функции в данной задаче рассматривается число наблюдаемых переменных (регрессоров), под сложностью стратегии природы - число значимых (истинных) регрессоров и дисперсия шума. Для оценивания эффективности предложенного критерия через оценку вероятности обнаружения истинного значимого подмножества переменных было проведено численное моделирование выборок фиксированного объема равного 10, 20, 50, 70, 100 при заданном уровне шума и заданном числе значимых переменных. В работе также приводятся модельные примеры демонстрирующие случаи, когда применение очевидного способа исключения незначимых переменных (удаляются те переменные, мнк-оценки коэффициентов при которых после упорядочения принимают наименьшее значение) является нерезультативным. Для решения практических задач при наличии достаточно большого количества переменных предлагается процедура выбора значимого набора признаков, основанная на случайном поиске с адаптацией (СПА).
В третьей главе приводится постановка задачи прогнозирования системы разнотипных переменных (ПСРП), разработка способа оценивания качества метода ПСРП, которая включает задание класса стратегий природы и функционала качества решающих функций. Предложен метод построения логико-вероятностной модели (метод ПСРП в классе логических решающих функций), основанный на предложенном эмпирическом критерии и представлены примеры результатов исследования зависимости его качества от сложности стратегии природы, сложности класса решающих функций и объема выборки. Прогнозирование осуществляется в классе функций, значения которых представимы областями в многомерном разнотипном пространстве переменных. Отмечается, что задачи распознавания образов и восстановления зависимостей (регрессионные модели) являются частными случаям предложенной постановки.
С целью определения сложности класса решающих функций и сложности распределения рассматривается класс логических решающих функций для задачи прогнозирования системы разнотипных переменных (прогнозируемая область представима многомерными интервалами). Доказано утверждение о приближении произвольной функции (для которой существует функционал качества) функцией из класса логических решающих функций. Дано определение стратегии природы, порожденной логической решающей функцией из заданного класса. Для стратегии природы фиксированной сложности и логической решающей функции из заданного класса получены аналитические выражения функционала качества. В следствиях рассматривается случай стратегии природы с равномерным распределением в прогнозируемом пространстве.
Предложен и подробно рассмотрен MLRP-метод построения выборочной логической решающей функции, основанный на максимизации эмпирического функционала качества. Для оценивания качества метода и решающих функций проведено численное моделирование. Оценивались следующие величины: смещение усредненного эмпирического функционала качества при фиксированной стратегии природы; максимальное смещение математического ожидания эмпирического функционала качества при фиксированном значении эмпирического функционала; математическое ожидание функционала качества. Исследования проводились при фиксированной сложности стратегии природы, сложности решающих функций, построенных MLRP-методом по выборке фиксированного объема. Примеры результатов исследований в диссертации приводятся в таблицах и графиках. При реализации предложенного метода рассматривается процедура учета эффекта влияния типа переменной на качество прогноза при ПСРП.
Четвертая глава посвящена демонстрации решения прикладных задач в области экологии, медицины, гидрологии. Раскрывается актуальность решения такого рода задач. В первом параграфе решается задача построения многомерной линейной регрессионной зависимости прозрачности воды от концентрации фитопланктона в воде оз. Байкал. Во втором параграфе решается поставленная научными сотрудниками ИКЭМ (Институт Клинической и Экспериментальной Медицины) задача, которая состоит в определении возможности унифицированного метода «рискометрии» в анализе взаимосвязи вероятности патологии с гелиогеофизическими характеристиками среды в пренатальный период жизни человека. В третьем параграфе рассматривается решение задачи прогнозирования водосбора воды, проходящей через русло реки Объ, среднемесячной температуры и осадков по данным метеорологических наблюдений в контрольной точке за 86 лет (с 1913 по 2000 год). Показана эффективность предложенных методов и возможность их применения в естественнонаучных областях.
Подходы к оцениванию качества решающих функций и качества методов их построения в задачах распознавания образов и регрессионного анализа
Поскольку выборка является всего лишь реализацией случайной величины в вероятностной постановке задачи, то, как было отмечено в предыдущем параграфе, возникает вопрос об изучении статистических свойств решающих функций (в некоторой литературе звучит как проблема статистической устойчивости решений либо как проблема оценивания «обобщающей способности» решающих функций), построенных по эмпирическим данным ограниченного объема фиксированным методом. Важно понять, насколько хорошо предложенный метод будет работать и решающая функция будет прогнозировать новые объекты при сделанных ограничениях на класс стратегий и класс решающих функций.
При заданной стратегии природы определим качество метода через ожидаемый по выборкам функционал качества Ev :F(c,f). Можно вычислить такие величины, как степень неадекватности класса решающих функций к стратегии природы у {с) - inf F(c,f) - inf F(c,f), Ф с Ф, и степень отклонения от оптимального в классе к {с) = Е(/ F(c,f)- mfF(c,f) для N /єФ метода Q, где Ф - класс всевозможных решающих функций, для которых существует функционал F(c,f). Величина к{с) тоже может быть рассмотрена как некоторая дополнительная мера качества метода. Исследование качества метода обучения сводится к нахождению функциональной зависимо сти ЕУ F(c,f) от сложности Мф класса решающих функций, в котором работает метод, и от объема обучающей выборки, т.е. нахождению зависимости gi(c,M0,N). Очевидна зависимость качества метода обучения от трех составляющих EVNF(CJ)=M F(c,f) + y(c) + K(c,N). (1.3) N /єФ
Если /єФ и N-»оо, получаем минимальное значение критерия, так как у (с) - О и /с(с, TV) -» 0. Отметим, что оптимальное решение может достигаться как на инфимуме, так и на супремуме. Это зависит от вида рассматриваемого функционала качества. Большой объем исследований в данном направлении проведен в области распознавания образов. Одной из первых работ была работа Лбова Г.С.[64], где характеристики распределения вероятности ошибки рассматривались с использованием теории порядковых статистик в случае нормальных распределений с единичными матрицами ковариаций. В дальнейшем в работах Раудиса Ш.Ю. [81, 82, 83] указанные зависимости экспериментально были получены для различных алгоритмов распознавания с использованием довольно сильного предположения о классе распределе EyNP(er/c,f,VN) нии. Автором исследовалась величина у-- — / , - ,, где
Ev P(er/c,f,VN) - средние потери. Значения у протабулированы по объему выборки, числу признаков и расстоянию Махалонобиса для сферически нормальных распределений и их смесей.
Попытка распространить данный подход на произвольный вид распределений была предпринята Хугсом Г. [8]. При фиксированном объеме выборки и заданной сложности распределений для подсчета средних потерь в работе предложено проводить усреднение по всевозможным распределениям без учета байесовского уровня ошибки, что привело к завышению оценки ошибки распознавания.
Старцевой Н.Г. в работе [65, 66] вводится понятие сложности стратегии природы распознавания через параметр s, s = rn, г- число исходов одномерной случайной величины, п - размерность пространства (рассматривался случай гt = г, і = 1,...,/7), и сложности решающей функции через понятие универсальности класса решающих функций. Автором получены функциональные зависимости между качеством классификации (средние потери (1.1)), объемом выборки и сложностью распределений в дискретном пространстве характеристик. Результаты, полученные автором, позволяют установить объем данных достаточный для получения заданного качества классификации при некоторой фиксированной стратегии. Исследования были проведены при условии отсутствия априорной информации о байесовском уровне ошибке (и когда эта информация известна) для случая независимых и зависимых наблюдаемых характеристик [65].
Бериковым В.Б. в работе [2, 3] были получены аналитические выражения для величины математического ожидания и дисперсии вероятности ошибки распознавания двух образов ЕР (1Л-Е Р(ег\ с f V)- у « ["} їУ - Я+м N+M N+M-N (N+2M)2 U+2M+\ VPM,N (V) = Еф/ ) {error c, /, V) - (EPW W {V)f = где Л тіпІЛ А } - число неправильно классифицированных объектов, і соответствующее решающей функции, минимизирующей эмпирическую ошибку, f{xj) = \;2ЇЇіЩ vj = (N) N]). J =! M N j- число объектов і-го класса, соответствующих/ значению X, Y,N -=N- объем выборки. Полученные результаты были использованы при сравнении двух решающих правил с одинаковыми (или близкими) средними значениями величины вероятности ошибки: правило с меньшей дисперсией считалось лучшим.
Оценивание качества порогового метода построения кусочно-постоянных решающих функций в одномерном случае
Утверждение 2.1. Критерий качества (функция риска) выборочной решающей функции f еФм, при известной стратегии природы с вида (2.1) равен F{cJ)=i{bt btA){st-f{x))2 + -. (2.2) Действительно, F(c,f)= j" \(y-f(x)) p{ylx)p(x)dxdy = DDy U bi si+h 1 M h2 XI ІТ7ІУ- №? dxdy = I {b, - blA ){st - fix))2 + -. =1 4,., s,-h LH t=\ 5 h2 Отметим, что — = F(c,fo) - a - значение критерия качества оптималь ной регрессионной функции /„ = t stif/t(х), y/t (х) = Замечание 2.1. Если выборочная решающая функция из класса Фм, и оптимальная /оеФм, при этом М М, то F(c,f) = Jim min F(c, f) = F(c, f).
Выражение (2.2) для критерия качества выборочной решающей функции можно переписать в виде M M . h F(c, f) = (bt - Ьы)(stt(х) - Е skvk(х))2 + 4 (2.3) Из определения выборочной решающей функции f{x) видно, что вы Л борочные границы Ьк есть величины, зависящие от выборочных значений хк єvN (это следует из метода Q(vN) построения решающей функции, описание которого будет приведено ниже); sk есть величины, зависящие от выборочных значений у1, j-\,...,Nk, следовательно математическое ожидание по выборкам риска есть F(c,f) = E-E,F(cJ), (2.4) где EsF(c,/) - математическое ожидание критерия качества выборочной функции / при фиксированной стратегии с и разбиении а, определяюще А Л- Л — гося границами 6 = (6,,...,6W,); E E-F(c,/) - математическое ожидание кри терия качества по всевозможным выборочным границам (6,,...,6 ), определенным методом Q(vN). Тогда в случае известной плотности распределения выборочных границ можно записать +Ю А А Е-(ЕЛ Л)= \ F{cJ)p{b)db -00 +С0 +00 Л Л л Л А АЛА АЛ = } - l sF(c,(sA,...,bMI))p(bx)p(b2/b,)...p(bAr lbv...,bM,A)dbv..dbM,A , -00 —00 где p(b) - плотность распределения выборочных границ.
Однако в рамках сделанных предположений решаемой задачи ( 2.1) и способа расстановки выборочных границ, найдем нижнюю оценку качества E E-F(c,/) порогового метода, зная только математическое ожидание выборочных границ Шк.
Пороговый метод Q(vN) построения выборочной кусочно-постоянной решающей функции по выборке v x ,;/) — состоит из двух шагов:
Шагі. Упорядочим значения выборки x eR по возрастанию: х 1 х1 ... x N . Данному вариационному ряду соответствует набор значений целевой переменной: yl],yh,...,y N. Не теряя общности, можно опустить двойной индекс и положить, что х х2 ... х , которым соответствуют значения У,у2,...,yN.
Шаг 2. Расстановка границ производится по следующему правилу: по всем элементам выборки проверяем, если у -у +х 2йо, то 1+1 f- 1+1 Г +1 7 X +Х1 j х єЬ , иначе х єі и / = —-—, где й0 - некоторый порог, определяющий существенное различие (ho h) между значениями функции в соседних интервалах, конечное значение параметра к определяет число подобластей разбиения.
Таким образом, для любых Ьк, к = \,...,М , границ подобластей Ек разбиения области Dx мы находим их выражения, зависящие от выборочных значений (х к,х к+). Рассмотрим х к как случайные величины, являющиеся членами вариационного ряда, найдем распределение случайной величины Ьк как функции от хк и х к+ . Из теории порядковых статистик [40] известно, что случайная величина хг (для простоты пока индекс к опустим, а потом к нему вернемся), как порядковая статистика ранга і имеет плотность распределения вида Pi(x) = r"i_.vPh]0)0 - P(x))N p{x), где P(x) - функция распределения случайной величины х, р(х) - плотность распределения. С учетом выше сформулированных требований плотности распределения і и і +1 порядковых статистик запишутся как / N N1 І-\П чЛМ /X N1 іп N/V-І-І Х =(МЖІІМ)!Х (1"Х) И .( ) = =/= - где верхние индексы переменной х означают степень, х - случайная величина равномерно распределенная на интервале [0,1]. Следовательно, математическое ожидание соответствующих статистик будет равно Ех4 = )х7 - xik l(l-x)N4kdx = = - \xik (1 - x)N4kdx = A.. Аналогично получаем математическое ожидание для x +I: N+\ Ex = -%—, следовательно Теперь рассмотрим критерий качества (2.2) в нескольких вариантах в зависимости от М , М и взаиморасположения границ bt и Ък. Замечание 2.2. Если М М, то независимо от вида взаиморасположения границ bt и 6/ 5 t = \,...,M, k = l,...,M , выборочная решающая функция / является неадекватной, т.е. степень неадекватности у {с) - const. Приведем такой пример: М -1, а М - произвольное, тогда из (2.3) следует, что t=\ t=\ З „ , ,Л„ , ч Ч2 . Л /2 f М АГ \ (c,N)= 1(- -( -&,_,) ,) + /Ґ м jV- oo (=j 3N /ф,Л0 - (2( - .JK)" = const., A/ AM A/ Г(с) = Z (6, - Vi )( , - (Pt - 6M)) - 2 Z I ( - ,-1 ) - \ X sti = const. /=1 /,=l/2=/l+l Если M M, то очевидно, что такая ситуация возникает в случае значительного занижения константы ho или возможных случайных выбросах. Подробно рассматривать этот вариант мы не будем, поскольку он очевидно следует из случая М = М: добавляем М -М слагаемых в формулу для Ev F(c,f) и получаем только большее значение.
Критерий качества логической решающей функции при заданной стратегии природы. Свойства критерия
В главе 1 подробно был рассмотрен класс логических решающих функций от разнотипных переменных для задачи прогнозирования одной переменной и его положительные свойства при анализе данных сложных объектов. Предлагается рассматривать решение задачи ПСРП в классе логических решающих функций Ф как наиболее подходящем при построении решений по ограниченным выборкам. Для задачи ПСРП класс ЛРФ определяется следующим образом: Фм={/єФ0\/ аАа) ,аєЧм,г(а)єЯм}, (3.2) где Шм - множество всевозможных разбиений а = {Е1Х,..., Ех Е х = ТТМ ElXj, ЕХ/ с Dx , t = IjH} области Dx на M непересе м кающихся подобластей, [}Е Х =DX, Ех пЕх =0, при t t2, RM - множеству во всевозможных решений г(а) = {Еу,...,Еу \Еу є30 ,t = l,M}, 3Dr - множество всевозможных m-мерных интервалов. Мера многомерного интервала яхт Е есть ц{Е)= WIMXE), где ці{Е)=[л{Еі)- мера проекции множества Е нау переменную, ju(Dx) = ju(DY) = \. Сложность данного класса определяется параметром М в случае одновариантного предсказания (т. е. решение представляется в форме: если ХЕЕ Х, то у =Еу), Мф =М, и набором (кх,...,км) в случае многовариантного предсказания, когда Еу = Uf=i t = l,...,M и Е уСлЕу =0 для ІФ j (решение представляется в форме: если хеЕх, то у е Ely v Егу v... v Ек ). В работе рассматривается случай Мф = М. Утверждение 3.4. Если f еФм, то м Пс,Л = Ы(Ру1х-м у), (з.з) где р(х=Р(Е х), р у/х=Р(Е у/Е1х), м у=М(Е1у), Е х є«, Е уег(а), Доказательство: F(c,f) = \(Р(уеЕ/х)-/л(Е)с1Р(х) = ы = EU lp(x,y)dxdy+ I l(-fi(E y))p(x,y)dxdy] = t=l E x E y E x Dy =Ї[Р(КЕ Г)- кК)р(К)}=Ь ЛР1У/Х - м у) 1=1 t=\
Следствие 3.2.3. Оптимальная логическая решающая функция распознавания двух образов совпадает с байесовской решающей функцией.
Для доказательства данного следствия в утверждении 3.1 достаточно представить решающую функцию f а,г(а) так, что а = {Ех,Ех), где Ех =(- », ], Е\ =(Х,СО), г(а) = {1,2}.
Следствие 3.3.1. В регрессионном анализе оптимальная логическая решающая функция /о = arg max F(c, f), /0 (x) = Ey = [slo - S] ,s 0 + S2 ].
Доказательство. Пользуясь утверждением 3.3 построим оптимальную логическую решающую функцию сложности М. Некоторому разбиению а = {Ех,...,Ех} множества Dx поставим в соответствие наилучшее ре \Щу Iх) p(x)dx Ex шение г(а) = {Еу,...,Еу} такое, что E Y -[s -S sl+S ], s p(x)dx E( Значение критерия качества данной логической решающей функции будет \P{Ellx)p{x)dx равно Р(с,Л = 1,Р х(Ру,х-\%-%\) где p -PW/E - —, тогда /0 = arg max F(c, f). 5х,8г
Следующее утверждение является обобщением известной теоремы об универсальности класса логических решающих функций распознавания [66]. Утверждение 3.5. Для любой функции /єФо существует Ми некоторая /меФм такая,что F{cJ)-F(c,fM)\ є.
Доказательство: Необходимо показать, что для произвольной стратегии природы (распределения р(х,у)), произвольной функции / ЕФ0 И любого є 0 существует логическая решающая функция fM, представленная в виде пары а, г(а) , разбиения а на М подобластей и решения г{а) на этих областях, такая, что F(c,/)-F(c, fM)\ є. Для доказательства воспользуемся существованием на множестве D меры //[/)] и вероятностной меры P[D].
Для произвольной решающей функции /єФ0, f(x)-Ey, критерий качества можно представить через разность двух мер одного множества E={(x,y):xeDx,yeEy(x)}, EY(x) = {y(EDY:(x,y)eEczD}, т.е. F(c,f)= j(P(yeEy(x)/x) M(Ey(x))dP(x) = J J dP(x,y)- J \d/iydP(x) = Dx Dx Ey{x) Dx Ey(x) = \dpi! - \йц2. Из существования вероятностной меры P[D] и меры /л на Е Е всем множестве D следует измеримость его подмножества Е по мерам ju} и jU2. Следовательно, существуют конечные покрытия этого множества т х п м, м2 мерными прямоугольниками В, = {]В) и В2 = \JB 2 такие, что jul(Bl@E) l/3 и /и2(В2Е) є2ІЗ ( -знак операции симметрической разности). Следовательно, можно построить конечное покрытие B3=Bj[jB2 М множества Е такое, что цх{Вг@Вх) єхІЗ, /л2(В3 В2) є2/3, и В3 = {JB1, /=/ М МХ,М М2.
Гелиогеофизические факторы среды при пренатальном развитии в вероятностной модели прогноза здоровья человека
В настоящее время существует большой интерес исследователей к проблеме соотношения воздействия гелиогеофизических факторов на организм человека, в частности, в эмбриональный период. В многочисленных публикациях по этому поводу многие стороны такого сопряжения остаются нераскрытыми, а полученные данные - дискуссионными. Наиболее убедительны ми выглядят гипотезы и фактические данные, свидетельствующие о многосторонности участия в этих процессах интеллекта в самом широком смысле.
В настоящем исследовании была поставлена задача определить возможности унифицированного метода «рискометрии» в анализе взаимосвязи вероятности патологии с гелиогеофизическими характеристиками среды в прена-тальный период жизненного цикла человека.
Разработка и оптимизация байесовской процедуры в определении вероятности патологических синдромов с использованием современных вычислительных средств выполнены в результате более 12.000 наблюдений, включающих мужчин и женщин с различными возрастными, этническими и географическими особенностями.
На основе компьютерной базы исследовательских данных была сформирована выборка лиц обоего пола в количестве 1556 человек в возрасте от 19 до 67 лет, у которых на основе байесовской процедуры был определен риск по каждому из 11 патологических синдромов. На каждого вошедшего в указанную выборку, с помощью компьютерной программы «Cosmic - V.01», была получена информация о гелиогеофизической обстановке усредненно на каждую из 40 недель, предшествующих дате рождения.
В классе логических решающих функций выявлены логические закономерности взаимосвязи между величинами показателей солнечной активности, а также обобщенной характеристики напряженности магнитного поля Земли на различных сроках пренатального развития и уровнями риска патологических синдромов на момент исследования. Рассматривались следующие признаки: пол (муж, жен.), возраст, месяц рождения, год рождения, 40 показателей гелио- и геофизического состояния земли (ИГВ, ОИСП), фиксированные в пренатальный период развития человека за каждую неделю. Целевыми (прогнозируемыми) данными явились признаки, представляющие собой количественный показатель вероятности риска патологических синдромов: АГ - артериальная гипертония, ИБС - болезнь сердца, ЖКТ - нарушение деятельности органов желудочно-кишечного тракта, ПЕЧ - печени, ЛЕГ - органов дыхания, ЭНД - эндокринной системы, ИММ - иммунной системы, РЕН - почек, НРБ - неврологических заболеваний, ПСИ - психические, полученные с помощью математической программы АСКОРС в лаборатории клинической физиологии ИКЭМ.
Для каждого синдрома полученные закономерности (порядка 14) объединяются в дерево решений (логико-вероятностная модель), которое легко интерпретируется на языке близком к обычному языку высказываний. Результаты работы для дальнейшей информативной интерпретации были предоставлены специалистам в медицинской области.
Данные обрабатывались по обучающей выборке с проверкой точности решения по контрольной выборке, которая формировались из таблицы начальных данных.
Статистический анализ усредненных по 40 неделям пренатального периода уровней риска патологических синдромов в целом подтвердил результаты предшествующих исследований, выполненных в клинике НЦКЭМ СО РАМН с использованием верифицированных диагностических заключений.
При обработке материала обнаружено, что каждый синдром характеризуется значительным числом статистически значимых логических закономерностей, которые выполняются на определенных по численности группах обследованных лиц и могут быть представлены в форме соответствующего дерева решений (рис. 4.1).
При анализе сопряжения уровня риска синдромов с геомагнитной индукцией установлена еще большая гетерогенность всей совокупности обследованных. Особенно существенной в этом отношении для синдрома риска иммунологических расстройств оказалась 19 неделя, для психического здоровья - 7, патологии мочевыделения - 13 и неврологического синдрома -также 13 неделя.
Высокий уровень статистической значимости (значение оценки среднего риска на контроле, порядка 0.3, близко к значению риска на обучении) обнаруженных логических решающих правил с включением характеристик гелио-геофизической обстановки на других сроках пренатального периода дает ос нования для дальнейшего анализа как отдельных фактов, так и явления такого сопряжения в целом.