Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Сет - регрессионный анализ зависимостей случайных событий в статистических системах Фомин Андрей Юрьевич

Сет - регрессионный анализ зависимостей случайных событий в статистических системах
<
Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах Сет - регрессионный анализ зависимостей случайных событий в статистических системах
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Фомин Андрей Юрьевич. Сет - регрессионный анализ зависимостей случайных событий в статистических системах : диссертация ... кандидата физико-математических наук : 05.13.01.- Красноярск, 2002.- 126 с.: ил. РГБ ОД, 61 03-1/258-3

Содержание к диссертации

Введение

1 Случайные множества и их средние 10

1.1. Непараметрический способ задания распределения 10

1.2. Основания средних характеристик случайных множеств . 24

2 Регрессия 35

2.1. Регрессия в виде условного сет - среднего 35

2.2. Регрессия через случайные соответствия 38

2.3. Аппроксимация отображений 47

2.4. Распределенный метод вычисления параметров регрессии . 59

2.5. Регрессия в пространстве разбиений конечного множества . 62

3 Сет - регрессионные процессы 65

3.1. Определение и свойства сет - регрессионного процесса . 65

3.2. Управляемый сет - регрессионный процесс 66

3.3. Сет - регрессионный процесс разбиений 68

4 Приложения сет — регрессии 69

4.1. Моделирование и прогнозирование пожарных рисков 69

4.2. Сет - регрессионное прогнозирование числовых величин . 75

4.3. Восстановление пропущенных данных 77

4.4. Моделирование финансовых рынков 78

Заключение 80

Список литературы 82

Предметный указатель

Введение к работе

Введение

Регрессия (от лат. regressio — обратное движение) это зависимость среднего значения некоторой величины от некоторой другой величины или от нескольких величин [18]. Если дано совместное распределение двух случайных конечных множеств К\ и i^2, значения которых содержатся во множествах X жУ соответственно, то регрессией Кі на К\ называют любой оператор Ф(і^і), приближенно представляющий статистическую зависимость К2 от К\.

Обычно, уравнение регрессии выбирается из условия минимума некоторого функционала, характеризующего близость величины и ее регрессии на другую величину [14]. Исследуются три вида таких функционалов.

Для нахождения регрессионных отображений используется два подхода. Первый состоит в том, что уравнение регрессии находится в виде условных сет - средних. В этом случае понадобилось сформулировать и доказать абсолютные экстремальные свойства средних характеристик случайных конечных множеств. При решении задач с большой размерностью использование непосредственно условных сет - средних невозможно из - за проблемы размерности. Для решения данной проблемы предлагается использовать непараметрические оценки. Разрабатываются различные виды непараметрических оценок в пространстве конечных множеств. Исследуются свойства этих оценок.

При втором подходе оптимальные регрессионные отображения выбираются из некоторых параметрических семейств отображений. Построено несколько таких семейств, при этом количество параметров, задающих отображения из данных семейств полиномиально зависят от мощности базовых множеств, что позволяет эффективно решать прикладные задачи с большой размерностью.

В стохастической геометрии давно уже изучаются объекты, которые сегодня называются случайными множествами. Их систематические исследования начались с работ Колмогорова тридцатых годов. В сороковые и пятидесятые годы Роббинсом, Матероном [19] и другими [1] рассматривались различные модели случайных множеств, были изучены их основные свойства. Базу современной теории случайных множеств заложил в 1953-1954 гг. Шоке своими работами о емкостях. Матерой [19] исследовал замкнутые подмножества локально компактных пространств со счетной базой, а Кендалл [36] — подмножества более общих пространств с индуцированной топологией. Здесь мы рассматриваем подмножества конечного множества,

Введение

которые образуют решетку или булеву алгебру. Для них естественны понятия теоретико-множественных операций и отношений. На решетке конечных множеств можно определить меру, в том числе считающую меру (мощность), а также вероятностную меру.

Общая теория случайных конечных множеств изложена в монографии [5]. Существующий на сегодняшний день набор распределений случайных множеств достаточно велик — от простейших: равномерного и независимо

- точечного [5], до более сложных: линейного [44] и гиперкубического рас
пределений [26]. Количество параметров, задающих эти распределения, по
линомиально зависит от мощности базового множества, что позволяет их
оценивать по статистической выборке и моделировать значения, т.е. решать
задачи математической статистики и применять методы Монте - Карло. Под
непараметрическими методами оценки распределения случайного конечно
го множества понимаются методы, в которых не делается предположения
о принадлежности неизвестного теоретического распределения к семейству,
зависящему от полиномиального числа параметров.

Предлагаемая непараметрическая оценка распределения случайного множества [23] концептуально близка к непараметрической оценки плотности вероятности типа Розенблатта - Парзена [37, 17, 12]. Однако, техника исчисления совершенно другая, ввиду нелинейности и конечности решетки подмножеств конечного множества. Для определения качества оценок формулируются определения состоятельности и несмещенности оценки распределения случайного множества. Показана состоятельность и асимптотическая несмещенность непараметрических оценок.

Полученные экстремальные свойства сет - средних могут быть использованы при решении оптимизационных задач теории вероятностей и математической статистики. Так, именно с использованием данного результата, находились оптимальные регрессионные отображения.

Обзор различных средних характеристик случайных множеств можно найти, например, здесь [41, 45]. Предметом исследования являются такие сет

- средние как сет - медиана, сет - мода и сет - ожидание по Воробьеву. Дан
ные характеристики не требуют наличия структуры базового множества, в
отличии, например, от среднего по Миньковскому [15].

Как математическое ожидание случайной величины обладает свойством минимизировать среднеквадратическое отклонение, так и сет - средние обладают свойством минимизировать некоторые показатели близости случайного множества и детерминированного.

Абсолютные экстремальные свойства сет - медианы были показаны в [5],

Введение

где в качестве функционала - показателя близости, использовалась средняя мощность симметрической разности. Находятся такие функционалы для сет - моды и сет - ожидания. Показывается, что относительно данных функционалов сет - мода и сет - ожидание обладают абсолютными экстремальными свойствами. Кроме этого, вводится понятие взвешенного средне - террасного детерминированных множеств, аналогичное понятию взвешенному среднему арифметическому чисел. Доказывается, что сет - мода и сет - ожидание являются взвешенными средне - терассными, при этом веса определяются вероятностной мерой.

Для достижения основного — нахождения оптимальных регрессионных отображений, используются найденные экстремальные свойства, о которых говорилось выше. А именно, показывается оптимальность регрессионных отображения в виде условных сет - средних: сет - моды, сет - медианы и сет - ожидания. При решении задачи мат. статистики, т.е. оценки уравнения регрессии по статистическим наблюдениям, предлагается использовать разработанную непараметрическую оценку.

В общем случае, при построении регрессии случайного множества К^-, принимающего значения из 2^, на случайное множество К\, принимающего значения из 2х (здесь X и У — конечные множества), ищется оптимальное, в смысле некоторого критерия, отображение из 2^ в 2^. Для того, чтобы задать такое отображение, потребуется |3^| 2^ значений индикаторной функции, что практически невозможно уже при небольшой мощности X.

Строятся параметрические семейства отображений из 2х в 2^ на основе случайных подмножеств декартового произведения X х У. Исследуются свойства данных семейств. Одним из отображений полученного семейства является отображение Галуа [18].

Вторым способом нахождения уравнения регрессии одного случайного множества на другое, является нахождение оптимального регрессионного отображения из сконструированных параметрических семейств. Данная задача была решена для различных критериев оптимальности.

Для одного из видов регрессии разрабатывается распределенный метод вычисления [20] параметров регрессионного отображения [27]. Данный метод может быть использован на кластере, собранном из нескольких компьютеров, либо на многопроцессорной системе.

На основе семейств регрессионных отображений определяется сет - регрессионный случайно - множественный процесс [25]. Показывается, что данный процесс обобщает случайные процессы распространения Ричардсона [39] и Воробьева [5], а следовательно, позволяет моделировать и про-

Введение

гнозировать пространственные риски — риски того, что случайный процесс накроет тот или иной элемент пространства [22, 42, 29, 30]. Классическим примером явления, моделируемого случайно - множественным процессом, является лесной пожар. Пожар рассматривается как случайное подмножество точек плоскости, захваченных процессом случайного распространения пожара, начавшегося из фиксированной точки — очага. В этом случае, в каждый момент времени существует вероятность того, что точки плоскости будут захвачены пожаром в следующий момент времени.

Сет - регрессионные процессы могут быть использованы и для описания других феноменов распространения. Среди них такие явления, развивающиеся в евклидовом пространстве, как расширение горной выработки, распространение эпидемий или рост раковой опухоли [33]. С другой стороны, сет

- регрессионные процессы могут быть использованы для описания явлений,
развивающихся в пространствах не обладающих евклидовой структурой или
вообще какой - либо структурой. Такие пространства принято называть аб
страктными. Примерами таких феноменов может служить процесс развития
случайного больного, рассматриваемого как случайное множество заболева
ний, зафиксированных в его диагнозе [13].

Использованный принцип построения параметрических семейств регрессионных отображений на основе случайных подмножеств декартовых произведений применяется автором для конструирования управляемого случайно

- множественного процесса [24]. Одно из самых полных описаний теории
управляемых случайных процессов содержится в монографии [11]. Разрабо
танный управляемый сет - регрессионный процесс может быть использован
при выработке стратегий управления пространственными рисками.

В последнее время возникла необходимость в моделях процессов распространения с числом состояний элементов больше двух. Так, например, при моделировании лесных пожаров необходимо описывать ситуацию, когда каждый элемент территории может находиться в трех состояниях: еще не охваченный пожаром, горящий и уже сгоревший. В этом случае в каждый момент времени пожар описывается случайным разбиением исследуемой территории на три части.

Предлагается способ задания случайного процесса разбиений, основанный на регрессии в пространстве упорядоченных разбиений [43, 28]. Показывается, что полученный случайный процесс является обобщением сет -регрессионного процесса.

Введение

Непараметрический способ задания распределения

Предлагается непараметрический способ задания распределения случайного конечного множества, принимающего значения на решетке подмножеств конечного множества. Данный метод отличаются от непараметрических методов оценки плотности распределения случайной величины. Действительно, распределение случайного конечного множества задается, вообще говоря, конечным числом параметров - вероятностями того, что случайное множество равно фиксированному. Однако число этих параметров - 2П, где п число элементов в базовом множестве. Такая зависимость количества параметров от мощности базового множества не позволяет их использовать на практике. Если же число параметров полиномиально зависит от мощности базового множества, то все параметры могут быть эффективно использованы. Таким образом, под непараметрическими методами оценки распределения случайного конечного множества понимаются методы, в которых не делается предположения о принадлежности неизвестного теоретического распределения к семейству, зависящему от полиномиального числа параметров.

Примерами семейств с полиномиальным числом параметров могут служить независимо-точечные распределения и линейные распределения. В первом случае число параметров (вероятностей покрытия) совпадает с мощностью базового множества. Во втором случае семейство зависит от п(п-\-1) параметров.

Определение 1.5 Ядром будем называть убывающую функцию действительного переменного Ф : [0, оо) — [0,1], которая в 0 принимает единичное значение: Ф(0) = 1. Случайные множества и их средние

Ядро Ф(ж) отличается от ядра в классическом непараметрическом оценивании плотности распределения случайной величины. Это вызвано в частности и тем, что оценивается не плотность, которая вообще говоря не ограничена сверху, а вероятность Р(К = А) задающая распределение К и, следовательно, принимающая значения на отрезке [0,1].

Идея ядерной оценки распределения случайного конечного множества заключается в теоретическом добавлении большого количества дополнительных значений случайного множества "вокруг"каждого выборочного значения. Причем частота добавляемых множеств будет уменьшаться с удалением от соответствующего выборочного значения в соответствии с некоторым ядром. В основе этой идеи лежит предположение о близости вероятностей Р(К = А) и Р(К = В) на близких множествах А и В. Будет строго показано, что все оценки построенные на основе этого предположения будут состоятельными и асимптотически несмещенными.

Рассмотрим произвольное конечное множество X. Пусть на X задано случайное конечное множество К с неизвестным распределением. Имеем случайную выборку К\, К% Кт независимых одинаково распределенных случайных множеств. Закон распределения К и К\, Кч, Кт обозначим G{A) = Р(К = А).

Оценка Qm(A) является состоятельной и асимптотически несмещенной (см. Теорему о состоятельности и асимптотической несмещенности).

Рассмотрим аспекты практического применения оценки вида (1.10). В процессе построения этой оценки в выборку добавляются все значения из 2х вокруг каждого выборочного значения. Количество всех элементов 2х с точки зрения практики немыслимо велико. С другой стороны, частоты элементов из 2х уменьшаются с удалением от соответствующего выборочного значения. Общее число добавленных множеств вокруг одного выборочного значения определяется по формуле (1.13). В этой формуле значение \B(Ki,j)\ при достаточно большом п подсчитать практически невозможно. Однако, при j 0 linim- oo Ф уч = 0, a \B(Ki,j)\ не зависит от пг. Отсюда видно, что подсчитывать все \B(Ki,j)\ нет необходимости, так как они потом умножаются на близкие к 0 множители. При построении усеченной ядерной оценки вокруг каждого выборочного значения добавляются не все элементы из 2х, а только те, частоты которых будут превосходить некоторый пороговый уровень $, т.е. добавляются в выборку все множества из шара В(КІ, Г), где г = г($).

Регрессия в виде условного сет - среднего

Как известно, уравнением регрессии случайной величины на случайную величину /і, минимизирующим среднеквадратическое отклонение i?( —r(/i))2, является условное математическое ожидание г(х) = Е(/[і = у). Задача данного раздела — показать, что условные сет - средние обладает схожими свойствами. Определения условных сет — средних Под условной сет - модой случайного множества К2 при условии К\ = А будем понимать такой оператор Mod(K2/K1 = A), что при каждом фиксированном А С X вероятность Р(К2 = Mod(if2/ i = А)/К1 = А) принимает максимальное значение: Р(К2 = Mod(if2/ifi = А)/К1 = А) Р(К2 = В/Кг = А),УВсу. Под условной сет - медианой случайного множества К2 при условии К\ = А будем понимать оператор Med(K2/K1 = A)J Регрессия при каждом фиксированном А С X принимающий значения Мес\(К2/Кг = А) = {у Є У: Р(К2 Э у/Кх = А) 1/2}. Под условным сет - ожиданием случайного множества К2 при условии К\ = А будем понимать оператор (К2/К! = А) такой, что при каждом фиксированном Л С А он принимает значение E{K2jKx = А) = {у Є У: Р(К2 Э у/Кг = А) /г}, где h выбирается таким образом, чтобы мощность условного сет - ожидания была ближайшим целым числом к условному математическому ожиданию мощности случайного множества К2 ЩК2\/К1 = А). Если все условные вероятности покрытия Р(К2 Э у/К\ = А) имеют различные значения, то условие на уровень h можно записать следующим образом: h \Е(К2/К1 = А)\-Е(\К2\/К1 = А) -. - Экстремальные свойства Приступим к изучению экстремальных свойств регрессионных отображений ЩА) = Mod(K2/K1 = A), Ф2(Л) = Med(K2/K1 = A)1 ЩА) = (К2/Кг = А), Теорема 2.1 Минимум функционала Ер(#2,Ф(ІГі)), где достигается на отображении fi(A) = Mod(K2/Ki = А). Регрессия Доказательство. По теореме 1.3 минимум функционала Ер(і 2, В) достигается на множестве Mod(K2). Но Фі(і і) = Mod(K2/K1 = K1) = Mod(K2). Теорема доказана. Теорема 2.2 Минимум функционала Ер(#2,Ф(#1)), где Ер(К, В) = E/i(KAB) достигается на отображении Ф2(А) = Med(K2/Ki = А). Доказательство. По теореме 1.4 минимум функционала Ер(і 2, В) достигается на множестве Med(K2). Но Ф2(#і) = Med(i 2/i i = Кг) = Med(K2). Теорема доказана. Теорема 2.3 Минимум функционала g(K2j Ф(#!)) = Е К2А (Кг)) + \вК2 - /І(Ф(Щ), а; определенного как (1.38), достигается на отображении ЩА) = (К2/Кг = А). Доказательство. По теореме 1.5 минимум функционала д(К2, В) достигается на множестве (К2). Но Фз(#і) = S /K Ki) = (К2). Теорема доказана. Таким образом показано, что регрессии одного случайного множества на другое в виде условной сет - моды, условной сет - медианы и условного сет - ожидания обладают экстремальным свойством минимизировать определенные характеристики близости случайного множества и его регрессии на другое случайное множество. Регрессия 2.2. Регрессия через случайные соответствия Определение и свойства соответствий Пусть X иУ — произвольные конечные множества. Декартовым произведением X па У называется множество упорядоченных пар X хУ = {(х,у) :хЄХіУєУ}. Декартово произведение было впервые введено французским философом и математиком Рене Декартом (1637) при построении аналитической геометрии. Эквивалентным понятием является прямое произведение. Если множество X содержит п элементов, а множество У -т элементов, то их декартово произведение содержит пт элементов. Произведение пустого множества на любое другое будет пустым множеством: 0x = x0 = 0. Декартово произведение не коммутативно: ХхУ ф УхХ. Рассмотрим множество 2Лх , содержащее все подмножества декартова произведения ХхУ. Количество элементов в таком множестве, как не сложно подсчитать: 2 :» = 2IWI. (2.1) Определение 2.1 Соответствие между двумя множествами X иУ — произвольное подмножество W декартова произведения X х У. Таким образом, совокупность всех соответствий между X и У совпадает со множеством 2ХхУ. Определение 2.2 Образом элемента х Є X при соответствии W С X х У называется множество W[x] = {у Є У : (х,у) Є W}. Определение 2.3 Прообразом элемента у Є У при соответствии W С X х У называется множество И7"1 ] = {х Є X : (х,у) Є W}. Непосредственно из определения 2.2 следует свойство: Лемма 2.1 у Є W[x] тогда и только тогда, когда (х,у) Є W. Приведем еще одно свойство соответствия: Регрессия Лемма 2.2 Пусть W — соответствие между множествами X и У. Тогда W = U W х WM = U Ы х И Ы- (2.2) Доказательство. Разобьем декартово произведение X х 3 на непересекающиеся множества И следующего вида: Wx = {(x,y):yey} , xGAf. Покажем, что множества Wx действительно попарно не пересекаются и в объединении дают все декартово произведение X х У: [jwx = xxy. хЄХ Так как W является, по определению, подмножеством X х У, то W П (X х 3 ) — ТУ. Отсюда следует, что W = W П (X х У) = W П (\J Wx) = \J wnwx. хЄХ хЄХ Если учесть, что Wx = {ж} х У: то получим и = и wn({x}xy). хЄХ Но для каждого фиксированного х Є X множества WPl({a;}x y) и {ж}х W[a;] совпадают. Следовательно, W = U {х} х W[x]. хЄХ Первая часть леммы доказана. Вторая часть леммы доказывается аналогично, только в качестве разбиения X х У выбираются множества Wy = {(Xjy):xeX} , уеУ. Лемма доказана. Матричное и графическое представление соответствий Для представления соответствий между конечными множествами часто пользуются матрицами. Пусть X = {xh ж2, , хп], У = {уь 2/2,---, Ут} и W С X х У.

Соответствию W сопоставляется матрица размера п х т: строки которой помечены элементами из X, столбцы — элементами из У, а на пересечении строки Х{ и столбца yj стоит 1, если (xi,yj) Є W и 0 - в противном Регрессия случае. Каждая такая матрица однозначно определяет соответствие между X я У. Например, X = {хь х2, ж3, ж4, ж5}, У = {уъ у% 2/з, ш}, W = {{хъ у3), (х2, у2), (х2, Уз), (х3, Уі), (х3, у2), (хз, Уз), (х4, Уз), (х4, УА), (х5, УА)}. Тогда W сопоставляется матрица на рис. 2: У\ V2 Уз 2/4 Х\ 0 0 1 0 х2 0 1 1 0 Хз 1 1 1 0 Х4 0 0 1 1 Хь 0 0 0 1 Рис. 2. Матричное представление соответствия W. Иногда, для иллюстрации различных свойств и понятий, удобнее использовать графическое представление соответствий. В этом случае матрица, сопоставленная соответствию, представляется в виде таблицы. Для нашего примера таблица примет следующий вид (рис. 3): УА Уз 2/2 У\ Х\ Х2 #з ХА х5 Рис. 3. Табличное представление соответствия W. Давайте найдем образ элемента х Є X, прообраз элемента у2 Є У и проиллюстрируем это графически (рис. 4). В заключение, необходимо отметить, что при матричном и графическом представлениях соответствий необходимо задавать линейный порядок на множествах X и У. Так, в рассматриваемом примере, элементы X и У были перенумерованы. Если же упорядочить элементы по-другому то, вообще говоря, матрица и таблица, представляющие соответствие, будут другими. Регрессия 2/4 2/3 2/2 2/ #1 Х2 ж3 а?4 х 2/4 2/3 (2/2 ) 2/1 Х\ (Х2 #3] %4 % W[x3] = {2/1,2/2,1/3} W-1[y2] = {x2,x3} Рис. 4. Образ элемента ж з при соответствии W (слева). Прообраз элемента г/2 при соответствии W (справа). Отображения через соответствия Отображение множества X в множество У является частным случаем соответствия между X яУ. Объектом нашего исследования будут отображения, областью определения которых является все X. В этом случае отображение F сопоставляет каждому элементу х Є X единственный элемент F(x) Є У. Графиком отображения F является множество упорядоченных пар {(x,F(x)):xeX)}.

Определение и свойства сет - регрессионного процесса

Общую теорию управляемых случайных процессов можно найти в монографии [11]. В данной статье развиваются методы описания и моделирования управляемых сет - регрессионных процессов. Управляемый случайный процесс будем строить на основе сет - регрессионного процесса. Сет - регрессионный процесс схематично можно изобразить следующим образом: Т Т Т К0 —у К\ —У К2 —У ... Без ограничения общности будем рассматривать только однородные марковские процессы. Пусть Ы — конечное множество возможных управлений. Пусть щ — случайный процесс управлений. Распределение управления в момент времени t выбирается по некоторому правилу на основе информации о состоянии процесса в момент времени t — 1: P(ut = u) = f(Kt) , ueU. Распределение процесса в следующий момент времени t + 1 определяется как предыдущим состоянием, так и управлением: P(Kt+1 = A) = g(Kt,ut) , А Є 2х. Следовательно, управляемый случайно - множественный процесс можно схематично отобразить следующим образом: щ щ щ S \ S \ S К0 —у К\ —У К2 —У Основной проблемой моделирования является практическое задание функции д — правила перехода к следующему состоянию управляемого процесса. Предлагается использовать управляемую сет - регрессию, т.е. сет - регрессионный процесс с параметром, зависящим от управления: щ щ щ J U(j -J Ui 1 и-2 Ко —У Кл У Ко У Сет - регрессионные процессы Для реализации этой схемы определим соответствия между тремя множествами. Соответствие между тремя множествами Af, X и Ы — произвольное подмножество Н тройного декартова произведения: Н С X х X х U. Образом управления u G W при соответствии Н называется множество Н[и] = {(ж, у) Є X х X : (х,у,и) Є Я}. Образом элемента х Є X с управлением и ЄІА при соответствии Н называется множество Н[у,и] = {х Є X : (х,у,и) Є А?}. Образом множества А Є 2х с управлением и Є Ы при соответствии Я называется множество Н[А,и}= U Я[з/,4 уеА Случайным соответствием между тремя множествами X, X и Ы называется случайное подмножество 1-і С X х X хЫ. Для него определены образы Щи\, Щу,и]1 %[А,и]. Тогда корректно следующее определение управляемой сет - регрессии как образа управления при случайном соответствии: Ти = Щи]. Управляемый сет - регрессионный процесс принимает вид: = К_1,«м]. (3-2) Для того чтобы задать управляемый процесс (3.2), необходимо задать: - распределение начального состояния KQ] - правило выбора стратегии /; - распределение случайного соответствия "Н, задающего правило перехода к следующему состоянию процесса.

Т.е. задача описания и моделирования управляемого случайно - множественного процесса свелась к задаче задания и моделирования значений случайного множества. Например, пусть случайное соответствие % имеет точечно - независимое распределение, тогда для его задания необходимо \Х\2 \U\ вероятностей покрытия: Р((ж,2/,г ) Є %) , х Є Х,у Є X, и Є U. Таким образом, количество параметров процесса полиномиально зависит от мощностей базовых множеств, что позволяет эффективно применять вычислительные процедуры для задач с высокой размерностью.

Для моделирования процессов распространения в настоящее время широко применяются случайно - множественные процессы[5]. Модели, построенные на таких процессах, характеризуются тем, что элементы на которых развивается моделируемое явление могут быть в двух состояниях. Однако в последнее время возникла необходимость в моделях процессов распространения с числом состояний элементов больше двух. Так, например, при моделировании лесных пожаров [22] необходимо описывать ситуацию, когда каждый элемент территории может находиться в трех состояниях: еще не охваченный пожаром, горящий и уже сгоревший. В этом случае в каждый момент времени пожар описывается случайным разбиением исследуемой территории на три части.

С помощью регрессионных отображений, задаваемых случайными разбиениями декартовых произведений, построен случайный процесс распространения, обобщающий сет - регрессионный процесс [22], процесс распространения Воробьева [4, 44] и Ричардсона [39].

Для того чтобы задать процесс, необходимо задать распределения следующих случайных разбиений: начального состояния процесса 7о, параметра регрессионного отображения V. Заметим, что данный процесс является марковским.

В данной главе рассматриваются различные прикладные задачи, которые могут быть решены разработанными регрессионными методами. Различные явления описываются математическими моделями, построенными на основе сет - регрессионного процесса, управляемого сет - регрессионного процесса и случайного процесса разбиений.

В первом разделе строится модель лесного пожара, который описывается сет - регрессионным процессом. Разрабатывается способ оценки параметров процесса по наблюдениям. Возможности модели проверяются на конкретной прикладной задаче. Делается прогноз состояния пожара и пространственных рисков. Результаты прогноза сравниваются с результатами полученными Воробьевым для этой же задачи. Точность прогноза, оцененная как площадь ошибки (мощность симметрической разности), улучшена более чем в два раза.

Во втором разделе предлагается метод прогноза числовых временных рядов на основе неколичественной информации, представленной в виде текстовых сообщений. При этом последовательность текстов описывается сет -регрессионным процессом.

В третьем разделе главы развивается способ восстановления пропущенных множественных данных. Показывается оптимальность решения.

Последний раздел посвящен моделям некоторых динамических систем, использующих в качестве основы случайный процесс разбиений.

Сет - регрессионные процессы могут быть использованы для решения практических задач моделирования, прогнозирования и контроля за распространением пожаров. Наиболее сложной и практически ценной является следующая задача: с помощью информации о захваченной пожаром территории в предыдущие моменты времени дать прогноз будущего распространения пожара. Для решения этой задачи предполагается, что множественная информация о контурах пожара является единственной реализацией множественного регрессионного процесса. По этой реализации оцениваются параметры процесса и делается прогноз. Полученный с помощью сет - регрессионного процесса прогноз, сравнивается с прогнозом сделанным Воробьевым на основе случайно - множественного процесса [5].

Моделирование и прогнозирование пожарных рисков

Рассматривается задача прогнозирование динамики показателей социально - экономического развития с помощью случайно - множественных процессов [29, 32]. Основными методами прогнозирования динамики числовых показателей являются методы, основанные на анализе временных рядов. Набор методов для исследования поведения временного ряда очень широк. Это и теория случайных процессов, представляющая временной ряд как реализацию некоторого случайного процесса, и спектральный анализ, с помощью которого возможно нахождение периодов и трендов. Для анализа числовых последовательностей успешно применяются нейротехнологии обработки данных. Вышеуказанные методы позволяют извлечь максимум информации содержащейся в ряде для последующего прогнозирования значений показателя. Однако, как показывает практика, такой информации не всегда достаточно для достоверного прогноза. Показатели, характеризующие экономическое состояние страны, дают пример временных рядов с наличием непрогнозируемых значений. Опытные же аналитики, в некоторых случаях, могут предсказать "нестандартное"поведение значений показателя. При этом они руководствуются не только результатами проведенного технического анализа числового ряда, но и дополнительной информацией, подчерп-нутой из СМИ или других источников.

Формализация методов использования неколичественной информации, как правило, наталкивалась на ряд сложностей. В первую очередь, это была проблема несистематичности данных. Однако, в последнее время появились агентства, регулярно предоставляющие сведения о политико-экономических событиях, происходящих в России. Например, информационное агентство ИНТЕРФАКС ежедневно предоставляет своим подписчикам основные новости дня, которые включают в себя финансовые новости, банковские новости, новости с валютных рынков и т.д. Общий объем публикуемой информации составляет в среднем 180 тыс. символов текстовых сообщений в день. Разработка методов нахождения в тексте описаний событий, формирующих значения некоторого показателя, а также прогнозирование изменений этого показателя возможно с помощью сет - регрессионных процессов.

Текст, как упорядоченный набор символов, не является компактным носителем информации, в то же время текст наиболее полно ее характеризует. Возникает потребность в нахождении такого математического объекта, который бы компактно и без потерь хранил полученную из текста информацию. Для этой цели, на наш взгляд, представляется удачным использовать случайное конечное множество. Таким образом, ежедневная текстовая информация рассматривается как множественный временной ряд.

Полученные результаты были применены в проекте "Прогнозирование динамики показателей социально - экономического развития с помощью множественных регрессионных процессов", который прошел конкурсный отбор на конкурсе проектных предложений молодых ученых по информатике и ее приложениям на включение в проекты №№ 68 и К691+790 Федеральной целевой программы "ИНТЕГРАЦИЯ" и перспективные программы работ на 1999г.

Случайные процессы разбиений могут быть применены для моделирования финансовых рынков и измерения финансовых рисков [9, 42].

Процессы, происходящие на финансовых рынках, взаимосвязаны и складываются в своеобразную динамическую финансовую мозаику с изрядной долей неопределенности [9]. Элементами финансовой мозаики могут быть различные финансовые активы и инструменты от валюты, ценных бумаг и

Приложения сет - регрессии облигаций до капитала, понимаемого в самом общем смысле, и дефолтов, под которыми можно понимать финансовые инструменты, попавшие в состояние неисполнения обязательств. В качестве математической модели финансовой мозаики можно предложить некое абстрактное финансовое пространство, различные подмножества которого образованы различными финансовыми элементами.

Разбиение абстрактного финансового пространства на случайные подмножества различных финансовых элементов определяет его состояние в фиксированный момент времени. Процессы, протекающие в абстрактном финансовом пространстве, динамика, изменяющая случайно - множественную финансовую "карту", определяется связями и зависимостями между финансовыми элементами.

Чтобы детально описать поведение во времени каждого случайного подмножества абстрактного финансового пространства требуется динамическая модель процесса случайных разбиений, последовательность непересекающихся случайных множеств, описывающих изменяющиеся во времени случайные множества финансовых элементов интересующих нас типов.

В [9, 42] рассматривалась модель, в которой описывались четыре финансовых элемента: излишки капитала (capital surpluses), облигации (bonds), дефициты капитала (capital deficits), свободные финансовые элементы (free financial elements). В [10] рассматривалась модель рынка ГКО, где финансовое пространство разбивалось на четыре части: свободный капитал, ГКО в обращении, ГКО к погашению, дефолт.

Похожие диссертации на Сет - регрессионный анализ зависимостей случайных событий в статистических системах