Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам Маркович Наталья Михайловна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Маркович Наталья Михайловна. Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам : Дис. ... д-ра физ.-мат. наук : 05.13.01 : М., 2004 206 c. РГБ ОД, 71:05-1/280

Содержание к диссертации

Введение

1 Принципы оценивания плотности ... 22

1.1 Основные определения 22

1.2 Схемы и принципы оценивания плотности 26

1.3 Оценки финитных и легко-хвостовых плотностей 30

1.4 Оценки тяжело-хвостовых плотностей 35

1.4.1 Трансформированные оценки 36

1.4.2 Ядерные оценки с переменной шириной окна 38

1.4.3 Комбинированные оценки 40

1.5 Методы оценивания хвостового индекса 41

2 Оценивание плотностей с тяжелыми хвостами . 47

2.1 Комбинированные параметрико-непараметрические оценки 47

2.1.1 Описание оценки 48

2.1.2 Оценивание хвостового индекса методом бутстреп 49

2.1.3 Непараметрическое оценивание плотности методом структурной минимизации риска 51

2.1.4 Примеры оценивания смесей плотностей 55

2.2 Оценки, основанные на фиксированном трансформировании 56

2.2.1 Описание оценок 57

2.2.2 Исследование оценок методом Монте-Карло 60

2.3 Оценки, основанные на адаптивном трансформировании 64

2.3.1 Введение 64

2.3.2 Алгоритм оценивания ПР с помощью адаптивной трансформации 64

2.3.3 Анализ алгоритма 65

2.4 Точность трансформированных ядерных оценок плотностей распределения с тяжелыми хвостами 69

2.4.1 Введение 69

2.4.2 MISE трансформированных ядерных оценок 71

2.4.3 Пограничные ядра 73

2.5 Выводы и замечания 76

Оглавление

3 Применение оценок тяжело-хвостовых плотностей для классификации . 80

3.1 Риск классификатора и качество оценивания ПР 81

3.2 Скорость сходимости оценки риска классификации L(T]EB) К байесовскому риску L(r)B) 83

3.3 Моделирование . 84

3.3.1 Исследование качества оценок ПР 85

3.3.2 Исследование качества классификатора 88

3.4 Приложение 89

4 Оценивание квантилей высоких порядков ... 94

4.1 Введение 94

4.2 Результаты моделирования 98

4.3 Распределения для оценок квантилей высоких порядков 99

4.4 Приложение 100

4.5 Выводы и замечания 103

5 Непараметрическое оценивание хвостового индекса (on-line оценивание). 105

5.1 Введение 105

5.2 Оценивание хвостового индекса 106

5.3 Оценивание в режиме on-line 108

5.3.1 Метод бутстреп для оценивания т 109

5.3.2 Применение к смоделированным данным 110

6 Непараметрическое оценивание функции интенсивности отказов . 114

6.1 Интенсивность отказов для распределений с тяжелыми хвостами 114

6.2 Интенсивность отказов для распределений с компактным носителем 116

6.2.1 Введение 117

6.2.2 Оценивание риска смерти из определения 118

6.2.3 Оценивание риска смерти из уравнения со специальным видом ядра 123

6.2.4 Приложение 125

6.3 Оценивание отношения функций интенсивностей отказов в двух популяциях. Применение к задаче выявления гормезиса в популяции 133

6.3.1 Введение 133

6.3.2 Оценивание функции отношения рисков смерти как некорректно поставленная задача 135

6.3.3 Численное решение интегральных уравнений по эмпирическим данным 138

6.3.4 Методы выбора параметра сглаживания 139

Оглавление З

6.3.5 Примеры 140

6.3.6 Заключение 143

7 Непараметрическое оценивание функции восстановления . 145

7.1 Введение 145

7.2 Гистограммная оценка функции восстановления 148

7.2.1 Сходимость гистограммной оценки функции восстановления . 149

7.2.2 Выбор А; методом бутстреп 152

7.2.3 Визуальный выбор к 155

7.3 Экспериментальное исследование 155

7.4 Выводы и замечания 159

7.5 Приложение 159

8 Статистический анализ реальных данных измерений в Интернете . 170

8.0.1 Описание процесса передачи данных в Интернете 170

8.0.2 Проверка данных на тяжелые хвосты 171

8.0.3 Результаты анализа Web-характеристик 173

8.0.4 Результаты анализа с помощью комбинированной оценки ПР. 174

8.0.5 Результаты анализа с помощью трансформированных оценок ПР. 175

8.1 Оценка высоких квантилей 186

8.2 Оценка функции восстановления 187

8.3 Применение классификации в Интернете 187

Заключение 191

Литература 193

Схемы и принципы оценивания плотности
Непараметрическое оценивание плотности методом структурной минимизации риска
Риск классификатора и качество оценивания ПР
Интенсивность отказов для распределений с тяжелыми хвостами

Введение к работе

Актуальность проблемы.

В последние годы возрос интерес к задачам прогноза рисков от экстремальных явлений. Измерения в Интернете (продолжительности сессий, длины передаваемых по Интернету файлов и др.), размеры страховок при катастрофах, наблюдаемые очень низкие или высокие температуры, уровень воды в реках при наводнениях, сильные ветры, концентрации редких полезных ископаемых, концентрации озона в атмосфере, разброс размеров пылевых частиц у комет могут быть описаны с помощью тяжело-хвостовых распределений.

К тяжело-хвостовым распределениям могут быть отнесены те распределения, хвост которых убывает на бесконечности медленнее, чем экспоненциальный хвост. Такие распределения могут не иметь конечного второго или даже первого моментов, и это, в частности, определяет специфику их исследования.

Например, центральная предельная теорема о сходимости распределения сумм независимых одинаково распределенных случайных величин (сл.в.) к нормальному распределению выполняется для огромного числа распределений: все, что нам нужно - это конечность дисперсии для слагаемых суммы. Если же эта дисперсия бесконечна, то в качестве предельных распределений для нормированных сумм мы получаем так называемые устойчивые распределения, Levy, (1925); Khintchine, Levy, (1936); Гнеденко, (1939). Условие Крамера о существовании производящей функции моментов не выполняется для тяжело-хвостовых распределений. Поэтому многие результаты теории больших уклонений, требующие выполнения этого условия (например, теорема Крамера о сходимости хвоста распределения суммы конечного числа независимых случайных величин к хвосту нормального распределения), нарушаются. В отсутствии 2-го момента изменяется линейная аппроксимация функции восстановления для больших времен наблюдения.

В статистическом рассмотрении, анализ характеристик случайных величин, распределение которых описывается тяжело-хвостовыми моделями, также требует специальных, отличных от классических, статистических методов. Например, гистограммы хорошо оценивают легко-хвостовые (без тяжелых хвостов) плотности распределения вероятностей (ПР), но на тяжело-хвостовых ПР и для конечных выборок дают результаты, вводящие в заблуждение: переглаживают ПР или показывают пики в хвостовой части ПР. Этот эффект наблюдается и для других непараметрических оценок таких, как ядерные, проекционные, сплайн оценки Ченцов, (1972); Silverman, (1986); Деврой и Дьерфи, (1985). Оценивание высоких квантилей для тяжело-хвостовых распределений не может быть проведено с помощью эмпирических функций распределения или взвешенных эмпирических квантильных оценок, использующих порядковые статистики выборки, как это обычно делается.

Игнорирование тяжело-хвостовости в данных, использование легко-хвостовых моделей могут привести к серьезным искажениям в оценивании и ошибкам в управлении системами.

Цель работы - разработка статистических методов анализа характеристик сл.в., распределенных с тяжелыми хвостами, по выборкам независимых одинаково распределенных сл.в. ограниченного объема.

Задача восстановления ПР по эмпирическим данным является центральной в математической статистике. ПР используется как для описания генеральной совокупности, так и для решения задач классификации, разладки, оценивания различных функционалов, как например, интенсивности отказов и многих других. Обычно в литературе предлагаются модели хвоста распределения, которые используются для построения оценок высоких квантилей, вероятностей и среднего числа превышения случайной величиной некоторого высокого уровня -характеристик, необходимых для оценки риска потерь от редких событий. Для этого используются параметрические модели, основанные на асимптотических моделях поведения максимума выборки, или "почти параметрические" (с точностью до функций со специально заданными свойствами) модели распределений, параметры которых (хвостовые индексы, "tail index") оцениваются по выборкам непараметрическими методами. На практике же (например, в задаче классификации или при оценивании математического ожидания) часто необходимо иметь оценку ПР в целом, т.е. хвостовой и основной части ПР. Параметрические модели хвоста для получения таких оценок не подходят.

Необходимость различного сглаживания в разных областях тяжело-хвостовых ПР привела к использованию ядерных оценок с переменной шириной окна Abramson, (1982); Hall, (1992); Silverman, (1986). Однако эти оценки непригодны, по-крайней мере для ядер с ограниченным носителем, для оценивания хвостовой части ПР, где наблюдения отсутствуют.

Поэтому актуальны развиваемые в работе подходы к оцениванию тяжело-хвостовых ПР с использованием предварительного преобразования (трансформации) данных и параметрико-непараметрического раздельного оценивания хвостовой и основной части ПР. Оба подхода нацелены на хорошее оценивание хвостовой и основной частей ПР.

В диссертации предлагается трансформировать данные к ограниченному интервалу (к выборке с более удобной для оценивания ПР), оценить ПР непараметрическим методом по трансформированным данным и растянуть эту оценку обратным преобразованием. Полученные оценки с фиксированными параметрами сглаживания работают как локально-адаптивные оценки. Этот естественный подход часто реализуется при использовании логарифмического преобразования. Однако преобразования, независящие от исходного распределения, как логарифмическое, могут привести к разрывным ПР трансформированных сл.в., трудным для оценивания.

В диссертации много внимания уделяется предложению трансформаций и оценок ПР для трансформированных сл.в. таких, чтобы обеспечить наименьшую интегральную среднеквадратичную ошибку оценивания и правильный порядок убывания оценки ПР в хвостовой области.

Другая рассматриваемая идея - смешанное параметрико-непараметрическое оценивание, когда хвост ПР оценивается параметрической моделью, а основная часть ПР - какой-то непараметрической оценкой. Похожая идея реализована в оценках Barron, Gyorfi & van der Meulen, (1992), где параметрическая модель хвоста "накладывается" на гистограммную оценку основной части ПР. Оценки чувствительны к выбору параметрической модели хвоста и плохо оценивают основную часть ПР для выборок ограниченного объема. Между тем на практике часто встречаются многомодальные тяжело-хвостовые распределения. Поэтому актуально предложение комбинированных оценок, нацеленных на хорошее восстановление одновременно многомодальной основной части и хвоста ПР. Необходимость непараметрических оценок ПР с правильным поведением в хвостовой области очевидна. Это особенно важно, если сравниваются ПР нескольких классов. При использовании эмпирического байесовского классификатора наблюдения классифицируются путем сравнения оценок ПР каждого класса. Так как наблюдение может появиться как в области хвоста, так и в основной части ПР, точность оценивания на хвостах принципиальна для классификации. Известно много методов классификации, использующих оценки ПР, Silverman, (1986); Айвазян, (1989). Для тяжело-хвостовых наблюдений актуально рассмотреть процедуру, позволяющую усилить влияние редких наблюдений в хвостовой области на качество классификатора и, тем самым, предотвратить, возможно большие потери от маловероятных событий.

Оценки квантилей высоких порядков (т.е., например, 99, 99.9-процентных квантилей) для тяжело-хвостовых распределений применяются для определения значений характеристик наблюдаемых объектов, приводящих к редким, но возможно большим потерям, при установке порогов изменения параметров технических систем. Высокие квантили обычно располагаются на границе или за пределами выборки. Ввиду отсутствия наблюдений за пределами разброса выборки использование эмпирической функции распределения или взвешенных оценок, использующих порядковые статистики выборки, для оценивания таких квантилей невозможно. Оценивание высоких квантилей основано на выборе предварительной квантили внутри разброса выборки (порога) и затем экстраполяции ее к некоторому значению за пределами выборки. Для этого, как правило, используются асимптотические модели поведения хвостов распределения, основанные на асимптотическом распределении максимума выборки. Недостатком оценок высоких квантилей является их чувствительность к выбору порога и модели хвоста. Актуально предложение новых более точных оценок высоких квантилей.

Хвостовой индекс - другая характеристика, важная для анализа тяжело-хвостовых данных. С помощью него можно определить наличие в данных тяжелых хвостов, а также количество конечных моментов. Наконец, все оценки характеристик тяжелохвостовых сл.в. так или иначе базируются на оценке хвостового индекса. Известно много оценок хвостового индекса: оценка Хилла; момент-оценки, Dekkers, Einmahl, de Haan, (1989); UH-оценки, Berlinet, (1998); ядерные оценки, Csorgo, Deheuvels, Mason, (1985); оценка отношения, Goldie, (1987). Однако эти оценки не обладают свойством рекурсивности, важным для организации вычислений в режиме реального времени (on-line).

В диссертации исследуется оценка хвостового индекса, предложенная в Davy-dov, Paulauskas, Rackauskas, (2000), которая использует независимые отношения вторых наибольших порядковых статистик к наибольшим порядковым статистикам в подгруппах наблюдений и обладает свойством рекурсивности. Выбор параметра метода - числа наблюдений в подгруппах выборки, по выборкам ограниченных объемов, авторами не исследовался. Это было реализовано в диссертации. При решении задач популяционного анализа, связанных с выяснением причин наступления каких-то событий в популяции (например, заболеваемости, смертности), важную роль играет функция риска смерти. При исследовании надежности технических систем эта функция называется интенсивностью отказов. При оценивании этой функции по независимым экспериментальным данным часто применяется какая-либо параметрическая модель. Однако описать данные достаточно точно с ее помощью, привлекая в качестве параметров те или иные влияющие факторы бывает трудно. Параметрический подход проблематичен и при анализе популяционных процессов средствами полумарковских моделей, когда интенсивность наступления событий интерпретируется как интенсивность перехода из одного состояния в другое [3, 5, 17]. Следует учесть, что поведение интенсивности отказов на правом конце действительной оси разнится в зависимости от класса распределения: для финитных и легко-хвостовых распределений интенсивность отказов стремится к со при х — со, для экспоненциального распределения эта функция постоянна, а для тяжело-хвостовых распределений она стремится к 0 при х — со. Это вызывает проблемы для непосредственного применения непараметрических методов при оценивании этой функции: предварительного оценивания ПР и функции распределения (ФР); ядерных оценок или оценок гистограммного типа, Prakasa Rao, (1983); метода регуляризации, Stephaniuk, (1992).

Для тяжело-хвостовых распределений можно провести предварительное преобразование выборки к конечному интервалу и оценивать интенсивности наступления событий, соответствующие финитным распределениям, непараметрическими методами. Это сделано в диссертации.

При анализе устойчивости технических систем, гарантийном контроле качества приборов, часто необходимо оценить функцию восстановления (ФВ), которая показывает среднее число появлений события (например, отказа прибора) за фиксированный интервал времени. Обычно измеряется число наступлений событий в интервале времени фиксированной длины, например, число звонков в фиксированное время в течение нескольких дней. В этом случае для оценивания ФВ необходимо иметь несколько реализаций процесса. В диссертации оценивание ФВ проводится по наблюдаемым временным промежуткам между событиями только одной реализации процесса, что важно при гарантийном контроле качества или, если многократное наблюдение процесса требует больших затрат. В аналитическом виде ФВ получена лишь для немногих распределений. Имеется много работ по численному восстановлению ФВ в случае, когда распределение временных интервалов между событиями известно. Так как предварительное оценивание ФР затруднительно особенно, когда распределение имеет тяжелые хвосты, актуально предложение методов непосредственного оценивания ФВ. Работы по этому направлению крайне немногочисленны, Frees, (1986а), (1986b); Griibel, Pitts, (1993); Schneider, Lin & O Cinneide, (1990). Оценка Фриза требует большого объема вычислений уже при выборках объема 20-30 точек. Важно предложение непараметрических оценок ФВ, обеспечивающих хорошую точность оценивания при небольшом количестве вычислений и позволяющих вести расчеты для достаточно больших выборок. Это сделано в диссертации.

Общая характеристика диссертации.

Цели работы;

1. Разработать более точные непараметрические и параметрико-непараметрические методы оценивания тяжело-хвостовых ПР.

2. Применить полученные оценки ПР для задачи классификации.

3. Получить и исследовать оценки для квантилей высоких порядков тяжелохвостовых распределений.

4. Предложить выбор параметра для оценки хвостового индекса, предложенной в Davydov, Paulauskas, Rackauskas, (2000).

5. Получить и исследовать непараметрические оценки функции интенсивности отказов (риска смерти в популяции).

6. Разработать непараметрический метод оценивания функции восстановления с хорошей точностью оценивания при небольшом количестве вычислений.

7. Продемонстрировать работу полученных методов на модельных и реальных данных.

Общая методика исследований базируется на результатах теории вероятностей, математической статистики, теории экстремальных величин, теории решения некорректных задач. Для исследования точности методов применяются как результаты теоретических исследований, так и моделирование на ЭВМ. Научная новизна работы заключается в том, что:

1. Предложен параметрико-непараметрический метод оценивания тяжелохвостовых ПР, в котором основная часть ПР оценивается конечным разложением по базисным функциям, а хвостовая часть - параметрической моделью типа Парето.

2. Разработаны и исследованы методы восстановления тяжело-хвостовых ПР при помощи трансформаций данных, позволяющие сохранить порядок убывания хвоста истинной ПР и имеющие наименьшие интегральные среднеквадратичные ошибки.

3. Рассмотрено использование предложенных оценок ПР в задаче классификации.

4. Предложена и исследована новая оценка для квантилей высоких порядков в предположении, что хвост распределения типа Парето. Доказано, что распределение логарифма отношения предлагаемой оценки (и оценки Вайссмана, Weissman, (1978)) к истинной квантили асимптотически нормально.

5. Для оценки хвостового индекса, предложенной в Davydov, Paulauskas, Rackauskas, (2000), предложен и исследован бутстреп-метод для оценки параметра метода. Показана рекурсивность оценки для расчетов в реальном времени.

6. Рассмотрено оценивание интенсивности отказов для распределений с тяжелыми хвостами. Используя трансформации данных к ограниченному интервалу, предлагается свести оценивание к оцениванию интенсивности отказов (риска смерти) для финитной ПР.

7. Для финитных ПР предложены оценки функции риска смерти из двух интегральных уравнений с разными ядрами и правыми частями методом стохастической регуляризации. При определенном выборе параметра регуляризации доказана сходимость оценок в С, а также скорость сходимости в L/2 в случае ограниченного изменения к-ой производной функции риска смерти.

8. Получены оценки функций отношения рисков смерти и ПР продолжительности жизни в двух популяциях для финитных ПР как решение интегральных уравнений с неточно заданными правыми частями и операторами методом регуляризации. Оценки применяются для выявления эффекта гормезиса (т.е. "стимулирующего эффекта малых доз каких-либо веществ, которые в больших дозах вредны" British medical dictionary, (1961)) в популяции по эмпирическим данным.

9. Разработана непараметрическая оценка функции восстановления для ограниченных временных интервалов [0,t] по независимым наблюдениям временных промежутков между событиями с неизвестной ПР, требующая меньшего объема вычислений по сравнению с известными оценками ФВ. Доказана равномерная сходимость оценки почти наверное к истинной ФВ для легко- и тяжело-хвостовых распределений временных промежутков между событиями. Для распределений с экспоненциальными и правильно меняющимися хвостами доказана скорость равномерной сходимости.

Предложен выбор параметра оценки по выборке методом бутстреп и из графика зависимости оценки ФВ от этого параметра.

Практическая ценность работы определяется

1.) созданием новой методологии оценивания тяжело-хвостовых ПР по выборкам ограниченного объема, работоспособность которой продемонстрирована для задач классификации в Интернете, на многочисленных примерах имитационного моделирования и на реальных данных измерений в Интернете;

2.) созданием непараметрической оценки для квантилей высоких порядков, которая может быть применена, например, для контроля риска потерь от сужения области определения наблюдаемых случайных параметров в технических системах (например, в Интернете) до конечного интервала;

3.) созданием точного и экономичного в смысле вычислений метода оценивания ФВ, который может быть применен для контроля загрузки телефонных сетей, Интернета, гарантийного контроля качества приборов;

4.) выработкой рекомендаций по практическому определению параметров для одной оценки хвостового индекса, являющегося базовой характеристикой при анализе данных, распределенных с тяжелыми хвостами;

5.) выработкой практических рекомендаций по оцениванию интенсивностей наступления событий в популяционных системах, позволяющих выявлять влияние различных факторов на них;

б.) выработкой рекомендаций по статистическому анализу данных, распределенных с тяжелыми хвостами.

Апробация работы. Основные результаты работы доложены на 24 международных конференциях:

• International Heart Health Conference Barcelona (Catalonia-Spain) May-June 1995;

• 10th European Simulation Multiconference Budapest, Hungary, June 2-6, 1996;

• 3rd International Conference on Applied Informatics Eger-Noszvaj, Hungary, August 25-28,1997;

• Conference Inverse and ill-posed problems Moscow University, June 16-17, 1998;

• Workshop Heavy tails and queues, Eurandom, the Netherlands, April 1999;

• International Conferences on Control Problems Moscow,SICPRO 1999, 2000, 2003;

• 10th INFORMS Applied Probability Conference University of Ulm, July 26-28, 1999;

• First International IEEE/Popov Workshop on Internet Technologies and Services. October 25-28, 1999, Moscow;

• на Всероссийской научной конференции "Алгоритмический анализ неустойчивых задач" Екатеринбург, 26.02-2.03.2000;

• Workshop IP Netzplanung, IP Netzmanagement und Optimierung. 20.-21. Juli 2000, Universitat Wurzburg (Германия);

• Workshop Mathematical Modelling in Finance and Telecommunication Nagu/Nauvo,Finland, 18-22 August 2000;

• ECUMN 2000, Colmar, October, 2000;

• International Symposium Extreme Value Analysis Theory and Practice Leuven, August, 2001;

• IFAC Workshop Preprints Adaptation and Learning in Control and Signal Processing Cernobbio-Como (Italy), 29,30,31 August 2001;

• First Teletraffic congress, Brazil, Salvador, December 2001;

• International Gnedenko Conference, Kyiv June 2002;

• International Symposium Managing and analyzing data streams: towards unifying approaches from mathematical statistics and computer science 13-15 June 2002, Marburg, Germany;

• MASCOTS Workshop on Design and Performance Evaluation of 3G Internet Technologies 2002, Fort Worth, Texas, October 2002;

• Seminar Stochastic Dynamical Systems, Sudac, Crimea, Ukraine, 2003;

• Колмогоров и современная математика, МГУ, июнь, 2003;

• Teletraffic congress, Berlin, 2003;

• Conference on Asymptotic Statistics, Barcelona, Bellaterra, 2003, а также на семинарах

• в Институте проблем передачи информации РАН (1991),

• Max Planck Institute, Rostock, Germany (1997),

• Московском Государственном Университете им.М.В.Ломоносова (1998,2001, 2004),

• Munich Technical University (1998, 1999),

• Frankfurt Goethe University (1998-2003),

• Международном Институте Eurandom, Eindhoven, Нидерланды (1999),

• Lund University (Sweden) (2000),

• Wurzburg University (Germany) (2000),

• Brunei University, London (2002),

• Weierstrass-Institute, Berlin (2003)

• ENTS, Paris (2004),

• ETH, Zurich (2004).

Публикации. Результаты работы представлены в 40 публикациях. Структура диссертации. Диссертация состоит из введения, восьми глав, заключения, приложения, списка цитируемой литературы (188 наименований), общим объемом 206 страниц.

Краткое содержание диссертации.

В первой главе приводятся определения тяжело-хвостовых распределений, принадлежащих к ним субэкспоненциальных распределений и распределений с правильно меняющимися хвостами, их основные свойства: невыполнимость условия Крамера, условия конечности моментов, замкнутости относительно операции свертки и др. Обсуждаются общие подходы к оцениванию ПР по эмпирическим данным: теорема Лебега, схема Фишера, L\- подход Деврой и Дьерфи, (1988), L2-подход Ченцов, (1972), у2- подход Gyorfi, Liese, Vajda and van der Meulen, (1998), оценивание ПР как стохастической некорректно поставленной задачи Вапник, (1979); Маркович, (1989); Вапник, Маркович и Стефанюк, (1992); экспонентный метод оценивания логарифма финитной ПР, Стратонович, (1969), Ченцов, (1972). Обсуждается специфика оценивания легко- и тяжело-хвостовых ПР. Дается обзор непараметрических методов оценивания легко- и тяжело-хвостовых ПР. Приводятся методы оценивания хвостового индекса и, в частности, методы выбора параметра для оценки Хилла (наиболее часто используемой) - количества наибольших порядковых статистик, задействованных в оценке.

Во второй главе предлагаются комбинированные и трансформированные оценки тяжело-хвостовых ПР.

В комбинированной параметрико-непараметрической оценке хвост ПР оценивается параметрической моделью типа Парето, где применяется бутстреп-оценка хвостового индекса, имеющая близкую к минимальной среднеквадратичную ошибку, Hall, (1990). Основная часть ПР, определенная на ограниченном интервале, представляется непараметрической оценкой - конечным разложением по базисным функциям, где коэффициенты разложения и их число вычисляются методом структурной минимизации риска (МСМР) Vapnik, (1982), что обеспечивает минимум оценки среднего риска оценивания. Использование МСМР позволяет успешно применять эту оценку для оценивания мод в случае мультимодальных ПР с тяжелыми хвостами.

Другой подход заключается в использовании чисто непараметрических оценок. Проблема заключается в том, что известные непараметрические оценки (гистограмма, ядерная и.т.д.) хорошо оценивают финитные и легко-хвостовые ПР, но плохо тяжело-хвостовые ПР по выборкам ограниченного объема. Для улучшения оценивания предлагается предварительно трансформировать исходные данные к ограниченному интервалу. Тогда оценка ПР находится путем обратного преобразования оценки ПР трансформированной ел.в. Полученные оценки с фиксированными параметрами сглаживания работают как локально-адаптивные оценки.

Приводятся два типа трансформаций: фиксированные, не зависящие от исходного распределения, и адаптивные к эмпирическим данным, использующие априорную информацию о форме хвоста. Исследуется просто реализуемая на практике фиксированная трансформация Т(х) = arctan х средствами имитационного моделирования. Показывается, что эта трансформация обеспечивает состоятельность оценивания для ядерной оценки с ядром Епанечникова и полиграммы (гистограммы с переменным окном) в L\ и L2. Трансформированная ядерная оценка с гауссовым ядром расходится для тяжело-хвостового распределения Вейбулла. Гарантировать правильный порядок убывания ПР на бесконечности фиксированные трансформации не могут: необходима дополнительная информация о предполагаемом поведении хвоста распределения.

Для улучшения оценивания предлагается трансформация, адаптивная к данным, при которой сохраняется порядок убывания хвоста истинной ПР и обеспечивается стабильное оценивание относительно уклонений в оценках хвостового индекса. Такая трансформация строится в предположении, что хвост исходной ел.в. имеет тип Парето, а целевая сл.в., к которой производится трансформация, треугольно распределена на [0,1].

Исследуется точность трансформированных ядерных оценок в смысле интегральной среднеквадратичной ошибки MISE. Показывается, что для трансформаций Т(х) таких, что Т (Т х(х)) ограничена, MISE трансформированной оценки определяется среднеквадратичной ошибкой MSE оценок ПР трансформированных сл.в. Проводится сравнение точности в случае применения предложенной адаптивной, логарифмической и 2/-к arctan х трансформаций к ядерным оценкам с постоянным параметром сглаживания. Фиксированные трансформации могут привести к разрывным ПР трансформированных сл.в., трудным для оценивания. Для класса с правильно меняющимися хвостами устанавливаются ограничения на применимость фиксированных трансформаций. Оптимальный порядок для MISE может быть получен не для любой ПР из этого класса: трансформация 2/7rarctanrr имеет ограничения на хвостовой индекс а и на медленно меняющуюся функцию 1(х), а логарифмическая трансформация - на (х) и интервал 17, на котором рассматривается MISE. Есть ограничения на Q и для адаптивной трансформации. Для ядерных трансформированных оценок с arctg— и адаптивной трансформациями в классе с правильно меняющимися хвостами предлагаются пограничные ядра, применяемые на границе интервала [0,1] - области определения трансформированной сл.в. Эти ядра обеспечивают такой же порядок убывания оценки на хвостах, как и у истинной ПР.

В третьей главе полученные с помощью адаптивной трансформации оценки ПР сравниваются по эффективности решения задачи классификации, т.е. по качеству эмпирического байесовского классификатора TJEB- Вводятся штрафные функции для усиления влияния редких наблюдений на хвостах на риск ошибочной классификации. Поскольку rjEB нечувствителен к качеству оценок ПР (например, оценки различной точности, относящие объекты к одним и тем же классам, могут иметь одну величину риска ошибочной классификации), предлагается мера точности оценок ПР - эмпирический риск ошибочной классификации эмпирического байесовского классификатора. Доказывается, что скорость сходимости этой меры к байесовскому риску (минимально возможному) одинакова для полиграммы и ядерной оценки с компактным ядром.

Приводятся результаты моделирования по сравнению качества классификатора (по эмпирическому байесовому риску) и качества ядерных оценок и полиграммы (по эмпирическому риску ошибочной классификации) для различных тяжело-хвостовых распределений и для различных оценок ПР.

В четвертой главе предлагается оценка квантилей высоких порядков для распределений с тяжелыми хвостами, основанная на комбинированной оценке, предложенной в главе 2, в предположении, что хвост распределения типа Парето. Доказывается, что распределение логарифма отношения предлагаемой оценки к истинной квантили асимптотически нормально. То же доказывается для известной оценки Вайссмана. Результаты моделирования на различных тяжело-хвостовых распределениях показывают, что предложенная квантильная оценка лучше, чем оценки Вайссмана и РОТ-метода, особенно для более высоких квантилей, и имеет меньшее среднеквадратичное отклонение. Приводятся доверительные интервалы для квантильных оценок.

В пятой главе исследуется оценка для хвостового индекса, предложенная в Davydov, Paulauskas, Rackauskas, (2000). Для выбора параметра оценки - числа наблюдений в подгруппах разбиения выборки, предлагается метод бутстреп. Точность оценки исследуется методом Монте-Карло для различных распределений. Отмечается рекурсивность оценки, важная для оценивания в режиме реального времени.

В шестой главе рассматривается оценивание функции интенсивности отказов (или в популяционном анализе - функции риска смерти) для распределений с тяжелыми хвостами. Для финитных распределений рассматривается решение методом регуляризации двух интегральных уравнений относительно функции риска смерти и изучаются их асимптотические свойства. Доказывается сходимость с вероятностью единица регуляризованных оценок к точным функциям в метрике С для обоих уравнений в случае специального выбора параметра регуляризации. Для одного уравнения относительно неизвестного риска смерти доказывается, что если к-ая производная риска смерти имеет ограниченное изменение, то скорость сходимости регуляризованной оценки в Ьг не хуже, чем п Р, где 0 /5 {к + 1/2)/{2к + 3), п -объем выборки, если к = {0,1}, а параметр регуляризации выбирается равным п а, где для а верно 4у5/(2Л; + 1) а 1 - 2/3. Для к 2р а 1-2Р, 0 /? 1/3. Далее рассматривается непараметрическое оценивание функции отношения рисков смерти и отношение ПР времен жизни в двух независимых популяциях как некорректно поставленная задача. Для получения оценок применяются метод регуляризации и метод невязки, позволяющие получить состоятельные оценки неизвестных функций по эмпирическим данным. Функции отношений между рисками смерти и между ПР момента смерти в группе, находящейся под стрессом и в контрольной группе, не подверженной стрессу, применяются для выявления эффекта гормезиса (т.е. "стимулирующего эффекта малых доз каких-либо веществ, которые в больших дозах вредны" British medical dictionary, (1961)) в популяции по эмпирическим данным. Оценки рассматриваются для однородной и неоднородной популяций и демонстрируются на модельных данных.

В седьмой главе предлагается непараметрическая оценка функции восстановления по наблюдениям временных промежутков между событиями, предполагаемых независимыми. Оценка позволяет существенно сократить объем вычислений по сравнению с известной оценкой Frees. Доказывается равномерная сходимость оценки почти наверное к истинной ФВ для достаточно малых относительно математического ожидания времен t для легко- и тяжело-хвостовых распределений времен между событиями. Доказываются скорости равномерной сходимости и приводятся доверительные интервалы оценки ФВ для класса распределений времен между событиями с экспоненциальным убыванием хвостов и класса распределений с правильно меняющимися хвостами. Параметр оценки ФВ оценивается по методу бутстреп, что обеспечивает минимум бутстреп-оценки среднеквадратичной ошибки оценивания, а также из графика зависимости оценки ФВ от к, когда выбирается минимальное к, соответствующее интервалу постоянства на графике. Среднеквадратичная ошибка предложенной оценки становится меньше, чем у оценки Frees уже при увеличении выборки с 30 точек до 100.

В восьмой главе приводится статистический анализ характеристик движения данных в Интернете по реальным измерениям. Применяются как известные методы исследования на наличие тяжелых хвостов, так и методы, предложенные в диссертации: восстановления ПР, ФВ, высоких квантилей.

Обсуждается возможность применения построенных в главе 3 классификаторов к практическим задачам классификации http-запросов в Интернете и создания "умного" браузера (browser), выбирающего по информации- о размере страницы, какой образ следует загрузить в зависимости от типичного поведения пользователя.

В приложениях к главам содержатся доказательства теорем.

Работа выполнена в Институте проблем управления им. В.А.Трапезникова РАН.

Схемы и принципы оценивания плотности

Непараметрическое оценивание плотности методом структурной минимизации риска

Измерения в телекоммуникационных сетях показывают, что многие базовые траффик-характеристики, как например, размеры файлов, передаваемых по сети, продолжительности звонков или Web сессий в Интернете являются сл.в., распределения которых имеют тяжелые хвосты или даже представляют собой смеси таких распределений Roppel, (1999). Ввиду того, что запросы к сети поступают от различных источников (fax, multimedia, voice и т.д.) распределения часто выглядят как одно или много-модальные с хвостом типа Парето, Krieger, Markovitch & Vicari, (2001); Nabe, Murata & Miyahara, (1998).

Наша цель - предложить оценку ПР для тяжело-хвостовых многомодальных ПР с хорошим оцениванием одновременно хвоста и основной части (моды) ПР по выборкам ограниченного объема. Для этой цели можно использовать параметрические, непараметрические и комбинированные параметрико-непараметрические оценки. Параметрической оценкой можно оценить хвост ПР довольно точно. Точность определяется как формой задания хвоста, так и точностью оценивания хвостового индекса. Однако, как правило, параметрические аппроксимации плохо восстанавливают основную часть ПР. Трудно предложить удачные параметрические модели в таких динамично меняющихся приложениях, как например, телекоммуникации.

Непараметрические же оценки (гистограммы, ядерные и др.), не требующие задания формы распределения, плохо восстанавливают хвосты тяжело-хвостовых ПР и требуют специальных процедур и дополнительных априорных предположений для преодоления этой трудности (см. Markovitch, Krieger, (2000); Markovich, Krieger, (2001a)). Эти оценки будут рассмотрены в 2.3, 2.4 этой главы.

Здесь мы рассмотрим комбинированную оценку, соединяющую преимущества параметрических хвостовых моделей, аппроксимирующих достаточно хорошо хвосты ПР, и непараметрических оценок для восстановления основной части ПР, т.е. ограниченной области относительно малых значений сл.в. Сходные идеи предложены в Barron, Gyorfi, van der Meulen, (1992) (см. 1.4.3) и в Horvath, Telek, (2000). Однако в последней работе предполагается, что "граница" между хвостом и основной частью ПР - фиксированная точка, независящая от выборки. В нашем рассмотрении эта "граница" - случайная величина. В оценке Бэррона /в (я) (см. 1.4.3) - это наибольшее по величине наблюдение. Оценка /в(х) комбинирует гистограмму с некоторой параметрической моделью хвоста. Несмотря на простую реализацию, оценка чувствительна к выбору параметрического семейства и часто плохо восстанавливает основную часть ПР, особенно для небольших выборок. В диссертации в качестве модели хвоста предлагается довольно широкое семейство типа Парето с оценкой Хилла (1.27) для хвостового индекса. Основная часть ПР приближается линейной комбинацией некоторых базисных функций. Оптимальное число наибольших порядковых статистик - сглаживающий параметр в оценке Хилла определяется методом бутстреп, Hall (1990); Caers, Van Dyck, (1999). Оптимальное число членов и коэффициенты в разложении по базисным функциям вычисляется методом структурной минимизации риска, Вапник, (1984). Демонстрируется способность комбинированной оценки восстанавливать смеси тялсело-хвостовых ПР.

Риск классификатора и качество оценивания ПР

Предлагаются два подхода к оцениванию тяжело-хвостовых ПР: комбинированное параметрико-непараметрическое оценивание и чисто непараметрическое оценивание с использованием трансформации данных.

Смеси ПР с длинными хвостами часто возникают на практике. Комбинированная оценка предназначена для оценивания мультимодальных тяжело-хвостовых ПР. Непараметрическая часть оценки - линейная комбинация тригонометрических функций, применяемая для восстановления основной (многомодальной) части ПР, обеспечивает минимум оценки среднего риска оценивания, используя метод структурной минимизации риска. В качестве параметрической модели хвоста ПР используется ПР типа Парето. Метод бутстреп дает близкую к минимальной среднеквадратичную ошибку оценивания хвостового индекса оценкой Хилла. Так как непараметрическими методами нельзя восстановить хвост лучше, чем параметрической моделью, то в комбинированной оценке совмещаются преимущества двух подходов.

Для оценивания тяжело-хвостовых ПР могут также использоваться чисто непараметрические оценки. Известно, что ядерные оценки обеспечивают хорошую асимптотическую MISE и MSE при достаточно гладких ПР. Это демонстрируют ядерные оценки fA(x), которые и без предварительной трансформации имеют MISE п-8/9 (MSE п-8/9), если четвертая производная ПР существует. Однако для выборок ограниченного объема трансформации помогают улучшить оценивание в случае многомодальных, "скошенных" ПР (см. Wand, Marron & Ruppert, (1991), Yang , Marron, (1999)) или для тяжело-хвостовых ПР Markovitch, Krieger , (2000), Маркович, 2002а.

Для практиков более привлекательными являются простые преобразования, не требующие знания вида распределения, как hire или 2/7Гarctanх. Тем не менее, они могут привести к разрывным ПР трансформированных ел.в., трудным для оценивания. Если класс распределений известен (здесь мы рассматриваем распределения с правильно меняющимися хвостами (2.37)), то при помощи фиксированных трансформаций оптимальный порядок MISE может быть получен не для всех ПР из класса. Трансформация arctan имеет ограничения на 7 и на медленно меняющуюся функцию (х), логарифмическое преобразование - на (х) и область определения О, оптимальной MISE. Адаптивная трансформация (2.30) также имеет ограничение на П (см., 2.4.2). Очевидно, что для других классов ПР также могут быть выявлены ограничения на применимость фиксированных преобразований.

Вообще говоря, без предположений о форме хвоста восстановить точно хвост ПР непараметрическими методами нельзя, так как в этом случае невозможно предсказать форму ПР трансформированной ел.в. и правильно подобрать пограничное ядро. Порядок убывания трансформированных оценок на хвостах ПР может быть близким к таковому для истинной ПР при определенных граничных ядрах и параметрах сглаживания для них.

Для лучшего оценивания хвоста ПР в 2.3 предложена трансформация, адаптивная к эмпирическим данным в предположении, что исходное распределение есть обобщенное распределение Парето. Установлено, что наилучшей комбинацией для оценивания является использование сглаженной полиграммы (или ядерной оценки) и трансформации к ел.в. с треугольной ПР. Это позволяет: 1) получить устойчивую оценку ПР относительно небольших отклонений трансформации вследствие грубого оценивания EVI; 2) сохранить порядок убывания хвоста такой же, как у истинной ПР, после обратной трансформации. В отличие от полиграммы, ядерная оценка не обеспечивает правильного порядка убывания хвоста. Кроме того, ядерная оценка плохо восстанавливает ПР трансформированной ел.в. на границах ограниченного интервала вследствие усечения ядер в этих точках. Ввиду этого, полиграмма предпочтительнее для оценивания хвостов, особенно для сравнительно малых объемов выборок. Для достаточно больших выборок ядерная оценка восстанавливает основную часть ПР лучше.

Интенсивность отказов для распределений с тяжелыми хвостами

Каждый из полученных таким образом классов может характеризоваться определенными случайными характеристиками (например, размер файла, продолжительности сессий и промежутков между ними и т.д.). Измерения в Интернете показывают, что такие ел.в. имеют распределения с тяжелыми хвостами, Vicari, (1997); Nabe, Murata М. & Miyahara, (1998); Krieger, Markovitch & Vicari, (2001).

Как было показано в главе 3, восстановление ПР для каждого класса необходимо для построения классификаторов и управления ресурсами внутри каждого класса. К примеру, время сервиса Т зависит от объема потока информации и обычно вычисляется по формуле Т = FL/C, где FL - длина передаваемого файла, С - возможности антенны. Ясно, что FL может сильно меняться для различных классов запросов. Например, для видео FL относительно большой, а для текстовых сообщений маленький. Для планирования сервиса необходимо оценить FL, типичную для каждого класса. В качестве FL можно взять наиболее вероятное значение ел.в. - размера файла (т.е. соответствующие моде ПР FL) или какую-то ее квантиль. Техника оценивания высоких квантилей (т.е. близких к 100%) для тяжело-хвостовых распределений, позволяющая оценить приближенную "конечную точку" (endpoint) ел.в., обсуждается в Главе 4. Статистический анализ реальных данных измерений в Интернете. 189 Приведем примеры использования классификации в Интернете. "Умный" браузер (browser). Когда пользователь получает доступ в Интернет, он генерирует одну или несколько сессий. Сессия может содержать различные http-запросы. Такой http-запрос формируется каждый раз, когда пользователь вызывает соединение. Иногда различные http-запросы могут генерироваться в одно время, т.к. браузер автоматически загружает образы из Web страницы. Рассмотрим "умный" браузер, который может выбирать, какой образ следует загрузить в зависимости от типичного поведения пользователя. Точнее, предположим, что сначала браузер предлагает пользователю информацию о размере страницы. Пользователь может попросить браузер показать ему полную страницу или отказаться просматривать страницу совсем. Пусть наблюдается работа пользователя в течение какого-то фиксированного периода времени, чтобы собрать информацию о поведении пользователя. Собирается два типа данных: размеры отвергнутых картинок (т.е., тех, которые пользователь не захотел открывать) и размеры принятых картинок (т.е. открытых пользователем после просмотра предварительной информации от браузера). Далее оцениваются ПР обоих выборок, например, методами, описанными в 2.1 Используя эти оценки ПР, можно построить эмпирический байесовский классификатор Т]ЕВ{Х), который определяет вместо пользователя, следует ли открывать картинку полностью для просмотра. Это типичная задача классификации. Средний риск неверной классификации для двух классов определяется как Если классификатор делает ошибку, и браузер открывает картинку (т.е., Г)ЕВ относит картинку ко второму классу), которая на самом деле не нужна пользователю (т.е., картинка относится в действительности к первому классу), то средние потери браузера равны pi /0 q\{x) їі{х)1{г)Ев{х) = 2}dx. Аналогично, если браузер не открыл нужную картинку, так как классификатор отнес ее к первому классу, то средние потери браузера определяются как р2 f0 q2(x)f2(x)l{r)EB(x) = l}dx. Здесь Pi и р2 - пропорции первого и второго класса картинок среди всех наблюдений. Штрафные функции qi(x) и q2(x) могут быть определены как финансовые потери сети. Величина Risk{r)EB) отражает качество классификации. Классификация типов запросов в Интернете http-запросы могут быть различных типов: обычные Web-страницы (HTML), образы (images) и потоки multimedia. Характеристики (например, размеры файлов) этих источников сильно отличаются друг от друга. Мы предполагаем, что нам доступны наблюдения от каждого источника отдельно. Например, измеряются размеры файлов. Тогда можно оценить ПР размеров файлов всех источников запросов и построить классификатор Т)ЕВ( )- Далее, можно отклассифицировать любой новый http-запрос, и оптимизировать обслуживание запросов. Основные результаты и выводы настоящей работы можно сформулировать следующим образом. 1. Рассмотрено два подхода к оцениванию тяжело-хвостовых плотностей по выборкам независимых одинаково распределенных случайных величин ограниченного объема: параметрико-непараметрическое раздельное оценивание хвостовой и основной части плотности и с использованием предварительного преобразования (трансформации) данных. 2. Разработана комбинированная параметрико-непараметрическая оценка для тяжело-хвостовых ПР. При этом основная часть ПР на конечном интервале от нуля до некоторой порядковой статистики оценивается непараметрически, линейной комбинацией базисных функций. Число членов и коэффициенты в разложении оцениваются методом структурной минимизации риска, Вапник, (1984), что дает минимум оценки среднего риска оценивания. Хвостовая часть ПР от некоторой порядковой статистики до бесконечности оценивается параметрической моделью типа Парето, где хвостовой индекс - параметр формы хвоста, оценивается методом Хилла. Параметр метода Хилла - число наибольших порядковых статистик, определяется методом бутстреп, что дает близкую к минимальной среднеквадратичную ошибку оценивания хвостового индекса. Оценка предназначена для оценивания многомодальных тяжелохвостовых ПР. 3. Разработаны методы оценивания тяжело-хвостовых ПР при помощи трансформаций. Предложена адаптивная трансформация от Парето-распределенной ел.в. к ел.в. с треугольным распределением, обеспечивающая непрерывную вблизи 1 ПР трансформированной сл.в., удобную для оценивания, для разных типов хвостов и при уклонениях в оценках хвостового индекса. В классе распределений с правильно меняющимися хвостами для адаптивной, логарифмической и arctan трансформаций получены ограничения для получения наименьшей интегральной среднеквадратичной ошибки. Для улучшения оценивания хвостовой области ПР ядерными оценками предложены пограничные ядра. 4. Трансформированные ядерные оценки и полиграмма (гистограмма с переменным окном) используются для построения эмпирических байесовских классификаторов, когда распределения классов тяжело-хвостовые. В качестве характеристики оценки тяжело-хвостовой ПР предлагается эмпирический риск ошибочной классификации эмпирическим байесовским классификатором. Доказывается скорость сходимости этого риска к байесовскому риску (минимально возможному) для полиграммы и ядерной оценки. Для адаптивной и arctan трансформаций качество оценок ПР и классификаторов для разных

Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам Маркович Наталья Михайловна

Схемы и принципы оценивания плотности

Непараметрическое оценивание плотности методом структурной минимизации риска

Риск классификатора и качество оценивания ПР

Интенсивность отказов для распределений с тяжелыми хвостами

Похожие диссертации на Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам