Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Смирнов Павел Олегович

Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба
<
Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Смирнов Павел Олегович. Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба: дис. ... кандидата физико-математических наук: 05.13.18 / Смирнов Павел Олегович;[Место защиты: Санкт-Петербургский государственный политехнический университет].- Санкт-Петербург, 2014. - 182 c.

Содержание к диссертации

Введение

ГЛАВА 1. Робастные высокоэффективные оценки масштаба 14

1.1 Оценивание параметра масштаба в параметрической статистике 14

1.1.1 Основные определения 14

1.1.2 Метод моментов 16

1.1.3 Метод квантилей 17

1.1.4 Метод максимального правдоподобия 18

1.2 Робастные подходы к оцениванию масштаба распределений . 23

1.2.1 Основные определения 23

1.2.2 Медиана абсолютных отклонений MAD 26

1.2.3 Квартиль абсолютных разностей 30

1.2.4 Класс -оценок параметра масштаба 33

1.3 Новые оценки масштаба MQ и FQ 39

1.3.1 Построение новой -оценки 39

1.3.2 Одношаговый алгоритм оценивания 41

1.3.3 Пороговые точки предложенных оценок 43

1.3.4 Функции влияния 45

1.3.5 Асимптотическая дисперсия и эффективность . 47

1.3.6 Поведение оценок на распределении Коши 48

1.3.7 Оценка параметра масштаба для распределения Коши 51

1.4 Имитационное моделирование методом Монте-Карло 53

1.4.1 Предварительные соображения 53

1.4.2 Оценивание числа повторений эксперимента 56

1.4.3 Оценивание параметра масштаба нормального распределения 58

1.4.4 Оценивание параметра масштаба в модели больших ошибок Тьюки 63

1.4.5 Оценивание масштаба распределения Коши 69

1.5 Выводы 71

ГЛАВА 2. Робастные высокоэффективные оценки коэффициента корреляции 74

2.1 Оценивание коэффициента корреляции в классической статистике 74

2.1.1 Выборочный коэффициент корреляции Пирсона . 74

2.1.2 Оценка максимального правдоподобия 77

2.2 Робастные аналоги коэффициента корреляции 80

2.2.1 Квадрантный коэффициент корреляции 80

2.2.2 Коэффициент ранговой корреляции Кендалла . 81

2.2.3 Коэффициент ранговой корреляции Спирмена . 84

2.2.4 Комедианный коэффициент корреляции 85

2.3 Альтернативные подходы к оцениванию коэффициента корреляции 89

2.3.1 Оценивание коэффициента корреляции через регрессию 89

2.3.2 Оценивание коэффициента корреляции через оценки масштаба 90

2.4 Класс распределений в независимых компонентах 91

2.4.1 Определение 91

2.4.2 Естественная оценка коэффициента корреляции . 94

2.4.3 Асимптотические смещение и дисперсия 100

2.4.4 Оценка максимального правдоподобия и -оценки . 104

2.4.5 Минимаксное асимптотическое смещение и дисперсия108

2.5 Робастное оценивание корреляционных и ковариационных матриц 110

2.5.1 Классическая оценка корреляционной матрицы . 110

2.5.2 Попарные корреляции 111

2.5.3 Эллипсоид минимального объема 112

2.5.4 Минимальный определитель ковариационной матрицы113

2.5.5 Класс распределений в независимых компонентах . 115

2.6 Методы коррекции псевдокорреляционных матриц 118

2.6.1 Общие соображения 118

2.6.2 Исправление собственных чисел корреляционной матрицы 121

2.6.3 Исправление элементов корреляционной матрицы . 122

2.6.4 Поиск ближайшей корреляционной матрицы 123

2.7 Имитационное моделирование методом Монте-Карло 125

2.7.1 Оценивание коэффициента корреляции нормального распределения 125

2.7.2 Оценивание коэффициента корреляции в модели больших ошибок Тьюки 133

2.8 Выводы 138

ГЛАВА 3. Приложения полученных результатов в статистике многомерных данных и временных рядов 142

3.1 Применение в теории временных рядов 142

3.1.1 Робастные оценки автоковариационной функции . 142

3.1.2 Робастные непараметрические оценки спектральной плотности мощности 143

3.1.3 Робастные оценки спектральной плотности процесса авторегрессии 144

3.2 Применение в разведочном анализе 146

3.2.1 Новые варианты боксплотов 146

3.3 Выводы 151

Заключение 152

Список литературы 158

Список иллюстраций 173

Список таблиц 175

Введение к работе

Актуальность темы исследования. При исследовании закона распределения одномерных случайных величин по результатам наблюдений основное внимание уделяется описанию таких двух главных характеристик как его мера положения (некоторое типичное значение) и мера разброса значений вокруг этой центральной точки. Так, широко использующийся нормальный закон распределения случайных величин полностью характеризуется первыми двумя моментами — математическим ожиданием (положением) и дисперсией (масштабом), и для их оценки в классической статистике чаще всего используются выборочные аналоги: среднее арифметическое и среднеквадратичное отклонение.

При наличии нескольких случайных величин или одной многомерной величины встаёт вопрос о взаимосвязи составляющих этой системы. Мерой их линейной зависимости является коэффициент корреляции или, в случае размерности больше двух, корреляционная матрица, которая наряду с математическим ожиданием и дисперсией полностью описывает нормально распределённые случайные величины.

Тем не менее, любые модели лишь приближённо описывают реальные явления, и на практике мы сталкиваемся с различными отклонениями от них. В силу этого, использование классических параметрических моделей распределений для оценивания их параметров не всегда оправдано, может привести к некорректным результатам, и, соответственно, поставить под сомнение обоснованность применения связанных с ними процедур. Возникшая на смену классическим моделям непараметрическая статистика, отказавшись от всяких предположений о конкретном виде закона распределения случайных величин, позволила находить приемлемое решение части задач по сравнению законов распределения и некоторых их производных характеристик. В то же время, полное игнорирование параметрических моделей приводит к большой потере информации о форме распределения.

Компромиссное решение предложила робастная статистика, возникшая в середине XX века. Сам термин «робастный» («грубый, сильный, крепкий») ввёл Дж. Бокс в 1953 году, но систематическое развитие она получила с работы Дж. Тьюки, исследующей модели загрязнения распределений. Полноценный теоретический подход к робастности в статистике был предложен Дж. П. Хьюбером в 1964 году, и получил широкую известность в 1981 году с выходом книги, посвященной минимаксным методам поиска оценок, оптимальных в окрестности предполагаемого распределения. Альтернативный подход через функции влияния был предложен Ф. Хампелем в диссертации в 1968 году и рассмотрен

более подробно в книге 1986 года.

Основная идея робастности — это построение статистических процедур, устойчивых к возможным отклонениям от принятых вероятностных моделей распределений данных. Подходы Хьюбера и Хампеля отличаются различным выбором используемых мер устойчивости рассматриваемых робастных оценок, но, несмотря на эти различия, как правило, «хорошие» робастные оценки в смысле Хьюбера практически близки «хорошим» робаст-ным оценками в смысле Хампеля, а иногда они и совпадают.

В нашей стране теория устойчивых статистических методов также активно развивается, одной из первых вех была вышедшая в 1931 году статья А. Н. Колмогорова «Метод медианы в теории ошибок», подробно рассматривающая преимущества медианы перед средним арифметическим в том случае, если «гипотеза нормального распределения не удовлетворяет фактам». Изучение и дальнейшая разработка вероятностно-статистических методов, их внедрение в научную, инженерную и медицинскую практику было одной из задач, поставленных перед Межфакультетской («колмогоровской») лабораторией статистических методов при кафедре теории вероятностей МГУ. Похожие на хьюберовские оценки параметров многомерных распределений, при которых занижается вклад выдающихся значений на периферии, рассматривал Л. Д. Мешалкин, предложивший в 1970 году экспоненциальное взвешивание наблюдений. Этот подход и связанные с ним результаты развил А. М. Шурыгин, исследуя применимость методов классической статистики и теории вероятностей к решению реальных задач геофизики.

Значительный вклад в теорию робастного (учитывающего фактор неопределённости) управления внёс Я. 3. Цыпкин, с 1956 года и до своей кончины в 1997 году заведующий лабораторией №7 Института автоматики и телемеханики (в настоящее время — лаборатория адаптивных и робастных систем им. Я. 3. Цыпкина Института проблем управления РАН). За цикл работ «Робастность в задачах оценивания, оптимизации и устойчивости» Я. 3. Цыпкин и Б. Т. Поляк были награждены премией А. А. Андронова.

Научная школа непараметрической и робастной статистики была создана в Томске Ф. П. Тарасенко, первоочередное внимание в которой уделялось непараметрическим методам. Характерной особенностью томской группы статистиков является последовательное использование функционального представления статистических процедур, при которой статистики порождаются путем подстановки различных оценок распределений в характеристический функционал рассматриваемой задачи. Много усилий на обобщение и развитие именно робастных статистических процедур направил В. П. Шуленин, в 1993 году

опубликовавший монографию по робастной статистике, и совсем недавно, в 2012 году, выпустивший учебное пособие в трёх томах, посвященных отдельно достижениям в параметрической, непараметрической и робастной статистике.

Ю. С. Харин в связи с организацией кафедры теории вероятностей и математической статистики был приглашён в Минск, где впоследствии занял пост заведующего новой кафедрой математического моделирования и анализа данных Белорусского государственного университета и директора НИИ прикладных проблем математики и информатики БГУ. Тематика научных интересов основанной им кафедры связана с разработкой математических моделей, методов, алгоритмов и программных средств робастного распознавания и анализа стохастических данных для компьютерных систем защиты информации и информационных технологий.

В связи с развитием теории ошибок измерений, изучения случайных ошибок и грубых промахов, возникших в ходе эксперимента, наиболее полно исследованным оказалось робастное оценивание параметра положения распределений случайных величин. В чуть менее разработанной области робастного оценивания параметра масштаба, а тем более, коэффициента корреляции двух зависимых случайных величин остаётся ещё потенциал для исследования с точки зрения увеличения эффективности алгоритмов оценивания (уменьшения разброса значений вычисленных по выборкам оценок).

Внедрение и практическое использование предлагаемых новых робастных методов оценивания параметра масштаба и корреляционных характеристик данных предполагает разработку программно-алгоритмического комплекса, их реализующего.

Цель работы. Целью настоящей диссертационной работы является разработка комплекса новых методов, алгоритмов и программ робастного оценивания корреляционных характеристик данных, обладающих высокой устойчивостью к загрязнениям данных и другим отклонениям от предполагаемой параметрической модели при сохранении высокой асимптотической эффективности.

Задачи исследования.

  1. Изучить различные робастные методы оценивания коэффициента корреляции и корреляционных матриц, включая оценки, основанные на оценках масштаба.

  2. Исследовать поведение асимптотического смещения и дисперсии оценок коэффициента корреляции, определённых через оценки масштаба, на семействе распределений

в независимых компонентах (которое включает в себя двумерное нормальное распределение).

  1. Построить оценки максимального правдоподобия для коэффициента корреляции семейства распределений в независимых компонентах.

  2. Предложить быструю высокоэффективную оценку параметра масштаба для использования при оценивании коэффициента корреляции и связанных с ним величин.

  3. Исследовать применение предложенных оценок параметра масштаба и коэффициента корреляции в других статистических методах (многомерном статистическом анализе, теории временных рядов).

Научная новизна. В диссертационной работе получены и обоснованы следующие новые результаты, выносимые на защиту:

1. Разработаны робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба.

Предложено параметрическое семейство новых робастных М-оценок масштаба с абсолютной асимптотической эффективностью на нормальном распределении от 80 до 95%, максимально возможной пороговой точкой 50% и асимптотически линейным ростом времени работы алгоритма 0(п) при увеличении размера выборки п.

Исследовано применение оценок масштаба для оценивания коэффициента корреляции и корреляционных матриц многомерных распределений из класса распределений с независимыми компонентами, и доказана прямо пропорциональная зависимость асимптотического смещения и дисперсии оценки коэффициента корреляции от асимптотической дисперсии используемой оценки масштаба.

4. Получены оценки максимального правдоподобия и М-оценки для коэффициента корреляции семейства распределений в независимых компонентах, уравнение правдоподобия выражено через оценочную функцию параметра масштаба, и доказана прямо пропорциональная зависимость асимптотической дисперсии оценки коэффициента корреляции от асимптотической дисперсии используемой оценки масштаба.

  1. Предложено теоретическое и практическое обоснование необходимого числа повторений эксперимента (~ 50000) в исследованиях оценок методом Монте-Карло.

  2. Разработаны алгоритмы и комплекс программ и библиотек функций, реализующих предлагаемые оценки параметров масштаба, корреляции и корреляционных матриц случайных распределений, а также предоставляющих экспериментальную среду для проведения испытаний Монте-Карло.

Теоретическая и практическая значимость. Доказанная зависимость между асимптотическими дисперсиями оценок коэффициента корреляции и параметра масштаба, на которых они основаны, позволяет повышать статистическую эффективность корреляционных алгоритмов оценивания за счет использования более эффективных оценок масштаба. Полученные робастные, высокоэффективные оценки параметра масштаба, коэффициента корреляции и корреляционных матриц помогают с большей точностью и устойчивостью к помехам и ошибкам измерений проводить статистический анализ данных.

Методология и методы исследования. Для решения поставленных задач использовался аппарат теории алгоритмов, линейной алгебры, вычислительной математики, математического анализа, теории вероятностей, параметрической и робастной математической статистики.

Степень достоверности результатов. Приведённые в диссертации теоретические результаты подтверждаются как аналитическими исследованиями, так и прямым имитационным моделированием Монте-Карло для различных, в том числе и больших, размеров выборок.

Внедрение результатов исследования. Подготовлена к публикации в свободном доступе библиотека функций для широко используемой бесплатной программной среды статистических вычислений и обработки данных R Project, содержащая предложенные в данной работе процедуры оценивания масштаба распределений, коэффициентов корреляции и корреляционных матриц многомерных случайных величин, автоковариационных функций и коэффициентов авторегрессии случайных временных рядов [13].

Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на международных конференциях: «International Conference on Robust

Statistics» (Чехия, Прага, 2010 год; Испания, Вальядолид, 2011 год), «International Conference on Computer Data Analysis and Modeling» (Беларусь, Минск, 2010 и 2013 год), «IEEE International Conference on Acoustics, Speech and Signal Processing» (Канада, Ванкувер, 2013 год). По материалам диссертации опубликовано двенадцать печатных работ и одна работа в электронном виде, из них две — в ведущих российских изданиях, включённых в перечень ВАК, и две работы опубликованы в международных профильных реферируемых журналах.

Структура и объем работы. Диссертация состоит из введения, трёх глав и заключения, содержит 157 страниц основного текста, включая 18 рисунков и 15 таблиц. Приложение содержит распечатки программных реализаций основных алгоритмов. В списке литературы 128 наименований.

Робастные подходы к оцениванию масштаба распределений

Пионером в теории робастности принято считать Тьюки [122], который в своей работе 1960 года [123] исследовал поведение стандартного отклонения

в случае смеси двух нормальных распределений, так называемой, модели больших ошибок Тьюки и показал, что уже при минимальном загрязнении (достаточно 2 наблюдений из 1000) оценка SDn теряет в эффективности по сравнению со средним отклонением В современном понимании MDn не является робастной оценкой, но её дисперсия оказываются более устойчивой, чем SDn в такой модели. Эти выводы и привели к развитию теории робастности, большой вклад в которую сделал Хьюбер [25, 72], рассматривая более общие, чем (1.17) окрестности истинного распределения #, в том числе модель больших ошибок с произвольным засорением и минимизируя на этом классе максимум отклонения оценки или её дисперсию в самом худшем случае (минимаксный подход Хьюбера). С другой стороны исследовал проблему Хампель [15, 67], заметив что при добавлении нового наблюдения к выборке (\,... ,п) оценка претерпевает изменения, имея возможность неограниченного роста при \\ — оо. Таким образом всего лишь одно ошибочное наблюдение может кардинально изменить значение оценки, а так как в естественных науках типичные выборки «хороших данных» довольно точно моделируются законом вида (1.17), где лежит в пределах от 0.01 до 0.1 [25, с. 11], то весьма вероятно появление указанных больших ошибок. Функцией влияния (infuence function) функционала при распределении называется функция при тех , с которыми этот предел существует [15, c. 117]. Условия существования функции влияния достаточно слабые, и во всех реальных ситуациях её можно вычислять не заботясь об условиях регулярности. Более того, оказывается, что асимптотическая дисперсия оценки определяется её функцией влияния, Функция влияния описывает локальный эффект, оказываемый на оценку загрязнением распределения в точке . Также вводится понятие чувствительности к большой ошибке функционала которая показывает верхнюю границу для нормированного асимптотического смещения оценки. Желательно, чтобы была конечной, в таком случае говорят, что есть B-робастный при функционал (от bias — смещение). Вторая обобщённая характеристика описывает малые флуктуации в наблюдениях. Искажения при округлении или группировке влияют и на вычисляемую по ним оценку. Мерой этого эффекта может служить чувствительность к локальному сдвигу

Перечисленные характеристики описывают локальную устойчивость оценки к загрязнениям. Бывает полезным иметь и глобальную меру ро-бастности, которая позволяла бы знать, как далеко можно отклониться от распределения, принятого в модели, и при этом получать из оценки полезную информацию. Более формально, для конечной выборки можно ввести величину выборочной пороговой точки, как наибольшее соотношение при котором замена т элементов выборки на произвольные значения не приводит к выходу оценки из допустимого диапазона, т.е. для оценок параметра масштаба где выборка (zi,...,zn) получена из исходной заменой элементов с индексами ii,... ,im на значения у\,... ,ут. Часто, пороговая точка е п не зависит от выборки, и во многих случаях предел отношения совпадает с асимптотической пороговой точкой є , определение которой даётся в [15].

Функция влияния и пороговая точка рассматривают экстремальные ситуации, в которых засорение либо очень мало, либо, наоборот, максимально велико, при условии, что оценка ещё справляется со своей задачей. Интерес, однако, представляют также и промежуточное поведение оценки при засорении. В модели больших ошибок (1.18) определим кривые внешнего и внутреннего смещения оценки масштаба S как графики функций Вд(є) и Вд(є) в зависимости от доли загрязнения є: они соответствуют «взрыву» и «коллапсу» значений оценки [84, 85].

В задачах оценивания параметра положения классической оценкой является среднее арифметическое, а её функциональным аналогом — математическое ожидание

Как известно, эта оценка очень чувствительна к различным отклонениям от предполагаемого закона распределения. Робастной заменой среднему арифметическому служит выборочная медиана, т.е. центральный элемент в отсортированной выборке, а в функциональном виде — медиана распределения (50%-квантиль). В случае выборки чётного размера в качестве медианы подходит любое значение между двумя центральными элементами, например, их полусумма

По аналогии, в параметрической модели масштаба (1.1) взяв за основу среднеквадратичное отклонение (1.5) и (1.6), заменив среднее на медиану, можно построить новую оценку — медиану абсолютных отклонений (MAD, median absolute deviation)

Заметим, что в такой формулировке вычисляется медиана отклонений от нуля. При неизвестном положении центра распределения в модели положения-масштаба (1.2) используется медиана абсолютных отклонений от медианы с тем же обозначением. Самое раннее известное упоминание концепции MADn относится к 1816 году в работе Гаусса [59], но долгое время эта оценка не воспринималась серьёзно и очень редко использовалась на практике, став известной после работы Хампеля [67].

Оценивание масштаба распределения Коши

Интересным также оказывается поведение тех же самых нескорректированных оценок при подмене закона распределения с нормального на похоже по форме распределение Коши G(x) = F(x/$) = l/2 + arctg(:r/$)/7r, для которого не существует ни математическое ожидание, ни дисперсия, из-за медленного убывания плотности распределения при х — ±оо соответствующие интегралы расходятся.

Результаты моделирования представлены в таблице 1.3. Поведение классического среднеквадратичного отклонения SDn становится неуправляемым, его смещение и стандартизованная дисперсия сильно возросли и продолжают увеличиваться с ростом размера выборки п. Остальные оценки, будучи робастными, остаются в разумных пределах. Их достаточно большие смещения возникают из-за отсутствия коррекции. Зная модельный закон распределения следовало бы пересчитать множители, исходя из условия состоятельности оценок по Фишеру, но целью эксперимента было изучение реакции на подмену распределения.

Минимальное смещение на распределении Коши показывает оценка MADn, следующим по величине идёт предложенная в настоящей работе FQn, но при существенных размерах выборки второе место занимает оценка Qn. С точки зрения эффективности эта оценка выходит на первое место, за которой следует FQn. В целом, наименьшая среднеквадратичная ошибка, вызванная неверным предположением о законе распределения, принадлежит MADn, второе место делят FQn и Qn.

В первой главе рассмотрена задача оценивания параметра масштаба случайных распределений, введены основные определения, проведён обзор классических и робастных оценок параметра масштаба, методов их построения. Также предложены новые высокоэффективные робастные оценки MQ и FQ, изучены их характеристики и проведено имитационное моделирование методом Монте-Карло для потверждения теоретических выводов на практике. Эти оценки анонсированы на международной конференции по робастной статистике [117] и опубликованы в журнале [16] из списка рекомендованных ВАК.

В качестве робастной оценки масштаба случайных распределений долгое время используется межквартильный размах IQR и медиана абсолютных отклонений MAD. Первая оценка обладает сниженным значением пороговой точки, равным 25% при максимально возможном значении 50%, а следовательно, подвержена влиянию сильных загрязнений. Оценка MAD больше подходит для симметричных распределений, но достигает при этом максимального значения пороговой точки и имеет достаточно простой, понятный и быстрый алгоритм вычисления.

Основным недостатком этих робастных оценок является их низкая эффективность (т.е. высокая дисперсия) на нормальном распределении, для MAD она равна всего 37% по сравнению с классическим среднеквадратичным отклонением SD. Рауссеу и Крукс [103] предложили альтернативные оценки с большей эффективностью и такой же высокой пороговой точкой, одна из которых, квартиль абсолютных разностей , из-за своих характеристик приобрела большую известность в современной робастной статистике [82, 113]. Помимо авторской реализации на языке программирования FORTRAN [48] оценка доступна в различных статистических пакетах ПО, например, в среде R Project [97].

Одним из препятствий к использованию этой оценки является высокая (по сравнению с другими оценками) асимптотическая сложность алгоритма её вычисления. Нахождение порядковой статистики среди примерно ( — 1)/2 пар элементов выборки в общем случае требует (2) времени и столько же памяти [11]. Несмотря на то, что для частного случая попарных разностей Крукс и Рауссеу предложили более эффективный алгоритм [48], требующий только ( log ) времени и () памяти, на больших выборках разница становится существенной.

Предложенная в данной работе -оценка MQn (1.49) основывается на функции влияния n, наследуя от неё локальные робастные свойства и эффективность. Некоторые упрощения, сделанные при построении оценки, не приводят к фатальному ухудшению характеристик, а введённый параметр позволяет контролировать значения эффективности и пороговой точки. При = 0 достигается максимум порогового значения = 29.3% и минимум эффективности ef = 80.8% (потенциально увеличиваемой до 95.9% при = 1.403).

Одношаговая -оценка FQn (1.53) при выборе в качестве начального приближения итерационного алгоритма значения оценки MADn наследует от неё максимальную пороговую точку с незначительными изменениями локальных робастных характеристик и эффективности. Таким образом, оценка FQn при = 0 имеет максимально возможное значение пороговой точки = 50%, высокую эффективность ef « 80% и линейное время работы вычисляющего алгоритма.

Имитационное моделирование методом Монте-Карло подтверждает хорошие характеристики предложенной оценки. В случае отсутствия загрязнения на нормальном распределении FQn и по смещению, и по дисперсии (за исключением очень больших выборок) ведёт себя лучше, чем n. Это особенно заметно на малых выборках ( = 20), где смещение сравнимо с лучшим результатом, на порядок превосходя оценку , а дисперсия становится наименьшей, показывая наилучшую эффективность среди рассматриваемых робастных оценок.

Проведённые измерения времени вычисления оценок показывают преимущество линейных алгоритмов, в том числе и FQ, над более медленным алгоритмом вычисления оценки , основанной на попарных разностях наблюдений. При размере выборки = 1000 время работы алгоритма превышает время вычисления оценки FQ более чем в 9 раз.

На нормальном распределении с 10%-ным загрязнением в модели больших ошибок Тьюки (1.17) предлагаемая оценка FQ занимает второе место по смещению после наиболее B-робастной -оценки MAD, и имеет лучший результат по дисперсии как для малых, так и для больших выборок. При увеличении доли загрязнения оценка лишь незначительно обходит её по дисперсии. При подмене нормального распределения на распределение Коши, имеющее тяжёлые хвосты, оценка FQ также занимает второе место по смещению после MAD, немного уступая по дисперсии.[]

Комедианный коэффициент корреляции

Классический выборочный коэффициент корреляции Пирсона (2.3) получился из определения коэффициента корреляции для генеральной совокупности (2.1) путём замены математических ожиданий на средние арифметические. Робастной альтернативой среднему является медиана, подстановка которой в (2.1) с учётом (med)1/ = med даёт комедианный коэффициент корреляции [53, 54]

Числитель выражения (2.12) содержит комедиану COM(X,Y), робастный аналог ковариации. При совпадении X и Y комедиана сводится к медиане абсолютных отклонений СОМ(Х,Х) = (MAD(X))2, так же, как ковариа-ция сводится к стандартному отклонению cov(X,X) = (SD(X))2. Если же X и Y являются независимыми случайными величинами, COM(X,Y) = 0. В случае нормального распределения можно для медианы получить неравенство, аналогичное неравенству Коши-Буняковского что гарантирует \5\ 1 и позволяет использовать оценку комедианного коэффициента 5 в качестве оценки коэффициента корреляции р (которая уже не обязательно ограничена отрезком [—1;+1]). Как и в случае других ро-бастных аналогов коэффициента корреляции, коэффициенты не совпадают полностью, поэтому для обеспечения состоятельности необходимо дополнительное преобразование где д(р) = COM(X,Y) — функция, определяющая зависимость комедианы для совместно распределённых нормальных случайных величин (X, Y) от коэффициента корреляции р. В [53] приводится неявное задание функции как решение уравнения с учётом g{\) = Ф_1(3/4) . В [45] упоминается более удобное для численного решения выражение 5 = 6(р), где функция задаётся как решение уравнения где а = Ф_1(3/4). В явном виде выражение для 5 в литературе не встречается, но можно получить численное решение. Неявный вид задания функции коррекции оценки затрудняет аналитическое исследование функции влияния и асимптотической дисперсии. Несмотря на это, в [45] приводится выражение для функции влияния: где () — плотность распределения величины = . Асимптотическую дисперсию можно получить по функции влияния, но явного выражения для неё тоже в литературе не встречается.

В настоящей работе для проведения экспериментов с последующим сравнением различных оценок функция () была табулирована (см. таблицу 2.1). Строки таблицы соответствуют изменению первых двух значащих цифр , столбцы дают уточняющую добавку (следующие две значащие цифры аргумента). Также в практической работе при невозможности обращения к таблице предлагаем использовать основанное на ней хорошее приближение или с ошибкой приближения не превышающей 0.001, и достигающей своего максимума только при малых \\ 0.1 (в районе несущественной корреляции).

Робастные оценки спектральной плотности процесса авторегрессии

Широко используемая форма параметрического оценивания спектральной плотности основывается на авторегрессионной модели порядка р для спектральной плотности S(f). Стационарный AR(р)-процесс X(t) с нулевым средним описывается следующим равенством где s{t) — независимые, нормально распределённые случайные величины с нулевым математическим ожиданием и одинаковой дисперсией of (гаус-совский белый шум). Оценка спектральной плотности в этой модели имеет вид

Используя в качестве jj робастные оценки автоковариации (3.1), решая (3.4) и (3.5), и подставляя найденные j, f в (3.3), получим робастную оценку спектральной плотности, основанную на робастных оценках масштаба и корреляции [24].

При построении системы уравнений (3.4) следует учитывать, что матрица системы не просто имеет специальный вид (является диагонально-постоянной матрицей Тёплица), но и должна быть положительно определена, что не гарантируется в случае произвольных робастных методов оценивания %. В таком случае следует воспользоваться алгоритмами приведения матрицы к положительно определённому виду (см. п. 2.6), сохраняющими диагональную постоянность [120].

Одной из задач дескриптивной статистики является предварительная обработка полученных экспериментальных данных и наглядное их представление в виде таблиц, графиков, схем [19]. Важным графическим средством в разведочном анализе является одномерный боксплот Тьюки [88] («коробка с усами»), который определяется пятью параметрами: двумя экстремальными значениями (L, Ц), верхним и нижним квартилями (LQ, UQ) и медианой. Экстремальные значения боксплота определяются через межквартильный размах IQR как где пороговый коэффициент 3/2 выбран из соображений заданной вероятности ложной тревоги на нормальном распределении. Разные наборы дан ных легко сравниваются путём сравнения соответствующих им боксплотов, потенциальные выбросы визуально выделяются из основной массы выборки (см. рисунок 3.4).

Поскольку межквартильный размах менее устойчив к выбросам чем медиана абсолютных отклонений MAD, более робастное правило построения экстремумов боксплота может быть задано путём замены IQRn на MADn, или даже FQn (как более эффективную, чем MAD, оценку), с соответствующей коррекцией порогового коэффициента.

Для практики также представляют интерес двумерные обобщения боксплотов, отражающие не только параметры положения и масштаба рассматриваемых данных, но и их корреляцию. В литературе предложено немало вариантов, имеющих свои плюсы и минусы [36, 64, 106, 128]. Если предположить приблизительную нормальность данных и воспользоваться эллиптической структурой распределения, можно предложить следующий вариант двумерного боксплота [2], внутренняя область которого аналогично одномерному варианту покрывает 50% данных, а внешняя определяет доверительный интервал с некоторым выбранным пороговым значением (см. рисунок 3.5).

Пусть (/2Ж,/2У) — двумерная оценка положения распределения (например, медиана координат), ах = -S (x) иdy = S(y) — оценки масштаба распределения, а р даётся робастной оценкой коэффициента корреляции, основанной на параметре масштаба (2.19) (с. 94), р(х, у) = (S u) — 5 2(v))/(5 2(u) — S2{\)), где u,v = (х — J2X)/CTX ± (у — j2y)/cTy.

В третьей главе рассмотрены возможные приложения полученных ро-бастных высокоэффективных оценок параметра масштаба и коэффициента корреляции распределений в теории временных рядов и дескриптивной статистике.

Предложены робастные методы оценивания автоковариационной функции и спектральной плотности мощности стационарных временных рядов, коэффициентов процесса авторегрессии. Предварительные результаты робастного оценивания спектра по методу Юла-Уолкера, основанному на робастной оценке масштаба FQ, показывают устойчивость предложенных оценок к редкой импульсной помехе высокой амплитуды [109], но для окончательных выводов требуется серьезный сравнительный анализ существующих робастных методов оценивания спектров [119].

Имитационное моделирование Монте-Карло показывает, что применение новых оценок в разведочном анализе при построении робастных одномерных и двумерных боксплотов приводит к статистически более эффективным результатам [2]. Отбраковка данных по критерию, основанному на предложенной оценке масштаба FQ, превосходит результаты, полученные по боксплоту Тьюки, и значительно превосходит классический тест Граббса при различных видах и долях засорения [34, 98].

Результаты третьей главы анонсированны на конференциях [3, 34, 55, 98, 109] и опубликованы в журнале [2], входящем в список ведущих рецензируемых журналов, рекомендованных ВАК.

Похожие диссертации на Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба