Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Асимптотическая теория устойчивого оценивания Шурыгин Александр Михайлович

Асимптотическая теория устойчивого оценивания
<
Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания Асимптотическая теория устойчивого оценивания
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Шурыгин Александр Михайлович. Асимптотическая теория устойчивого оценивания : диссертация ... доктора технических наук : 05.13.17.- Москва, 2002.- 224 с.: ил. РГБ ОД, 71 03-5/101-0

Содержание к диссертации

Введение

I. Точечное оценивание параметров расспределения

1.1. Оценки минимального контраста 14

1.2. Оценка центра нормального распределения: задачи Колмогорова, Тьюки и теория робастности 16

1.3. Квадратичная ошибка оценки минимума контраста 27

1.4. Методы функциональной оптимизации оценивания 33

1.5. Загрязнение и аппроксимация 38

1.6. Максиминная оптимизация: медианные и стойкие оценки 43

1.7. Примеры максиминной оптимизации оценивания 50

1.8. Локальная устойчивость: компромиссные и радикальные оценки 64

1.9. Примеры вариационной оптимизации оценивания 73

1.10. Устойчивость оценки центра к большим изменениям модели 80

1.11. Мультипликативные помехи 84

1.12. Сравнение методов 87

1.13. Радикальность оценок 88

1.14. Выводы 91

II. Оценивание параметров многомерного нормального распределения 94

II.1. Минимально контрастные оценки параметров 96

II.2. Оценки Мешалкина 101

II.3. Статистический кластер-критерий 106

II.4. Максиминная оптимизация: медианные и стойкие оценки 112

II.5. Вариационная оптимизация: компромиссные и радикальные оценки 119

II.6. Регуляризация оценки матрицы ковариаций 130

II.7. Шаровое распределение и его проекции 134

II.8. Выводы 143

III. Регрессия 146

III.1. Минимально контрастная, классическая и робастная регрессия 146

III.2. Погрешность регрессии минимума контраста 151

III.3. Максиминная оптимизация: медианная и стойкая регрессия 154

III.4. Линейная множественная регрессия 159

III.5. Сравнение регрессий 164

III.6. Экстраполяция локально-линейного тренда 168

III. 7. Вариационная оптимизация: компромиссная и радикальная регрессия 172

III.8. Выбор модели 174

III.9. Простейшие регрессии 175

III.10. Редуцированная регрессия 182

III.11. Выводы 183

IV. Линейная классификация (распознавание образов) 184

IV. 1. Решения многомерной статистики 185

IV.2. Приложения многомерной статистики 187

IV.3. Редуцированное решение 193

IV.4. Сравнение методов 195

IV.5. Вариационная устойчивость методов 199

IV.6. Редуцированное решение для экспоненциально взвешенных оценок 200

IV.7. Выводы 207

Заключение 208

Список литературы 215

Квадратичная ошибка оценки минимума контраста

Числа в таблице показывают, что преимущество ОМП о перед другими оценками сохраняется лишь до значения а = 0,2, после которого дисперсии других оценок уменьшаются с увеличением "уровня шумов" ск, и при а = 1 преимущество предлагаемых оценок перед ОМП средним арифметическим почти трёхкратное. И лидирует выборочная медиана. Обратим внимание при а = 0 на близость квадратичных ошибок Vo(/i) для экспоненциально взвешенных оценок /х и [лг, полученных здесь в моделировании при п = 20, и получаемых позже, в разделе И.2, значений У(/,ф) при асимптотических вычислениях. Они различаются лишь третьей значащей цифрой:

Сравним методические позиции теории робастности и предлагаемых подходов. Общим для них является представление о том, что малые различия "истинной" п.р. / и её упрощенной моделью д, используемой для решения некоторой статистической задачи, могут губительно сказаться, если используются ОМП модели. Отсюда общее желание построить оценки, лишённые этого риска.

Для достижения цели в исследованиях робастности около модельной п.р. строится е-окрестность Н и рассматриваются содержащиеся в ней п.р. /ІЄІГ. В первых работах (Тьюки, Хьюбер) величина с предполагалась постоянной при росте п, но с работ Жакеля принимается асимптотика е п-1/2- 0. Выбирается наилучшая оценка для наихудшей для оценивания п.р. h и она называется робастной. В результате получена робастная оценка Хьюбера для центра нормального распределения. Параметры, отличные от параметра локализации, не рассматривались из-за отсутствия необходимых методов вариационного исчисления. Но робастная оценка Хьюбера оказалась неустойчивой при малом несимметричном искажении нормальной плотности. В Принстонском эксперименте эмпирически подбирались оценки, которые были бы устойчивы к несимметричному точечному загрязнению, и подобранных оценок было много. Их неудобством была существенная зависимость от неоцениваемой величины є.

Автор для решения задачи предлагает два подхода. В первом "загрязняющий импульс" случайно с п.р. s распределён в серии выборок. Проводится максиминная оптимизация: выбирается п.р. s , наихудшая для наилучшего оценивания параметра. Асимптотика є—Ю, п_1=о(є2) избавляет оценки от зависимости от неоцениваемого параметра, а решение необходимой вариационной задачи (лемма 4.1) даёт возможность оптимизировать оценку произвольного параметра. Но оптимальных оценок оказывается две: непараметрическая оптимизация дает оценки, названные медианными, а стойкими названы оценки параметрической оптимизации. Этот подход строит вероятностную модель Принстонского эксперимента и находит на ней максиминные решения.

Во втором подходе вводится понятие устойчивости, и оптимизация по двум признакам — эффективности и устойчивости — даёт оценки (условно оптимальные и радикальные), сочетающие высокие значения обоих признаков; в большинстве случаев эти оценки близки к стойким. Вариационная оптимизация технически проще, чем максиминная, она может быть удобным методом создания устойчивых решений, которые есть во всех остальных отраслях прикладной математики.

Разнообразие оценок в и их характеристик на плоскости (eff 0, stb#) приводит к задаче не простого выбора. Действительно, популярные оценки максимума правдоподобия и медиана дискредитируются неустойчивостью, а эти оценки давно используются и полезны. Несоответствие прикладной ситуации и рассмотренной вариационной модели в том, что при нахождении неустойчивости мера интегрирования равномерна на X, а в приложениях ей естественнее убывать вместе с п.р..

Максиминная оптимизация: медианные и стойкие оценки

В 60-х годах в связи с развитием вычислительной техники появились программы, которые по множеству признаков решали задачу классификации. В простейшем случае по образцам объектов из двух классов вырабатывалось правило, дававшее возможность определить принадлежность нового объекта к одному из этих классов. В идеологии решения этой задачи сразу наметились два направления. Первое, статистическое, исходило из предположения о многомерной нормальности распределения каждого из классов; эффективность получаемого правила классификации проверялась моделированием многомерных нормальных совокупностей. Во втором направлении информация кодировалась так, что можно было использовать алгоритмы распознавания зрительных образов; объекты с известной принадлежностью делились на "обучение" и "экзамен": по "обучению" вырабатывалось правило классификации, на "экзамене" проверялась его эффективность (Журавлев, 1998, с.201-209). Два направления в решении одной задачи конкурировали, по крайней мере хорошие "распознавальщики" сравнивали свое решение со статистической дискриминтной функцией и на "экзамене" показывали, что их решение лучше статистического, специально полученного для этой задачи. Бонгард (1967), создатель популярного алгоритма "Кора", выступая на конференции в Московском институте нефтегазовой промышленности, говорил примерно следующее: "Я делал алгоритм, который должен был различать зрительные образы. Алгоритм оказался неудачным: он не может отличить треугольник от квадрата. Я не знаю, почему мой алгоритм различает нефтеносные и водоносные пласты по набору геофизических признаков". Чтобы найти ответ, автор настоящей работы просмотрел первичные геофизические материалы. Оказалось, что существуют два признака, по которым нефтеносные и водоносные пласты почти полностью разделяются. Но оставалось непонятным, почему в такой простой ситуации плохо работала многомерная статистика: одномерные распределения не имели грубых отклонений от нормальности.

В учебниках по многомерной статистике приводятся примеры решения реальных задач, но небольшой размерности. Так, Андерсон (1958) приводит четырёхмерные задачи: антропометрическую по данным Фишера (1936) и биометрическую по данным Рао (1947). А.Н.Колмогоров, предложивший асимптотику, в которой количество признаков растет пропорционально длине выборки (Деев, 1970), советовал ученикам делать трёхмерные модели выборки, втыкая в ящик с песком спицы с шариками на концах, а на шариках помечать номера наблюдений и визуально анализировать трехмерные совокупности.

Если специалисты конкретных наук стараются увеличить количество признаков, характеризующих объекты, то статистики разработали серию приёмов, уменьшающих размерность задачи (Айвазян и др., 1983). Создается впечатление, что многомерная статистика почему-то не может решать задачи большой размерности. Ограниченность возможностей многомерной статистики может быть понятой при исследовании устойчивости оценок. Рассмотрим эту задачу подробнее. где верхний символ Т использован для обозначения транспонирования. Оценками максимума правдоподобия (ОМП) для вектора математических ожиданий m и матрицы ковариаций С являются mo=n-1Sxj и Со=п 1И (х{ — то)(х — Шо)т . Среди возможных оценок они обладают наименьшей асимптотической дисперсией, но оказываются чрезвычайно неустойчивыми даже при малом нарушении нормальности распределения (Хыобер, 1981).

Устойчивость оценок можно повысить за счет снижения их эффективности. Так, Мешалкин в (1971), (1977) показал состоятельность оценок Шд и С л из решаемой итерациями системы уравнений (х;-тЛ)е-Л /2 = 0, где qi = (к» — тд)т C 1 (x —піл), а А 0 — произвольная константа. В (1979) и (1980) выписаны асимптотические вторые моменты этих оценок. Маронна (1976) предложил оценки из системы уравнений Оба автора отмечали снижение эффективности оценок при росте размерности р и сильную их зависимость от произвольных параметров

При исследованиях робастности оценки центра одномерного нормального распределения предложены различные весовые функции, которые занижают веса периферийных наблюдений, эти функции описаны в разделе 1.2. Весовые функции симметричны, это обеспечивает состоятельность оценки центра m, но занижает оценки дисперсий. Выписывание поправочного коэффициента типа (l-f-А)-1 в (1.1) и x—xiPify в (1.2), обеспечивающих состоятельность оценки С, в общем случае сложно из-за необходимости интегрировать в Rp , поэтому многомерное обобщение (1.2) получила лишь неустойчивая робастная оценка Хьюбера (1.2.6), а устойчивые оценки Принстонского эксперимента так и остались одномерными. Но многомерный интеграл можно свести к отношению двух одномерных, это даёт возможность получить многомерное обобщение для любой одномерной весовой функции.

Максиминная оптимизация: медианная и стойкая регрессия

Прокомментируем результаты, выписанные в теореме. ОМП о и экстремальная оценка Д имеют разный порядок убывания по п. Просчитывая дисперсии при разных пир, можно убедиться, что для "реальных" их сочетаний экстремальная оценка имеет обычно меньшую дисперсию, чем ОМП. Преимуществом экстремальной оценки является её устойчивость к изменениям п.р. в интервале (—гр,гр). Но загрязнение вне этого интервала может испортить оценку. "Грубое загрязнение" можно выбирать вручную или использовать формальную процедуру, предложенную в разделе 3.

Масштабный параметр ш можно оценивать одновременно с центром р, сравнивая на дисплее линейно деформированную эмпирическую функцию распределения с функциями распределения стандартных проекционных распределений для различных размерностей р.

Перейдем к совместному распределению нескольких переменных. Пусть они уже центрированы и нормированы, так что их можно считать стандартными. Тогда наблюдения по разным переменным можно рассматривать как проекции одной выборки из шарового распределения на прямые, разноориентированные в признаковом пространстве К.р , и задача сводится к оценке косинусов углов между этими прямыми, т.е. парных корреляций р переменных. По аналогии с теоремой 6.2, экстремальные оценки следует предпочесть оценкам минимума контраста. При коррелированности двух признаков на плоскости, соответствующей этим признакам, наблюдения образуют облако точек. Обозначим через d\ размах проекции этого облака на биссектрису координатного угла, а через ofe размах проекции на нормаль к биссектрисе, и пусть l = d%/d%. Собственные значения Лі и Лг матрицы корреляций удовлетворяют уравнению откуда 1—Л = ±р, так что Лі=Ц-р, Л2=1 р , их отношение l—\i/\2 и \p\=(l — l)/(/-h 1) . Заменив I на оценку Z, мы получим экстремальную оценку для \р\. Оценив все парные корреляции, получим оценку матрицы корреляций R, с которой можем делать процедуры, рекомендуемые классической многомерной статистикой, полученные при рас- смотрении первых двух моментов распределения и не использующих нормальности на периферии распределения. Если в шаровое распределение поверить так же, как мы верим в многомерную нормальность, то становится предельно простым отбор признаков: для характеристики р— мерного сферического распределения достаточно взять р признаков, а остальные отбросить.

Оценки Мешалкина использованы для создания статистического кластер-критерия проверки гипотезы об "однородности" выборки.

Обобщение на многомерный случай произвольной оценочной функции (например, серии устойчивых оценок Принстонского эксперимента) можно произвести по теореме 1.1, сводящей интегрирование в пространстве признаков Rp к отношению двух однократных интегралов. В отличие от одномерного случая, два разных способа оптимизации устойчивости оценивания — максиминный и вариационный — дают разные результаты. Если к ним прибавить факт экспоненциального роста неустойчивости дисперсии, то получатся три следующие принципиально разные позиции в оценивании параметров многомерного нормального распределения. (1) Максиминные оценки из теоремы 4.2 при росте размерности р сходятся к оценкам максимума правдоподобия, поэтому с ростом размерности неустойчивость ОМП должна уменьшаться. (2) Компромиссные и радикальные оценки, имеющие близкие значения эффективности и устойчивости, при росте размерности р постепенно теряют и эффективность, и устойчивость (см. рис.5); эти наилучшие в указанном смысле оценки пригодны для маломерного нормального распределения, но не годятся для существенно многомерного распределения, которое не может быть устойчиво оценено. (3) Неустойчивость W (5.1) самой устойчивой оценки центра стандартного распределения при добавлении каждого нового признака увеличивается в 2 /5? « 3,56 раза, потому что с ростом размерности нормальная п.р. становится меньше из-за множителя (27г)" р 2 , что эквивалентно уменьшению длины выборки в 3,56 раз, так что вряд ли стоит рассматривать задачи, более чем двумерные. Разнообразие рекомендаций возникло из разнообразия постановок решённых задач, и не ясно, какая из этих постановок наиболее "практична". Но вариант (2) кажется более соответствующим практике многомерной статистики, и переход от оценок максимума правдоподобия к компромиссным и радикальным оценкам представляется перспективным. Выработанная на практике тенденция уменьшать размерность задачи полезна. В следующих двух главах будет показано, как линейные многомерные задачи сводить к двумерным. Эквивариантные оценки матрицы ковариации быстро вырождаются при росте размерности. Поэтому в задачах, связанных с обращением матрицы ковариации, лучше использовать не эквивариантную, а обусловленную диагональную оценку, в которой уменьшены величины корреляций.

Редуцированное решение для экспоненциально взвешенных оценок

При конечных п оптимальность ЛДФ Фишера не очевидна. "Интуитивно... кажется разумным, что (она) даёт хороший результат" (Андерсон, 1963, с.191). Основанием для такого оптимизма могут быть хорошие асимптотические свойства используемых оценок параметров распределения: они несмещенные и, имея дисперсию порядка 1/п, должны быстро сходиться к оцениваемым параметрам.

Однако скоро выяснилось, что это не совсем так: если в формулу (1.3) для ошибки классификации подставить вместо параметров их оценки, то полученная величина окажется заметно меньше, чем реальная ошибка классификации. В статьях Кардилло и Фу (1960) и Джона (1961) предлагается вводить поправочные множители. Окатамо (1963) выписал громоздкое разложение ожидаемой ошибки по степеням п-1 до члена п 3 включительно. Хилс (1968) и Лаченбрук (1967) отказались от теоретических формул для ошибки и оценивали её по скользящему "экзамену" на той же выборке; экзаменуемый вектор не участвовал в построении ЛДФ. Лаченбрук и Миккей (1968) сравнили различные формулы, предложенные для оценки ошибки: оказалось, что все они все-таки занижают реальную ошибку. Расчеты смещения оценки были дополнены Данном и Вэреди (1966) материалами статистического моделирования, которые дали возможность (1970) аппроксимировать математическое ожидание и доверительный интервал для ошибки классификации в зависимости от длины выборки и выборочного расстояния Махаланобиса.

Одновременно изыскивались способы сокращения размерности задачи. Так, Рао (1950) предложить исключать признаки, вклад которых в ЛДФ не значим. В более поздних работах (Поплавский и Гольдин, 1967, Гаранин, 1968, и др.) параметры ранжировались по информа тивности. В (1972) было предложено исключать последние в этом ряду признаки, чтобы минимизировать ожидаемую ошибку классификации. Если стремление исследователей лучше знать ошибку классификации вполне естественно, то желание избавиться от предлагаемых признаков менее понятно. Так, Кендалл и Стюарт (1976, с.458), исключая параметр, вносящий "малый вклад" в ЛДФ, подчеркивают, что такая процедура уменьшает (хоть мало, но ведь уменьшает!) "мощность дискриминатора". Полезность отказа от асимптотически наилучшего решения в пользу решения с худшими асимптотическими свойствами вряд ли объясняется психологической сложностью интерпретации результатов, представляющих собой "обескураживающее обилие параметров, появляющееся в многомерном случае" (Кендалл и Стюарт, 1976, с.315). Более важны указания на случаи, когда решение в подпространстве "информативных" признаков оказывалось хорошим, а в пространстве всех признаков — плохим (Поплавский и Гольдин, 1967, Гаранин, 1968, Шурыгин, 1972). Характерно, что получены они на геологиче ских приложениях, где увеличение длины выборки (например, бурение дополнительных скважин) связано с большими затратами, чем увели чение числа признаков (например, производство дополнительных ана лизов), поэтому количество признаков р оказывается соизмеримым с количеством наблюдений n=ni+ri2 , пі П2 . При больших рип вклад каждого признака в "мощность дискриминатора" является величиной порядка р 1, а потери за счет оценки дополнительных параметров распределения — величиной порядка п-1, и задача отбора полезных параметров возникает, когда эти величины одного порядка. Быть может такие соображения привели А.Н. Колмогорова к асимптотике предложенной А.Д. Дееву для анализа погрешности ЛДФ Фишера. Решение (Деев, 1970) оказалось очень простым: с точностью до величин более высокого порядка, вместо (1.3) ожидаемая погрешность составляет Степанову (1991) при помощи более гибкой процедуры отбора главных компонент удалось в два раза уменьшить ошибку классификации по сравнению с ЛДФ Фишера. Второе направление отхода прикладников от ЛДФ Фишера — это регуляризация оценки матрицы ковариаций С, она необходима, так как максимально правдоподобная оценка Со вырождается при росте размерности (см. раздел И.6). Ди Пилло (1979) показал, что ридж-оценка Crd=Co + /ЗІ, где I — единичная матрица, при небольших (3 заметно улучшает результат. Барсов (1985) и Сердобольский (1980) конкретизировали значение (3 при помощи спектрального разложения матрицы Со в асимптотике (2.1). Более простой способ предложен в статье (19854), там же обращается внимание на неудобную зависимость ридж-оценок от выбранных единиц измерения переменных (компонент вектора х) и предлагается диагональная оценка Cdg= =(l— )Cg+j(Co)dg , лишенная этого недостатка; здесь (СЬ) & —диагональ матрицы Со На рис.9 сравниваются ошибки классификации а, полученные при использовании трех оценок (Со , Crd и Cdg ) статистическим моделированием выборок в окрестности реальной 12-мерной геохимической задачи. При Пі=ті2=15, 10 видно явное преимущество оценок Crd и Cdg перед классической оценкой Со, а при п1=П2=5, когда оценка Со вырождается, так что С = 0 и классификация невозможна, видно явное преимущество оценки Cdg перед Crd Подробнее оценка Cdg описана в разделе П.6.

Похожие диссертации на Асимптотическая теория устойчивого оценивания