Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Многомерный непараметрический линейный регрессионный анализ Бусарова Дарья Алексеевна

Многомерный непараметрический линейный регрессионный анализ
<
Многомерный непараметрический линейный регрессионный анализ Многомерный непараметрический линейный регрессионный анализ Многомерный непараметрический линейный регрессионный анализ Многомерный непараметрический линейный регрессионный анализ Многомерный непараметрический линейный регрессионный анализ Многомерный непараметрический линейный регрессионный анализ Многомерный непараметрический линейный регрессионный анализ Многомерный непараметрический линейный регрессионный анализ Многомерный непараметрический линейный регрессионный анализ
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бусарова Дарья Алексеевна. Многомерный непараметрический линейный регрессионный анализ : Дис. ... канд. физ.-мат. наук : 01.01.05 Москва, 2006 119 с. РГБ ОД, 61:06-1/1262

Содержание к диссертации

Введение

1 Робастное непараметрическое оценивание для задачи много мерной линейной регрессии 26

1.1 Оценки, основанные на выборочной медиане Оя 26

1.1.1 Определения 26

1.1.2 Асимптотические распределения оценок Вп и Вп 29

1.1.3 Робастность и аффинная эквивариантность оценок Впя Вп 32

1.1.4 Доказательство состоятельности оценок Вп и Вп 35

1.1.5 Доказательство асимптотической нормальности оценок ВпяЁп 44

1.1.6 Доказательство робастности оценок Вп и Вп 5U

1.1.7 Доказательство аффинной эквивариантности оценок Вп и Вп 55

1.2 Оценки, основанные на "взвешенной" выборочной медиане Оя 57

1.2.1 Определения 57

1.2.2 Асимптотические распределения оценок В'п и В'п 59

1.2.3 Робастность и аффинная эквивариантность оценок В'пя В'п 61

1.2.4 Доказательство состоятельности оценок В'п и В'п 62

1.2.5 Доказательство асимптотической нормальности оценок К* К 69

1.2.6 Доказательство робастности оценок В'п и В'п 76

1.2.7 Доказательство аффинной эквивариантности

оценок В'ПЕ В'п 81

1.3 Асимптотическая эффективность и методы вычисления представленных оценок 83

1.3.1 Определения асимптотической эффективности 83

1.3.2 Пример подсчета асимптотической эффективности . 85

1.3.3 Методы вычисления оценок 88

2 Проверка гипотез о матрице коэффициентов для задачи многомерной линейной регрессии 90

2.1 Основные определения и распределения статистик при нулевой гипотезе 90

2.1.1 Постановка задачи 90

2.1.2 Определения статистик ТпиТ!пя их распределения при нулевой гипотезе 91

2.1.3 Определения статистик фп и ф'п , их распределения при нулевой гипотезе и аффинная инвариантность 92

2.1.4 Доказательства теорем разделов 2.1.2 и 2.1.3 95

2.2 Предельные распределения статистик критериев при альтерна тивах 102

2.2.1 Основные результаты 102

2.2.2 Эффективность по Питману 103

2.2.3 Пример подсчета эффективности по Питману 106

2.2.4 Доказательства теорем 108

Список литературы

Введение к работе

Общая характеристика работы

Актуальность темы. Непараметрические методы статистики - методы математической статистики, не предполагающие знания функционального вида генеральных распределений. Одна из задач многомерного непараметрического анализа - задача многомерной линейной регрессии:

Уі = вЇхі + еи г = 1,2,...,71,

где Уі = {уп, Уі2, , Уіч)Т яхі = (xih хі2і..., хір)т, і = 1,2,..., п - значения отклика и фактора, случайные ошибки Єї, є2, , єп~ независимые одинаково распределенные (q X 1)-векторы, є і = —Єї; задача - оценить неизвестную X (^-матрицу регрессионных коэффициентов Bq.

Наиболее известным методом решения этой задачи является метод наименьших квадратов (МНК). МНК-оценка аффинно-эквивариантна (т.е. изменяется соответствующим образом при аффинных преобразованиях данных) и, в случае когда случайные ошибки имеют гауссовское распределение, оптимальна. Однако хорошо известно, что эта оценка крайне чувствительна к выбросам - единственное постороннее наблюдение может произвести на нее неограниченное влияние.

Разработка робастных методов оценивания для многомерных и многофакторных линейных моделей привлекает внимание многих авторов. Пу-ри и Сен ([25]) предложили покоординатные ранговые оценки. Рао ([27]) предложил использовать одномерный метод наименьших модулей отдельно для каждой координаты отклика. Конкер и Портной ([18]) обобщили метод Рао и предложили робастные М-оценки, заменив модуль на произвольную функцию. Оценка, предложенная Баи и др. ([7]) минимизирует среднее евклидовых норм остатков. Все эти методы, однако, не являются аффинно-эквивариантными. Руссиу и др. ([30]) в случае случайного фактора предложили робастную аффинно-эквивариантную оценку матрицы регрессионных

коэффициентов, основанную на робастной оценке ковариационной матрицы вектора z\ — {xi,yf)T (но не исследовали ее асимптотические свойства). Оллила и др. ([22]) предложили аналогичный подход, использовав вместо оценки ковариационной матрицы Руссиу выборочную знаковую ковариационную матрицу вектора z\. Их оценка аффинно-эквивариаитна, однако не робастна, хотя и более устойчива к выбросам, чем МНК-оценка.

Цель работы. Построение робастных аффинио-эквивариантных непараметрических оценок и проверка гипотез для задачи многомерной линейной регрессии. Исследование асимптотических свойств предложенных оценок и статистических критериев.

Методы исследования. Методика исследования основана на общих методах теории вероятностей, математического анализа и математической статистики. Широко используется теория U-статистик.

Научная новизна результатов. Предложены четыре робастные афинно-эквивариантные оценки матрицы регрессионных коэффициентов для задачи многомерной линейной регрессии, исследованы их асимптотические свойства. Построены два новых аффинно-инвариантных критерия для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии. Изучены асимптотические свойства статистик критериев как при нулевой гипотезе, так и при последовательности близких альтернатив.

Основные результаты, выносимые на защиту.

Предложены четыре новые робастные аффинно-эквивариантные оценки Вп, Вп, В'ю В'п матрицы регрессионных коэффициентов для задачи многомерной линейной регрессии. Для этих оценок получены условия состоятельности и асимптотической нормальности, найдены функции влияния.

Для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии предложены две новые тестовые статистики Тп и Т'п. изучены их распределения как при нулевой гипотезе, так и при последовательности близких альтернатив. Построены состоятельные оценки ковариационных матриц этих тестовых статистик при нулевой гипотезе.

Для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии рассмотрены две новые аффинно-инвариантные асимптотически свободные от исходных распределений тестовые статистики фп и ф'п) найдены их распределения при нулевой гипотезе и асимптотическая эффективность по Питману соответствующих критериев.

Практическая ценность. Работа носит теоретический характер. Предложенные в работе критерии и оценки могут быть использованы для статистической обработки регрессионного эксперимента. Рекомендуется их использование в задачах, где важно свойство аффинной инвариантности и распределение случайных ошибок может иметь "тяжелые хвосты"по сравнению с нормальным распределением. Оценки Вп> Вп и тестовые статистики Тп, фп рекомендуется использовать в условиях активного эксперимента (когда экспериментатор сам выбирает план эксперимента); оценки В'п, В'п и тестовые статистики Т'п, ф'п могут быть использованы также и в пассивном эксперименте.

Апробация результатов диссертации. Результаты диссертации докладывались на Большом семинаре кафедры теории вероятностей МГУ под руководством член-корр. РАН, проф. А.Н. Ширяева в 2006 г.; на международной конференции "International Conference on Robust Statistics (ICORS) - 2005", Ювяскюля, Финляндия в 2005 г.;

на семинаре кафедры теории вероятностей МГУ "Непараметрическая статистика и временные ряды "под руководством проф. Ю.Н. Тюрина, проф. В.Н.

Тутубалина, доц. М.В. Болдина в 2005 г.;

на семинаре "Многомерный статистический анализ и вероятностное моделирование реальных процессов"под руководством проф. С.А. Айвазяна в ЦЭМИ РАН в 2006 г.;

на семинаре под руководством профессора X. Оя в университете Тампере, Финляндия в 2004 г.

Публикации. Результаты диссертации опубликованы в 4 работах, список которых приведен в конце диссертационной работы.

Структура и объем работы. Диссертационная работа состоит из введения и двух глав, В первой главе исследуется задача робастного аффинно-эквивариантного оценивания в модели многомерной линейной регрессии. Вторая глава посвящена проверке простой гипотезы о матрице регрессионных коэффициентов в модели многомерной линейной регрессии. Текст диссертации изложен на 119 страницах. Список литературы содержит 35 наименований.

Содержание работы

В первой главе исследуется задача робастного непараметрического оценивания для модели многомерной линейной регрессии. Общим для предложенных методов решения этой задачи является то, что все они основаны на понятии выборочной медианы Оя ([23]), аффинно-эквивариантны и, при некоторых условиях на распределения данных, обладают свойством асимптотической нормальности.

Сформулируем основные определения. Пусть і,...,є& - одинаково распределенные ^-мерные случайные векторы с функцией распределения F(x) и пусть в Є IRk. Обозначим V(0,i,... , &) - объем ^-мерного симплекса, вершинами которого являются точки с координатами 0, Єї,..., є^. Предположим, что для всех 0 є Мк определено математическое ожидание ЕУ(0, 1,...,6) и обозначим

Щ6) = ЕУ{в,еь...7ек).

Тогда медиана Оя распределения F(x) - множество точек во, на котором функция (/(в) достигает свое наименьшее значение. Другими словами, для всех 90 Є &о и в Є Мк

и(в0) < ще).

В одномерном случае U{6) = Е|єі — в\ и медиана Оя совпадает с обычной медианой распределения F(x).

Пусть теперь Єї,..., єп - произвольная выборка из распределения F(x). Выборочной медианой Оя вп называется медиана Оя эмпирического распределения Fn(x) выборки Єї,.,,, п. Другими словами,

0п = argmin Un(B),

^(6) = (0^1 Y, У(віЄіі1...іЄік).

Четыре оценки, представленные в главе 1, являются многомерными обобщениями медианной оценки Тэйла ([34]) параметра наклона для модели простой линейной регрессии. Пусть

^ = ^01 + ^02^ + ) г =1,...,71.

Чтобы оценить параметр наклона Ьо2> для двух рядов чисел

У\ - fox1} т - / , Уп~ /

составим коэффициент ранговой корреляции (Спирмена или Кендала) и приравняем его к нулю. Решение полученного уравнения на / есть медианная оценка Тэйла

Дат. = med I ч ч , 1 < «і < н < п, хк ф хЛ .

г2 xii

Заметим, что при х^ ф щ% величина z,12 _ %) есть вторая координата вектора

( л \~г / \ і хпУч ~хьУі2 \

Х{2г

Ь{іьі2) =

\Уп)

1 X

\

Уч - Уч

Х%^ ' ' Х{^

Обобщая подход Тэйла, для одновременного оценивания параметров Ьоъ ш можно рассмотреть медиану Оя векторов Ь(іі,І2):

^n = medoja{b(*i,i2), ^<4хк ф хІ2} = = arg mm Dn (/3), где

Здесь V(bi, ї>2) Ьз) - площадь треугольника с вершинами в точках Ь\, &2, Ьз, и сумма берется по всем возможным парам векторов {6(іі, гг)> Ь(г'з, ц)}, 1 <

*1 < Ч п> 1 5: Ч < Ч < п-

Перейдем теперь к многомерной многофакторной регрессионной модели. Определим понятия элементарных множеств и элементарных регрессий.

Определение 1. Каоюдое элементарное множество есть подмножество I = {її, ї2, ..., ір} размера р исходных наблюдений.

Далее, пусть Y(I) есть (р X д)-матрица {укк,... ,yip)T и Х(1) -(р х р)-матрица (х^,Х{2,..., ж^)т. Если тапк{Х{1)) = р, то элементарная регрессия определяется как В{1) = Х(/)^1У(/). Заметим, что она являет,-ся оценкой методом наименыиих квадратов для нашей модели многомерной линейной регрессии, построенной только с использованием р наблюдений, входящих в I. Если же rank(X(I)) < р, то элементарная регрессия не определена и мы будем называть ее (равно как и соответствующее элементарное множество) вырожденной.

Следует упомянуть, что понятие элементарных регрессий было введено и применялось ранее (под разными именами) для модели множественной линейной регрессии с одномерным откликом (д — 1). В этом случае каждая

невырожденная элементарная регрессия есть (р х 1)-вектор. Было показано ([32]), что оценка методом наименьших квадратов есть взвешенное среднее элементарных регрессий:

*mhk = <"W*W.

I где веса равны

det(X(IfX(I))

Ш{1) - det(^X) ' и X = (хі,...,хп)т обозначает матрицу факторов. Бассет ([8]) показал, что .Li-оценка, минимизирующая сумму модулей остатков ві(В) = щ — В х^ і — 1,..., п, либо совпадает с одной из элементарных регрессий В{1), либо принадлежит выпуклой оболочке не более чем р + 1 векторов В(1). Хоукинс ([16]) предложил основанный на элементарных регрессиях алгоритм для оценок, минимизирующих критериальную функцию от остатков Єі(В), і — 1,...,п. Его алгоритм состоит в вычислении совокупности {єі(В(і)),і — 1,..., п} для каждого элементарного множества / и выборе в качестве искомой оценки той элементарной регрессии В*(1), для которой совокупность {єі(В*(і)),і = 1,...,п} минимизирует критерий. Методы, основанные на элементарных регрессиях исследуются также в [17], [33], [15], [29].

Итак, для построения многомерных модификаций оценки Тэйла векторизуем сначала каждую невырожденную элементарную регрессию с помощью операции vec. Данная операция преобразует X д)-матрицу в (рд)-вектор, помещая последовательно столбцы матрицы друг на друга:

vec(B) = vec ((Ьі, Ь2,..., 6,)) = (ЬЩ... bTqf.

Из свойств операции vec упомянем следующее:

vec ДОС) = т A) vec (В),

где - кронекеровское произведение матриц.

Определение 2. Векторизованная невырожденная элементарная регрессия Ь(1) есть

Ь{1) = vec(B(I)) = (J9x, X(J)'1) vec(Y(I)),

где Iqxq - единичная (q х q)-матрица.

Обозначим далее /30 = vec(So). Заметим, что совокупность векторизованных невырожденных элементарных регрессий позволяет перейти от задачи регрессии к многомерной задаче положения. В самом деле, вектор /30 может быть интерпретирован как центр распределения векторов Ь(1). Поэтому для аффинно-эквивариантного оценивания вектора /30 (а значит, и матрицы Bq) можно использовать любую аффинно-эквивариантную многомерную оценку положения для векторов Ь{1) в JRpq.

Обобщая подход Тэйла, в разделе 1.1 рассмотрим две оценки Вп ~ vec-1(/3n) и Вп = vec^f/^J (здесь vec-1 обозначает операцию, обратную к операции vec). Вектор п есть выборочная медиана Оя совокупности векторизованных невырожденных элементарных регрессий {6(/)}. Вектор 0п -немного модифицированная выборочная медиана Оя (для ослабления условий при которых выполнены асимптотические свойства) совокупности векторизованных невырожденных элементарных регрессий {6(/)}.

Прежде чем сформулировать определения оценок, введем обозначения. Пусть, как и ранее, /, Д, І2,... обозначают различные подмножества размера р (р-подмножества) множества 1,2,.,., п. Обозначим

z = {{ih...,ipq}},

и пусть

= {{h, ...Jpq}el:\hU ... U Im\ = p2q}

есть множество из наборов pq р-под множеств, таких, что все p2q индексов различны. Очевидно, что

п!

111- И-М,!Г(п_Л)!

Назовем элемент {Ii,...,Ipq} вырожденным, если хотя бы одно из входящих в него элементарных подмножеств вырождено. Пусть функция т(Іі,...,Ірд) является индикатором этого; она равна 0, если элемент

{Ib...,Ipq} вырожден, и 1 иначе. Причем в вырожденном случае для любой функции /(/i,..., Ipq), принимающей значения из JR U {+оо} U {—оо}; будем считать, что

/(/1,...,/^(^...,/^) = 0.

Пусть, далее, У(еі, .., єян-і) обозначает объем fc-мерного симплекса с вершинами ві,..., Sk+i Є IR .

Рассмотрим две целевые функции:

Dn(p) = avez{F(/3,6(/0,..., b(Ipq))r(Iu ...,

і-щ

Un{J3) = aveIpjV(/3,6(/0,..., 6(/и))т(/і,..., У}, где средние берутся по всем элементам {/i,..., Ipq} язі я Ір, соответственно.

Определение 3. Оценка Вп матрицы коэффициентов В$ определяется следующим образом:

Вп = г;ес_1(/Зп), где J3n = arg ш Dn(j3).

Определение 4. Оценку Вп матрицы коэффициентов Во определим следующей формулой:

Вп = vec~l0n), где fin = arg ішп Un{J3).

Оценки Вп и Вп Х-аффинно, У-аффинно и регрессионно эквивариантны в смысле следующего определения.

Определение 5. Пусть B(X,Y) обозначает оценку матрицы регрессионных коэффициентов, вычисленную по матрице факторов X ~ (х-[, ...,хп)Т и матрице откликов Y (уі,--,Уп)Т- Оценка В(X,Y) Х-аффинно эквива-риантна, если

B{XA,Y) = A-1B(X1Y),

Y-аффинно эквивариантна, если

B(X,YC) = B{X,Y)C

и регрессионно эквивариантна. если

B(X,Y + XD)^B{X,Y) + D

Зля любых невырожденных (рхр)-матрицы Л, (q X q)-матрицы С и (pxq)-матрицы D, соответственно.

При выполнении некоторых условий на распределения данных исследуемые оценки состоятельны, асимптотически нормальны и имеют ограниченные функции влияния. Прежде чем сформулировать эти условия, введем дополнительные обозначения,

Пусть Ik = {(k-l)p+1,...,kp], к = 1,...,pq. Предположим, что для всех /З Є Mpq существует математическое ожидание EI V(/3,b(I{),... ,Ь(Ірд))г(Іі,.--,Ipq) ) и обозначим за

17(/3) - Е( V(/3, Ь(Д),..., Ь(/М))г(/!,..., 7з

теоретическую целевую функцию.

Заметим, что U((3) - непрерывная ограниченная снизу выпуклая функция. Пусть множество, где функция U(j3) достигает своего минимума непусто, и /З* є Mpq - одна из точек этого множества.

Далее, пусть вектор d(Ib ...,Ipq) = {di(Ib ..., Ipq),..., dpq(Iu ..., I}

скаляр do(I-[,..., Ipq) определяются из следующего разложения:

v(f3,b(i1),...,b(UWi,..,iPq) =

1 1 ... 1 \

А Ь(Іі)і ... Ь(/И

T{h,-Jpq) =

\ fipq Kh)pq Khq)pq /

= \d0(Ih...Jpq) + dT(Ih...,Ipq)(3\.

Или, более подробно,

do{h,..-, Ipq) = j~^det(b(Ii)...b(Ipq)jr(Ib..., Ipq),

где cs(/i,..., 7M) - алгебраическое дополнение к {3S в вышеприведенной матрице, s = 1, ...,pg. Пусть теперь Zj = (asf, у^)3" и определим случайный вектор

A(«i) = E(sgn (db(/i, -..,/я) + dT№, , ipff)/3*) d(/i,. - -, Ipq) | *i),

векторную функцию

a{T,z)= Efysgn{dQ{Ih...,Ipq) + dT (/і,.- ,Ipq)T)d(Ih...,Ipq) | *i = z),

где TeMpqnze JRp+q, и матрицу

r = cov(AW,A(z1)).

Теоремы о состоятельности, асимптотической нормальности и о функции влияния оценки Вп сформулируем в терминах векторов j3n — vec(Sn) и /30 = vec(50).

Теорема 1 (о состоятельности оценки Вп). Пусть выполнены следующие условия:

  1. єі,Є2,-..,єп - и.о.р.св., Єї = —еі; #i,#2,... ,жп - н.о.р.с.в.; совокупности {жг}=1 w {ві}"=і независимы,

  2. Е\\єі\\ < оо,

(cj i?[ 11^(/)-^11 /(detX(l) 7^ О)) < оо, зде || [| обозначает евклидову матричную норму,

(d) функция U(j3) достигает минимум в единственной точке /3 = /3*.

Тогда j3* ~ (3Q и при п -> оо /Зп сходится почти всюду к /30.

Теорема 2 (об асимптотической нормальности оценки Вп). Пусть выполнены условия (a), (d) теоремы 1, а также

(У) ||єі||2<оо,

(d) E(\\X(I)-lfl(fetX(I)^0)} )

e) определены частные производные функции С/(/3) е точке /3 = (3* и возможно дифференцирование под знаком математического ожидания

VUW | ^ = ^(V|db(/i, - - , 7Я) + dT(Ib ..., /и)/3| | ^), f/j в окрестности точки /3* еермо следующее разложение:

U03) = U(f) + ±(/3 - /3*)г^(/3 - /Г) + 0(11/3 - /3*||2), где W - некоторая положительно определенная матрица, (д) при {1\,..., Іт} Є Хр вероятность события

{ det (b{h) -{3*... b(Ipq) - /3*) = О} П [r(Ih .., Іи) = і} раена нулю.

Тог(9а при п > оо распределение случайной величины, у/п(/Зп/30) слабо сходится к pq-мерному нормальному распределению с вектором средних О и ковариационной матрицей pq2WVW~1.

Робастность оценок, представленных в работе будем исследовать с точки зрения их функций влияния. Понятие функции влияния было введено Хэмпелом ([11], [12]) и является одним из самых полезных эвристических инструментов теории робастных оценок.

Допустим, что оценка вп получена из выборки (жі,.., хп) из распределения F, причем вп -> T(F) по вероятности при п -Ч- со, где Т - некоторый функционал, определенный на множестве функций распределения. Что произойдет, если мы добавим к очень большой выборке еще одно наблюдение, равное ж? Его влияние на оценку вп можно характеризовать соответствующим образом нормированным пределом

где Ах обозначает единичную массу в точке ж. Величина IF(x;F,T), как функция х и называется функцией влияния. Таким образом, эта функция позволяет оценить относительное влияние отдельного наблюдения на значение оценки. Робастная оценка должна иметь ограниченную функцию влияния, то есть небольшое количество загрязнения в любой точке не должно оказывать на оценку неограниченный эффект. При неограниченной функции не исключены неприятности, причиной которых послужат выделяющиеся наблюдения.

Итак, сформулируем теорему о функции влияния оценки Вп.

Теорема 3 (о функции влияния оценки Вп). Пусть выполнены условия (а), (Ъ)} (с), (d), (f) теорем 1, 1, а также

(ё) V/3 из некоторой окрестности точки /3* выполнено

W(/3) | = E(y\d0(Ih ... ,/и) + dT(h,... ,1и)/3| J ),

ункция a(T,z) непрерывна noT в окрестности точки Т = /3*.

Тогда функция влияния IF(z>F@0,Bn) оценки Вп ограничена по z Є JRp+q и равна

IF(z,Fpo,Bn) = -p'qW-'a^z),

где F@a обозначает совместную функцию распределения векторов Х\, ух в нашей модели.

Состоятельность, асимптотическая нормальность и ограниченность функции влияния оценки Вп доказаны в более сильных предположениях.

Как известно из теории оптимального планирования (см. [3]), в условиях активного эксперимента оптимальными являются планы с конечным числом значений. Такие планы (т. е. распределения Х\) удовлетворяют условиям (с), (с') теорем 1 — 3. В то же время эти условия сильно ограничивают множество удовлетворяющих им законов распределения, что ставит под вопрос целесообразность применения оценок Вп и Вп> например,

в условиях пассивного эксперимента. В связи с этим в разделе 1.2 рассматриваются еще две оценки матрицы регрессионных коэффициентов вида В'п = VQC~l(f3'n) и В'п = vec^ifl'n). Здесь вектор 0п есть особым образом "взвешенная"выборочная медиана Оя совокупности векторизованных невырожденных элементарных регрессий {Ь(/)}, и вектор /З'п, как и в разделе 1.1, модифицирован для ослабления условий при которых выполнены асимптотические свойства. Сформулируем определения оценок:

Определение 6. Пусть

D'M = <шег{у'(Д 6(/:),..., b(Ipq))r(Ih ...,/и)},

где V'({3,6(/0,...,6()) = V(0b(h),...,b(Im))\detX(h)...detX(Ipq)\ обозначает "взвешенный "объем.

Тогда оценка В'п матрицы коэффициентов Bq определяется следующим образом:

Определение 7. Оценку В'п матрицы коэффициентов Bq определим следующей формулой:

B'n=vec-\0n\

V'M = w%{V{P, b(h),..., b(Ipq))r(Ih ..., Ipq)].

Оценки B'n и В'п Х-аффинно, F-аффинно и регрессионно эквивариантны и, при выполнении некоторых условий на распределения данных, робастны, состоятельны и асимптотически нормальны. Для формулировки этих условий введем дополнительные обозначения.

Пусть Ik = {(к- 1)р+1,..., fcp}, к = 1,...,pq.

Предположим, что для всех /З Є JRpq существует математическое ожидание

е(у'(/з, b{h)t ...,6(/и))г(/і,...

11pq)) и обозначим за

U'(P) = E(V(A Ь(Д),. -., Ь(/я))т(Д, ...,/и))

теоретическую целевую функцию. f/'(/3) - непрерывная ограниченная снизу выпуклая функция, и пусть /З* Є JRpq - одна из точек множества, на котором она достигает своего минимума. Пусть вектор <2'(Д,... ,Ipq) = (d[{h,..., /и),..., 4?(/i,..., /и)) и скаляр <і'0(Д,.,., Ipq) определяются из разложения:

V'(0ib{h)t...ib{Ipq})T{Iu...1Ipq) =

= 14(/1,...,/^) + ^(^...,^)/31.

Таким образом,

d's(h>... ,/и) = de(/i, .. ,/pg)detXf/J .. .detX(/M), s = 0,...,pq. Пусть zi = (a;f, yf)T и, аналогично разделу 1.1, определим случайный вектор

Л'(*і) - E(sgn (df0(h, ...,/„) + d'T(/b .. .,/„)&) <*'(Д,... векторную функцию

a'(X,*) = e( sgn (4(Д, ..., /я) + гі'г(Д,..., /И)Т) <2'(Д,..., /и)

где TeWqxz Mp+q, и матрицу

Г' = сот(Л'(;гі),Л'(гі)).

Сформулируем теперь теоремы о состоятельности, асимптотической нормальности и о функции влияния оценки В'п (в терминах векторов 0пvec(J3^) и/30= vec(Bo)).

Теорема 4 (о состоятельности оценки В'п). Пусть выполнены следующие условия:

(a) 1, 2,..., єп - и.о.р.е.в., Єї = —1; Жі, Ж2, . , ж„ - н.о.р.с.в.; совокупно
сти {xj}
=1 и {єі}"=1 независимы,

(b) Е\\єі\\ < ею,
(У Я||жі[] <оо,

(d) функция U'(0) достигает минимум в единственной тючке (З = /З*.

Тозда /3+ = /3q н при п —>- оо /З'п сходится почти всюду к /30.

Теорема 5 (об асимптотической нормальности оценки В^). Пусть выполнены условия (a), (d) теоремы 4, а т,акже

(У) Я||єі||2<оо,

(Vj ^||ая||2 < оо,

(e) определены частные производные функции U'(j3) в точке /3 = (3* и
возможно дифференцирование под знаком математического ожидания

W(/3) = JE?(v|dJ,(/i,.--,/«) + d^f/i, - - - ,/w)/3| Л

(/j в окрестности точки Д, верно сле^уюі^ее разложение:

ищ = [/'(/3,) + ^(/3 - /3,)^(/3 - /3,) + 0(11/3 - Д||2), еде W' - некоторая положительно определенная матрица, (д) при {/i,..., Ipq] Є Тр вероятность события

{det(b(/1)-/3#...b(Jw)-/3j=0}n{r(/b...)/M) = l}

равна нулю.

7Ъгп -+ сю распределение случайной величины yJn{J3'n/30) сла^о сходится к pq-мерному нормальному распределению с вектором средних О н ковариационной матрицей p4q2W'~1T'W'~l.

Теорема 6 (о функции влияния оценки В'п). Пусть выполнены условия (а), (Ь), (с), (d), (f) теорем 4, 5, а также

1) V/3' из некоторой окрестности точки /3* выполнено

VU'tf) | &1 = E[v\d'0(Ih..., Ipq) + d'T(Iu ..., ІпЩ J J,

(h) функция a'(T,z) непрерывна no T в окрестности точки Т =/3*.

Тогда функция влияния IF(z} Fp0,{3 п) оценки В'п при фиксированном х ограничена по у па Шч, при фиксированном у ограничена по х на любом, компакте в ШР и равна

Функция влияния оценки В'ю вообще говоря, неограничена по х на ШР. Но на практике, как в пассивном, так и активном экспериментах, наблюдаемые значения фактора х принадлежат некоторому компакту. Поэтому важна ограниченность функции влияния по х на любом компакте, а это свойство оценки Вп выполнено по теореме 6.

Робастность, состоятельность и асимптотическая нормальность оценки В'п доказаны в более сильных предположениях.

В разделе 1.3 получены формулы для асимптотических эффективностей (через обобщенные дисперсии) всех вышеперечисленных оценок. Теория проиллюстрирована примером, в котором вычислены (симулированы) асимптотические эффективности для случаев, когда вектор случайных ошибок имеет нормальное распределение, распределение Лапласа и распределение Стыо-дента с 3,5,10,20 степенями свободы. На этом примере показана высокая асимптотическая эффективность представленных оценок в случаях распределений вектора случайных ошибок с тяжелыми хвостами. Кроме того, в разделе перечислены способы вычисления указанных оценок матрицы регрессионных коэффициентов.

Вторая глава диссертационной работы посвящена проверке гипотез о матрице регрессионных коэффициентов для модели многомерной линейной

регрессии: есть п наблюдений (ж;, у{)} і 1,..., п, подчиняющихся модели

Уі = В$Хі + Єі, і = 1,2,...,n,

и требуется проверить гипотезу Щ : Bq = В* против альтернативы Н\ : Бо ф В*. Без ограничения общности можно считать, что В* = 0, то есть проверять гипотезу о независимости значений отклика от значений фактора. Ниже будем предполагать, что вектор A(zi) (A\zi)) и матрица Г (Г') определены так же, как и выше, но с /3* = 0 (/3* = 0).

В разделе 2.1 предлагаются четыре тестовые статистики: Тп = Vt/"n(0) (т. е. вектор частных производных функции Un (/3) в точке /3 = 0), К = V^(0),

где функции Un и Е/^ заданы определениеми 4 и 7, а Г„ и Г^ - некоторые состоятельные оценки матриц Г и Г', соответственно.

Статистики фп и ф'п асимптотически свободны от распределений исходных данных. Кроме того, они обладают свойством аффинной инвариантности в смысле следующего определения:

Определение 8. Пусть фп(Х,У) обозначает тестовую статистику, вычисленную по матрице факторов X и матрице откликов У. Статистика фп(Х,У) Х-аффинно инвариантна, если

фп(ХУ,У) = фп}У)

и У-аффинно инвариантна, если

фп(Х,У])=фп(Х,У)

для любых невырожденных (рхр)-матрицы V и (q X q) -матрицы W, соответственно.

В работе получены следующие результаты об асимптотическом распределении статистик Тп, Т'п, фп и ф'п при нулевой гипотезе:

Теорема 7. Пусть выполнены условия

  1. i,2,.. ,п - н.о.р.с.в., Єї = —Єї; Жі,Ж2, .. >хп - н.о.p.с.в.; совокупности {щУі-і и {єі}^=і независимы,

  2. Я|Ы|2<оо;

  3. Е^Хф-ЦЩйеЬХф ф 0)) < со, где || || - евклидова матричная норма.

Тогда при нулевой гипотезе Щ : /30 = 0 предельное распределение статистики фьТп - pq-мерное нормальное с нулевым вектором средних и ковариационной матрицей p4q2T.

Теорема 8. Пусть выполнены условия

  1. i,2,...,єп - н.о.р.с.в., Єї = —i; Xi,X2,.-.,xn - н.о.р.с.в.; совокупности {хі}=1 и {siYl^ независимы,

  2. Е\\є\\\2 < со,

  3. Щ\хі\\2 < 00.

Тогда при нулевой гипотезе Щ : /30 = 0 имеем:

^rn~ANpq(0,pS2T>).

Теорема 9. Пусть выполнены условия теоремы 7 и матрица Г невырождена. Тогда при нулевой гипотезе Щ : /30 ~ 0 предельное распределение статистики фп - центральное %2-распределение с pq степенями свободы.

Теорема 10. Пусть выполнены условия теоремы, 8 и матрица Г" невырождена. Тогда при нулевой гипотезе Щ : /3Q = О

Ф' 4 у2 .

В разделе 2.2 получены предельные распределения статистик Тп, Т'п, фп и ф'п при последовательности близких альтернатив Нп : /30 = -^=, 6 ф 0:

Теорема 11. Пусть выполнены условия теоремы 7, а также

в окрестности нуля верно следующее разложение:

Т(/3) = Т(0) + Л/3 + О(||/3||),

где функция Т((3) определяется при {її,..., /Р5} Є Хр как

Т(/3) - Eq ( *pi(d0(Ji, -.., /я) + tf (Iu ..., /я)/з) d(/i,..., /м)) ,

н А - некоторая (jpq х рц)-матрица,

е) при {/і,..., /ет} Є Хр вероятность события

det (Ь(Л). ..b{Ipq)) = О} П {т(/!,..., /и) = і}

при гипотезе #о равна нулю.

Тогда при последовательности альтернатив Нп : /30 — -4^ предельное распределение статистики ^/пТп есть pq-мерпое нормальное с вектором математических ожиданий —Ад и ковариационной матрицей p^q^Y.

Если матрица Г невырождена, то при последовательности альтернатов Нп предельное распределение статистики фп есть нецентральное \ ~ распределение с pq степенями свободы и параметром нецентралъпости -i1STAT~1A6.

Теорема 12. Пусть выполнены условия теоремы 8, а таксисе (d) в окрестности пуля верно следующее разлооїссние:

T^) = T'(0) + A'/3 + O(i|/3||), где функция Х'(/3) определяется при {Ii,..., Ipq} є Тр как

T'(f3) = До ( sgn(d'Q(Ih ...,/„) + dlT(h,..., Ipq)l3)d'(Ih ...,/„)), и А' - некоторая (pq х pq)-матрица,

(є) при {її,..., Ipq} Є 1р вероятность события

{ det (Ь(/0 ... Ь(/и)) = о} П {т(Д,.... /и) = і}

при гипотезе Щ равна нулю. Тогда при последовательности альтернатив Нп : /30 = -4^

^T'nAN„(-A>S,p*,*r'), и если матрица Г' невыроэ/сдена, то

Как следствие, получается следующий результат.

Теорема 13. Асимптотическая эффективность по Питману критерия на основе статистики фп есть

STAT-1AS Є~ p4q2dTI{0}6'

где 1(0) - информационная матрица Фишера, которая определяется (при существовании плотности /(є) распределения случайного вектора S\) как

1(0) = EQ ( (Vln(f(yi)) ял) (Vln(f(Vl)) xif ).

Асимптотическая эффективность по Питману критерия на основе статистики ф'п есть

, _ 8ТА'У,-1А!6

Є ~ p±q4T 1(0)6' В разделе 2.2.3 приведен пример, для которого вычислены (симулированы) асимптотические эффективности по Питману критериев на основе статистик фп и ф'п для случаев, когда вектор случайных ошибок имеет нормальное распределение, распределение Лапласа и распределение Стьюдента с 3,5,10,20 степенями свободы. На этом примере показана высокая асимптотическая эффективность данных критериев в случаях распределений вектора случайных ошибок с тяжелыми хвостами.

По причинам, упомянутым выше, критерии на основе статистик Тп и фп рекомендуется применять в условиях активного эксперимента, в то время как критерии на основе статистик Т'п и ф'п применимы и в пассивном эксперименте.

Благодарности

Автор выражает глубокую благодарность Юрию Николаевичу Тюрину за постоянное внимание, искреннюю заинтересованность, многочисленные обсуждения и ценные советы. Автор благодарит Ханну Оя за предложенные идеи, Юрки Мотоннена за помощь в получении численных результатов, а также Валерия Николаевича Тутубалина и Михаила Васильевича Болдина за интерес к работе.

Робастность и аффинная эквивариантность оценок Впя Вп

Робастность оценок Вп и Вп будем исследовать с точки зрения их функций влияния. Сформулируем основные определения. Допустим, что оценка вп получена из выборки (xi,..,, хп) из распределения F, причем 6п —у T(F) по вероятности при п —У оо, где Т - некоторый функционал, определенный на множестве функций распределения. Что произойдет, если мы добавим к очень большой выборке еще одно наблюдение, равное ж? Его влияние па оценку вп можно характеризовать соответствующим образом нормированным пределом где Ах обозначает единичную массу в точке х. Величина IF(x; F,T)y как функция х была введена Хэмпелом ([11], [12]) и получила название функции влияния. Она является одним из самых полезных эвристических инструментов теории робастных оценок.

Функция влияния позволяет оценить относительное влияние отдельного наблюдения на значение оценки. Робастная оценка должна иметь ограниченную функцию влияния, то есть небольшое количество загрязнения в любой точке не должно оказывать на оценку неограниченный эффект. При неогра-ниченной функции не исключены неприятности, причиной которых послужат выделяющиеся наблюдения.

Если функционал Т достаточно регулярен, то (см. [5], [13]) у/пфп - T(F)) = Vnave{Jf(»i; F,T)} + ор(1). (1. 13) Значит, E(7F(a;i;F,T)) = 0 и, по центральной предельной теореме, л/п(вп — T(F)) имеет асимптотически нормальное распределение со средним ноль и матрицей ковариаций A{F; Т) = Е (IF(XI; F, T)IF(xy, F, Т)т) . (1. 14)

Хотя утверждение (1. 13) часто является верным, его доказательство бывает делом непростым. Не смотря на это, функция влияния дает возмож-ность эвристически оценить асимптотические свойства оценки вп простым и непосредственным способом, так как знание этой функции обеспечивает нас приближенной оценкой асимптотики матрицы ковариаций по явной формуле (1. 14) (а полученный при такой прикидке результат затем строго обосновывают уже иными средствами). Функция влияния также используется для получения других мер робастности. Например, наиболее важная из таких мер есть чувствительность к большой ошибке, которая определяется как 7 = sup . 7F(a:; F,T) для некоторой нормы Она описывает максимальное влияние индивидуального наблюдения.

Итак, сформулируем теоремы о функциях влияния оценок Вп и Вп. Для этого введем векторную функцию a(T,z)=E(sgn(d(i{Ib..,,Ipq) + dT(Ib.. .Jpq)T)d(Ih...,Im) где TeMpqKze Mp+q. zi = z\, Теорема 1.5 (о функции влияния оценки Вп). Пусть выполнены условия (а), (Ь), (с), (d), (f) теорем 1.1, 1.2, а такоісе (ё) V/3 из некоторой окрестности точки (5 выполнено VU((3) = E[v\dQ(h,..., /и) + dT(Ih...,ІпЩ І ), ї) функция a(T,z) непрерывна по Т в окрестности точки Г — /3 . Тогда функция влияния IF(z,FpD,j3n) оценки Вп ограничена по z Є JRp+q и равна где F@0 обозначает совместную функцию распределения векторов х\, уі в нашей модели. Теорема 1,6 (о функции влияния оценки Вп). Пусть выполнены условия (а), (Ь), (с), (d), (j) теорем 1.1, 1.2, 1.3, а ташсе условия (е ), (h) теоремы 1.5.

Тогда функция влияния IF[z F n) оценки Вп ограничена по z Є Mp+q и равна IF(z,F0o,0n) = p2qW-la{ z).

Замечание. Заметим, что для асимптотической матрицы ковариаций наших оценок, согласно определениям вектора h.{zi) и функции a(T,z) действительно верно представление (1. 14) через функцию влияния. Следующая теорема - об аффинной эквивариантности оценок Вп и Вп. Аффинная эквива-риантность означает, что при различных аффинных преобразованиях данных оценки преобразуются соответствующим образом, а именно:

Определение 1.6. Пусть B(X,Y) обозначает, оценку матрицы регрессионных коэффициентов, вычисленную по матрице факторов X = {х\...хп)Т и матрице откликов Y = (у1...7/Г1)т. Оценка В(Х, Y) Х-аффинно эквиеари-антна, если В{ХА ) А-1В{Х ), Y-аффинно эквивариантна, если B(X,YC) = B(X,Y)C и регрессионно эквивариантна, если B{X,Y + XD) B{X,Y) + D для любых невырожденных (рхр)-матрицы A, (qх q)-матрицы С и [pxq)-матрицы D, соответственно. Теорема 1.7. Оценки Вп и Вп Х-аффинно, Y-аффинно и регрессионно эк-вивариаптпы. 1.1.4 Доказательство состоятельности оценок Вп и Вп Поскольку в невырожденном случае Ь(1) = /30 + Ь(1) (где Ь(1) /30-0 означает вектор 6(/), вычисленный в предположении /30 = 0), и где Ь(1) У(/3, b(h),..., b(Ipq)) = 7(/3 - /30, b(h) ,..., Ь(Іп /30—0 /Зо-О то, не ограничивая общности, можно считать, что /30 = 0. В процессе доказательств теорем нам потребуются неравенства вида Е4№,...,/М)Г (1.15) для всех к — 0,1,... ,pq и некоторых s 0 и константы Ls со. Выведем условия, при которых они выполняются.

Доказательство асимптотической нормальности оценок К* К

Следуя схеме доказательства теоремы 1.8, покажем, что для некоторой константы С оо при достаточно больших п, с вероятностью сколь угодно близкой к 1 ll ll-llargmm ll C (1.99) Обоснование (1. 99) завершает доказательство теоремы, поскольку используя (1. 99), (1. 98) получим для любого а 0 при n оо Р ( llarg min Di(/3)II а) Р ( arg min D {0)\\ a) + У Ь{3М П Л ) - у {0Є№:\\0 С \\} ПУ Л1 У +р(Л С )— 0. Итак, докажем (1, 99). Положим /3 = /3е, где е = 1. Тогда, используя разложение (1. 75), получим I?;(/3) /3lavei{]d T(/1,...Jpg)e}-aYex{ (/1,...,JM)}. (1.100) Из леммы 1,1 и (1. 87) следует, что для любого с, такого что е[ = 1 выполнено ave2{ d 0{Ih...Jpq)\ ave { d c(Ih ,., Jpq) } A 0, (1. 101) avej J d/T(Ih ..., /и)е j - ave (Ij,..., /M)e J - 0. (1. 102)

Объединяя (1. 95); (1. 102) и учитывая, что в силу выпуклости по е функций avejj d T{h,...,Ipq)e j иЕ d T{Ih...,Ipq)e , их поточечная сходимость по вероятности эквивалентна равномерной сходимости по вероятности на компакте ]е = 1 ([24], лемма выпуклости), получим р 0. (1. 103) sup 1И!=1 avez {\d/T(Ih ..., Ipq)e\} - E]d T(/i,..., їт)е\ Фиксируем произвольное 7 0. Тогда, в силу (1. 103), найдется N\ оо такое, что для всех п Ni с вероятностью большей 1 — 7 выполнено inf if Q,vei{\d T(Ih...,Ipq)e\} s 2 где s — infje[-i Ed (/і,..., IPq)e\ 0, как уже было показано в процессе доказательства теоремы 1.8. Используя (1. 94), (1. 101), получим, что для некоторого Л 2 со и всех п N2 с вероятностью большей 1 — 7 avsr{dj)(/i)...)/pe)[} 2i. Поэтому, продолжая (1. 100), имеем для всехп max(7Vi, N2) с вероятностью большей 1 — 27 \\в\\з Значит, с вероятностью, превышающей 1 — 27 Для всех п max(iVi, N2) inf D;(/3) 2L; = (0) + 1, \\р\\ с 2 ч / гдеС" = (2 (0) + 2 + 4 . С другой стороны, согласно (1. 97) с (3 = 0 для некоторого N$ 00 и всех п УУз с вероятностью большей 1 — 7 в;(о) с/ (о) + і и, значит, для всехп maxfiVi, , ) с вероятностью, превышающей 1 —З7 inf D M LT (O) +1 що) mf д;оз), что в силу произвольности выбора 7 0, завершает доказательство (1. 99). Теорема доказана. 1.2.5 Доказательство асимптотической нормальности оценок В п и К

Доказательство теоремы 1.10. Заметим, что выполнены условия теоремы 1.8, поэтому мы можем использовать все результаты, полученные в процессе ее доказательства. В силу условий (а), (Ь ), (с ) теоремы и (1. 85) с s — 2 имеем: 3 const L 2 00 : Е {d!s(Ih .. .Jn)f . Vs = 0,... ,pq. (1. 104)

Докажем лемму. Лемма 1.5. Пусть выполнены условия теоремы 1.10. Для всех j3 Є JRvq, 0 фО определим G n(0) = щ (U M - К(0) - U (P) + U (0) - /3, где Т п = ave sgn {d Q(Ih ..., Ipq)) d {Ih ..., Ipq)j, и полооїсим G n(0) — 0. Тогда для любой последовательности случайных Р векторов jBn Є Мт такой, что при п — сю /Зп — 0 выполнено ОЖ) $ о. Доказательство.

Для всех /З Є lRpq. /З ф 0 и {/i,..., Ipq} Є Тр определим (/3 ... = (1 ( ..., ) + (/ ..., )/31- - \д, 0(Іг..., /и) - sign(do(/i,..., Ipq))d!T{Ih ..., Ipq)t3), тогда для всех (3 ф0 1 / и \ \g ((3,Ih...,Ipq)\ щ(КГ(/і,..-,«/3 + Х І іК№ --- )і) 211 ( ,...,/ ,,. Отсюда и из (1. 104) следует, что Eg 2({3,Ih...,Ipq) 4pqL,2 oo (1.105) Положим /(0, /i,..., ipg) = 0, тогда (1. 105) будет выполнено для всех /З Є .№. Согласно условию (g) и условию (с ) для всех {I\,...,Ipq\ Є Хр почти всюду на {ш Є fi : т(іі,..., Ipq) — 1} функция 14( ..., ) + (/1,..., )/31 = ! det (b(It) -/З,..., b(Ipq) - /З) \detX(h)... det Х(Іт)\т(Іь ..., Ipq дифференцируема в точке /3 = 0. Значит справедливо разложение Тэйлора: \d Q(Iu..., Ipq) + d T(h, ...,/и)/3 = = (/i,..., /и) + sign ДОЬ..., Ц) d T(/1;..., /w)/3 + о(/3) (1. 106) почти всюду на {шбП: r(Ji, -.-,) = 1}- Заметим, что разложение (1. 106) верно также и в вырожденном случае, таким образом оно верно почти всюду, то есть /(/3, /i,..., Ipq) -— 0 при /3 — 0, Из (1. 105) и теореме о мажорируемой сходимости следует, что при /3 - О

Определения статистик ТпиТ!пя их распределения при нулевой гипотезе

В предыдущей главе формулами (1. 3) и (1. 74) мы определили выпуклые кусочно-линейные функции Un(j3) и WJJ3). Согласно теореме 1.1 при гипотезе #о для почти всех ш Є Q 3 7VW со : Мп Nu минимум функции Un{{3) достигается в сколь угодно близкой к нулю точке, т.е. значение Vf/Tl(0) должно быть близким к нулевому. (V7ra(0) означает вектор частных производных функции Un(0) в точке /3 = 0,) Грубо говоря, при больших значениях величины Vf7n(0) гипотезу Щ следует отвергнуть в пользу альтернативы НА : -SQ ф 0. Аналогичные рассуждения, согласно теореме 1.8, применимы и к величине V7 (0).

Асимптотические распределения статистик Гп и Т п при нулевой гипотезе находятся из следующих двух теорем.

Значит, если нам известны распределения вектора фактора и вектора случайных ошибок, по этим распределениям мы можем вычислить матрицы Г и Г , и они невырождены, то получим два критерия асимптотического размера а для проверки гипотезы Яо против альтернативы НА : BQ ф 0: 1) отвергаем Яо в пользу ПА, если n TnY lTn х а, 2) отвергаем Я0 в пользу НА, если n fT F-1! &_а, где i_Q -квантиль распределения уровня 1-а (см. [1], теорема 3.3.3).

Согласно результатам предыдущего раздела, распределение тестовых статистик Тп и Т п зависит от распределений наших данных. Для построения непараметрических критериев мы найдем сначала оценки ковариационных матриц Г и Г .

Введем обозначения. Пусть множество из к различных индексов, и hihy-i как и ранее, обозначают его различные подмножества. Обозначим I {I\,..., Ipq}. Для двух элементов Ii = {I\, Теорема 2.5. Пусть выполнены условия теоремы 2.1 и матрица Г невырождена. Тогда при пулевой гипотезе Но : BQ = 0 предельное распределение статистики фп - центральное х2-распределение с pq степенями свободы.

Теорема 2.6. Предположим, что условия теоремы 2.2 выполнены и матрица Г нееырождена. Тогда при пулевой гипотезе Щ предельное распределение статистики ф п - центральное х2-распределение с pq степенями свободы.

Значит, непараметрические критерии асимптотического размера а для проверки гипотезы #о против альтернативы определяются следующим образом: 1) отвергаем Щ в пользу НА, если фп i_Q, 2) отвергаем HQ В пользу НА, если ф п i_Q, где i_a - квантиль распределения x2pq уровня 1 — а и может быть найден из таблиц (смотрите, например, [2]).

Заметим, что на основе тестовых статистик фп и ф п можно построить асимптотические доверительные области для неизвестного истинного значения матрицы регрессионных коэффициентов. Пусть фп(Х, Y) и ф п(Х, Y) обозначают тестовые статистики фп и ф ю соответственно, вычисленные по матрице факторов X и матрице откликов Y.

Отметим еще одно важное свойство статистик фп и ф'п - аффинную инвариантность. Аффинная инвариантность означает, что значения статистик фп и ф'п не меняются при невырожденных аффинных преобразованиях откликов Уъ-^Уп и факторов Х\, ..., Q5n, Т,Є.

Определение 2.3. Пусть фп{Х}У) обозначает тестовую статистику, вычисленную по матрице факторов X и матрице откликов Y. Статистика фп(Х,У) Х-аффиппо инвариантна, если фп{ХУьУ) ~ фп(Х,У) и Y-аффинио инвариантна, если фп{Х) YW) = фп(Х, Y) для любых невыроо/с-денныос (р X р)-матрицы V и (q X q)-Mampuu)bi W, соответственно.

Предельные распределения статистик критериев при альтерна тивах

Наиболее известным методом решения этой задачи является метод наименьших квадратов (МНК). МНК-оценка аффинно-эквивариантна (т.е. изменяется соответствующим образом при аффинных преобразованиях данных) и, в случае когда случайные ошибки имеют гауссовское распределение, оптимальна. Однако хорошо известно, что эта оценка крайне чувствительна к выбросам - единственное постороннее наблюдение может произвести на нее неограниченное влияние.

Разработка робастных методов оценивания для многомерных и многофакторных линейных моделей привлекает внимание многих авторов. Пу-ри и Сен ([25]) предложили покоординатные ранговые оценки. Рао ([27]) предложил использовать одномерный метод наименьших модулей отдельно для каждой координаты отклика. Конкер и Портной ([18]) обобщили метод Рао и предложили робастные М-оценки, заменив модуль на произвольную функцию. Оценка, предложенная Баи и др. ([7]) минимизирует среднее евклидовых норм остатков. Все эти методы, однако, не являются аффинно-эквивариантными. Руссиу и др. ([30]) в случае случайного фактора предложили робастную аффинно-эквивариантную оценку матрицы регрессионных коэффициентов, основанную на робастной оценке ковариационной матрицы вектора z\ — {xi,yf)T (но не исследовали ее асимптотические свойства). Оллила и др. ([22]) предложили аналогичный подход, использовав вместо оценки ковариационной матрицы Руссиу выборочную знаковую ковариационную матрицу вектора z\. Их оценка аффинно-эквивариаитна, однако не робастна, хотя и более устойчива к выбросам, чем МНК-оценка.

Цель работы. Построение робастных аффинио-эквивариантных непараметрических оценок и проверка гипотез для задачи многомерной линейной регрессии. Исследование асимптотических свойств предложенных оценок и статистических критериев.

Методы исследования. Методика исследования основана на общих методах теории вероятностей, математического анализа и математической статистики. Широко используется теория U-статистик.

Научная новизна результатов. Предложены четыре робастные афинно-эквивариантные оценки матрицы регрессионных коэффициентов для задачи многомерной линейной регрессии, исследованы их асимптотические свойства. Построены два новых аффинно-инвариантных критерия для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии. Изучены асимптотические свойства статистик критериев как при нулевой гипотезе, так и при последовательности близких альтернатив.

Основные результаты, выносимые на защиту.

Предложены четыре новые робастные аффинно-эквивариантные оценки Вп, Вп, В ю В п матрицы регрессионных коэффициентов для задачи многомерной линейной регрессии. Для этих оценок получены условия состоятельности и асимптотической нормальности, найдены функции влияния.

Для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии предложены две новые тестовые статистики Тп и Т п. изучены их распределения как при нулевой гипотезе, так и при последовательности близких альтернатив. Построены состоятельные оценки ковариационных матриц этих тестовых статистик при нулевой гипотезе.

Для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии рассмотрены две новые аффинно-инвариантные асимптотически свободные от исходных распределений тестовые статистики фп и ф п) найдены их распределения при нулевой гипотезе и асимптотическая эффективность по Питману соответствующих критериев.

Практическая ценность. Работа носит теоретический характер. Предложенные в работе критерии и оценки могут быть использованы для статистической обработки регрессионного эксперимента. Рекомендуется их использование в задачах, где важно свойство аффинной инвариантности и распределение случайных ошибок может иметь "тяжелые хвосты"по сравнению с нормальным распределением. Оценки Вп Вп и тестовые статистики Тп, фп рекомендуется использовать в условиях активного эксперимента (когда экспериментатор сам выбирает план эксперимента); оценки В п, В п и тестовые статистики Т п, ф п могут быть использованы также и в пассивном эксперименте.

Апробация результатов диссертации. Результаты диссертации докладывались на Большом семинаре кафедры теории вероятностей МГУ под руководством член-корр. РАН, проф. А.Н. Ширяева в 2006 г.; на международной конференции "International Conference on Robust Statistics (ICORS) - 2005", Ювяскюля, Финляндия в 2005 г.;

Похожие диссертации на Многомерный непараметрический линейный регрессионный анализ