Содержание к диссертации
Введение
1 Основные понятия 5
1.1 Одновыборочные [/-статистики 5
1.1.1 Мартингальная структура [/-статистик 8
1.1.2 Центральная предельная теорема 9
1.1.3 Оценки скорости сходимости в центральной предельной теореме 10
1.2 Многовыборочные [/-статистики 12
1.2.1 Мартингальная структура многовыборочных [/-статистик 15
1.2.2 Центральная предельная теорема 16
1.2.3 Оценки скорости сходимости в центральной предельной теореме 16
1.3 Примеры [/-статистик 16
1.4 Вспомогательные сведения 19
1.4.1 Лемма о срезках 19
1.4.2 Метод характеристических функций (неравенство Эссеена) 20
1.4.3 Метод рандомизации 21
1.4 4 Вспомогательные неравенства и соотношения 21
2 Неравенства типа Берри-Эссеена для [/-статистик второй степени 22
2.1 Введение 22
2.2 Результаты 22
2.3 Доказательства 27
3 Неравенства типа Берри-Эссеена для [/-статистик произвольной степени 45
3.1 Введение 45
3.2 Результаты 46
3 3 Доказательства 49
4 Центральная предельная теорема для многовыборочных [/-статистик 73
4.1 Введение 73
4 2 Результат 73
4.3 Доказательство 74
5 Неравенства типа Берри-Эссеена для многовыборочных [/-статистик 78
5.1 Результаты 78
5.2 Доказательства 80
6 Специальные приложения: [/-статистики на графах 107
Заключение 113
Список литературы 114
- Оценки скорости сходимости в центральной предельной теореме
- Метод характеристических функций (неравенство Эссеена)
- Вспомогательные неравенства и соотношения
- Специальные приложения: [/-статистики на графах
Введение к работе
Теория (/-статистик начала развиваться после выхода работ Халмоша [32] в 1946 году, где была определена {/-статистика как оценка регулярного функционала, и Гефдинга [34] в 1948 году, где были описаны некоторые свойства [/-статистик, доказана центральная предельная теорема, приведены многочисленные примеры.
Являясь обобщением сумм случайных величин, [/-статистики в случае невырожденности асимптотически им эквивалентны Кроме того, [/-статистики проявляют мартингальные свойства, что позволяет применять к ним мартин-гальные предельные теоремы.
Интерес к этому математическому объекту постоянно возрастает и находит широкое применение в различных разделах теории вероятностей и математической статистики, например, в теории оценивания: [27, 41], в теории проверки гипотез: [30, 43, 44, 49, 46] или в теории случайных графов: [24, 50]
Одним из классических вопросов теории вероятностей является нахождение скорости сходимости статистик в центральной предельной теореме. Для U-статистик, построенных по выборке из независимых случайных величин, этот вопрос в настоящее время глубоко исследован.
Целью данной работы является исследование невырожденных одновыбо-рочных и многовыборочных [/-статистик в случае неодинаково распределенных случайных величин. Для одновыборочных [/-статистик - получение оценок скорости сходимости в центральной предельной теореме при минимальноых моментных предположениях на ядро. Для многовыборочных - доказательство центральной предельной теоремы с оцениванием скорости сходимости в ней
Диссертация состоит из шести глав Первая глава носит обзорный характер. В ней даны основные определения, представлены некогорые свойства и примеры [/-статистик, сделан обзор имеющихся результатов, а также описаны основные методы исследования, применявшиеся автором.
Во второй главе получены оценки скорости сходимости в центральной предельной теореме для [/-статистик второй степени. В третьей главе получены оценки скорости сходимости в центральной предельной теореме ДЛЯ [/-статистик произвольной степени.
Четвертая и пятая главы посвящены многовыборочным [/-статистикам. В четвертой главе доказывается центральная предельная теорема, а в пятой изучается скорость сходимости к нормальному закону
В шестой главе расматриваются приложения к конкретным задачам. Рассматриваются примеры [/-статистик, появляющихся при изучении характеристик случайных графов.
По теме диссертации опубликовано 6 работ, они перечислены в конце списка литературы под номерами [52]-[57]. Результаты диссертации докладывались на шестом Всероссийском симпозиуме по прикладной и промышленной математике в Санкт-Петербурге в 2005 г.; на пятой Всероссийской конференции по
проблемам науки и высшей школы "Фундаментальные исследования в технических университетах" в Санкт-Петербурге в 2001; на городском семинаре по теории вероятностей и математической статистике под руководством акад. И.А. Ибрагимова в 2001 г.
Оценки скорости сходимости в центральной предельной теореме
В работах Arcones [17] и Боровских [4, 21], где также использовался метод срезок, была доказана эта теорема для случая одинаково распределенных случайных величин при условиях Ед )2 оо, РР{\дс\ t) — 0, t - оо при всех с = 2,..., т, где 7с = 2с/(2с - 1). Будем обозначать где т - стандартная нормальная случайная величина.
Одинаково распределенные случайные величины. Оценки скорости сходимости в ценральной предельной теореме изучались многими авторами Первые результаты были получены для случая одинаково распределенных случайных величин в работах Малевича, Абдалимова [9], и Gramb, Serfling [31]. С помощью метода проекций и неравенств Чебышева и Шварца, были получены оценки порядка 0(п 1 2 1+1 ) в предположении 2?Ф оо при I 3 Затем условия на ядро Ф ослаблялись и оценки уточнялись. В 1974 г., используя мар-тингальные свойства [/-статистик, Bickel [20] получил оценку порядка 0(п-1/2) в предположении, что ядро Ф ограничено. Chan и Wierman [25], разбив [/-статистическую сумму и выделив сумму независимых случайных величин, получили эту оценку в предположении, что существует четвертый момент ядра Ф, и доказали, что если ядро имеет лишь третий конечный абсолютный момент, то справедлива оценка порядка 0(п_1/2(1пгг)1/ 3). В предположении существования третьего абсолютного момента ядра Ф оценка порядка 0{п 112) была получена в работе Callaert, Janssen [23], которые развили идею Chan и Wierman, а также применили метод характеристических функций и использовали мартин-гальные свойства [/-статистик. Затем для данной оценки условия ослаблялись. В работе Боровских [1] она получена в предположении Е\д\\3 оо, ЕФ2 оо; в работе Helmers, van Zwet [33] при условии а в работе Боровских, Королюк [6, 8] при условии Ф5/3 оо. В работах Bentkus, Albermk [15, 16] для [/-статистик второй степени получены оценки тою же порядка при условии существования второго момента канонической функции д2: %i3 oo, Egl co.
Нижние оценки для скорости сходимости порядка 0(п 1/2) при условии ЕФ2 оо были получены Maesono [42]. В работах Bentkus, Gotze, Zitikis [19], Bentkus, Gotze [IS] построены нижние оценки для [/-статистик второй степени (m = 2) при условии %i3 оо, Е\д2\ь е оо, є 0 и приведен пример ядра и случайных величин таких, для которых справедлива нижняя оценка скорости сходимости вида с(е)п х12+Ъе12 с постоянной с(є) 0. Таким образом, показатель 5/3 для второй канонической функции является наилучшим возможным, при этом в работах Боровских [22, 5] доказана следующая
Далее в 1989 г. Friedrich [28], используя метод характеристических функций, ослабил условия и получил оценку, зависящую от max Е\д313 оо, max Е\д13 5/3 оо. Некоторые уточнения данной оценки были сделаны в работе [13] в 1998 году. В работе Alberink в 2000 г. [14] с помощью метода рандомизации максимальные моменты канонических функций были заменены суммами моментов и получена следующая оценка для невырожденных [/-статистик вюрой степени с EUn = 0, о\ = 1: 1.2 Многовыборочные [/-статистики Пусть Х,1,. ..,ХЗП], j = 1,..., с- независимые выборки случайных величин, принимающих значения в измеримых пространствах (X3,B3),j = 1,...,с, причем случайные величины внутри каждой выборки не обязательно имеют одинаковые распределения. Предположим, что п3 т3 1, j = I,... ,с Пусть N - множество натуральных чисел, Nc - множество с-мерных векторов типа m = (mi,...,mc), тг Є N, т Є Nc. Обозначим /m = (7mi).../mc), симметричные относительно nij аргументов j-то множества, с j — 1,.. , с, ядра, такие что гДб X,/mj = Х,«Xji;m, при 1 Zji ... гзщ пу Тогда многовыборочная [/-статистика определеяется как Un = ип{Ф1т) = Ф/т(Xjlnt}, 1т} = %зХ,..., zjmj, j = 1,..., с), где п = (п\,..., пс) Є Nc, и суммирование ведется по всем I г3\ ... гЗГП] п3, j = l,...,c. Целое число с называют порядком [/-статистики. Рассмотрим случай, когда случайные величины в каждой серии имеют одно и тоже распределение Р3, j = 1,...,с. При Р = (Pi,..., Рс) рассмотрим функционал 9(Р), определенный на некотором множестве V = {Р : в(Р) оо}, являющийся регулярным функционалом от Р по множеству V. Пусть т3 - наименьшие объемы выборок (т3 п3), j = 1,...,с, для которых существует оценка $(x3i,...,xjm],j = 1,...,с), тогда для любого Р Є V. Можно предполагать.
Метод характеристических функций (неравенство Эссеена)
Пусть на вероятностном пространстве (X, Т, Р) выделено семейство ст-аліебр Тп, п О, таких, что {О, X) = То С Т\ С ... С Тп С Т. Предположим, что на (X, Т, Р) определена последовательность о 6 ... случайных величин, причем для каждого п 0 величина п является "„-измеримой.
Определение 1. Последовательность = (n,Fn), п 0, называется мартингалом, если для всех п Определение 2. Последовательность ц = (г]п,Тп), п 0, называется мартингал-разностью, если для всех п О Пусть на вероятностном пространстве (Х,В,Р) выделено невозрастающее семейство сг-алгебр В\ 2 Дг 2 такое, что случайная величина „ измерима относительно Вп при всех п 1. Определение 3. Последовательность = (п,#п), п 0, называется обращенным мартингалом, если для всех п Пусть Тк = cr{w : Xi,...,Xjt} - сг-алгебра, порожденная Xi,...,Xk U-статистику можно представить как сумму мартингал-разностей Последовательность ( )-) Л 1, образует мартингал-разность в силу того, что канонические функции обладают свойством полной вырожденности Лемма 1.1. При каждом с = 1,.. ,т стохастическая последовательность (ип{9ч ic) n)i п с образует мартингал Доказательство. Докажем E[Un(gtl lc)\Fk] = Uk{9n J, c k n. По свойству полной вырожденности канонических функций имеем E[gn ( 11)---) )1 1)---)] = о, если хотя бы один из индексов i\,..., гс не содержится в {1,..., к). Тогда EWn{gn гс)\Х\,...,Хк\= Y, 9ц іс{Хц,...,Х1е) = Uk{gn 1с). В Гефдингом [34] методом проекций была доказана следующая теорема Теорема 1.1. Пусть Xi,...,Xn - независимые случайные величины, и пусть выполнены следующие условия: существует число А такое, что для каждого я = 1,2,.. ЕФ2(Хн,...,Х1т) А при всех \ г\ ... гт щ где т - стандартная нормальная случайная величина. Замечание. В теореме вместо нормирующего множителя a(Un) можно взять Впоследствии в работе Малевича и Абдурахманова [10] центральная предельная теорема была доказана при условиях: sup max Е\Фп ,т4/3/(Фп 1т / )- 0; n m1S4 гт п supmaxE\gt(Xl)\2I(\gl\ p)— 0 при р - оо. В работе использовался метод срезок. В работах Arcones [17] и Боровских [4, 21], где также использовался метод срезок, была доказана эта теорема для случая одинаково распределенных случайных величин при условиях Ед )2 оо, РР{\дс\ t) — 0, t - оо при всех с = 2,..., т, где 7с = 2с/(2с - 1). 1.1.3 Оценки скорости сходимости в центральной предельной теореме Будем обозначать Щх) = Р{т х), где т - стандартная нормальная случайная величина. Одинаково распределенные случайные величины. Оценки скорости сходимости в ценральной предельной теореме изучались многими авторами Первые результаты были получены для случая одинаково распределенных случайных величин в работах Малевича, Абдалимова [9], и Gramb, Serfling [31]. С помощью метода проекций и неравенств Чебышева и Шварца, были получены оценки порядка 0(п 1 2 1+1 ) в предположении 2?Ф оо при I 3 Затем условия на ядро Ф ослаблялись и оценки уточнялись. В 1974 г., используя мар-тингальные свойства [/-статистик, Bickel [20] получил оценку порядка 0(п-1/2) в предположении, что ядро Ф ограничено. Chan и Wierman [25], разбив [/-статистическую сумму и выделив сумму независимых случайных величин, получили эту оценку в предположении, что существует четвертый момент ядра Ф, и доказали, что если ядро имеет лишь третий конечный абсолютный момент, то справедлива оценка порядка 0(п_1/2(1пгг)1/ 3). В предположении существования третьего абсолютного момента ядра Ф оценка порядка 0{п 112) была получена в работе Callaert, Janssen [23], которые развили идею Chan и Wierman, а также применили метод характеристических функций и использовали мартин-гальные свойства [/-статистик. Затем для данной оценки условия ослаблялись. В работе Боровских [1] она получена в предположении Е\д\\3 оо, ЕФ2 оо;
Albermk [15, 16] для [/-статистик второй степени получены оценки тою же порядка при условии существования второго момента канонической функции д2: %i3 oo, Egl co.
Нижние оценки для скорости сходимости порядка 0(п 1/2) при условии ЕФ2 оо были получены Maesono [42]. В работах Bentkus, Gotze, Zitikis [19], Bentkus, Gotze [IS] построены нижние оценки для [/-статистик второй степени (m = 2) при условии %i3 оо, Е\д2\ь е оо, є 0 и приведен пример ядра и случайных величин таких, для которых справедлива нижняя оценка скорости сходимости вида с(е)п х12+Ъе12 с постоянной с(є) 0. Таким образом, показатель 5/3 для второй канонической функции является наилучшим возможным, при этом в работах Боровских [22, 5] доказана следующая
Вспомогательные неравенства и соотношения
Пусть Лт, т Є Nc - неубывающий поток сг-алгебр, те Лт С Лп, если m п, и Хт является «4т-измеримой случайной величиной. Стохастическая последовательность (Хт,Лт), m Є Nc называется -мартинга-лом, если Хт удовлетворяет для каждого т где т Л п = тіп(т, й) - покоординатный минимум.
Определение 2. Пусть J m, m Є Nc - невозрастающий поток ст-алгебр, те fmD .7 , если m п, и Xm является -измеримой случайной величиной. Стохастическая последовательность (Хт,Тт), fa Є Nc называется обращенным -мартингалом, если Хт удовлетворяет для каждого m Е\Хт\ оо и для всех т, п Є Nc -EpGnl- n] = mvn (a.s.), где fh V n = max(m, n) - покоординатный максимум. Для к = (Ai,..., кс) Є Nc определим ст-алгебры Afcj = a(w -Xji,...,Xjk]}, J = 1,...,с, Л = Л і х Ль х ... х ЛАС Лемма 1.2. При каоюдом d = (1,0,...,0),...,m стохастическая последовательность {Un(gid),An), п d образует -мартингал. Доказательство. По свойству вырожденности канонических функций имеем E[Un(gId)\A-k] = Un,k(gId). Асимптотика распределения многовыборочных [/-статистик в случае выборок с одинаково распределенными случайными величинами изучалась многими авторами, например, в работах [6, 27, 40, 45]. В работе Боровских ]4] была доказана следующая торема: Теорема 1.3. Положим о2 = Ед2{Х3\), jd = 2Z)+/(2 + - 1), где D+ = d\ + ... + dc. Пусть тіп{сгь...,стс} 0, W oo. Тогда при тіп(пі,..., пс) — оо имеет место слабая сходимость a-\Un-9)- 7, где a2 = Ej=i т)п ] 1.2.3 Оценки скорости сходимости в центральной предельной тео реме Оценка порядка 0(щ ) для многовыборочных [/-статистик в случае выборок с одинаково распределенными случайными величинами была получена в работе [20] при условии, что ядро Ф - ограничено В работе [25] эта оценка была получена в спредположении Е\Ф\4 оо, а в [23] в предположении Е\Ф\3 оо. В различных работах Боровских оценка порядка 0(nj" ) была получена в предположении тах(Гс,Ф2) оо, Гс = тах{ (Х,і)3: j = 1,...,с}, см , например, [6] 1.3 Примеры [/-статистик. 1. Выборочное среднее Ф,(Х,) = Х„ 2. Выборочная дисперсия $t3(Xl,XJ)=1-(Xl-XJ)2, \ J l t j n 3. Средняя разность Джини. Пусть Xi, ..,Хп - независимые случайные величины. Тогда средняя разность Джини определяется формулой \ / Kt j n Если Хг, г = 1,..., п, имеют одно и тоже распределение F, то EUn = Е\Х, - Х2\ = [J \хг - Если ХиК- случайные величины с непрерывными функциями распределения F и G соответственно, то EUnin2 = Р(Х Y). Двухвыборочная статистика Мана-Уитни-Вилкоксона 6. Двухвыборочная а 2-статистика. Рассмотрим меру расхождения между двумя непрерывными функциями распределения F и G / Несмещенной оценкой функционала 9(F, G) является [/-статистика / \ -і / \ -і где ядро 7. Ранговый тест Вилкоксона Пусть УІ,..., Ym и Z\,..., Zn - выборки из независимых одинаково распределенных случайных величин с функциями распределения Fy и Fz соответственно. Предположим, что эти функции распределения непрерывны. Для проверки нулевой гипотезы, состоящей ВТОМ, что Fy = Fz = F служит статистика m где Rj - ранг случайной величины Y3 в Y\,..., Ym, Z\..., Zn, те. т п 1=1 1=1 Можно статистику Т представить в форме [/-статистики. Если положить (Лі,...,Xm+n) = (Уі,..., Ym, Z\..., Zn), 8 В работе [38] рассматривается двухвыборочная обобщенная [/-статистика следующего вида- пусть имеются повторяющиеся измерения, взятые у одной и той же особи, например, кровяное давление, измеренное на правой и левой руках или измерения двух глаз одной и той же особи. Тогда Х[г ,...,Х -сгруппированные измерения, взятые у г-ой особи в первой выборке, аналогично У/ ,..., Yik - сгруппированные измерения для второй выборки. Тогда можно рассмотреть [/-статистику 9. (По работе [30]). Пусть Х\,..., Хп - последовательность независимых случайных величин. Рассматривается гипотеза Щ : Хг, г = 1,..., п имеют функцию распределения F(x), против альтернативы НА - Хи г = 1,...,т имеют функцию распределния F(x), а Хи г = г + 1,..., п имеют функцию распределения G(x). При этом F(x) ф G(x) при некотором х, величина т неизвестна. Вводится обозначение т = [An], 0 А 1. Тестовой статистикой является
Ядро h может быть симметричным или антисимметричным и определяется поставленной задачей, например, если предположить, что F{x) - симметрична относительно нуля, a G(x) - несимметрична относительно нуля, то h{u,v) = -(u + v) среднее Уолша. В главе б рассматривается несколько примеров {/-статистик в теории случайных графов.
Специальные приложения: [/-статистики на графах
Пример 2. Пусть G = V,E - граф, в котором множество вершин является последовательностью из п независимых случайных величин Xi,...,Xn: V(G) = {Х\,...,Хп}. Пусть ядро Фгі im{X\, ..,Хт) принимает значение 1, если вершины Х\,...,Хт образуют цикл, и значение 0 в противном случае. Тогда [/-статистика определяет количество циклов длины т в случайном графе G, а величина общее число циклов в графе G. Рассмотрим примеры многовыборочных {/-статистик
Пример 3. Пусть G = V,E - граф, состоящий из с связных компонент. Вершинами каждой связной компоненты являются множества независимых случайных величин Xji,...,XJUj, j = l,...,c. При этом в j-ой связной компоненте существует дуга между вершинами {Х31]1, Х}1}2), если для них выполнено свойство Ry Определим для mi = Ш2 = ... = mc = 2 ядра Канонические функции имеют следующий вид где Jo(z) = E%i0(—1) :22t(fci)2 - функция Бесселя, а і - мнимая единица. Тогда при min{n, т} -» оо, где т - стандартная нормальная случайная величина Если предположить, что случайные величины Х\,...,Хп - независимые одинаково распределенные с геометрическим распределением с параметром р, и Y\,..., Ym - независимые одинаково распределенные с распределением Пуассона с параметром /І, ТО 6tJ = (1 — р) ехр(—/i(l - р)). Тогда величина
Результатами настоящей работы являются оценки скорости сходимости U-статистик в случае неодинаково распределенных случайных величин к нормальному закону при различных предположениях о существовании моментов канонических функций. При этом полученные теоремы обобщают имеющиеся результаты, касающиеся случая одинаково распределенных случайных величин, в частности дают оценку порядка 0(1/л/п) при минимальных моментных условиях на ядро.
Для многовыборочных [/-статистик доказана центральная предельная теорема при близких к оптимальным условиях на канонические функции для выборок состоящих из независимых не обязательно одинаково распределенных случайных величин. Кроме того, получены оценки скорости сходимости в центральной предельной теореме. Примеры 3 и 4 главы б рассматривают некоторые задачи, в которых появляется необходимость изучения таких {/-статистик.