Содержание к диссертации
Введение
1. О построении сплайн оценок для неизвестных плотностей вероятностей 17
2 Некоторые вспомогательные результаты 25
3. Сильная состоятельность сплайн оценок в равномерной метрике 31
4. Экспоненциальные оценки для распределений сплайн оценок 37
5. Предельное распределение глобального отклонения сплайн оценок плотности распределения 45
6* Скорость сходимости распределения глобального отклонения сплайн оценок к предельному
закону 63
7. Предельное распределение максимального уклонения сплайн оценок 69
- О построении сплайн оценок для неизвестных плотностей вероятностей
- Некоторые вспомогательные результаты
- Сильная состоятельность сплайн оценок в равномерной метрике
- Экспоненциальные оценки для распределений сплайн оценок
- Предельное распределение глобального отклонения сплайн оценок плотности распределения
Введение к работе
Теория непараметрического оценивания является одним из интенсивно развивающихся разделов математической статистики. Непараиетрические методы определяются как методы, не подразумевающие знания функционального вида генеральных распределений, из которых извлечена выборка. К проблемам непараметрического оценивания относятся задачи оценивания функциональных характеристик закона распределения наблюдений. В частности, в последнее время возрастает интерес к задачам оценивания плотности вероятности.
В построении различных эмпирических характеристик случайных величин, в статистическом анализе оценок различных функционалов от плотности вероятностей [II , 71 , 171 (информационное количество Фишера, энтропия, функция опасности отказа и функция надёжности в теории массового обслуживания, оценка кривой регрессии и т.д.) пользуются оценками плотности вероятностей.
Отметим, что первые результаты в этом направлении принадлежат В.И.Гливенко 161 и Н.В.Смирнову 291 э которые в качестве оценки неизвестной плотности вероятности рассматривали гистограмму. В.И.Гливенко 61 установил почти наверное равномерную сходимость гистограммы к непрерывной плотности вероятности, Н.В.Смирнов 30*1 , получил предельный закон распределения для максимума абсолютной величины нормированного уклонения гистограммы от теоретической гладкой плотности. Дальнейшему обобщению результатов Н.В.Смирнова 301 посвящена работа С.Х.ТУманяна 321 - В последующем новый класс оценок, обобщающий гистограмму, был введён в работах Н.Н.Ченцова І37], [38] , М.Розенблатта Ї55І и Е.Парзена [531 .
Пусть ділі) ' ' ) Лп -последовательность независимых одинаково распределённых случайных величин с плотностью распределения \[%) относительно меры Лебега. Один класс оценок для неизвестной плотности вероятности :.Ы , назы-ваемых "ядерными", был предложен М.Роэенблаттом в 1956 году и Е.Парзеном в 1962 году. Класс оценок Розенблатта-Парзена имеет вид ^^ФН^М-^ь Awi п(У\) г0 , а К 1^) -функция, удовлетворяющая некоторым условиям регулярности. М.Розенблатт ^55*1 исследовал асимптотику средней квадратической ошибки
Г.Мания [191 обобщил результат Розенблатта на многомерный случай. Е.Парзен [53] продолжил изучение оценок вида (I). Он доказал асимптотическую несмещённость и асимптотическую нормальность таких оценок. Е.Парзен получил асимптотическое выражение для смещения и среднеквадратического отклонения. Впоследствии внимание многих авторов привлекло исследование различных функциональных характеристик оценки (I). (см.,например,^! , 1561 , 1411 , [121 - U41 » W » tlOl . t3l , І20] , \ЬІ\ ).
Н.Н.Ченцов в 1962 году предложил класс оценок, названных им проекционными. Основная идея его подхода состоит в аппроксимации неизвестной плотности 4Мь (Ч^ некоторым отрезком её ряда Фурье по подходящей системе ортонормированных с весом 1 функций ^1^)^4.1^0)i" . Класс оценок Н.НЛенцова имеют вид N где
В последующем, различные статистические свойства проекционных оценок были изучены многими авторами (см., например, ^52} , [43] , [&[ , \60l , 1251 .
В настоящее время имеются ряд других подходов к непараметрическому оцениванию плотности вероятности І501 » \ь\ * на которых мы не будем останавливаться.
Работы \&\ - ^6б\содержат историю развития методов, сравнение и основные свойства оценок функции плотности.
Важным классом оценок плотности вероятности являются оценки, построенные при помощи сплайн функций.
В теории приближения сплайн функции по сравнению с другими аппаратами обладают по крайней мере двумя важными преимуществами. Во-первых, бесспорно, лучшими аппроксимативными свойствами и, во-вторых, удобствами реализации построенных на их основе алгоритмов на ЭВМ (см., например, ЇД 18*1 , ІЗІ)).
Отметим, что алгоритмы построения кубических сплайнов являются весьма простыми и эффективно реализуются на ЭВМ, при- чём влияние ошибок округления при вычислениях оказывается незначительным. Кроме того, кубические сплайны обладают интересными экстремальными свойствами, связанными с тем фактом, что профиль рейки, проходящей через данные точки с определёнными краевыми условиями принимает форму, при которой потенциальная энергия рейки минимальна (см.[б] і стр.II).
Важно отметить, что при непараметрическом оценивании функции плотности по методу максимального правдоподобия (МП) с использованием штрафных функций естественным образом, как решение оптимизационной задачи, возникают сплайн функции.
Пусть Л1 v Хї.) іИ) лп -независимые, одинаково распределённые случайные величины с общей плотностью распределения %[т) .заданной в интервале (<ЬЬ) , Пусть Но IаЛ і пространство Соболева, тогда решение оптимизационной задачи (здесь (JD -некоторый заданный функционал на По. \^ъЦ такой, при условии, что называется штрафной МП-оценкой по выборке \ ді XlN >»чЛУ\) и она является полиномиальной сплайн функцией степени ц (см. 159) ).
Впервые в работе І42І была предложена непараметрическая _ 7 - оценка неизвестной плотности вероятности, основанная на параболической сплайн функции. В этой работе даны достаточные условия сходимости оценки плотности параболического сплайна.
М.Розенблатт и К.С.Лии [48^ рассматривали в качестве оценки неизвестной плотности распределения 4^ производную кубической сплайн функции. Они изучали асимптотическое поведение смещения, дисперсии и ковариации сплайн оценки.
Асимптотика среднеквадратической ошибки сплайн оценки была получена в работе Г.Ваба 161} Использованию сплайн функций в регрессионных моделях посвящена работа [62] .
В работе ^491 найдено предельное распределение квадрати-ческой меры отклонения сплайн оценки плотности вероятностей.
Автор работы \.4А~\ вводит три типа сплайн оценок для неизвестной плотности распределения и приводит необходимое и достаточное условие для сходимости почти наверное в равномерной метрике этих оценок к истинной плотности вероятности.
К установлению дальнейших статистических свойств сплайн оценок посвящена данная диссертационная работа. В диссертации приведены экспоненциальные оценки для распределений сплайн оценок, установлено предельное распределение квадратичной меры отклонения сплайн оценок, найдено впервые предельное распределение максимального уклонения сплайн оценок. Полученные результаты позволяют строить критерии согласия для проверки гипотезы о плотности распределения, а также построить доверительную область для значений неизвестной плотности распределения.
Переходим к обзору результатов диссертации.
В работе принята следующая нумерация теорем и формул, _ 8 -самостоятельная в каждом параграфе* При ссылках на теорему или формулу другого параграфа номер параграфа ставится впереди. Например (3.5) означает ссылку на формулу 5 параграфа 3. Работа состоит из введения и семи параграфов* В предлагаемой работе в качестве оценок плотности распределения сосредоточенной на отрезке [о,і] принята производная от кубического сплайна и изучены различные свойства этой оценки.
В I изложено построение сплайн оценки.
В 2 приведены некоторые вспомогательные факты,которые применяются в последующем в доказательстве основных результатов диссертации.
В 3 найдено (теорема 3.2) необходимое и достаточное условие для сходимости почти наверное в равномерной метрике сплайн оценок SnW и Н*\ »а именно: при условии,что И->0, S'„W- $W| ->o J2LH _» о при v\->oa ,для того чтобы с вероятностью єдинії ница os out необходимо и достаточно, чтобы функция QU) была сосредоточенной и непрерывной на \?)0 плотностью распределения относительно меры Лебега.
Отметим, что аналогичные результаты для оценок типа Парзена-Розенбдатта и Н.Ченцова установлены в работах [241 , [523 Дб7] .
В 4 изучаются сплайн оценки вида (1.8) Рассмотрим случайную величину Ін^ - , > x t Ь,і] где OnW определена в (1,8-) С Ь: Ті-ьОЛпТг -ъ- оо при ft -> 0 . Обозначим через ПДЬІ - семиинвариант к -го порядка (^zi-Ai " V случайной величины .*) и пусть Т - случайная величина с нормальным распределением x(t) с параметрами (в,!) . В теореме 3.1 установлено, что при у\ -> оо Ml*w\ ^\S\ > ^-^- ,ъЛ mi* SUP 1 )<{]-%) югч ^mW $ЇГ GnU) о L о J
В последующих теоремах этого параграфа приводятся формулы для вероятностей больших уклонений случайной величины ?\Ы. и устанавливается экспоненциальная оценка сверху для вероятностей Р Н*Ы^Ь Г'0'
Отметим» что подробные результаты для оценок Парзена-Розенблатта получены в [її] , а для оценок Ченцова в [341
5 посвящен исследованию предельного распределения глобального отклонения сплайн оценки от истинной плотности.
Положим
0 "" o0 где OSrf)некоторая весовая функция, <*\>)1г ) = ^- ll-^k-4
,it-V1^ і - 1-1 6U\s t- S - II - *\<-i )[\-^f]
IcMlH бЫв'*".. Itg 1-е К ш (« '0 S|d-i|(5,d^i^^ к ii-M(<5,
,|i+(i-^)(&ia,-Gld-11 -+ * fil-U^io-ii -cw,b(i-(i-i01} u6UI-6lM + S d,o ) \,« - *
, если сі - о О если (Лф0 ^^,,= .1^, h!i мц ^L-l - - ЇМ , г - Ш [і] -целая часть числа { , d - L- К . Ь (,4^-ЬД^} ^),
В теореме 5.1 утверждается, что распределение случайной величины при У\ -"> <*> сходится к нормальному закону со средним и дисперсией 1 .
Отметим, что теорема 5.1 уточняет результат К.С.Лии [49] в смысле ослаблений условий на <|(х) . В [49] предполагалось, что i(/x:) 6 L^to,ll , а в теореме 5.1 требуется только
Здесь же издаются асимптотические поведения критерия согласия, основанного на In.
Пусть нам нужно проверить гипотезу Но : тМ- тУЧ где ^Р (^пс^ -заданная плотность распределения, относительно последовательности альтернатив
Цу\ ^ W - i>W + Чп %W ^*\0 ПРИ *-*«* О)
Мы можем проверить Н0 против альтернативы (3), используя для этой цели статистику Тп и выбирая критическую область вида iTy^A^i , где по теореме 5.1 при y\->co - ІЗ - id - Ао -v >i"V\ Аа g ) Ad означает \Д- & і -квантиль стандартного нормального распределения, т.е. Ф(, Jd]= 1-і , а /\0 и \о о суть параметры, фигурирующие в теореме 5.1, вычисленные при гипотезе Н0 . Оказывается, что для таких альтернатив критерий, основанный на (^ , имеет нетривиальную предельную мощность. Точнее справедливо (теорема 5.2), что
1 - Ф I Л*- So"1 \ fwaw d-x
В ^#э, используя рассуждения, сделанные при доказательстве теоремы 5.1, получена следующая
Теорема 6.1. Если на отрезке [0,0 ${*) имеет вторую производную и ^ VO L» L р ^j , -l
Аналогичные теоремам 5.1 и 6.І результаты для оценок Парзена-Розенблатта и Ченцова, получены в [35] , [36] , соответственно.
Одной из важных задач в непараметрической теории оценивания является исследование максимума модуля уклонения оценки плотности распределения от {ъ).
Актуальность этой задачи была отмечена, например, в работах [411 и t54] . Исследование максимума модуля уклонения оценки от і (к) по отрезку вещественной прямой позволяет, в частности, строить асимптотические полосы для непрерывной плотности.
Предельное распределение максимума модуля уклонения оценок типа Парзена-Розенблатта впервые было найдено в [.411 Из работы Бикела и Розенблатта [4П следует, что нахождение предельного распределения максимума модуля уклонения оценки типа Парзена-Розенблатта по отрезку сводится к нахождению предельного распределения максимума модуля стационарного гауссовского процесса на большом интервале. Уточнению и обобщению результатов Бикела и Розенблатта посвящены работы [.131 » [141 .
В 7 диссертации исследуется максимум модуля уклонения сплайн оценок плотности вероятностей. Эта задача сведена к задаче нахождения предельного распределения максимума модуля гауссовского локально стационарного процесса на большом интер-. вале.
Основной результат этого параграфа утверждает, что при некоторых условиях на 1г\ , 1[г)
Л i~-'i.n _ І лі ,-г, ^*йии Ms^*\»ъл\К\^ k-w для всех где о<ІН ) " > - іл^
4 . й .і ' * \п~ ~ ЦіЦ^ * ^ V ^Н^ a yN определено в 7, стр. 93«
Основные результаты диссертации опубликованы в [211 -[23J. Они докладывались на Всесоюзном семинаре по теории многоком-панентных случайных систем (Ташкент, 1982), на Ш-Ферганской. конференции по предельным теоремам теории вероятностей (Фергана, 1983), на заседании семинара "Избранные задачи теории случайных процессов и полей" в МГУ им, М.В.Ломоносова,' на городском семинаре кафедры теории вероятностей и математической статистики ТашГУ им. В.И.Ленина и "Асимптотические метода в математической статистике" в Институте математики им» В.И.Романовского, а также на ежегодных конференциях профессорско-преподавательского состава Ташкентского электротехнического института связи.
Автор выражает глубокую благодарность своим научным руководителям члену-корреспонденту АН.УзССР, профессору .. Т.А.Азларову и ст. н.с. кандидату физ.-мат.наук Ш.А.Хаши-мову за постановку задачи, постоянное внимание к работе и многочисленные полезные обсуждения*
О построении сплайн оценок для неизвестных плотностей вероятностей
Одной из важных задач в непараметрической теории оценивания является исследование максимума модуля уклонения оценки плотности распределения от {ъ).
Актуальность этой задачи была отмечена, например, в работах [411 и t54] . Исследование максимума модуля уклонения оценки от і (к) по отрезку вещественной прямой позволяет, в частности, строить асимптотические полосы для непрерывной плотности.
Предельное распределение максимума модуля уклонения оценок типа Парзена-Розенблатта впервые было найдено в [.411 Из работы Бикела и Розенблатта [4П следует, что нахождение предельного распределения максимума модуля уклонения оценки типа Парзена-Розенблатта по отрезку сводится к нахождению предельного распределения максимума модуля стационарного гауссовского процесса на большом интервале. Уточнению и обобщению результатов Бикела и Розенблатта посвящены работы [.131 » [141 . диссертации исследуется максимум модуля уклонения сплайн оценок плотности вероятностей. Эта задача сведена к задаче нахождения предельного распределения максимума модуля гауссовского локально стационарного процесса на большом интервале.
Некоторые вспомогательные результаты
Теория непараметрического оценивания является одним из интенсивно развивающихся разделов математической статистики. Непараиетрические методы определяются как методы, не подразумевающие знания функционального вида генеральных распределений, из которых извлечена выборка. К проблемам непараметрического оценивания относятся задачи оценивания функциональных характеристик закона распределения наблюдений. В частности, в последнее время возрастает интерес к задачам оценивания плотности вероятности.
Сильная состоятельность сплайн оценок в равномерной метрике
В построении различных эмпирических характеристик случайных величин, в статистическом анализе оценок различных функционалов от плотности вероятностей [II , 71 , 171 (информационное количество Фишера, энтропия, функция опасности отказа и функция надёжности в теории массового обслуживания, оценка кривой регрессии и т.д.) пользуются оценками плотности вероятностей.
Экспоненциальные оценки для распределений сплайн оценок
Отметим, что первые результаты в этом направлении принадлежат В.И.Гливенко 161 и Н.В.Смирнову 291 э которые в качестве оценки неизвестной плотности вероятности рассматривали гистограмму. В.И.Гливенко 61 установил почти наверное равномерную сходимость гистограммы к непрерывной плотности вероятности, Н.В.Смирнов 30 1 , получил предельный закон распределения для максимума абсолютной величины нормированного уклонения гистограммы от теоретической гладкой плотности. Дальнейшему обобщению результатов Н.В.Смирнова 301 посвящена работа С.Х.ТУманяна 321
Предельное распределение глобального отклонения сплайн оценок плотности распределения
Рассмотрим в качестве оценки для %{х) статистику (1.8).
В первом пункте приведены вспомогательные результаты и введены необходимые обозначения.
Во втором пункте задача нахождения максимума модуля уклонения сплайн оценок сведена в задаче нахождения предельного распределения максимума модуля гауссовского локально стационарного процесса.