Содержание к диссертации
Введение
1 Энтропия и информационное расстояние 36
1.1 Основные определения и обозначения 36
1.2 Энтропия дискретных распределений с ограниченным математическим ожиданием 39
1.3 Логарифмическая обобщенная метрика на множестве дискретных распределений 43
1.4 Компактность функций от счетного множества аргументов . 46
1.5 Непрерывность информационного расстояния Кульбака — Лейблера — Санова 49
1.6 Выводы 67
2 Вероятности больших уклонений 68
2.1 Вероятности больших уклонений функций от числа ячеек с заданным заполнением 68
2.1.1 Локальная предельная теорема 68
2.1.2 Интегральная предельная теорема 70
2.1.3 Информационное расстояние и вероятности больших уклонений разделимых статистик 75
2.2 Вероятности больших уклонений разделимых статистик, не удовлетворяющих условию Крамера 81
2.3 Выводы 90
3 Асимптотические свойства критериев согласия 92
3.1 Критерии согласия для схемы выбора без возвращения . 92
3.2 Асимптотическая относительная эффективность критериев согласия 94
3.3 Критерии, основанные на числе ячеек в обобщенных схемах размещения 95
3.4 Выводы 98
Заключение 99
Литература 103
- Энтропия дискретных распределений с ограниченным математическим ожиданием
- Непрерывность информационного расстояния Кульбака — Лейблера — Санова
- Информационное расстояние и вероятности больших уклонений разделимых статистик
- Критерии, основанные на числе ячеек в обобщенных схемах размещения
Введение к работе
Объект исследования и актуальность темы. В теории статистического анализа дискретных последовательностей особое место занимают критерии согласия для проверки, возможно, сложной нулевой гипотезы, которая заключается в том, что для случайной последовательности pQ)?=i такой, что
Хі Є Ім,і= 1,...,n, Ім = {о, і,..., M}, для любых і = 1,..., п, и для любого к Є їм вероятность события {Хі = к} не зависит от г. Это означает, что последовательность (Хі)f=1 в некотором смысле стационарна.
В ряде прикладных задач в качестве последовательности (Х{)=1 рассматривается последовательность цветов шаров при выборе без возвращения до исчерпания из урны, содержащей rik — 1 > 0 шаров цвета к, к Є їм-Будем обозначать множество таких выборок Т(п0 - 1, ...,пд/ — 1). Пусть всего в урне содержится п — 1 шаров, м n-l= (nfc-l).
Обозначим через г(к) _ r(fc) r(fc) последовательность номеров шаров цвета к в выборке. Рассмотрим последовательность h« = (^,...,)). Mfc)=rifc), ^ = ^-^ = 2,...,^-1, , _ (fc)
Последовательность h^ определена при помощи расстояний между местами соседних шаров цвета к таким образом, что *Ф = п.
Совокупность последовательностей h(fc) для всех к Є їм однозначно определяет последовательность (Х{)^=1. Последовательности hk для разных к зависимы между собой. В частности, любая из них однозначно определяется всеми остальными. Если мощность множества 1м равна 2, то последовательность цветов шаров однозначно определяется последовательностью h() расстояний между местами соседних шаров одного фиксированного цвета. Пусть в урне, содержащей п — 1 шаров двух различных цветов, находится N — 1 шар цвета 0. Можно установить взаимнооднозначное соответствие между множеством M(N-l,n — N) и множеством 9\Пім векторов h(n, N) = (hi,..., /i#) с положительными целочисленными компонентами таких, что
К = п. (0.1)
Множество 9\п,м соответствует множеству всех различных разбиений целого положительного числа п на N упорядоченных слагаемых.
Задав на множестве векторов 9Япд некоторое вероятностное распределение, мы получим соответствующее вероятностное распределение на множестве Wl(N — l,n — N). Множество У\п,ы является подмножеством множества 2Jn,iv векторов с неотрицательными целочисленными компонентами, удовлетворяющими (0.1). В качестве вероятностных распределений на множестве векторов ЯЗпд в диссертационной работе будут рассматриваться распределения вида
Р{%, N) = (гь..., rN)} = Р{& = г„, и = 1,..., N\ & = п}, (0.2) где 6 > , лг — независимые неотрицательные целочисленные случайные величины.
Распределения вида (0.2) в /24/ получили название обобщенных схем размещения п частиц но N ячейкам. В частности, если случайные величины ь... ,лг в (0.2) распределены по законам Пуассона с параметрами Аі,...,Алг соответственно, то вектор h(n,N) имеет полиномиальное распределение с вероятностями исходов
Ри = т——~т~> ^ = 1,---,^-
Лі + ... + л^
Если случайные величины i> >&v в (0.2) одинаково распределены по геометрическому закону V{Zi = k}=Pk-1(l-p),k=l,2,..., где р — любое в интервале 0 < р < 1, то, как отмечено в /25/,/26/, получающаяся обобщенная схема размещения соответствует равномерному распределению на множестве 9^„д. В силу взаимнооднозначного соответствия между множеством dft(N — 1,п — N) и множеством tRn,N получаем равномерное распределение на множестве выборов без возвращения. При этом, вектору расстояний между местами шаров одного цвета взаимно однозначно соответствует вектор частот в обобщенной схеме размещения, и, соответственно, числу расстояний длины г — число ячеек, содержащих ровно г частиц. Для проверки по единственной последовательности №)?=i гипотезы о том, что она получена как результат выбора без возвращения, и каждая такая выборка имеет одну и ту же вероятность \*m(N-l,n-N)\' можно проверить гипотезу о том, что вектор расстояний между местами шаров цвета 0 распределен как вектор частот в соответствующей обобщенной схеме размещения п частиц по N ячейкам.
Как отмечалось в /14/,/38/, особое место при проверке гипотез о распределении векторов частот h(n, N) = (hi,..., h^) в обобщенных схемах размещения п частиц по N ячейкам, занимают критерии, построенные на основе статистик вида ад%,ло) = Л(и (о.з)
Фк «%,%..;$, (0.4) где /j/, v = 1,2,... и ф - некоторые действительнозначные функции,
Мг= Е 1{К = г}, г = 0,1,.... 1/=1
Величины //г в /27/ были названы числом ячеек, содержащих ровно по г частиц.
Статистики вида (0.3) в /30/ получили название разделимых (аддитивно разделимых) статистик. Если функции /„ в (0.3) не зависят от и, то такие статистики были названы в /31/ симметричными разделимыми статистиками.
Для любого г статистика /хг является симметричной разделимой статистикой. Из равенства
ДМ = ДФг (0.5) следует, что класс симметричных разделимых статистик от hu совпадает с классом линейных функций от fir. При этом класс функций вида (0.4) шире класса симметричных разделимых статистик.
В диссертационной работе автор ограничился рассмотрением так называемой центральной области изменения параметров п, N /27/, то есть будет предполагаться, что п, N —+ со так, что
77^7, где 0 < 7 < оо. Пусть
Н0 = (Яо(п,Л0) последовательность простых нулевых гипотез, заключающихся в том, что распределение вектора h(n,N) есть (0.2), где случайные величины i,... ,лг и (0.2) одинаково распределены и P{ti = k}=pk,k = 0,l,2,..., параметры п, N изменяются в центральной области.
Рассмотрим некоторое Р Є (0,1) и последовательность, вообще говоря, сложных альтернатив n = (H(n,N)) таких,что существует ап<м{Р) - максимальное число, для которого при для любой простой гипотезы Н\ є Н(п, N) выполнено неравенство
Р{Фм > ОпАР)} >: 0-Будем отвергать гипотезу Hq(ti,N), если фм > ащм({3). Если существует предел jim ~1пР{0лг > an,N(P)} = ШН), где вероятность для каждого N вычисляется при гипотезе #o(n,iV), то значение j
Если индекс критерия существует, то нижний индекс критерия совпадает с ним. Нижний индекс критерия существует всегда. Чем больше значения индекса критерия (нижнего индекса критерия), тем лучше в рассматриваемом смысле статистический критерий. В /38/ была решена задача построения критериев согласия для обобщенных схем размещения с наибольшим значением индекса критерия в классе критериев, которые отклоняют гипотезу Ho(n,N) при где т > 0 — некоторое фиксированное число, последовательность постоянных едг выбирается, исходя из заданного значения мощности критерия при последовательности альтернатив, фт — действительная функция от т + 1 аргументов.
Индексы критериев определяются вероятностями больших уклонений. Как было показано в /38/, грубая (с точностью до логарифмической эквивалентности) асимптотика вероятностей больших уклонений разделимых статистик при выполнении условия Крамера для случайной величины /() определяется соответствующим информационным расстоянием Куль-бака — Лейблера — Санова (случайная величина ц удовлетворяет условию Крамера, если для некоторого # > 0 производящая функция моментов Mef7? конечна в интервале \t\ < Н /28/).
Вопрос о вероятностях больших уклонений статистик от неограни- ченного числа fir, а также произвольных разделимых статистик, не удовлетворяющих условию Крамера, оставался открытым. Это не позволяло окончательно решить задачу построения критериев для проверки гипотез в обобщенных схемах размещения с наибольшей скоростью стремления к нулю вероятности ошибки первого рода при пссближающихся альтернативах в классе критериев, основанных на статистиках вида (0.4). Актуальность диссертационного исследования определяется необходимостью завершить решение указанной задачи.
Целью диссертационной работы является построение критериев согласия с наибольшим значением индекса критерия (нижнего индекса критерия) для проверки гипотез в схеме выбора без возращения в классе критериев, которые отклоняют гипотезу Щ{п, N) при 0(iv'iv'-"''o'"')>CiV' (0'7) где ф — функция от счетного количества аргументов, и параметры п, N изменяются в центральной области.
В соответствии с целью исследования были поставлены следующие задачи: исследовать свойства энтропии и информационного расстояния Куль-бака — Лейблера — Санова для дискретных распределений со счетным количеством исходов; исследовать вероятности больших уклонений статистик вида (0.4); исследовать вероятности больших уклонений симметричных разделимых статистик (0.3), не удовлетворяющих условию Крамера; - найти такую статистику, что построенный на ее основе критерий со гласия для проверки гипотез в обобщенных схемах размещения имеет наибольшее значение индекса в классе критериев вида (0.7).
Научная новизна: дано понятие обобщенной метрики — функции, допускающей бесконечные значения и удовлетворяющей аксиомам тождества, симметрии и неравенства треугольника. Найдена обобщенная метрика и указаны множества, на которых функции энтропии и информационного расстояния, заданные на семействе дискретных распределений со счетным числом исходов, непрерывны в этой метрике; в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений статистик вида (0.4), удовлетворяющих соответствующей форме условия Крамера; в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера; в классе критериев вида (0.7) построен критерий с наибольшим значением индекса критерия.
Научная и практическая ценность. В работе решен ряд вопросов о поведении вероятностей больших уклонений в обобщенных схемах размещения. Полученные результаты могут быть использованы в учебном процессе по специальностям математическая статистика и теория информации, при исследовании статистических процедур анализа дискретных последовательностях и были использованы в /3/, /21/ при обосновании защищенности одного класса информационных систем. Положения, выносимые на защиту: сведение задачи проверки по единственной последовательности цветов шаров гипотезы от том, что эта последовательность получена в результате выбора без возвращения до исчерпания шаров из урны, содержащей шары двух цветов, и каждый такой выбор имеет одинаковую вероятность, к построению критериев согласия для проверки гипотез в соответствующей обобщенной схеме размещения; непрерывность функций энтропии и информационного расстояния Кульбака — Лейблера — Санова на бесконечномерном симплексе с введенной логарифмической обобщенной метрикой; теорема о грубой (с точностью до логарифмической эквивалентности) асимптотике вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера в обобщенной схеме размещения в семиэксионенциалыюм случае; теорема о грубой (с точностью до логарифмической эквивалентности) асимптотике вероятностей больших уклонений для статистик вида (0.4); - построение критерия согласия для проверки гипотез в обобщенных схемах размещения с наибольшим значением индекса в классе крите риев вида (0.7).
Апробация работы. Результаты докладывалась на семинарах Отдела дискретной математики Математического института им. В. А. Стек-лова РАН, отделения информационной безопасности ИТМиВТ им. С. А. Лебедева РАН и на: пятом Всероссийском симпозиуме по прикладной и промышленной математике. Весенняя сессия, Кисловодск, 2 — 8 мая 2004; шестой Международной Петрозаводской конференция "Вероятностные методы в дискретной математике" 10 — 16 июня 2004; второй Международной конференции "Информационные системы и технологии (IST'2004)", Минск, 8 - 10 ноября 2004;
Международной конференции "Modern Problems and new Trends in Probability Theory", Черновцы, Украина, 19 — 26 июня 2005.
Основные результаты работы использовались в НИР "Апология", выполняемой ИТМиВТ РАН им. С. А. Лебедева в интересах Федеральной службы по техническому и экспортному контролю РФ, и вошли в отчет об исполнении этапа НИР /21/. Отдельные результаты диссертации вошли в отчет но НИР "Разработка математических проблем криптографии" Академии криптографии РФ за 2004 г. /22/.
Основные результаты работы опубликованы в /16/ — /19/. В /20/ содержатся подробные доказательства результатов, опубликованных в /19/.
Автор выражает глубокую благодарность научному руководителю доктору физико-математических наук Ронжину А. Ф. и научному консультанту доктору физико-математических наук старшему научному сотруднику Князеву А. В. Автор выражает признательность доктору физико-математических наук профессору Зубкову А. М. и кандидату физико—математических наук Круглову И. А. за внимание, оказанное работе, и ряд ценных замечаний.
Структура и содержание работы.
В первой главе исследуются свойства энтропии и информационного расстояния для распределений на множестве неотрицательных целых чисел.
В первом параграфе первой главы вводятся обозначения и даются необходимые определения. В частности, используются следующие обозначения: х = (:ro,i, ---)- бесконечномерный вектор со счетным количеством компонент;
Н{х) - -Ex^oXvlnx,,; truncm(x) = (х0,х1,...,хт,0,0,...); SI* = {х, хи > 0, и = 0,1,..., Е~ о х„ < 1}; Sl = {x,xv>0,v = 0,l,...,E?=Qxv= 1}; fi7 = {х Є О, L0 vxv = 7}; %] = {хЄП,Ео»хи<1};
16 мі = e о **v\ &c = Ue>1|5 є Q7) о < M| - 7MJ-1 < 00}.
Понятно, что множество Vt соответствует семейству вероятностных распределений на множестве неотрицательных целых чисел, П7 — семейству вероятностных распределений на множестве неотрицательных целых чисел с математическим ожиданием 7-Если у Є Q, то для є > 0 через Ое(у) будет обозначаться множество
Оє(у) — {х eO,,xv < уие для всех v = 0,1,...}.
Во втором параграфе первой главы доказывается теорема об ограниченности энтропии дискретных распределений с ограниченным математическим ожиданием.
Теорема 1. Об ограниченности энтропии дискретных распределений с ограниченным математическим ожиданием. Для любого жбП7
Я()<Пт), (0.8) F{i) = (7 + 1) ln(7 + 1) - 7 In 7-
Если х Є fi7 соответствует геометрическому распределению с математическим ооісиданием 7; то есть
7 х„ = (1- р)р\ v = 0,1,..., где р = ——,
1 + 7 то имеет место равенство H(x) = F(1).
На утверждение теоремы можно смотреть как на результат формаль- ного применения метода условных множителей Лагранжа в случае бесконечного количества переменных. Теорема о том, что единственное распределение на множестве {к, к + 1, к + 2,...} с данным математическим ожиданием и максимальной энтропией есть геометрическое распределение с данным математическим ожиданием, приведена (без доказательства) в /47/. Автором, тем не менее, дано строгое доказательство.
В третьем параграфе первой главы дается определение обобщенной метрики — метрики, допускающей бесконечные значения.
Для х,у Є Гі определяется функция р(х,у) как минимальное є > О со свойством yve~e <хи< уиеє для всех V = О,1,...
Если такого є не существует, то полагается, что р{х,у) = оо.
Доказывается, что функция р{х,у) — обобщенная метрика на семействе распределений на множестве неотрицательных целых чисел, а также на всем множестве Сі*. Вместо е в определении метрики р{х,у) можно использовать любое другое положительное,число, отличное от 1. Получающиеся при этом метрики будут отличаться на мультипликативную константу. Обозначим через J(x, у) информационное расстояние
00 rf. u=Q Уи
Здесь и далее полагается, что 0 In 0 = 0,01п ^ = 0. Информационное расстояние определено для таких х, у, что xv — 0 для всех и таких, что yv = 0. Если это условие не выполнено, то будем полагать J(S,y) = со. Пусть А С $1. Тогда будем обозначать J{Ay)='mU(x,y).
Положим J(Jb,y) = 00.
В четвертом параграфе первой главы дается определение компактности функций, заданных на множестве П*. Компактность функции от счетного числа аргументов означает, что с любой степенью точности значение функции может быть приближено значениями этой функции в точках, где лишь конечное количество аргументов отлично от нуля. Доказывается компактность функций энтропии и информационного расстояния.
Для любого 0 < 7 < оо функция Н(х) компактна на Ц7].
Если для некоторого 0 < 7о < со то для любых 0<7<оо>г>0 функция \{x) = J(x,p) компактна на множестве Ц7] П Ог(р).
В пятом параграфе первой главы рассматриваются свойства информационного расстояния, задаваемого на бесконечномерном пространстве. По сравнению с конечномерным случаем ситуация с непрерывностью функции информационного расстояния качественно меняется. Показывается, что функция информационного расстояния не является непрерывной на множестве Г2 ни в одной из метрик pi(,y)= E|z„-i/„|, (
00 \ 2 р2{х,у) = sup {x^-ij^.
Доказывается справедливость следующих неравенств для функций энтропии Н(х) и информационного расстояния J(x,p):
1. Для любых х, х' Є fi \Н{х) - Н{х')\ < {ер^ - 1){Н{х) + Н{х')).
2. Если для некоторых х,р є П существует є > 0 такое, что х є Оє(р), то для любого Xі Є Q \J{x,p) - J(x',p)\ < {e**& - l)(H{x) + H{x') + eH{p)).
Из этих неравенств с учетом теоремы 1 следует равномерная непрерывность функций энтропии и информационного расстояния на соответствующих подмножествах fi в метрике р(х,у), а именно,
Для любого 7 такого, что 0 < 7 < со, функция Н(х) равномерно непрерывна на Г2[7] в метрике р(х,у);
Если для некоторого 7о, О < 7о <
20 то для любых 0<7<оиє>0 функция \p{x) = J(xtp) равномерно непрерывна на множестве Ц7] П Оє(р) в метрике р(ж,у).
Метрика р(х, у) подбиралась автором специально, чтобы функции энтропии и информационного расстояния были непрерывны в ней на необходимых подмножествах И
Дается определение неэкстремальности функции. Условие неэкстремальности означает то, что функция не имеет локальных экстремумов, либо функция принимает в локальных минимумах (локальных максимумах) одинаковые значения. Условие неэкстремальности ослабляет требование отсутствия локальных экстремумов. Например, функция sin х на множестве действительных чисел имеет локальные экстремумы, но удовлетворяет условию неэкстремалыюсти.
Пусть для некоторого 7 > 0, область А задается условием
А = {хЄЇ11,ф(х) >а}, (0.9) где ф(х) — действительнозначная функция, а — некоторая действительная константа, inf ф(х) < а < inf ф(х). хЄІІу хЄІЇ-,
И3у,ался вопрос, пР„ каких условиях „а ф„ ф при и_ „ара- q метров п, N в центральной области, ^ —> 7, при всех достаточно больших их значениях найдутся такие неотрицательные целые ко, к\,..., кп, что ко + hi + ... + кп = N,
21 k\ + 2/... + nkn - N
,kq k\ kn . ^'iv"-"iv'0'0'-")>a-
Доказывается, что для этого от функции ф достаточно потребовать неэкстремальное, компактности и непрерывности в метрике р(х,у), а также того, что хотя бы для одной точки х, удовлетворяющей (0.9), для некоторого є > 0 существует конечный момент степени 1 + є Ml+ = і1+єхи < оо. (0.10) и х„ > 0 для любого и = 0,1,....
Во второй главе исследуется грубая (с точностью до логарифмической эквивалентности) асимптотика вероятности больших уклонений функций от Д = (fio,..., цп, 0,...) — числа ячеек с заданным заполнением в центральной области изменения параметров N,n. Грубой асимптотики вероятностей больших уклонений достаточно для изучения индексов критериев согласия.
Пусть случайные величины ^ в (0.2) одинаково распределены и
Р{Сі = к}=рьк = 0,1,...> P(z) — производящая функция случайной величины i — сходится в круге радиуса 1 < R < оо. Следуя /38/, для 0 < z < R обозначим через (z) случайную величину такую, что
22 Обозначим р(.) = (р{ад = о},Р№) = і},...).
Если существует решение z1 уравнения
М(*) = 7, то оно единственно /38/. Всюду в дальнейшем будем предполагать, что Pjfc>0,fc = 0,l,....
В первом пункте первого параграфа второй главы находится асимптотика логарифмов вероятностей вида -т^1пР{й) = ^,...,/ = К}-
Доказывается следующая теорема.
Теорема 2. Грубая локальная теорема о вероятностях больших уклонений. Пусть п, N —* со так, что — ->7>0<7<о, существует z1 — корень уравнения М(г) = 7, с. в. (г7) имеет положительную дисперсию. Тогда для любого к Є Q(n,N) -±\пР{ї1 = Ц = JCk,p(zy)) + 0(^\nN).
Утверждение теоремы следует непосредственно из формулы для совместного распределения /to, А*ь / в /26/ и следующей оценки: если неотрицательные целочисленные величины fii,fi2, ,/ удовлетворяют условию /І1 + 2//2 + ... + 71/ = 71, то число ненулевых величин среди них есть 0(л/п). Это грубая оценка, не претендующая на новизну. Число ненулевых цг в обобщенных схемах размещения не превосходит величины максимального заполнения ячеек, которое в центральной области с вероятностью, стремящейся к 1, не превосходит величины 0(\пп) /25/,/27/. Тем не менее, полученная оценка 0(у/п) выполняется с вероятностью 1 и ее достаточно для получения грубой асимптотики.
Во втором пункте первого параграфа второй главы находится значение предела где адг - последовательность действительных чисел, сходящаяся к некоторому а Є R, ф(х) — действительнозначная функция. Доказывается следующая теорема.
Теорема 3. Грубая интегральная теорема о вероятностях больших уклонений. Пусть выполнены условия теоремы 2, для некоторых г > 0, ( > 0 действительная функция ф{х) компактна, равномерно непрерывна в метрике р на мноэюестве
А = ОгН(р{г1))пПьн] и удовлетворяет условию неэкстремальности на множестве Г27. Если для некоторой константы а такой, что inf ф(х) < а < sup ф(х). х^пі ХЄІК
24 существует вектор ра fi7 П 0r(p(z7)); такой, что
Ф{ра) > а J{{
При дополнительных ограничениях на функцию ф(х) информационное расстояние J{pa,P{zy)) в (2.3) удается вычислить более конкретно. А именно, справедлива следующая теорема. Теорема 4. Об информационном расстоянии. Пусть для некоторого 0 < 7 < со р Є Г27,
Ли некоторвх г > 0, С > 0 действительная функция ф{х) и ее частные производные первого порядка компактны и равномерно непрерывны в обобгценной метрике р{х, у) на множестве
А = Ог{р)ППьн], существуют Т > 0, R > 0, такие, что для всех \t\
0(р(гаЛ)) = а, / ч Xv\Z,t) T,u=oXLJ{Z,t)
Тогда p(za, ta) Є ft, u J({z Є Л,0(ж) = а},р) = J(p(za,ta),p) д _ 9 = 7111 + ta «—^ОФаЛ)) - In 2Wexp{a——0(р(га,іа))}. j/=0 CnEi/ ^_o CX(/
Если функция ф(х) — линейная функция, и функция fix) определена при помощи равенства (0.5), то условие (0.12) превращается в условие Крамера для случайной величины f{,{z)). Условие (0.13) есть форма условия (0.10) и используется при доказательстве наличия в областях вида {х Є Г2, ф(х) > а} хотя бы одной точки из 0(n, N) при всех достаточно больших п, N.
Пустьv(«)(n,iV) = (/гі,... ,/ijv) — вектор частот в обобщенной схеме размещения (0.2). В качестве следствия из теорем 3, 4 формулируется следующая теорема.
Теорема 5. Грубая интегральная теорема о вероятностях больших уклонений симметричных разделимых статистик в обобщенной схеме размещения.
Пусть п, N —> со так, что jfr — 7» 0 < 7 < ; существует z1 — корень уравнения М(г) = j} с. в. (г7) имеет положительную дисперсию и максимальный шаг распределения 1, а — некоторая константа, f(x) — действительная функция, а < Mf(^(z1)), существуют Т > 0,R > 0 такие, что для всех \t\ < Т, 0 < z < R, p„z"e"M < 00, существуют такие \ta\ Тогда для любой последовательности а#, сходящейся к а, 1 і iv = <У Ы Za + taa-ln^P^e^^. i/=0 Эта теорема впервые была доказана А. Ф. Ронжиным в /38/ с использованием метода перевала. Во втором параграфе второй главы исследуются вероятности больших уклонений разделимых статистик в обобщенных cxj^iax разме- v ^ щения в случае невыполнения условию Крамера для случайной величины /((z)). Условие Крамера для случайной величины f{,(z)) не выполняется, в частности, если (z) — пуассоновская случайная величина, а /(х) = х2. Заметим, что условие Крамера для самих разделимых статистик в обобщенных схемах размещения выполняется всегда, так как при любых фиксированных п, N число возможных исходов в этих схемах конечно. Как отмечено в /2/, если условие Крамера не выполнено, то для отыскания асимптотики вероятностей больших уклонений сумм одинаково рас- пределеипых случайных величин требуется выполнение дополнительных , fусловий правильного изменения на распределение слагаемого. В работе ( рассматривается случай, соответствующий выполнению условия (3) в /2/, то есть семиэкспоненциальный случай. Пусть P{i = к} > О для всех 28 к = 0,1,... и функцию р(к) = -\пР{^ = к}, можно продолжить до функции непрерывного аргумента — правильно меняющейся функции порядка р, 0 < р < оо /45/, то есть положительной функции такой, что при t —> оо P(tx) , rv P(t) Пусть функция f(x) при достаточно больших значениях аргумента — положительная строго возрастающая, правильно меняющаяся функция порядка д>1,^<|<1. Определим функцию ip(x), положив для достаточно больших X ф)=р(Г\х)). На остальной числовой оси <р(х) может быть задана произвольным ограниченным измеримым образом. Тогда с. в. /(i) имеет моменты любого порядка и не удовлетворяет условию Крамера, ip(x) = о(х) при х —> оо, и справедлива следующая Теорема 6. Пусть при достаточно больших х функция ip(x) монотонно не убывает, функция ^р монотонно не возрастает, п, N —-> оо так, что jf — А, 0 < Л < оо; z\ — единственный корень уравнения Mi(.z) = Л, тогда для любого с > b{z\), где b(z) = М/(1(2)), существует предел &Щ1пР{ь"(л(п,лг)) > cN] = "(с~b{zx))l Ь»"ї Из теоремы б следует, что при невыполнении условия Крамера предел (^ lim ~\nP{LN(h(n,N)) > cN} = 0, "" Dv Л/—too iV и что доказывает справедливость гипотезы, высказанной в /39/. Таким обра- ъ зом, значение индекса критерия согласия в обобщенных схемах размещения -^ при невыполнении условия Крамера всегда равно нулю. При этом в классе критериев, когда условие Крамера выполняется, строятся критерии с ненулевым значением индекса. Отсюда можно сделать вывод, что использовать критерии, статистика которых не удовлетворяет условию Крамера, например, критерий хи—квадрат в полиномиальной схеме, для построения критериев согласия для проверки гипотез при несближающихся альтернативах в указанном смысле асимптотически неэффективно. Подобный вывод был сделан в /54/ по результатам сравнения статистик хи—квадрат и отношения максимального правдоподобия в полиномиальной схеме. В третьей главе решается задача построения критериев согласия с наибольшим значением индекса критерия (наибольшим значением нижнего индекса критерия) для проверки гипотез в обобщенных схемах размещения. На основе результатов первой и второй глав о свойствах функций энтропии, информационного расстояния и вероятностей больших уклонений в третьей главе находится функция вида (0.4) такая, что критерий согласия, построенный на ее основе, имеет наибольшее значение точного нижнего индекса в рассматриваемом классе критериев. Доказывается следующая теорема. Теорема 7. О существовании индекса. Пусть выполнены условия теоремы 3, 0 < /3 < 1, Н = Нр(і),Нр(2>,... — последовательность альтернативных распределений, 0^(/3, iV) - максимальное число, для которого при гипотезе НР(ло выполнено неравенство Р{ф(^^,...)>аф(Р,М)}>(3, существует предел limjv-»oo о>ф{Р, N) — а. Тогда в точке (/З, Н) существует индекс критерия ф Зфф,К) = 3{{ф{х) >а,хе ЗД.Р^)). При этом зф(0,й)<Шй), iV'JV'"v >N NP{e(27) = fc}' В Заключении излагаются полученные результаты в их соотношении с общей целью и конкретными задачами, поставленными в диссертации, формулируются выводы но результатам диссертационного исследования, указываются научная новизна, теоретическая и практическая ценность работы, а также конкретные научные задачи, которые выявлены автором и решение которых представляется актуальным. Краткий обзор литературы по теме исследования. В диссертационной работе рассматривается задача построения критериев согласия в обобщенных схемах размещения с наибольшим значением индекса критерия в классе функций вида (0.4) при несближающихся альтернативах. Обобщенные схемы размещения были введены В. Ф. Колчиным в /24/. Величины fir в полиномиальной схеме были названы числом ячеек с г дробинками и подробно изучены в монографии В. Ф. Колчина, Б. А. Севастьянова, В. П. Чистякова /27/. Величины \іг в обобщенных схемах размещения исследовались В. Ф. Колчиным в /25/,/26/. Статистики вида (0.3) впервые были рассмотрены Ю. И. Медведевым в /30/ и получили название разделимых (аддитивно разделимых) статистик. Если функции /„ в (0.3) не зависят от и, такие статистики были названы в /31/ симметричными разделимыми статистиками. Асимптотика моментов разделимых статистик в обобщенных схемах размещения была получена Г. И. Ивченко в /9/. Предельные теоремы для обобщенной схемы размещения рассматривались также в /23/. Обзоры результатов предельных теоремах и критериях согласия в дискретных вероятностых схемах типа (0.2) были даны В. А. Ивановым, Г. И. Ивченко, Ю. И. Медведевым в /8/ и Г. И. Ивченко, Ю. И. Медведевым, А. Ф. Ронжиным в /14/. Критерии согласия для обобщенных схем размещения были рассмотрены А. Ф. Ронжиным в /38/. Сравнение свойств статистических критериев в указанных работах проводилось с точки зрения относительной асимптотической эффективности. Рассматривались случае сближающихся (контигуальных) гипотез — эффективность в смысле Питмена и несближающихся гипотез — эффективность в смысле Бахадура, Ходжеса — Лемана и Чернова. Связь между различными видами относительной эффективности статистических критериев обсуждается, например, в /49/. Как следует из результатов Ю. И. Медведева в /31/ о распределении разделимых статистик в полиномиаль- ной схеме, наибольшую асимптотическую мощность при сближающихся гипотезах в классе разделимых статистик от частот исходов в полиномиальной схеме имеет критерий, основанный на основе статистики хи—квадрат. Данный результат был обобщен А. Ф. Ронжиным для схем типа (0.2) в /38/. И. И. Викторовой и В. П. Чистяковым в /4/ построен оптимальный критерий для полиномиальной схемы в классе линейных функций от fir. А. Ф. Ронжин в /38/ построил критерий, который при последовательности несближающихся с нулевой гипотезой альтернатив минимизирует логарифмическую скорость стремления вероятности ошибки первого рода к нулю, в классе статистик вида (0.6). Сравнение относительной эффективности статистик хи—квадрат и отношения максимального правдоподобия при сближающихся и несближающихся гипотезах было проведено в /54/. В диссертационной работе рассматривался случай несближающися гипотез. Изучение относительной статистической эффективности критериев при несближающихся гипотезах требует исследования вероятностей сверхбольших уклонений — порядка 0(у/п). Впервые такая задача для полиномиального распределения с фиксированным количеством исходов решалась И. Н. Сановым в /40/. Асимптотическая оптимальность критериев согласия для проверки простых и сложных гипотез для полиномиального распределения в случае конечного числа исходов при несближающихся альтернативах рассматривалась в /48/. Свойства информационного расстояния ранее рассматривались Кульбаком, Лейблером /29/,/53/ и И. II. Сановым /40/, а также Хеффдингом /48/. В указанных работах непрерывность информационного расстояния рассматривалась на конечномер- ных пространствах в евклидовой метрике. Рядом автором рассматривалась последовательность пространств с растущей размерностью, например, в работе Ю. В. Прохорова /37/ или в работе В. И. Богачева, А. В. Колесникова /1/. Грубые (с точностью до логарифмической эквивалентности) теоремы о вероятностях больших уклонений разделимых статистик в обобщенных схемах размещения при выполнении условия Крамера были получены А. Ф. Роижиным в /38/. А. Н. Тимашевым в /42/,/43/ получены точные (с точностью до эквивалентности) многомерные интегральные и локальные предельные теоремы о вероятностях больших уклонений вектора fir^n, N),..., firs(n,N), где s, гі,..., rs — фиксированные целые числа, О < п < ... < та. Исследование вероятностей больших уклонений при невыполнении условия Крамера для случая независимых случайных величин проведено в работах А. В. Нагаева /35/. Метод сопряженных распределений описан у Феллера /45/. Статистические задачи проверки гипотез и оценивания параметров в схеме выбора без возвращения в несколько иной постановке рассматривались Г. И. Ивченко, В. В. Левиным, Е. Е. Тимониной /10/, /15/, где решались задачи оценивания для конечной совокупности, когда число ее элементов является неизвестной величиной, доказывалась асимптотическая нормальность многомерных S — статистик от s независимых выборок в схеме выбора без возвращения. Задача изучения случайных величин, свя- занных с повторениями в последовательностях независимых испытаний исследовалась А. М. Зубковым, В. Г. Михайловым, А. М. Шойтовым в /6/, /7/, /32/, /33/, /34/. Анализ основных статистических задач оценивания и проверки гипотез в рамках общей модели Маркова—Пойа проведен Г. И. Ивченко, Ю. И. Медведевым в /13/, вероятностный анализ которой был дан в /11/. Способ задания неравновероятиых мер на множестве комбинаторных объектов, не сводимый к обобщенной схеме размещения (0.2) был описан в Г. И. Ивченко, Ю. И. Медведевым /12/. Ряд задач теории вероятностей, в которых ответ может быть получен в результате вычислений но рекуррентным формулам, указан А. М. Зубковым в /5/. Неравенства для энтропии дискретных распределений были получены в /50/ (цитируется но реферату А. М. Зубкова в РЖМат). Если {pn}Lo — распределение вероятностей, Рп = Е Рк, к=п A = supp^Pn+i < со (0.14) F(x) = (х + 1) 1п(ж + 1)-х\пх, то для энтропии Я этого вероятностного распределения н = - Epfcfopfc справедливы неравенства Я + (In -f-) (ХРп - Рп+1) < F(X) < Я + (Apn - P„+i)(ln -—-), Л п-0 п=0 "п+1 и неравенства превращаются в равенства, если Рп= {xf1)n+vn>Q. (0.15) Заметим, что экстремальное распределение (0.15) есть геометрическое распределение с математическим ожиданием Л, а функция F(X) от параметра (0.14) совпадает с функцией от математического ожидания в теореме 1. Если индекс критерия существует, то нижний индекс критерия совпадает с ним. Нижний индекс критерия существует всегда. Чем больше значения индекса критерия (нижнего индекса критерия), тем лучше в рассматриваемом смысле статистический критерий. В /38/ была решена задача построения критериев согласия для обобщенных схем размещения с наибольшим значением индекса критерия в классе критериев, которые отклоняют гипотезу Ho(n,N) при где т 0 — некоторое фиксированное число, последовательность постоянных едг выбирается, исходя из заданного значения мощности критерия при последовательности альтернатив, фт — действительная функция от т + 1 аргументов. Индексы критериев определяются вероятностями больших уклонений. Как было показано в /38/, грубая (с точностью до логарифмической эквивалентности) асимптотика вероятностей больших уклонений разделимых статистик при выполнении условия Крамера для случайной величины /() определяется соответствующим информационным расстоянием Куль-бака — Лейблера — Санова (случайная величина ц удовлетворяет условию Крамера, если для некоторого # 0 производящая функция моментов Mef7? конечна в интервале \t\ Н /28/). Вопрос о вероятностях больших уклонений статистик от неограни ченного числа fir, а также произвольных разделимых статистик, не удовлетворяющих условию Крамера, оставался открытым. Это не позволяло окончательно решить задачу построения критериев для проверки гипотез в обобщенных схемах размещения с наибольшей скоростью стремления к нулю вероятности ошибки первого рода при пссближающихся альтернативах в классе критериев, основанных на статистиках вида (0.4). Актуальность диссертационного исследования определяется необходимостью завершить решение указанной задачи. Целью диссертационной работы является построение критериев согласия с наибольшим значением индекса критерия (нижнего индекса критерия) для проверки гипотез в схеме выбора без возращения в классе критериев, которые отклоняют гипотезу Щ{п, N) при где ф — функция от счетного количества аргументов, и параметры п, N изменяются в центральной области. В соответствии с целью исследования были поставлены следующие задачи: - исследовать свойства энтропии и информационного расстояния Куль-бака — Лейблера — Санова для дискретных распределений со счетным количеством исходов; - исследовать вероятности больших уклонений статистик вида (0.4); - исследовать вероятности больших уклонений симметричных разделимых статистик (0.3), не удовлетворяющих условию Крамера; - найти такую статистику, что построенный на ее основе критерий со гласия для проверки гипотез в обобщенных схемах размещения имеет наибольшее значение индекса в классе критериев вида (0.7). Научная новизна: - дано понятие обобщенной метрики — функции, допускающей бесконечные значения и удовлетворяющей аксиомам тождества, симметрии и неравенства треугольника. Найдена обобщенная метрика и указаны множества, на которых функции энтропии и информационного расстояния, заданные на семействе дискретных распределений со счетным числом исходов, непрерывны в этой метрике; - в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений статистик вида (0.4), удовлетворяющих соответствующей форме условия Крамера; - в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера; - в классе критериев вида (0.7) построен критерий с наибольшим значением индекса критерия. Научная и практическая ценность. В работе решен ряд вопросов о поведении вероятностей больших уклонений в обобщенных схемах размещения. Полученные результаты могут быть использованы в учебном процессе по специальностям математическая статистика и теория информации, при исследовании статистических процедур анализа дискретных последовательностях и были использованы в /3/, /21/ при обосновании защищенности одного класса информационных систем. Положения, выносимые на защиту: - сведение задачи проверки по единственной последовательности цветов шаров гипотезы от том, что эта последовательность получена в результате выбора без возвращения до исчерпания шаров из урны, содержащей шары двух цветов, и каждый такой выбор имеет одинаковую вероятность, к построению критериев согласия для проверки гипотез в соответствующей обобщенной схеме размещения; - непрерывность функций энтропии и информационного расстояния Кульбака — Лейблера — Санова на бесконечномерном симплексе с введенной логарифмической обобщенной метрикой; - теорема о грубой (с точностью до логарифмической эквивалентности) асимптотике вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера в обобщенной схеме размещения в семиэксионенциалыюм случае; Обобщенные схемы размещения были введены В. Ф. Колчиным в /24/. Величины fir в полиномиальной схеме были названы числом ячеек с г дробинками и подробно изучены в монографии В. Ф. Колчина, Б. А. Севастьянова, В. П. Чистякова /27/. Величины \іг в обобщенных схемах размещения исследовались В. Ф. Колчиным в /25/,/26/. Статистики вида (0.3) впервые были рассмотрены Ю. И. Медведевым в /30/ и получили название разделимых (аддитивно разделимых) статистик. Если функции /„ в (0.3) не зависят от и, такие статистики были названы в /31/ симметричными разделимыми статистиками. Асимптотика моментов разделимых статистик в обобщенных схемах размещения была получена Г. И. Ивченко в /9/. Предельные теоремы для обобщенной схемы размещения рассматривались также в /23/. Обзоры результатов предельных теоремах и критериях согласия в дискретных вероятностых схемах типа (0.2) были даны В. А. Ивановым, Г. И. Ивченко, Ю. И. Медведевым в /8/ и Г. И. Ивченко, Ю. И. Медведевым, А. Ф. Ронжиным в /14/. Критерии согласия для обобщенных схем размещения были рассмотрены А. Ф. Ронжиным в /38/. Сравнение свойств статистических критериев в указанных работах проводилось с точки зрения относительной асимптотической эффективности. Рассматривались случае сближающихся (контигуальных) гипотез — эффективность в смысле Питмена и несближающихся гипотез — эффективность в смысле Бахадура, Ходжеса — Лемана и Чернова. Связь между различными видами относительной эффективности статистических критериев обсуждается, например, в /49/. Как следует из результатов Ю. И. Медведева в /31/ о распределении разделимых статистик в полиномиальной схеме, наибольшую асимптотическую мощность при сближающихся гипотезах в классе разделимых статистик от частот исходов в полиномиальной схеме имеет критерий, основанный на основе статистики хи—квадрат. Данный результат был обобщен А. Ф. Ронжиным для схем типа (0.2) в /38/. И. И. Викторовой и В. П. Чистяковым в /4/ построен оптимальный критерий для полиномиальной схемы в классе линейных функций от fir. А. Ф. Ронжин в /38/ построил критерий, который при последовательности несближающихся с нулевой гипотезой альтернатив минимизирует логарифмическую скорость стремления вероятности ошибки первого рода к нулю, в классе статистик вида (0.6). Сравнение относительной эффективности статистик хи—квадрат и отношения максимального правдоподобия при сближающихся и несближающихся гипотезах было проведено в /54/. В диссертационной работе рассматривался случай несближающися гипотез. Изучение относительной статистической эффективности критериев при несближающихся гипотезах требует исследования вероятностей сверхбольших уклонений — порядка 0(у/п). Впервые такая задача для полиномиального распределения с фиксированным количеством исходов решалась И. Н. Сановым в /40/. Асимптотическая оптимальность критериев согласия для проверки простых и сложных гипотез для полиномиального распределения в случае конечного числа исходов при несближающихся альтернативах рассматривалась в /48/. Свойства информационного расстояния ранее рассматривались Кульбаком, Лейблером /29/,/53/ и И. II. Сановым /40/, а также Хеффдингом /48/. В указанных работах непрерывность информационного расстояния рассматривалась на конечномерных пространствах в евклидовой метрике. Рядом автором рассматривалась последовательность пространств с растущей размерностью, например, в работе Ю. В. Прохорова /37/ или в работе В. И. Богачева, А. В. Колесникова /1/. Грубые (с точностью до логарифмической эквивалентности) теоремы о вероятностях больших уклонений разделимых статистик в обобщенных схемах размещения при выполнении условия Крамера были получены А. Ф. Роижиным в /38/. А. Н. Тимашевым в /42/,/43/ получены точные (с точностью до эквивалентности) многомерные интегральные и локальные предельные теоремы о вероятностях больших уклонений вектора Исследование вероятностей больших уклонений при невыполнении условия Крамера для случая независимых случайных величин проведено в работах А. В. Нагаева /35/. Метод сопряженных распределений описан у Феллера /45/. Статистические задачи проверки гипотез и оценивания параметров в схеме выбора без возвращения в несколько иной постановке рассматривались Г. И. Ивченко, В. В. Левиным, Е. Е. Тимониной /10/, /15/, где решались задачи оценивания для конечной совокупности, когда число ее элементов является неизвестной величиной, доказывалась асимптотическая нормальность многомерных S — статистик от s независимых выборок в схеме выбора без возвращения. Задача изучения случайных величин, связанных с повторениями в последовательностях независимых испытаний исследовалась А. М. Зубковым, В. Г. Михайловым, А. М. Шойтовым в /6/, /7/, /32/, /33/, /34/. Анализ основных статистических задач оценивания и проверки гипотез в рамках общей модели Маркова—Пойа проведен Г. И. Ивченко, Ю. И. Медведевым в /13/, вероятностный анализ которой был дан в /11/. Способ задания неравновероятиых мер на множестве комбинаторных объектов, не сводимый к обобщенной схеме размещения (0.2) был описан в Г. И. Ивченко, Ю. И. Медведевым /12/. Ряд задач теории вероятностей, в которых ответ может быть получен в результате вычислений но рекуррентным формулам, указан А. М. Зубковым в /5/. . Когда условие Крамера не выполняется, большие уклонения разделимых статистик в обобщенной схеме размещения в рассмотренном семиэкспоненциальном случае определяются вероятностью уклонения одного независимого слагаемого. Когда условие Крамера выполняется, это, как подчеркивалось в /39/, не так. Замечание 10. Функция ф(х) такова, что математическое ожидание Ее АЫ) конечно при 0 t 1 и бесконечно при t 1. Замечание 11. Для разделимых статистик, не удовлетворяющих условию Крамера, предел (2.14) равен 0, что доказывает справедливость гипотезы, высказанной в /39/. Замечание 12. Для статистики хи-квадрат в полиномиальной схеме при п, ./V — со так, что — А, из теоремы непосредственно следует, что Этот результат был получен в /54/ непосредственно. В настоящей главе в центральной области изменения параметров обобщенных схем размещения частиц по ячейкам были найдены грубые (с точностью до логарифмической эквивалентности) асимптотики вероятностей больших уклонений аддитивно-разделимых статистик от заиолнеия ячеек и функций от числа ячеек с заданным заполнением. Если условие Крамера выполняется, то грубая асимптотика вероятностей больших уклонений определяется грубой асимптотикой вероятностей попадания в последовательность точек с рациональными координатами, сходящихся в указанном выше смысле к точке, в которой достигается экстремум соответствующего информационного расстояния. Был рассмотрен семиэкспоненциальный случай невыполнения услоия Крамера для случайных величины /(i),..., /(лг), где ъ , лг — независимые случайные величины, порождающие обобщенную схему размее-ния (0.2), f(k) — функция в определении симметричной аддитивно разделимой статистики в (0.3). То есть предполагалось, что функции р(к) = — lnP{i = к} и f(k) могут быть продолжены до правильно меняющихся функций непрерывного аргумента порядка р 0 и q 0 соответственно и р q . Оказалось, что основной вклад в грубую асимптотику вероятностей больших уклонений разделимых статистик в обобщенных схемах размещения аналогичнымобразом вносит грубая асимптотика вероятности ионадания в соответствующую последовательность точек. Интересно отметить, что ранее теорема о вероятностях больших уклонений для разделимых статистик доказывалась с использованием метода перевала, причем основной вклад в асимптотику вносила единственная точка перевала. Остался неисследованным случай, когда при невыполнении условия Крамера не выполняется условие 2-кН. Если условие Крамера не выполняется, то указанное условие может не выполняться только в случае р 1. Как непосредственно следует из логариф-мироания соответствующих вероятностной, для распределения Пуассона и геометрического распределения р=1. Из результата об асимптотике вероятностей больших уклонений при невыполнении условия Крамера можно сделать вывод, что критерии, статистика которых не удовлетворяет условию Крамера, имеют существенно меньшую скорость стреимления к нулю вероятностей ошибок второго рода при фиксированной вероятности ошибки первого рода и несближающихся пльтернативах по сравнению с критериями, статистика которых удовлетворяет условию Крамера. Пусть из урны, содержащей N — 1 1 белых ип-JV 1 черных шаров производится выбор без возвращения до олпого исчерпания. Свяжем места белых шаров в выборе 1 i\ ... г -і п — 1 с последовательностью расстояний между соседними белыми шарами hi,..., h следующим образом: Тогда hv l,v =1,... ,N,M EjLi i/ — n- Зададим на множестве векторов h = (hi,..., Лдг) вероятностное распределение, положив V{hv = rv,v = l,...,N) где i,... ,лг — независимые неотрицательные целочисленные случайные величины (с. в.), то есть рассмотрим обобщенную схему размещения (0.2). Распределение вектора h зависит от n,N, но соответствующие индексы там, где это возможно, будут опускаться для упрощения записи. Замечание 14. Если каждому из (] ) способов выбора шаров из урны приписана одна и та же вероятность { \) тп для любых г і,..., гдг таких, что г„ 1,и = l,...,N,T,v=\ru = п, вероятность того, что расстояния между соседними белыми шарами в выборе примут эти значения Целью диссертационной работы было построения критериев согласия для проверки гипотез в схеме выбора без возвращения из урны, содержащей шары 2 цветов. Автором было решено изучать статистики, построенные на основе частот расстояний между шарами одного цвета. В такой постановке задача была сведена, к задаче проверки гипотез в подходящей обобщенной схеме размещения. В диссертационной работе были - исследованы свойства энтропии и информационного расстояния дискретных распределений с неограниченным количеством исходов при ограниченном математическом ожидании; - получена грубая (с точностью до логарифмической эквивалентности) асимптотика вероятностей больших уклонений широкого класса статистик в обобщенной схеме размещения; - на основе полученных результатов построена функция критерия с наибольшей логарифмической скоростью стремления к нулю вероятности ошибки первого рода при фиксированной вероятности ошибки второго рода и несближающихся альтернативах; - доказано, что статистики, не удовлетворяющие условию Крамера, имеют меньшую скорость стремления к нулю вероятностей больших уклонений по сравнению со статистиками, удовлетворяющими такому условию. Научная новизна работы заключается в следующем. - дано понятие обобщенной метрики — функции, допускающей бесконечные значения и удовлетворяющей аксиомам тождества, симметрии и неравенства треугольника. Найдена обобщенная метрика и указаны множества, на которых функции энтропии и информационного расстояния, заданные на семействе дискретных распределений со счетным числом исходов, непрерывны в этой метрике; - в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений статистик вида (0.4), удовлетворяющих соответствующей форме условия Крамера; - в обобщенной схеме размещения найдена грубая (с точностью до логарифмической эквивалентности) асимптотика для вероятностей больших уклонений симметричных разделимых статистик, не удовлетворяющих условию Крамера; - в классе критериев вида (0.7) построен критерий с наибольшим значением индекса критерия. В работе решен ряд вопросов о поведении вероятностей больших уклонений в обобщенных схемах размещения. Полученные результаты могут быть использованы в учебном процессе по специальностям математическая статистика и теория информации, при исследовании статистических процедур анализа дискретных последовательностях и были использованы в /3/, /21/ при обосновании защищенности одного класса информационных систем. Однако, ряд вопросов остается открытым. Автор ограничился рассмотрением центральной зоны изменения параметров n,N обобщенных схем размещения п частиц по ./V ячейкам. Если носитель распределения случайных величин, порождающие обобщенную схему размещения (0.2), не есть множество вида г, г 4-1, г + 2,..., то при доказательстве непрерывности функции информационного расстояния и исследовании вероятностей больших уклонений требуется учитывать арифметическую структуру такого носителя, что в работе автора не рассматривалось. Для практического применения критериев, построенных на основе предлагаемой функции с максимальным значением индекса, требуется изучение ее распределения как при нулевой гипотезе, так и при альтернативах, в том числе и сближающихся. Интерес представляет также перенос разработанных методов и обобщение полученных результатов на другие вероятностные схемы, отличные от обобщенных схем размещения. Если //1,/ 2,-.. — частоты расстояний между номерами исхода 0 в биномиальной схеме с вероятностями исходов рої 1 —POj то можно показать, что в этом случае Из анализа формулы для совместного распределение величин \іт в обобщенной схеме размещения, доказанной в /26/, следует, что распределение (3.3), вообще говоря, не может быть представлено в общем случае как совместное распределение величин цг в какой—либо обобщенной схеме размещения частиц по ячейкам. Данное распределение является частным случаем распределений на множестве комбинаторных объектов, введенных в /12/. Представляется актуальной задачей перенос результатов диссертационной работы для обобщенных схем размещения на этот случай, что и обсуждалось в /52/.Энтропия дискретных распределений с ограниченным математическим ожиданием
Непрерывность информационного расстояния Кульбака — Лейблера — Санова
Информационное расстояние и вероятности больших уклонений разделимых статистик
Критерии, основанные на числе ячеек в обобщенных схемах размещения
Похожие диссертации на Асимптотические свойства критериев согласия для проверки гипотез в схеме выбора без возвращения, основанных на заполнении ячеек в обобщенной схеме размещения