Содержание к диссертации
Введение
1. Минимаксное оценивание в конечномерных моделях 10
1.1. Основные обозначения и сокращения 10
1.2. Описание модели 11
1.3. Постановка задачи 13
1.4. Существование минимаксной аффинной оценки 14
1.5. Решение задачи минимаксного оценивания 20
1.6. Задача минимаксного нелинейного оценивания 28
1.7. Основные следствия 33
1.7.1. Общая модель (невырожденный случай) 34
1.7.2. Регрессия с неопределенными параметрами 35
1.7.3. Регрессия с ограниченными параметрами 37
1.7.4. Регрессия со случайными параметрами 38
1.8. Выводы по главе 39
2. Регуляризация минимаксных оценок 41
2.1. Основные понятия и предварительные замечания 41
2.2. Свойства множества минимаксных операторов оценивания 42
2.3. Регуляризация задачи минимаксного оценивания 44
2.4. Свойства регуляризованных оценок при неточно решенной двойственной задаче 51
2.5. Выводы по главе 55
3. Минимаксное оценивание в бесконечномерных моделях 56
3.1. Основные обозначения и вспомогательные результаты 56
3.2. Постановка задачи минимаксного оценивания 60
3.3. Задача оптимального оценивания 62
3.4. Задача минимаксного оценивания 65
3.5. Двойственная задача 71
3.6. Выводы по главе 72
4. Оценивание в моделях частного вида 74
Выводы по главе 90
Заключение 92
Список литературы 94
- Существование минимаксной аффинной оценки
- Регрессия с ограниченными параметрами
- Регуляризация задачи минимаксного оценивания
- Постановка задачи минимаксного оценивания
Существование минимаксной аффинной оценки
Следующая теорема описывает условия, при которых задача минимаксного оценивания (1.3) имеет решение. Теорема 1.1. Пусть класс допустимых распределений V имеет вид (1.2), класс допустимых операторов оценивания Т является выпуклым замкнутым подмножеством С, и выполнено одно из условий: а) проекция F на любое линейное подпространство С замкнута; б) р кег[У((и-и0){и-щ)Т + ІІ)Я!Т} = {0}. Тогда следующие утверждения равносильны: 1) задача минимаксного аффинного оценивания (1.3) имеет решение; 2) вектор х допускает оценку по наблюдениям у с использованием операторов F Є J- на классе неопределенности V; 3) существует оператор оценивания F = (F, /) Є Т, такой, что
Доказательство теоремы 1.1 опирается на следующую лемму. Лемма 1.1. Пусть {ga} — произвольный набор неотрицательно определенных квадратичных форм, т. е. да{х) = \\Аах + Ьа\\2, х Є RN, где Аа Є RMxN, ba Є М.Ма, и где С С M.N выпукло и замкнуто. Если выполнено одно из условий: а) проекция С на любое линейное подпространство R замкнута; творяет трем условиям: 1) g : RN — R — собственная выпуклая замкнутая функция; 2) Сд = кег[Аа] есть конус рецессивных направлений функции д [59, с. 86]. a N 3) функция д инвариантна относительно сдвигов на векторы h Є Сд, т. е. д{х + h)= -д(х) Ух Є Ж Утверждение 1) следует из того, что д является верхней гранью неотрицательно определенных квадратичных форм, для которых справедливо (1.6). Второе утверждение вытекает из того, что Сд = \\Сда [59, теор. 9.4], где С3а = кег[Аа] [59, с. 84]. а И наконец, утверждение 3) проверяется непосредственно. Рассмотрим случай а). Пусть 7г — оператор проектирования вдоль линейного подпространства L0 = Сд, т. е. 7Г2 = 7г, кег[-тг] = 1/0. Обозначим L\ — іт[7г], тогда L0 + Lx = WLN, L0 П L\ = = {0}. Поскольку конус Стг(с) С L\ рецессивных направлений выпуклого замкнутого множества 7г(С) имеет нулевое пересечение с Сд = Ь0, то в силу теоремы 27.3 из [59] Тем самым, существует такой х Є С, что 7/("7г(ж)) = inf д(жі). Однако в силу жіЄтг(С) предположения 3) мы имеем, с одной стороны, а с другой, где CXl = {жо Є Lo . XQ + Xi Є С}— сечение множества С, соответствующее элементу х\ Є Li. Объединяя полученные равенства, получаем #(ж) = inf д(х), что и xRN требовалось доказать. В случае б) функция д не имеет направлений рецессии. Поэтому результат леммы непосредственно следует из [59, теор. 27.3]. Доказательство теоремы 1.1. Импликация 1)=ф-2) тривиальна. Для доказательства импликации 2)= 3) предположим, что для некоторого F = = (F, /) Є Т справедливо (1.4), тогда где КРо — матрица вторых моментов вектора р0. Из (1.4) следует, что точная верхняя грань правой части по всем КРо = Е{рор } будет конечной. Это возможно лишь в том случае, когда выполняется равенство і Фо = Фо Теперь установим импликацию 3)=ФТ). При F = (F, /) Є Т таких, что F$0 = Фо, выполнено где R = cov{pi,p!} Є 71, и = Е{/?х} Є U.
В силу ограниченности множеств 71, U имеем S(F) = sup Sr(F, Рр) оо, поэтому для функции $$() выполнено предполо РрЄГ жение (1.6). Следовательно, функция 3 как точная верхняя грань неотрицательно определенных квадратичных форм удовлетворяет условиям леммы 1.1. Поэтому, применив утверждение леммы к задаче argmin (F), убеждаемся в справедливости импликации 3)= 1). М Замечание 1.3. Наиболее характерный вид множества У7, удовлетворяющего условию а) теоремы 1.1, описывается следующим представлением: где J-p — замкнутое выпуклое многогранное множество, Тс — выпуклый компакт. Условие б) означает, что для любого h Є W1 найдется Рр Є V, такое, что D{(y,h)} 0. Последнее справедливо, если среди допустимых ковариаций найдется RQ Є 7, такая, что ФІ?0ФТ О (см. также теорему 2.1). Замечание 1.4. В том случае, когда Т = С, вопрос о существовании минимаксной аффинной оценки сводится к проверке алгебраического равенства или геометрического соотношения Действительно, (1.9) и (1.10) суть условия разрешимости матричного уравнения (1.5) [1]. Условие (1.5) означает, что при любом р0 Є Rp вектор х = Форо по наблюдениям у = ф0р0 можно восстановить точно, т.е. 3F: Fy = х, Vpo Є W. Нетрудно видеть, что в силу среднеквадратической структуры рассматриваемого критерия $s(-) его гарантированное значение для любой аффинной оценки будет зависеть лишь от моментных характеристик вектора р. Поэтому введем вспомогательный функционал J(F,K), F є ШтХп, К Є К,, где J(F, К) определяется как точная верхняя грань значений среднеквадратической ошибки $s(-) оценки х = Фщ + F(y — Фгі0) по всем допустимым распределениям вектора р = со1[ро, pi], для которых характеристики и = E{pi} ЕЫ, R = cov{pi, pi} Є 71 являются фиксированными, т. е. где fo(F) = (Ф — F$)u0. При этом предполагается, что указанная оценка х = Fy + + fo(F) является допустимой, если допустима хотя бы одна оценка вида Fy + f, т.е. верна импликация Очевидно, что предположение (1.13) заведомо выполнено, если на неоднородную составляющую / оценки вектора х отсутствуют какие-либо ограничения. Кроме того, нетрудно видеть, что J(F, К) со VK Є /С только если F удовлетворяет уравнению (1.5). Поэтому введем следующее обозначение: Теорема 1.2.
Пусть Т выпукло и замкнуто, То ф 0 и выполнено (1.13). Тогда справедливы следующие утверждения. 1) ДЛЯ того, чтобы оценка х = Fy + J была минимаксной аффинной оценкой, необходимо и достаточно, чтобы f = fo(F) и при этом решение максиминной задачи, стоящей в правой части равенства (1.18), существует. 3) Утверждение о том, что F —решение минимаксной задачи (1.15), а К — решение максиминной задачи (1.18), равносильно тому, что пара (F,K) образует седловую точку функционала J(-) на множестве То х со[К]: Доказательство. 1) Для краткости обозначим $$((F, /)) = sup s{{F, f), Pp). Тогда очевидно равен РрЄР ство где тг: R(m+1)xn - Rmxn - проекция: TT(F,/) = F,fF = {/el": (F,/) Є J?7} -сечение множества T соответствующее элементу F. Как было установлено при доказательстве теоремы 1.1, ((F,f)) оо лишь в том случае, когда F I o = Фо- Поэтому, учитывая условие (1.13), получаем, что в (1.20) вместо inf по F Є ir(J-) можно рассматривать inf по F Є -7-0; гДе - о определяется выражением (1.16). Докажем следующее равенство: Для этого рассмотрим субдифференциал dD(fo(F)), который по теореме Дубовиц-кого—Милютина о субдифференциале максимума [24, с. 212] обязательно содержит вектор вида 2( Ф - Ф)й, где й Є UQ, \\{F4f - Ф)м2 = D(/0(F)). Но тогда то же самое справедливо и для вектора 2(F4f — Ф)(—й), ибо (—и) Є UQ по условию. Поэтому dD(fo(F)) содержит их полусумму, равную нулю, т. е. dD(fo(F)) Э 0. Тем самым, D(fo(F)) D(f) для всех / Є Жт. Поскольку /o(F) Є FF Б силу (1.13), то доказано, что /0(F) — есть решение задачи (1.22). Единственность fo(F) следует из того, что D — строго выпуклая функция (как максимум строго выпуклых функций), afpC С Ет —выпуклое множество (как сечение выпуклого множества).
Таким образом, (1.21) следует из цепочки равенств: Поэтому (F, /) является минимаксным аффинным оператором оценивания в том и только том случае, если Первое равенство доказано в 1), второе следует из того, что функция J(F,K) линейно зависит от К, а потому значение ее супремума не изменится, если от множества /С перейти к его выпуклой оболочке со [К]. Третье равенство есть следствие несимметричной теоремы о минимаксе [5, с. 74], применение которой здесь законно, ибо функционал J(F,K) непрерывен, является выпуклым по F и вогнутым по К, а также в силу того, что множества Т0 и со [/С] выпуклы и замкнуты, причем последнее компактно. 3) Это — очевидное следствие (1.18). А Замечание 1.5. Утверждение теоремы 1.2 означает, что проблема нахождения минимаксного аффинного оператора оценивания F Є Т сводится к задаче нахождения линейного оператора F Є TQ из (1.15). Соотношение двойственности (1.18) позволяет ввести следующее Определение 1.3. Назовем оптимизационную задачу Далее матрицу К будем называть двойственным решением, a J_(K) — двойственным функционалом. Заметим, что в силу теоремы 1.2 двойственное решение К существует. Если К принадлежит исходному множеству УС, то К = (й — щ)(й — щ)Т + R приобретает смысл "наихудшего" элемента множества неопределенности К. Параметры u,R определяют, таким образом, "наихудшее" сочетание характеристик случайного вектора р\. Замечание 1.6. Переход от исходного множества неопределенности К. к его выпуклой оболочке со[/С] допустим, поскольку в силу линейности J(F,K) по К выполнено равенство Кроме того, доказательство соотнопіения (1.18) основывается на применении теоремы о минимаксе [5], существенно опирающейся на предположении выпуклости множеств, на которых проводится оптимизация. В следующем разделе рассмотрен общий алгоритм построения минимаксной оценки, указаны условия, при которых минимаксная оценка х полностью определяется решением двойственной задачи К, а также описан случай, когда зависимость х от К является аналитической.
Регрессия с ограниченными параметрами
Рассматривается следующая линейная регрессионная модель: х=А6, (1.100) где 9 Є W— априорно неограниченный неопределенный вектор, (точнее см. (1.1)); Є Rra —случайный вектор с нулевым средним и ковариацией R = cov{,}, принадлежащей выпуклому компакту 7L С Ж п\ А Є Rmxp, В Є Rnxp —заданные матрицы. Нетрудно видеть, что, полагая р0 = в, р\ = , Ф0 = А, Ф0 = В, Ф = О, Ф = /, модель (1.100) приводится к виду (1.1). Приведем вид вспомогательного критерия J(F,R): J{F, R) = tr[FRFT] , F Є Co, Re К, (1.101) где 0 = {F: FeRmxn,FB = A}. (1.102) Двойственный функционал определяется как J(R) = inf J{F,R), Re1Z. (1.103) F(ZCQ Следствие 1.3. Пусть Т = С, выполнено (1.9), т.е. А = АВ В, a R—решение двойственной задачи: Я Є arg max ,/(#) (1.104)
Тогда для модели (1.100) справедливы следующие утверждения. 1) Двойственный функционал J_(R) имеет аналитическое выражение J(R) = tx[F0(R - R{QRQ)+R)Fj] , (1.105) где Fo -—произвольное решение уравнения F0B = А (например, АВ+), Q — I — ВВ . 2) Минимаксная аффинная оценка имеет вид х = Fy, где F = F + H, F = F0[I - R(QRQ)+], (1.106) а Н —любое решение вспомогательной минимаксной задачи Н Є urgmmmax J(F + H,R), (1.107) где П = (н Є Rmxn : НР = н\, Р = Q[I - R{QRQ)+]. 3) Если im[QRQ] С іт[фД 9] У R Є 71, (1.108) mo минимаксная оценка определяется двойственным решением R, т.е. х = Fy. 4) .ЕСУШ R 0, (1.109) то минимаксный оператор принимает вид F = F = A{BTR-1B)+BTR-1. (1.110) 5) сли Д 0 Vi?eft, (1.111) то двойственный функционал принимает следующий вид: J(R) = tr[A(BTR-1B)+AT] . (1.112) Замечание 1.11. Оценку вида х = Fy, где F определяется из (1.106), А. Ал-берт [1] называет оценкой Гаусса—Маркова. В невырожденном случае (1.109), оценка х = Fy, где F — из (1.110), известна как оценка обобщенного метода наименьших квадратов или как оценка Эйткена [19]. Следовательно, данный результат можно назвать минимаксным вариантом теоремы Гаусса—Маркова (см. также обзор [62]). 1.7.3. Регрессия с ограниченными параметрами Рассматривается следующая линейная регрессионная модель: где О Є ШР —ограниченный неслучайный вектор, т.е. в Є U, U — центрально симметричное компактное подмножество lp;(Gln- случайный вектор с нулевым средним и ковариацией R = cov{,}, принадлежащей выпуклому компакту TZ С Е"хп; А Є Є Rmxp, В Є Rnxp —заданные матрицы. Нетрудно видеть, что, полагая рг = со1[б,], Ф0 = О, Ф0 = О, Ф = А О , Ф = Б I , модель (1.113) приводится к виду (1.1).
Вспомогательный критерий в данном случае имеет вид то минимаксная оценка определяется двойственным решением (V, R), т.е. х = Fy. Замечание 1.12. Оценка вида х Fy, где F определяется из (1.123), носит название оценки Кукса—Ольмана. Можно показать, что если х — скалярная величина, а множество U имеет вид эллипсоида: является положительно определенная матрица R, минимаксным оценивателем будет F из (1.123), где V = Е-1. Указанный результат получается как частный случай следствия 1.4, если заметить, что и положить V = {Е-1}. Тем не менее, Е-1 о.о{иит: и Є Ы}. В случае векторного параметра х указанный результат сохраняет силу, если рассматривается задача минимаксного оценивания по матричному критерию [47]. Из результатов, полученных в [62], следует, что если оцениваемый параметр х — скаляр, то в двойственной задаче (1.117) достаточно рассматривать множество {иит: и 7clR!J.xn выпуклы и компактны. Нетрудно видеть, что, полагая р\ = со1[0, ], Фо = О, приводится к виду (1.1). Оказывается, что модели (1.113) и (1.127) имеют одни и те же вспомогательный критерий J(F,V,R) (1.114), двойственный функционал J(V,R) (1.116) и, как следствие, минимаксный оператор оценивания F (1.119). Поэтому справедливо Следствие 1.5. Пусть Т — В, где В —класс всех борелевских преобразований Шп — М.т, а множества V С Ж+Хр; Tt С W\_xn допустимых ковариаций векторов 9, выпуклы и компактны. Тогда все утверждения, сформулированные в следствии 1.4, остаются верными для модели (1.127). Замечание 1.13. Несмотря на указанное сходство модели (1.113), (1.127) исходят из разных априорных предположений о векторе 9. Кроме того, свойства оценки (1.119) существенно зависят от того, для какой из моделей она применяется. Для модели (1.113) Для модели (1.127) а) минимаксная оценка х = Fy яв- а) минимаксная оценка х = Fy яв ляется смещенной, т.е. ляется несмещенной, т.е. б) х минимаксна на классе линей- б) х минимаксна на классе всех из ных оценок; меримых оценок; в) пара (V, R) не определяет наи- в) наихудшее распределение век худшего распределения параметров тора со1[0, ] существует и является модели, так как V {ииТ : и U}. гауссовским М(0, diag[V, Щ). В главе получены следующие результаты. 1. Условие существования минимаксной аффинной оценки в случае произвольного множества операторов оценивания описано в теореме 1.1. 2. Результат о сведении задачи минимаксного аффинного оценивания к задаче линейного оценивания и наличии соотношения двойственности содержится в теореме 1.2. 3.
Представление минимаксного оценивателя через решение двойственной задачи и решение вспомогательной минимаксной задачи приведено в теоремах 1.3 и 1.6, причем в последней это представление рассмотрено для случая, когда допустимы все аффинные оценки. 4. Необходимое и достаточное условие разрешимости минимаксной задачи посредством двойственной указано в теоремах 1.4 и 1.7, причем в последней это условие уточнено для случая, когда допустимы все аффинные оценки. 5. Просто проверяемые достаточные условия рассмотрены в следствии 1.1. 6. В теореме 1.8 показано, что на достаточно широком классе нелинейных оценок минимаксная оценка линейна, а наименее благоприятным распределением является гауссовское, если в модели отсутствуют неслучайные ограниченные параметры. 7. Невырожденный случай общей модели исследован в разд. 1.7.1. В качестве иллюстрации полученных результатов приведены выражения для минимаксных оценок в моделях регрессии — с неопределенными параметрами (разд. 1.7.2); — с ограниченными параметрами (разд. 1.7.3); — со случайными параметрами (разд. 1.7.4). Основными результатами данной главы являются теоремы 1.6, 1.7 и 1.8.
Регуляризация задачи минимаксного оценивания
Теперь рассмотрим процедуру регуляризации по Тихонову задачи (2.1). Для этого вместо функционала J(F, К) из (2.2) рассмотрим его регуляризованный вариант где є 0 — некоторая константа, a S О — заданная матрица. В этом случае задача (2.1) минимаксного оценивания принимает вид Аналогично (2.12) назовем величину оптимальным гарантированным значением среднеквадратической погрешности в регуляризованной задаче минимаксного оценивания. Замечание 2.1. Задачу (2.14) можно интерпретировать, например, как задачу минимаксного оценивания (2.1), но в "исправленной" модели наблюдения (1.1): где Т] є Шп — центрированный случайный вектор, не коррелированный с р и имеющий заданную матрицу ковариаций S. Нетрудно видеть, что модель (2.16) может быть приведена к виду (1.1), если /С = {diag[.K", eS]: К Є К,} рассматривать в качестве множества неопределенности, а вместо матриц Ф, Фи случайного вектора р\ взять соответственно И СОІ[рьч/ЄГ]]. Достаточное условие разрешимости (2.7) регуляризованной минимаксной задачи (2.14) через соответствующую ей двойственную: принимает вид В этом случае оператор оценивания задает оценку хє — Fey, являющуюся минимаксной в регуляризованной модели (2.16).
Следующая теорема, дает способ построения линейной минимаксной оценки для исходной модели (1.1). 1) оператор оценивания F из (2.20) является единственным решением регуля-ризованной минимаксной задачи (2.14); 2) оптимальные гарантированные значения погрешности оценивания для исходной и регуляризованной задач связаны следующим соотношением: 3) Доказательство, приводимое ниже, почти дословно повторяет рассуждения, ис пользованные в [65] для обоснования метода регуляризации применительно к задаче линейного программирования (см. теорему 3 из гл.IX). См. также [11] (леммы 1, 2 из 4 гл.2). Предположим, что утверждение 3) настоящей теоремы не верно, т.е. существуют єп \ 0 и 5 0 такие, что где F — нормальный минимаксный оператор оценивания. Возьмем произвольный F Є Q. Тогда в силу минимаксности FSn в регуляризованной задаче имеет место неравенство где для сокращения записи обозначено J(F) = max J(F, К), V(F) = tr\FSF І. По КєК скольку J{Fn) J(F), то из (2.24) находим Итак, последовательность {Fn} принадлежит множеству {F: V(F) V(F)}, которое ограничено в силу S О. Следовательно, существует сходящаяся подпоследовательность {Fe n\. Обозначим предел G — lira F«. Переходя к пределу в (2.24) 71- - Х с учетом (2.25) и полунепрерывности снизу функции J, находим Последнее означает, что G Є 1. Причем из (2.25) после перехода к пределу получаем Таким образом, G — нормальный минимаксный оператор оценивания. Однако из утверждения 4) теоремы 2.1 следует G = р(\ что противоречит предположению (2.23).
Замечание 2.2. Соотношение (2.21) означает, что гарантированное значение погрешности регуляризованной оценки хе = Fey ограничено сверху: Следовательно, матрицы {Fe} образуют минимизирующую последовательность для функционала /() = max J(-, К), а оценка хє может быть названа гС-минимаксной. Замечаняе 2.3. Из доказательства теоремы 2.2 видно, что С = mintr FSFT константа, участвующая в соотношении (2.21). Для получения оценки сверху точного значения С можно воспользоваться леммой 2.1. Замечание 2.4. Заметим, что матрицу S, удовлетворяющую условию (2.19), иногда удобно брать вырожденной (см. далее пример 4.3). В этом случае утверждение (2.22) сохраняет силу, если известно, что множество 1 с точностью до сдвига расположено в некотором линейном подпространстве, для любого элемента F которого выполнено единственным образом.
Приведенное ниже следствие теоремы 2.2 дает явный вид регуляризованных минимаксных оценок и аналитическое представление двойственного функционала в случае, когда на матрицу оценивания F не наложено никаких ограничений. Следствие 2.1. Пусть Т = Мтхп, выполнено условие (1.9) и S О. Тогда справедливы все утвероюдения теоремы 2.2, причем FE и J_(-) могут быть представлены в следующем виде: а) в обозначениях (2.17), (2.18) Тогда соответствующая регуляризованная модель принимает вид где (бі? центрированный не коррелированный с р случайный вектор с заданной ковариационной матрицей W = cov{,}. Если положить W = diagfO, S], то Таким образом, указанный способ обобщает метод регуляризации, рассмотренный в начале данного раздела. Интересно отметить, что приведенный способ регуляризации множества неопределенности допускает следующую трактовку. Если W = I, то задача (2.32) эквивалентна аналогичной задаче, где в качестве /С рассматривается е-окрестность множества К, в спектральной норме: Указанный факт — следствие того, что на є-окрестности данной матрицы К /С: {К6: К О, \\К — К\\ є] существует максимальный элемент К + єі, т.е. К К + єі для всех элементов Ке указанной е-окрестности. В заключение данного раздела рассмотрим еще один способ регуляризации множества неопределенности.
Если положить го минимаксная задача с множеством неопределенности (2.36) становится регулярной. Отметим, что К С /С, причем в сингулярном случае включение строгое каково бы мало ни было є 0. Указанный способ регуляризации позволяет сформулировать следующий результат. Теорема 2.3. Пусть выполнены следующие условия: а) множество J- допустимых операторов оценивания выпукло и замкнуто; б) существует минимаксная оценка; в) множество г) существует решение задачи: д) существует оптимальный оцениватель: Тогда оценка х — Fy является минимаксной. Доказательство. Идея доказательства заимствована из [64]. Поскольку 4 KtyT О, то К Є /С для всех 0 є г0, где 0 0 —достаточно мало. Следовательно, При этом /C не пусто, выпукло и компактно. Таким образом, оптимальный оцениватель (2.39) является решением регулярной задача минимаксного оценивания с множеством неопределенности Kf (см.теор. 1.5). Поэтому пара (F, К) является седловой точкой функционала J(-) на Т х К6: Покажем, что на самом деле левое неравенство (2.41) выполнено для любого элемента К исходного множества К. Положим Ке = (1 — є/єо)К + (є/єо)К. Тогда Кє Є /С для всех 0 є є0, причем Я?К Т (є/є0)Ф Фт є/ в силу ІГ Є Ю. Следовательно, Кє принадлежит множеству КУ для всех 0 є Єо, причем Ks - К при є 4 0. Поэтому в силу левого неравенства (2.41) находим Переходя к пределу в указанном неравенстве, получаем что вместе с правым неравенством (2.41) означает, что (F,K) образует седловую точку функционала J(-) на Т х К.
Постановка задачи минимаксного оценивания
В данном разделе всюду считается, что распределение Pz элемента z = [, п] является заданным, т.е. V = {Pz}- В этом случае, как отмечалось выше, можно считать Определение 3.4. Оценка = FT? называется оптимальной, если u, соответственно, оптимальной линейной, если Приведенный ниже результат описывает вид оптимальных оценок (см. также [75]). является оптимальной линейной оценкой (3.19), тогда и только тогда, когда сужение оператора F Є С{Рп) имеет вид при этом 2) Случайный элемент является оптимальной оценкой (3.18) в том и только том случае, если 3) Если распределение Pz — гауссовское, то оптимальная оценка (3.23) является линейной и имеет, вид (3.20). Кроме того, условное распределение Р (- \ V = у) таксисе является гауссовским со средним и ковариацией Доказательство. 1) Очевидно, что = Frj является оптимальной линейной оценкой в том и только том случае, если — ортогональная проекция в гильбертовом пространстве (f X) элемента на замкнутое линейное подпространство ЕЛ = {F77: F Є С(Рг))}. Последнее равносильно Если F,F Є 2(#+(Дч]) X)— сужения операторов F, F, соответственно, то в силу (3.2) получаем Таким образом, равенство нулю выражения (3.27) при всяком F Є С-2{Н+ \Кп\Х) равносильно (3.21). 2) Доказательство этого пункта можно найти в [75]. 3) Аналогично п. 1) оценка = Fr/, F Є "(Рч), является оптимальной, если и только если — не зависит от случайных величин (т/, у ), у є Y . Последнее выполнено, если имеет вид (3.20), где F определяется сужением F из (3.21). Действительно, в этом случае случайный элемент [ — , г?] является гауссовским, причем в силу (3.2) cov{t-lr]}=Ktr,-FKri = 0. Попутно доказано (3.24), поскольку Е{ rj} = Frj в силу (3.23). Для доказательства гауссовости условного распределения Pf ( rj) рассмотрим характеристический функционал где третье равенство получено с учетом измеримости относительно ст-алгебры Л,], порожденной случайными величинами (т],у ), у Є У , а четвертое равенство — следствие независимости — от ст-алгебры уЦ. При этом — — гауссовский случайный элемент со средним и ковариацией где предпоследнее равенство получено с учетом (3.2), а последнее —в силу (3.21). Следовательно, искомый характеристический функционал имеет вид требовалось доказать. 3амечаиие 3.6. Нетрудно видеть, что результаты теоремы 3.1 останутся в силе и в случае, когда щ = Е{} ф 0, тп = Е{?7} ф 0.
Действительно, достаточно заменить о всюду , 7] на = — т , V = г/ — тп. В этом случае только формулы (3.20) и (3.24) подвергнутся корректировке: Ро, с сужением F из (3.21). Остальные формулы, приведенный в теореме, останутся без изменения. Замечание 3.7. Последнее утверждение приведенной теоремы в конечномерном случае носит название теоремы о нормальной корреляции. Замечание 3.8. Нетрудно видеть, что оператор F (3.21), задающий оптимальную линейную оценку, является решением уравнения Винера—Хопфа: транство Y, поэтому оптимальный оцениватель F представляет собой в некотором смысле обобщенное решение уравнения (3.29). Необходимое и достаточное условие непрерывности оптимального оператора линейного оценивания приведено в следующей теореме. Теорема 3.2. Пусть в условиях теоремы 3.1 kerfK ] = {0}. Тогда оптимальный оператор оценивания F из (3.20) Рп-п.н. совпадает с некоторым непрерывным линейным оператором, в том и только том случае, если Доказательство. Необходимость условия (3.30) очевидна: если F Є C(Y,X), то Kvf - Кці в силу К = КП) К\ц = Kvi. Для доказательства обратного утверждения рассмотрим сопряженное уравнение относительно G: X — Y . Возьмем произвольный х Є X и положим Gx = г/ , где у Є У —решение уравнения Кщу = КП{Х, которое разрешимо в силу (3.30) и притом однозначно в силу предположения ker[ ] = {0}. Нетрудно убедится в том, что оператор G: X — Y определен корректно и является линейным.
Поскольку G задан на всем пространстве X, то в силу теоремы о замкнутом графике для доказательства непрерывности оператора G: X — Y достаточно установить его замкнутость: если хп — XQ и Gxn — t/J, то, переходя к пределу в равенстве KnGxn = Kv xn, получаем K yl = K XQ, ЧТО В силу определения оператора G означает Gx0 = у$. Итак, существует G Є (X,Y ) из (3.31). Поэтому G Є (У ,Х) удовлетворяет G KV = Я" . Теперь видно, что F = Gr Є (Y,X) есть искомое решение. -Ц Согласно результатам, полученным в предыдущем разделе для нахождения минимаксной процедуры оценивания Г достаточно указать такое распределение Pz Є V) что пара (Р,Рг) является седловой точкой функционала S на Т х V: В силу п.З) теоремы 3.1 правое неравенство (3.32) выполнено, если Р2 —гауссов-ское распределение, a F — оператор из (РЧ), имеющий сужение F вида (3.21). Если указанный оператор F может быть задан с помощью некоторой допустимой линейной процедуры оценивания, т.е. F Є , то в (3.32) класс Т можно заменить на . При выполнении некоторых условий регулярности [95], ковариационный оператор Kz гауссовского распределения Рг, удовлетворяющего (3.32), может быть найден как решение двойственной задачи где — семейство допустимых линейных процедур оценивания. Теперь укажем вспомогательное утверждение, позволяющее находить решение минимаксной задачи (3.17) посредством решения двойственной (3.33). Лемма 3.3. Пусть А — подмножество некоторого множества X, В—выпуклое подмномсество некоторого линейного пространства У, а функция f: X х У -ч- Ш вогнута по второму аргументу. При этом для каждого у Є В существует х(у) Є X такой, что