Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритм восстановления функций Сиверцев Олег Николаевич

Алгоритм восстановления функций
<
Алгоритм восстановления функций Алгоритм восстановления функций Алгоритм восстановления функций Алгоритм восстановления функций Алгоритм восстановления функций Алгоритм восстановления функций Алгоритм восстановления функций Алгоритм восстановления функций Алгоритм восстановления функций Алгоритм восстановления функций Алгоритм восстановления функций Алгоритм восстановления функций
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Сиверцев Олег Николаевич. Алгоритм восстановления функций : диссертация ... кандидата физико-математических наук : 05.13.01 / Сиверцев Олег Николаевич; [Место защиты: Моск. гос. ин-т электроники и математики].- Москва, 2007.- 185 с.: ил. РГБ ОД, 61 07-1/1647

Содержание к диссертации

Введение

Глава 1. Необходимые сведения из функционального анализа, теории вероятностей и математической статистики 17

1 Некоторые сведения из функционально анализа 17

2 Сведения из теории меры 23

3 Некоторые сведения из теории вероятностей 27

4 Некоторые сведения из математической статистики 32

Глава 2. Оптимальное и -оптимальное ( > 0) оценивание гауссовской случайной функции по наблюдениям с гауссовскими ошибками 38

1 Гауссовские меры в гильбертовом пространстве 39

2 Постановка задачи 42

3 Формулировка основного результата 47

4 Доказательство теоремы 2.3 50

5 Несмещенность и состоятельность оптимальных оценок / (а;) Є M2,m(P) 56

6 Оптимальные оценки гауссовской случайной функции 58

7 Оптимальные и е-оптимальные непараметрические проекционные оценки неизвестной функции из 1/2([0, 1]) 62

Глава 3. Оптимальное неоптималыюе оценивание гауссовской случайной функции по наблюдениям за ней с гауссовскими ошибками в конечном числе точек 68

1 Постановка задачи. Обозначения и определения 69

2 д/є-оптішальнос оценивание гауссовской случайной функции по наблюдениям за ней с гауссовскими ошибками в конечном числе точек из отрезка [0,1] 71

3 Оптимальное оценивание гауссовской случайной функции по наблюдениям, проводимым в конечном числе точек из [0,1] 88

4 Оптимальное стохастическое восстановление функций из 1/2([0,1]) по наблюдениям за ней с гауссовскими ошибками в конечном числе точек из [0,1] (Общий случай) 94

5 е-Оптималыюе стохастическое восстановление функции из 1*2([0,1]) по наблюдениям за ней с гауссовскими ошибками в конечном числе точек из [0,1], II (случай тригонометрического

базиса) 104

Глава 4. Алгоритм стохастического восстановления функции (описание и его программная реализация) 111

1 Алгоритм восстановления неизвестной функции, представляющей собой линейную комбинацию тригонометрических функций с неизвестными периодами 113

2 Построение ортонормированного базиса с помощью оценок [Tj] 122

3 Описание алгоритма восстановления неизвестной функции 125

4 Применение комплекса программ "МНК-тренд" для описания эволюции котировок валют RUB/USD и RUB/JPY 132

5 Восстановление экспрессии генов слайдов генных карт

Введение к работе

1. В многочисленных областях науки и

техники [0, 12, 23, 35, 59, 68, 69, 72, 77, 78, 83] возникает потребность в построении математических моделей описывающих различные процессы и явления. Задачи построения таких моделей как правило разбивают на несколько этапов. Одним из таких этапов является задача восстановления зависимостей. Особенностью этой задачи является то, что значения восстанавливаемой функции могут быть измерены в некотором конечном числе точек. При этом на основании проведенных измерений требуется ее восстановить во всей области определения. Эта проблема становится особенно актуальной, когда измерения значений функции являются дорогостоящими. Например, если f(x,y) — глубина залегания нефтяного слоя в точке с географическими координатами х) у, то для точного измерения значения f(x,y) приходится бурить скважину в этой точке.

Данная диссертация посвящена решению задачи стохастического восстановления функций. В ней рассматриваются проблемы:

синтеза оптимальных и квазиоптимальных алгоритмов восстановления
функций из 1^([0,1]) и исследуются их свойства;

релизации алгоритмов восстановления функций на ЭВМ.

2. Обзор результатов теоретических исследований, связанных с решением задачи восстановления функций.

В настоящее время существуют два подхода к задаче восстановления функций: детерминированный [24] и стохастический [24]. 2.1. Приведем детерминированную постановку задачи восстановления, следуя [21].

Пусть X, Y — линейные пространства, а X* — пространство, сопряженное к X. Пусть < х*,х > — значение линейного непрерывного функционала х* Є X* на элементе х Є X. Пусть F : X —> Y — функция обозначаемая через

F{x). Пусть ip : Y —> R1 — функция, а К — некоторый класс таких функций. Пусть ТІ С X — некоторое фиксированное множество. Требуется найти решение задачи:

| <х\х> -(р{у)\ -» inf sup . (1)

VF(x)

Решению этой задачи посвящено большое количество публикаций, подробный обзор которых можно найти в ['15].

Отметим, что впервые задача восстановления функций была рассмотрена в 1853 г. П. Л. Чебышсвым в [63].

С проблемой восстановления функций тесно связана задача аппроксимации функций. В настоящее время существует несколько подходов к решению задачи аппроксимации функций. В работах [5, 6, 7, 40, 48] содержатся материалы об аппроксимации функций рядами Фурье. О приближении функций рациональными дробями говорится в работах [10, 49, 50, 51, 52]. Аппроксимация полиномами описана в работе [11], о приближении экспоненциальными суммами говорится в [37]. Экстремальные задачи теории приближения рассмотрены в [38].

В монографии В. И. Бердышева [12] рассмотрены аппроксимативные методы восстановления численной информации.

2.2. Перейдем к обзору результатов связанных со стохастической постановкой.

Пусть на некоотром вероятностном пространстве (l,T, Р) задано семейство случайных функций п : N+ х S7 х [0,1] —> R1, обозначаемое через {rik(uj, x)}k>i и называемое ошибками. Предположим, что это семейство обладает следующими стойствами:

і) для любых х и к Мщ{и}, х) = 0;

ii) для любых к и / Мпк(со, х)пі(ш, х) = а1(х)5м, где 5ы — символ Кронекера и Mfnl(w,x)dx = а2 < сю;

ііі) семейство {nk((d, х)}к>\ образует гауссовскую систему. Пусть / : [0,1] —> R1 — измеримая функция, причем / f2{x)dx < ею. Предположим, что мы наблюдаем семейство {r/k(uj,x)}

Ук(х) = f(x)+nk(x). (2)

По результатам т наблюдений (yi(x),..., ут{х)) требуется построить оценку fm(x) такую, что

Mf[f(x)-fm(x)] dx^inf, (3)

о fm

где через М- обозначена операция интегрирования относительно

вероятностной меры Р.

Задача (3) — это типичная постановка задачи стохастического восстановления неизвестной функции f(x), которая рассматривалась многими авторами, например [24] и др.

Перейдем теперь к изложению результатов, близких к задаче [24]. В работе И. Л. Лсгостасвой и А. Н. Ширяева [11] решена задача минимаксного оценивания неизвестных параметров полиномиального тренда, по наблюдениям за ним с некоррелированными гауссовскими ошибками.

В работе П. Н. Ченцова [П1] построены оценки неизвестной функции f(x) из 1/2([0,1]) и исследованы статистические и асимптотические свойства этих оценок.

В работе В. Levit, N. Stepanova [71] рассмотрен процесс с непрерывным временем, описываемый стохастическим уравнением Ито, коэффициент сноса которого является оцениваемой аналитической функцией, а перед стохастическим интегралом Ито стоит малый параметр. В работе построены минимаксные оценки коэффициента сноса и исследованы их асимптотические свойства, когда малый параметр стремится к нулю.

В работах Б. С. Дарховского [24, 25] содержится подробный обзор современных результатов, связанных с решением задачи восстановления неизвестной функции как в детерминированной, так и в стохастической

постановке. Установлены условия существования оптимальной оценки неизвестной функции и исследованы ее статистические свойства.

В работе И. А. Ибрагимова [30] рассмотрена задача об оценке многомерной регрессии, при этом предполагается, что функция регрессии и ее оценка квадратично интегрируемы. В этой статье установлены границы величины погрешности в терминах поперечников по Колмогорову и Бернштсйну е-энтропии.

В книге И. А. Ибрагимова и Р. 3. Хасьминского [31] для выборки из генеральной совокупности с неизвестной плотностью распределения построены ядерные оценки Парзена-Розенблатта в задаче оценивания неизвестной плотности. Для этих оценок также получены достаточные условия состоятельности.

В работах Р. Л. Стратоновича [57, 58] рассмотрена задача восстановления неизвестной функции по наблюдениям с ошибками. Предположено, что неизвестная функция нредставима в виде конечной линейной комбинации "базисных" функций, а ошибки имеют гауссовское распределение, причем измерения равноточные. В них был установлен оптимальный рекуррентный алгоритм восстановления неизвестной функции и исследованы его асимптотические свойства.

В книге В. И. Тихонова, Н. К. Кульмана [59], построена оценка максимального правдоподобия неизвестной функции, представляющая собой конечную линейную комбинацию некоторых "базисных" функций по наблюдениям за ней с ошибками.

В работах В. Н. Вапника [10, 17], основываясь на теореме Гливенко-Кантелли, был разработан алгоритм восстановления неизвестной функции по наблюдениям с ошибками, а также приводятся программы, реализующие его на ЭВМ.

В работах С. М. Ермакова и А. А. Жиглявского [28], а также С. М. Ермакова и др. [27], посвященных теории планирования эксперимента,

рассмотрена задача стохастического восстановления. В них содержится методика построения неиараметрических оценок неизвестной функции и исследуются их асимптотические свойства.

3. Обзор статистических пакетов. Реализация задач восстановления случайных функций в современных условиях предполагает использование ЭВМ. Системы анализа данных на ЭВМ (статистические пакеты) являются, по сравнению с другими наукоемкими программами наиболее широко применяемыми в практической и исследовательской работе. По официальным данным Международного статистического института число различных наименований статистических программных продуктов (СПП), распространяемых на рынке, приближается к тысяче.

В работах Айвазяна С. А. [70] и [3] была предложена классификация статистических пакетов. Подробное рассмотрение функционального наполнения СПП приведено в ['!]. Сравнение пакетов по мощности, степени интеллектуализации и удобству взаимодействия с ними осуществляется на основании десяти показателей качества СПП: 1) разнообразие и степень совершенства методов статистического анализа, а также средств управления данными; 2) скорость вычислений и выдачи результатов анализа; 3) качество выходных форм; 4) простота использования; 5) легкость обучения; б) общий уровень технологичности использования; 7) удобство и полнота общей справочной службы; 8) качество и полнота автоматизированных статистических консультаций "на входе" задачи; 9) качество и полнота автоматизированных статистических консультаций в процессе проводящегося статистического анализа; 10) качество и полпота автоматизированных статистических консультаций "па выходе" статистического анализа. Кроме того, статистические пакеты классифицируют но трем категориям: универсальные (интегральные), специализированные и пакеты, занимающие нишу между универсальными и специализированными.

Универсальные статистические пакеты общего назначения предназначены

для решения широкого класса задач. К ним относятся: система SAS (см. [85]); пакет SPSS [65]; система SYSTAT [74, 75, 82, 85]; пакет MINITAB [SI, 82, 85]; пакет Statgraphics [So, 26, 47, 01]; пакет Statisti-са [76, 82, 14].

К специализированным пакетам относятся:

Класс-Мастер — решение задач кластерного анализа;

Stat-Mcdia — решение задач классификации, включая снижение размерности и визуализацию данных, а также ряд смежных разделов разведочного, компонентного анализа, проверки гипотез, анализа данных смешанной природы и др. При этом, за счет ряда математических или алгоритмических приемов ([2, 8, 53, 60] и др.), пакет работает лучше многих аналогов;

Palmoda — предназначен для анализа данных и распознавания образов, решения задач классификации и прогноза, поиска логических закономерностей и поддержки принятия решений в условиях неопределенности;

STARC — решение задач: классификации "с учителем", кластерного анализа и сжатия данных, статистических вычислений и графики, преобразования признаков;

КВАЗАР — предназначен для решения задач классификации на ПЭВМ [33];

PolyAnalyst — предназначен для обнаружения знаний, скрытых в базах данных. Научное направление, к которому относится программа, называется Data Mining and Knowledge Discovery ("добыча данных и обнаружение знаний"). О финансовых приложениях программы Poly-Analyst можно прочесть в [34];

MVSP — выполняет анализ главных компонент и проецирование на плоскость, натянутую на пару двух доминирующих компонент,

производит анализ соответствий, кластерный анализ с 18-ю различными метриками и выбором одного из различных подходов к группировке; CART — предназначен для автоматического разведочного анализа данных. Этот пакет строит классификационные и регрессионные деревья. Пакет является превосходным продуктом но сравнению с аналогами типа CHAID из пакета SPSS или Knowledge Seeker. Существует ряд специализированных и универсальных СПП: STADIA, ОЛИМП, РОСТАН, ODA, WinSTAT, Statit, UNISTAT, Multivariance, JMP, SOLO, МЕЗОЗАВР, STATlab, которые образуют третью категорию. По сравнению с универсальными им не хватает функциональной мощности последних (но статистическим методам).

Отметим, что помимо указанных выше програмных пакетов существует "R Project" [8-І] и разработанная на его основе узкоспециальная система статистического анализа данных "Maanova: Tools for analyzing Micro Array experiments" [SO], широко используемая в генетике.

4. Актуальность темы диссертационной работы. Теория оценивания бесконечномерного параметра является наиболее активно развивающимся направлением математической статистики, о чем говорит большое количество публикаций, вышедших в последнее время. Одним нз важных разделов этого направления являются задачи стохастического восстановления. Отличительной особенностью задачи стохастического восстановления от задач теории оценивания классической математической статистики является бесконечномерность оцениваемого параметра. (Поэтому задачи стохастического восстановления относят к области непараметрического оценивания.) Последнее обстоятельство приводит к необходимости создания новых методов: а) оценивания этих параметров, б) анализа асимптотических свойств построенных оценок.

Известно, что задача стохастического восстановления имеет много

различных приложений. Приведем некоторые из них: 1) выделение полезного сигнала f(x), х Є [0,1] на фоне помех п(х) тина гауссовского белого шума, когда полезный сигнал f(x) принадлежит некоторому функциональному пространству (например Z,2([0,1])) или его подмножеству [31]; 2) оценивание функции регрессии по наблюдениям за ней с аддитивными независимыми ошибками в эконометрике и планировании эксперимента [30]; 3) выделение трендов и сезонных колебаний стоимостей активов в экономике [1, 46]; 4) восстановление реакции генов на внешние раздражители [77, 78, 83].

Из вышесказанного следует актуальность темы диссертационной работы. 5. Методы исследования и научная новизна.

В диссертации рассматривается задача оценивания гауссовской случайной функции по наблюдениям за ней с ошибками.

Мы предполагаем, что:

і) оцениваемая функция / : О, х [0,1] —> Ж1 — гауссовская случайная функция с Mf\f(u,x)\ dx < 00;

ii) ошибки п : N+xf2x [0,1] — R1 — также гауссовская случайная функция с М /п\{и, x)dx < со для любого к = 1,2,...;

iii) наблюдаемая последовательность уь(и;,х) представляет собой аддитивную смесь случайной функции f(cj,x) и пк(и>,х), т.е.

ук{ш,х) = f{w,x) + nk{uj,x). (4)

По результатам наблюдений {yi(x), ...,уі(и, х) }, где Vx Є [0,1], требуется построить оценку гауссовской случайной функции /(w, х), обозначаемую через fi(x), наилучшую в смысле следующего критерия:

Mf[f(u,x)-Mx)] dx-tint. (5)

Здесь нижняя грань берется по множеству оценок f(x) таких, что

1 л 2

М/ f(x) dx < 00.

Ясно, что рассматриваемая задача обобщает постановку задачи стохастического восстановления (описанную в пункте 2.2), так как /(о;, х) — случайная функция. Следует также отметить, что в диссертации рассмотрены два варианта наблюдаемых последовательностей.

Случай 1. Предполагается, что наблюдению доступен счетный набор последовательностей гк} г>о,, причем

к=Ц

1
у\ = Jyk{u,x)(pi(x)dx, (6)

где {(Рі{х)}і^о — некоторое семейство ортонормировапных функций из Ь2([0,1]).

При дополнительных предположениях технического характера автором построены: а) алгоритм оптимального оценивания гауссовской случайной функции (теорема 2.1, б) алгоритм е-оптималыюго стохастического оценивания (теорема 2.2).

Опираясь на эти результаты в диссертации:

і) для оптимального алгоритма установлены свойства несмещенности (теорема 2.4) и состоятельности (теорема 2.5) оценок гауссовской случайной функции f(ui,x);

її) для ^-оптимального алгоритма установлены свойства асимптотической несмещенности и состоятельности (когда є —> 0).

Кроме того, в диссертации установлено, что из этих результатов следует существование оптимального и ^-оптимального решения задачи стохастического восстановления в постановке (3).

Случай 2. Наблюдения проводятся в конечном числе точек х\,... ,хп Є [0,1], причем наблюдаемая последовательность имеет вид

Ук(ш, Xi) = f(0J, Xi) + Пк{и, Xi), (7)

где к = 1,/. Для такой схемы наблюдений устанавливаются условия существования:

і) алгоритма у^-оптималыюго оценивания гауссовской случайной функции f(u),x) по наблюдениям с ошибками (теорема 2.6);

и) алгоритма оптимального оценивания гауссовской случайной функции по наблюдениям с ошибками(теорема 2.7).

Опираясь па эти результаты, здесь также построены оптимальные и у/е-оптимальные решения задач непараметрического проекционного оценивания неизвестной функции f{x) є ^2([0,1]) в смысле критерия (3).

Следует также отмстить еще два новых момента связанных со всеми выше описанными результатами:

і) все алгоритмы (оптимальные и ^-оптимальные, /3 > 0) являются рекуррентными;

іі) ^-оптимальные алгоритмы решения задачи стохастического восстановления приводят к схеме Калмана-Быоси оценки неизвестных параметров.

Приведенные выше результаты, касающиеся задачи ^/Е-оитималыюго восстановления по наблюдениям в конечном числе точек при использовании тригонометрического базиса в L2([0,1]) позволяют обосновать методику выбора точек х\,...,хп Є [0,1] в которых следует проводить наблюдения (теоремы 3.1 и 3.4). Доказано, что в этом случае оптимальным в смысле минимума следа дисперсионной матрицы оценок является равномерное разбиение отрезка [0,1]. Опираясь на этот результат, в работе дается описание и обоснование алгоритма, который позволяет численно построить решение стохастической задачи восстановления на ЭВМ. 6. Перейдем к краткому изложению работы.

В первой главе содержатся необходимые для изложения результатов работы сведения из функционального анализа, теории меры, теории вероятностей и математической статистики. Здесь вводятся также необходимые для изложения обозначения и определения.

Вторая глава посвящена решению задачи оценивания гауссовской

случайной функции, значения которой наблюдаются с ошибками. В первых двух параграфах вводятся основные обозначения, даются определение оценки гауссовской случайной функции, оптимальной оценки, а также приводится постановка задачи оценивания гауссовской случайной функции. В 3 и 4 формулируется и доказывается основной результат — теорема о существовании оптимальной оценки неизвестной функции по наблюдениям за семейством гк} случайных величин, описываемых (6). В 5, опираясь на результаты 4, устанавливаются:

і) условия несмещенности построенных оценок;

ii) условия состоятельности оценок. В б устанавливаются условия существования е-оптимальных оценок гауссовской случайной функции по наблюдениям (6), а также некоторые свойства этих оценок. В 7 рассматривается задача стохастического восстановления функций из Z>2([0,1]). В нем построены и обоснованы процедуры оптимального и -онтималыюго восстановления.

Третья глава диссертации посвящена оптимальному и е^-оптималыюму (/3 > 0) оцениванию гауссовской случайной функции по наблюдениям за ней с гауссовскими случайными ошибками, проводимым в конечном числе точек отрезка [0,1].

В 1 содержится постановка задачи и необходимые для изложения материала определения и обозначения. В 2 устанавливаются условия существования оценок гауссовской случайной функции по наблюдениям за ней в конечном числе точек отрезка [0,1]. В 3, опираясь на результаты 2, получены условия существования решения задачи оптимального оценивания гауссовской случайной функции по наблюдениям за ней с гауссовскими ошибками в конечном числе точек из [0,1]. В 4 устанавливаются условия существования ^-оптимальных непараметрических проекционных оценок неизвестной функции из L2QO, 1]) п0 наблюдениям за ней с гауссовскими ошибками в конечном числе точек отрезка [0,1]. 5 посвящен решению задачи

аналогичной рассмотренной в 4 с той лишь разницей, что здесь в качестве ортонормированного базиса используется тригонометрический. Кроме того, в этом параграфе решается задача выбора точек в которых следует проводить наблюдения.

Четвертая глава диссертации посвящена разработке, обоснованию и описанию алгоритма, реализующего решение задачи стохастического восстановления (3) по наблюдениям с ошибками с конечном числе точек, в виде комплекса программ для ПЭВМ.

1 посвящен построению и обоснованию методики восстановления неизвестной функции, представляющей собой линейную комбинацию тригонометрических функций с неизвестными периодами. В 2, опираясь на результаты 1, приводится и обосновывается процедура построения ортонормированного базиса по результатам наблюдений. 3 посвящен описанию комплекса программ, реализующих алгоритм восстановления неизвестной функции. В 4 и 5, соответственно, рассмотрены применения комплекса программ, реализующих алгоритм восстановления неизвестной функции, для задач:

1) восстановление динамики котировок валют рубль (Россия)-
йена (Япония) и рубль (Россия)-доллар (США);

2) восстановление зависимостей экспрессии слайдов генных карт.
Диссертация также включает два приложения. В приложении 1

содержится описание и порядок работы с комплексом программ "МНК-тренд", реализующим алгоритм восстановления неизвестной функции в операционных системах Windows 2000 и Windows ХР, построенный в 3 главы 4 диссертации. В приложении 2 содержится описание и порядок работы с комплексом программ "CardScan", осуществляющим полуавтоматическую оцифровку данных экспрессии генов блоков слайдов генных карт.

Результаты диссертации опубликованы в одиннадцати работах, список которых приведен в конце диссертации.

7. В диссертации принята обычная двойная нумерация теорем, формул и рисунков, самостоятельная в каждой главе. При ссылках на теорему, определение, замечание или формулу номер главы ставится впереди. В приложениях принята одинарная нумерация теорем, формул, рисунков и таблиц, самостоятельная в каждом приложении. В каждом параграфе, а также во введении и в приложениях введена самостоятельная двойная нумерация пунктов. Ссылки на труды, указанные в библиографическом списке, приведены в квадратных скобках.

Автор выражает признательность своему научному руководителю профессору Владимиру Минировичу Хаметову за постоянную помощь и внимание к работе над диссертацией. Автор выражает признательность Борису Петровичу Тюхову и Андрею Игоревичу Топунову за консультации при создании программы "CardScan", а также Ивану Михайловичу Гостеву за полезные обсуждения.

Некоторые сведения из функционально анализа

Определение 1.1. Прямым (или декартовым) произведением А х В двух множеств А, В называется множество всех упорядоченных пар х, у с х Є Л, у Є В.

Определение 1.2. Скалярным произведением в действительном линейном пространстве L называется действительная функция (х, у), определенная для каждой пары элементов х, у Є L и удовлетворяющая следующим условиям: 1) {х,у) = {у,х)] 2) (хі + х2,у) = {xhу) + (х2, у); 3) (\х,у) = \(х,у); 4) (ж, х) 0, причем (я, х) = 0 только при х = 0.

Определение 1.3. Конечномерное линейное пространство с фиксированным в нем скалярным произведением называется евклидовым пространством.

1.2. Определение 1.4. Метрическим пространством (Х,р) называется пара: X с вещественной неотрицательной функцией р(-,-), определенной на X х X со значениями в Я+, такой, что 1) р(х, у) = 0, если х — у\ 2) р(я,2/) =р{у,х); 3) р(я,г) 0(ж,?/)+/)(у,2:), р называется метрикой на X.

Определение 1.5. Шаром 0(а,г) в метрическом пространстве Z с центром в точке а и радиусом г называется совокупность точек z Є Z таких, что p{z,a) г.

Определение 1.6. Множество Р С Z называется открытым в метрическом пространстве Z, если вместе с каждой своей точкой z оно содержит и некоторый шар 0(z,г).

1.3. Определение 1.7. Точка х Є X называется точкой прикосновения множества М С X, если любая ее окрестность содержит хотя бы одну точку из М.

Определение 1.8. Совокупность всех точек из М и точек прикосновения множества М обозначается [М] и называется замыканием этого множества. Определение 1.9. Пусть А, В С X — метрическое пространство. Множество А называется плотным в В, если его замыкание [А] содержит множество В. В частности, множество А называется всюду плотным в X, если его замыкание [А] = X.

Определение 1.10. Метрическое пространство X называется сепарабельным, если в нем имеется счетное всюду плотное множество. Определение 1.11. Метрическое пространство X называется полным, если всякая фундаментальная последовательность сходится в нем.

1.4. Определение 1.12. Пусть L — некоторое линейное пространство, а а: и у его точки. Множество Е с L называется выпуклым, если вместе с любыми двумя точками хну оно содержит и соединяющий их отрезок. Определение 1.13. Пусть L — линейное пространство. Определенный на L функционал / называется выпуклым, если для всех х,у Є L п 0 а 1 выполняется неравенство f{ax + (1- а)у) af{x) + (1- a)f(y).

Определение 1.14. Пусть L — линейное пространство. Выпуклый функционал /, определенный на L, называется нормой, если он удовлетворяет следующим условиям: 1) /(#) 0, причем f(x) = 0 только при х = 0; 2) /(х + У) f(x)+ f(y), х,уЄЬ; 3) f(ax) = \a\ f{x), каково бы ни было число а. Замечание 1.1. В евклидовом пространстве М. вводится норма с помощью формулы \\х\\ = \1{х,х). Определение 1.15. Полное нормированное пространство называется банаховым пространством.

1.5. Теорема 1.1. (Вейерштрасс) [02]. Если функция f(x) непрерывна в промежутке [—7г, 7г] и удовлетворяет условию /(—7г) = /(7г), то, каково бы ни было число є 0, найдется п Є N+ и такой тригонометрический многочлен п Тп(х)=а0 + Yl (am cos mx + /?m sinтж), что равномерно по а: Є [—7г, 7г] /(а:)-ЗД е.

1.6. Определение 1.16. Гильбертовым пространством называется множество Н элементов f,g,h,..., обладающее следующими свойствами: 1) Н представляет собой линейное пространство; 2) в Я существует скалярное произведение (/, ?); 3) Н является полным метрическим пространством относительно расстояния p{f,g) = /— д\\, где для любого элемента h Є Н его норма определяется из соотношения \\h\\ = (/г,/г)1/2. 1.7. Определение 1.17. Назовем две функции ip(x) и ф(х), определенные в промежутке [а, Ь] и принимающие значения в R1, ортогональными в этом промежутке, если их произведение имеет интеграл, равный нулю:

Некоторые сведения из теории вероятностей

Замечание 2.1. Известно [22], что если (рц(х) и ри(х) — характеристические функционалы борелевских мер на Я /ІИІ/, причем м(ж) = / (ж) т0 v — Iі-Поэтому гауссовская мера на Я однозначно определяется своим средним значением и ковариационным оператором.

Хорошо известно следующее утверждение.

Теорема 2.1. (Прохоров) [22]. Справедливы следующие утверждения: 1) Обозначим S — множество ковариационных операторов. Если \х — гауссовская мера на Я, то S Є S; 2) Если хо Є Я и Sfl Є S, то функционал ф(х\ A ei{x0,x)-\{S x,x) является характеристическим функционалом некоторой (гауссовской) меры в Я. Замечание 2.2. Теорему 2.1 можно также сформулировать следующим образом: для любых %жЕЯ функционал является характеристическим функционалом гауссовской меры тогда и только тогда, когда вц Є S.

Замечание 2.3. Известно [22], что в случае dim Я = со не существует борелевской меры на Я, для которой ipfl(x) = е .

1) Известно [22], если 5 S, то определен оператор JS по правилу (х, 8цу)н — {\[S n%, \fS ny) Для любых х,у Є Н, причем оператор у — строго положительно определен и является гильберт-шмидтовским. Множество таких операторов JS на Н обозначим через Щ.

2) Пусть (#) и U Є С(Н) — множество линейных операторов на Я00 со значениями в Н. Через U мы обозначим оператор, сопряженный к U. Если #о инвариантно относительно оператора [/, т.е. U{HQ) С #о то его сужение на #о, обозначаемое через /я0 можно рассматривать как оператор в Но. Из теоремы о замкнутом графике [22] легко установить, что U\JJ0 Є (#о), который мы будем обозначать через UQ. Оператор, сопряженный к оператору V Є C(HQ), будем обозначать через V .

Отсюда следует утверждение. Лемма 2.1. [22]. Пусть U (Н) и ЩН0) С Я0. Тоща Щ = SUS-1. Приведем известный результат, касающийся свойств гауссовских мер. Теорема 2.2. [22]. Пусть U Є (#) и U(H0) С Н0. Предположим, что Щ — унитарный оператор в Щ. Тогда [іЩ1 = /І. Замечание 2.4. 1) Пусть гпц = 0 и S x = Е а„(ж,е„)еп, где {en}n i — п=\ некоторый базис в Н. Поскольку оператор S инъективен, то ап 0 для всех п. В этом случае характеристический функционал (р меры /І задается равенством ОО (р Х) = Є 2\ Х) = е п=1 2) Для указанного выше оператора S пространство Щ можно определить д ( в2 1 следующим образом Щ = х = Е АгЄп; Е - оо . п=1 п=1 а" \

Пусть х Є [0,1], a L2[0,1] — множество функций / : [0,1] — R1, квадратично интегрируемых относительно меры Лебега , т.е. / f2(x)dx со.

Пусть задано некоторое вероятностное пространство (Г2, JF, Р). Пусть задана случайная функция п : N+ х Q х [0,1] — R1, обозначаемая через пт(х), где т Є N+, х Є [0,1], причем для любого х Є [0,1] і Mnm(x) = 0, М J n2m(x)dx = а2 оо, (2.1) о где через М — обозначена операция взятия математического ожидания относительно меры Р. Для любого х Є [0,1] и т ф к Мпт(х)пк(х) = 0. (2.2) Пусть / : Q х [0,1] —- R1 — случайная функция, обозначаемая через /(а;, х), такая, что і U J f \UJ, x)dx оо. (2.3) о Очевидно, что f(u),x) Є г[0,1] Р-п.н., т.е. Р (/ f2(u,x)dx оо) = 1.

2.3. Предположим, что мы наблюдаем функцию ут(х), которая представляет собой сумму случайных функций f(u),x) и пт(х), т.е. Ут{х) = f{uJ,x) + пт(х), (2.4) где х Є [0,1], т G N+.

Поскольку Ьг([0,1]) — сепарабелыюе гильбертово пространство, то в нем существует (не единственная) полная ортонормировапная система функций, которую мы обозначим через { г ( )}г о ( о( ) = 1) (т.е. РІ(Х) Є І/г([0,1]) и /(pi(x)ipj(x)dx = 8ij, здесь 6ij — символ Кронекера, причем Е } p2(x)dx оо). Хорошо известно [67], что если имеется некоторая Т г=00 В([0,1])-измсримая функция д{и,х) такая, что для любого и Є Q она принадлежит Ьг([0,1]), то для каждого и Є О, она допускает представление оо д{и;,х) = a?M ft(w), і=о где ос1{ш) = f g(tj,x)(pj(x)dx — случайные величины, которые являются J о коэффициентами Фурье функции д(и ,х) [8G].

Гауссовские меры в гильбертовом пространстве

В главе два мы установили условия существования решения задач оптимального и -оптимального (/? 0) оценивания в смысле критерия минимума среднеквадратической ошибки (2.11) гауссовской случайной функции на О, х [0,1] со значениями в Я1 по наблюдениям за пей с ошибками, представляющими собой гауссовскую случайную функцию па Q х [0,1]. Отметим, что основным неудобством при использовании этих алгоритмов оценивания является использование в них счетного (в случае оптимального оценивания) или конечного числа (в случае е-оптималыюго оценивания) линейных функционалов вида і Ут = Jym{x)(fi(x)dx.

Мы также рассматриваем задачу оценивания гауссовской случайной функции f(cJ,x) но наблюдениям {yj(x)}, определяемым соотношением (2.4). В отличие от случая рассмотренного в главе 2 здесь мы полагаем, что наблюдения проводятся в некоторых фиксированных точках х\,...,хт Є [0,1], причем в каждой точке Х{ наблюдения могут проводиться / раз, т.е. имеется выборка {уі(хг), ...,уі(хі)} объема / в каждой точке Х\ Є [0,1], г = l,m.

Целью данной главы является: і) нахождение условий, выполнение которых которых обеспечивает существование оптимального и у/є оптимального оценивания гауссовской случайной функции но наблюдениям (2.4) в конечном числе точек Х{ Є [0,1], і = l,m; ii) нахождение условий, которые обеспечивают существование непараметрических проекционных оценок для функции из L2QO, 1]) п0 наблюдениям за ней с гауссовскими ошибками в конечном числе точек из [0,1].

В 1 мы формулируем задачу - -оптимального оценивания гауссовской случайной функции по наблюдениям за ней в конечном числе точек. Кроме того, здесь приводятся необходимые для изложения материала определения и обозначения. В 2 содержится решение этой задачи. 3 посвящен оптимальному оцениванию гауссовской случайной функции но наблюдениям с ошибками, проводимым в конечном числе точек. В 4, опираясь на результаты 2 и 3 решается задача е-оптималыюго стохастического восстановления функций из ([0,1]) по наблюдениям в конечном числе точек. В 5 рассматривается та же задача, что и в 4 лишь с тем отличием, что в качестве базиса используется тригонометрический.

Пусть выполнены условия пунктов 2.2-2.4 из 2 главы 2. Тогда из (2.4) следует, что модель наблюдений имеет вид y{x) = f(u,x) + n(x). (3.1) Предположим, что Х{ Є [0,1], г = 1,т. Обозначим: yi = у(х{), f(uj,Xi) = f(w, х)\х=хц Щ = n(xi). Из пункта 2.3 из 2 главы 2 следует, что определены случайные величины оо оо оо Уі - Е y3Vj{xi), f(w,Xi) = Е «Vj( ), "і - E nJ Pj{xi), 3=0 j=0 j=0 где для любого j О 1 1 1 Vі — j y{x)Pj{%)dx, о/ = / f(cu,x)(pj(x)dx, n-7 = / n(x)ipj(x)dx. 0 0 0 Отсюда следует, что мы наблюдаем m-мерный вектор Ym = (yi,.-.,ym) » причем Ym = Fm(v) + nra, (3.2) где Frn(co) = {f{u,x\),...,f{uj,xm)) — m-мерный гауссовский вектор, n = гтп (n(xi),...,n(xm)) — m-мерный гауссовский вектор ошибок. Предположим, что Мщщ = o\bij, то есть ошибки рассматриваемые в разных точках Xk Є [0,1] некоррелированы. Кроме того, предположим, что над моделью (3.2) произведено / независимых испытаний, т.е. имеется выборка (У/71,.., Y), причем в к-ои испытании, к = 1,1, мы наблюдаем m-мерный вектор Y, для которого справедливо представление

Оптимальное оценивание гауссовской случайной функции по наблюдениям, проводимым в конечном числе точек из [0,1]

В главе 3 мы получили условия, выполнение которых обеспечивает существование -оптимального стохастического восстановления функций, принадлежащих пространству г([0,1)] в предположении, что эти функции наблюдаются со случайными гауссовскими ошибками в конечном числе точек из отрезка [0,1] (смотри теорему 3.3). Целью данной главы является описание и обоснование алгоритма стохастического восстановления неизвестной функции из 1 2([0,1)]) 1Ю наблюдениям за ней в конечном числе точек с гауссовскими ошибками. Здесь, опираясь на результаты 4 и 5 главы 3 мы даем описание этого алгоритма, а также комплекса программ реализующего его на ПЭВМ.

Следует отметить, что при создании комплекса программ, реализующего этот алгоритм, возникла необходимость в решении нескольких проблем: 1) выбор системы ортонормированных функций; 2) выбор масштабных коэффициентов (параметров, которые были бы адекватны (в каком-то смысле) реальным данным); 3) создание комплекса программ, который бы реализовал: і) выбор системы ортогональных функций; іі) алгоритм е-оптималыюго оценивания.

Сделаем ряд замечаний, касающихся сформулированных выше первых трех проблем:

1) так как в L2([0,1)] существует неединственный ортонормированный базис (например, базис, порожденный тригонометрическими функциями, функциями Хаара, полиномами Лагерра и т.д.), то возникает проблема выбора такого ортонормировашюго базиса, программная реализация которого была бы проста и удобна;

2) проблема выбора масштабных коэффициентов — это задача, эквивалентная задаче оценки неизвестных параметров, являющихся мультипликаторами у независимой переменной х Є [0, 1] и системы ортогональных функций;

3) задача выбора точек хі,...,хп Є [0,1], в которых следует производить измерения неизвестной функции f(x) Є - 2([0,1]) рассмотрена в 5 главы 3 и в нем установлена асимптотическая оптимальность равномерного разбиения отрезка [0,1] (смотри теорему 3.4).

Перейдем к краткому изложению результатов, полученных в данной главе. 1 посвящен построению и обоснованию методики восстановления неизвестной функции, представляющей собой линейную комбинацию тригонометрических функций с неизвестными периодами. В 2, опираясь на результаты 1, приводится и обосновывается процедура построения ортонормировашюго базиса по результатам наблюдений. 3 посвящен описанию комплекса программ, реализующих алгоритм восстановления неизвестной функции.

В 4 и 5, соответственно, рассмотрены применения комплекса программ, реализующих алгоритм -оптимального восстановления неизвестной функции, для задач: 1) восстановление динамики котировок валют рубль — иена (Япония) и рубль — доллар (США); 2) восстановление зависимостей экспрессии слайдов генных карт.

На практике мы имеем не функцию / : [0,1] — R1 из L2([0,1]), а некоторую другую функцию ip : [а, Ь] — R1, причем f(x) = (p(x(b — a) ). При этом границы этого интервала [а, Ь] нам, как правило, неизвестны. Стало быть нам неизвестна длина интервалов разбиения, а следовательно и величины 7} в (4.2) нам также не известны. Поэтому возникает задача оценивания параметров (} - 0, {Pj}j 0, {Tj}j 0 в модели наблюдения (4.2).

Постановка задачи. Пусть наблюдается последовательность случайных величин {yi}i v которая допускает представление (4.2). Требуется по результатам построить оценки неизвестных параметров {ctj}, {j3j}, {Tj}, j 0- Для построения этих оценок применим метод максимального правдоподобия, который в данном случае совпадает с методом наименьших квадратов, имеем:

Похожие диссертации на Алгоритм восстановления функций