Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Приближенные методы разделения смесей вероятностных распределений Назаров, Алексей Леонидович

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Назаров, Алексей Леонидович. Приближенные методы разделения смесей вероятностных распределений : диссертация ... кандидата физико-математических наук : 01.01.05 / Назаров Алексей Леонидович; [Место защиты: Моск. гос. ун-т им. М.В. Ломоносова].- Москва, 2013.- 111 с.: ил. РГБ ОД, 61 13-1/391

Введение к работе

Актуальность темы. Смеси вероятностных распределений как математические модели используются во многих задачах, например, при непараметрическом оценивании плотности и в кластерном анализе. Они демонстрируют высокую адекватность при описании неоднородных данных. Смеси вероятностных распределений хорошо зарекомендовали себя при описании хаотических процессов, моделирующих, к примеру, поведение цен финансовых инструментов, турбулентной плазмы.

Первые работы по исследованию и применению смесей вероятностных распределений появились еще в конце XIX века. К числу пионерских работ этого направления можно отнести работы С. Ньюкомба 1886 г. и К. Пирсона 1894 г. В них рассматривается смесь нормальных распределений, использующаяся для моделирования скошенных и островершинных распределений.

В общем случае задача разделения смеси вероятностных распределений заключается в поиске смеси из некоторого допустимого класса, которая в некотором смысле ближе всего к распределению наблюдаемой величины. Так как класс допустимых смесей чаще всего определяется классом допустимых смешивающих распределений, гарантирующих идентифицируемость модели, задача разделения смеси обычно сводится к задаче статистического оценивания смешивающего распределения по реализациям смеси'''.

Традиционными статистическими инструментами при решении задачи разделения смеси являются метод моментов и метод максимального правдоподобия. Как правило, для оценки смешивающего распределения в рассматриваемых задачах используется метод максимального правдоподобия. При этом ищется точка глобального максимума функции правдоподобия, соответствующая семейству допустимых смесей, как функция параметров. Численно данная задача может быть решена с помощью стандартных методов оптими- зации. Для решения задачи статистического разделения смесей вероятностных распределений также используются метод моментов, метод минимума хи-квадрат, метод наименьших квадратов и пр. (см. работы О.К. Исаенко и В.Ю. Урбаха, J. Grim и др.5'6'7'8).

Для конечных смесей нормальных распределений задача поиска оценок максимального правдоподобия может быть решена с помощью ЕМ- алгоритма. ЕМ-алгоритмом принято называть схему построения процедур итерационного типа для численного решения задачи поиска экстремума целевой функции в разнообразных задачах оптимизации. В частности, в прикладной статистике эта схема вполне работоспособна при поиске оценок максимального правдоподобия и родственных им в ситуациях, когда функция правдоподобия имеет сложную структуру, из-за которой другие методы оказываются неэффективными или вообще не применимы.

Появление первых электронно-вычислительных машин сделало возможной реализацию довольно сложных итерационных процедур, к числу которых принадлежит ЕМ-алгоритм, и стимулировало дальнейшее развитие идей, лежащих в основе ЕМ-алгоритма. Эти идеи нашли свое отражение в работах M. Healy, M. Westmacott, H.O. Hartley, S.F. Buck, М.И. Шлезингера, N. Day, J. Wolfe, B.J.N. Blight и др.

Поиск оценок весов и параметров компонент смеси с помощью ЕМ- алгоритма работает эффективнее, чем стандартные методы оптимизации. Однако в общем случае функция правдоподобия конечной смеси нормальных распределений нерегулярна, имеет много локальных максимумов (возможно, к тому же, бесконечных). Поэтому при численном решении данной задачи ЕМ-алгоритм так же, как и стандартные методы оптимизации, становится крайне неустойчивым. К сожалению, последнее обстоятельство является серьезным препятствием для корректной интерпретации результатов применения данных алгоритмов к разделению конечных смесей нормальных законов.

В частности, было экспериментально установлено, что ЕМ-алгоритм неустойчив по начальным данным. В некоторых случаях замена лишь одного наблюдения в выборке может кардинально изменить итоговые оценки, полученные с помощью ЕМ-алгоритма. Поэтому необходимо иметь альтернативные методы разделения смесей, ориентированные не на максимизацию «полной» функции правдоподобия, а на оптимизацию других разумных критериев качества получаемых оценок.

Одно из серьезных ограничений использования метода максимального правдоподобия для решения рассматриваемой задачи заключается в том, что класс допустимых смешивающих распределений чаще всего параметризован и задается точками из некоторого подмножества евклидова пространства. Это связанно с тем, что поиск точек глобального максимального правдоподобия обычно проводится численно. При этом задача поиска оценки смешивающего распределения, например, среди всех распределений, сосредоточенных на некотором компакте, не может быть решена с помощью данных методов без дополнительных ограничений.

Поиск новых эффективных методов является принципиально важным с точки зрения возможности адекватной практической интерпретации результатов работы алгоритмов разделения смесей. Именно такие альтернативные методы и предлагаются в данной работе.

Цель работы. Целью настоящей диссертации является описание и исследование класса приближенных методов разделения смесей вероятностных распределений - сеточных методов разделения смесей. Изучаются вопросы теоретического обоснования применимости данных методов и исследуются асимптотические свойства оценок, полученных с их помощью.

Научная новизна. Все основные результаты диссертации являются новыми и состоят в следующем:

  1. Получены верхние оценки устойчивости для масштабных, сдвиговых и сдвиг-масштабных смесей нормальных законов.

  2. Исследованы вопросы существования нижних оценок устойчивости для подклассов смесей нормальных законов. Оценки для сдвиговых смесей нормальных распределений получены в явном виде.

  3. Разработан, исследован и реализован класс сеточных методов разделения смесей. Проведено тестирование данных алгоритмов на различных наборах данных.

  4. Исследованы асимптотические свойства оценок, получаемых с помощью сеточного метода максимального правдоподобия.

  5. Доказана функциональная предельная теорема, описывающая сходимость оценок, полученных с помощью сеточного метода максимального правдоподобия для разделения масштабных смесей, при согласованном увеличении размера выборки и числа узлов сетки.

Объектом исследования является модель сдвиг-масштабных смесей нормальных распределений, а также класс сеточных методов разделения смесей, применяемый для статистического оценивания параметров модели по ее реализациям.

Методы исследования. Для решении задач стохастической устойчивости рассматриваемой модели в первой главе используются свойства вероятностных метрик(метрик Леви, Леви-Прохорова и др.), свойства прямых и обратных преобразований Фурье, теорема Планшереля, теорема Прохорова, а также общие методы теории вероятностей. Асимптотические свойства оценок, полученных с помощью сеточных методов, рассматриваются с использованием результатов теории М-оценок и эмпирических процессов. Доказательство состоятельности данных оценок опираются на теоремы, описывающие сходимость вероятностных мер в пространстве Скорохода D[0,1]. Для исследования предложенных в работе алгоритмов применяется аппарат математической статистики и численные методы оптимизации. Сравнительное тестирование сеточных алгоритмов проводилось на выборках логарифмических приращений финансовых индексов Amex, Nasdaq, Nikkei, CAC 40. Данные алгоритмы были реализованы на языке C и с помощью пакета MATLAB.

Обоснованность научных положений. Теоретические положения и выводы диссертации сформулированы в виде утверждений, лемм, теорем и строго доказаны. Достоверность полученных результатов подтверждена экспериментальной проверкой алгоритмов и программ на реальных данных.

Теоретическая и практическая значимость Результаты диссертации являются вкладом в теорию статистического оценивания. Предложенный класс алгоритмов может применяться для численного решения задачи разделения смесей вероятностных распределений. Верхние и нижние оценки устойчивости смесей вероятностных распределений, полученные в работе и использующиеся для теоретического обоснования применимости данных методов, развивают теорию устойчивости стохастических моделей.

Апробация работы и публикации Основные результаты диссертации опубликованы в 10 печатных работах [1-10], 3 из которых - в журналах, включенных в перечень ВАК.

Результаты диссертации докладывались на ежегодной Международной конференции студентов, аспирантов и молодых ученых «Ломоносов» (Москва, Россия, апрель 2009 г. и апрель 2012 г.), на научной конференции «Ломоносовские чтения» 2012 года (Москва, Россия, 16-25 апреля 2012 г.), на XXX Международном семинаре по проблемам устойчивости стохастических моделей (Светлогорск, Россия, 24-30 сентября 2012 г.), на VI Международном рабочем семинаре «Прикладные задачи теории вероятностей и математической статистики, связанные с моделированием информационных систем» (Бер-Шева, Израиль, ноябрь 2012 г.), на научно-исследовательском семинаре «Теория риска и смежные вопросы» на факультете ВМК МГУ, на семинаре «Исследование асимптотического поведения и устойчивости стохастических моделей» на механико-математическом факультете МГУ, на семинаре «Моделирование финансовых рынков» в Высшей школе экономики.

Структура и объем диссертации Диссертация состоит из введения, трех глав, заключения и списка литературы. Полный объем диссертации 111 страниц текста с 12 рисунками. Список литературы содержит 70 наименований. Нумерация теорем и лемм в автореферате совпадает с нумерацией теорем и лемм в диссертации.

Похожие диссертации на Приближенные методы разделения смесей вероятностных распределений