Введение к работе
Актуальность темы диссертации. В современной математической статистике одним из активно развиваемых направлений становится направление, разрабатывающее робастные* (устойчивые) процедуры анализа данных, имеющие важное прикладное значение. При решении практических задач гипотетические модельные предположения описывают анализируемые статистические данные неточно, с некоторыми искажениями. Например, гипотетические распределения вероятностей случайных параметров модели и наблюдений могут отличаться от истинных, в наблюдениях могут присутствовать "выбросы", наблюдения могут оказаться статистически зависимыми и т.д. В подобных случаях статистические процедуры, оптимальные в рамках гипотетических вероятностных моделей, при появлении искажений утрачивают это свойство, могут приводить к неудовлетворительным результатам и, как следствие, не могут использоваться на практике. Поэтому возникает необходимость синтеза новых ро-бастных статистических процедур. Над решением таких задач работают многие известные в области математической статистики учёные: П. Хью-бер, Ф. Хампель, П. Бикел, X. Ридер, С.А. Айвазян, ЮЛ. Благовещенский, Л.Д. Мешалкин, Б.П. Титаренко, Р. Рудзкис, Г.Л. Шевляков, A.M. Шуры-гин и многие другие.
В практических задачах часто возникают ситуации, когда экспериментальных данных недостаточно для получения удовлетворительных статистических выводов. В таких ситуациях эффективно применяется байесовский подход, позволяющий использовать при построении статистических процедур наряду с наблюдениями также и априорную информацию. На практике такой подход стал активно использоваться лишь с 80-х годов в связи с появлением ЭВМ с производительностью, достаточной для осуществления вычислений по алгоритмам, реализующим байесовские статистические процедуры, и в настоящее время наблюдается дефицит статистических программных средств, способных учитывать априорную информацию об анализируемом явлении.
Априорная информация, повышая качество статистических процедур, одновременно может служить дополнительным источником искажений модельных предположений, что приводит к особой актуальности проблем робастности статистических выводов, использующих байесовский подход. Исследования по робастной байесовской статистике связаны с именами
"От английского robust — крепкий, стойкий; данный термин означает малую чувствительность статистических процедур к искажениям гипотетической модели и используется из-за перегруженности в математической литературе понятия "устойчивость".
Дж. Бергера, М. Веста, С. Гейссера, Дж. Харрисона, М. Лавине, Р.А. Абу-сева, И.Н. Володина, Ш. Раудиса и других учёных. Их усилия привели к получению теоретических и прикладных результатов в разведочном анализе данных, оценивании параметров моделей, оптимальном планировании экспериментов, проверке статистических гипотез.
В статистическом прогнозировании байесовский подход избавляет от необходимости решать сложную задачу идентификации системы. Благодаря использованию адекватной априорной информации, повышающей точность прогнозирования, в рамках гипотетических вероятностных моделей байесовский прогноз оказывается оптимальным по критерию минимума риска (среднего квадрата ошибки) прогнозирования. Тем не менее, широкое практическое использование байесовских методов прогнозирования, требующих больших вычислительных затрат, началось сравнительно недавно. Необходимость повышения точности прогнозирования, существующая в в различных областях — технике, медицине, экономике, археологии, экологии, метеорологии — при создании и использовании компьютерных систем прогнозирования, а также тот факт, что гипотетические предположения, формулируемые в виде вероятностных распределений, на практике зачастую нарушаются, обусловили актуальность исследования робастности в байесовском статистическом прогнозировании при искажениях гипотетических вероятностных распределений, являющегося темой данной работы.
Связь работы с крупными научными программами, темами. Результаты диссертационного исследования использованы при выполнении в Белгосуниверситете следующих научно-исследовательских работ: 1) г/б НИР 19972532 "Разработать систему проблемно-ориентированных пакетов прикладных программ в области статистического анализа данных и моделирования" (1997 — 1998 гг.) по Государственной научно-технической программе "Информатика"; 2) г/б НИР 19963454 "Разработка методов и алгоритмов робастного (устойчивого) статистического анализа многомерных и динамических данных при наличии функциональных искажений" (1996 — 2000 гг.) по Государственной программе фундаментальных исследований Республики Беларусь "Алгоритм"; 3) г/б НИР 19982771 "Разработка и исследование статистических методов, алгоритмов и программных средств устойчивого прогнозирования и восстановления зависимостей" (1998 г.) по гранту поддержки молодых учёных Белгосуниверситета; 4) г/б НИР "Разработка методов робастного прогнозирования процессов, описываемых параметрическими стохастическими уравнениями" (1999 г.) по гранту поддержки молодых учёных Белгосуниверситета. При выполнении двух последних НИР автор диссертации являлся научным руководителем.
Цель и задачи исследования. Целью данного диссертационного исследования является вычисление характеристик робастности известных статистик байесовсокого прогнозирования и построение новых, робастных байесовских прогнозирующих статистик, устойчивых к функциональным искажениям гипотетической вероятностной модели. Достижение указанной цели предполагает решение следующих основных задач:
-
Оценивание гарантированного верхнего риска, характеризующего робастность байесовского прогнозирования при искажениях гипотетической вероятностной модели, когда а) искажения априорной плотности распределения вероятностей вектора параметров и условной плотности распределения вероятностей вектора наблюдений описываются моделью "выбросов" типа Тьюки-Хьюбера; б) искажения задаются семейством допустимых окрестностей гипотетических центров в функциональных пространствах плотностей распределения вероятностей в равномерной метрике с гипотетической весовой функцией, в х2-метрпке и в Li-метрике.
-
Синтез новых байесовских прогнозирующих статистик, робастных по отношению к исследуемым типам искажений.
-
Оценивание выигрыша в риске для робастных прогнозирующих статистик по сравнению с байесовской прогнозирующей статистикой.
-
Построение робастных прогнозирующих статистик для двух широко используемых на практике параметрических моделей временных рядов: трендовой и авторегрессионной.
-
Разработка вычислительных алгоритмов, реализующих робастные байесовские прогнозирующие статистики, и внедрение построенных алгоритмов в программные продукты по статистическому прогнозированию.
Объект и предмет исследования. Объектом исследования являются традиционно используемые и новые статистики байесовского прогнозирования. Предмет исследования — свойства робастности прогнозирующих статистик по отношению к искажениям гипотетической вероятностной модели, задаваемым посредством смесей Тьюки-Хьюбера и окрестностей в функциональных пространствах плотностей распределения вероятностей.
Методика исследования. Используемая в данной работе методика анализа робастности и синтеза новых, робастных к искажениям гипотетической вероятностной модели, статистик байесовского прогнозирования основана на аналитическом вычислении, построении асимптотических разложений функционалов верхнего риска и гарантированного верхнего риска, а также на решении оптимизационных задач построения робастных байесовских прогнозирующих статистик по критерию минимакса. При этом используются: аппарат теории вероятностей и математической статистики;
модели и методы статистического анализа временных рядов; асимптотические методы статистики; аппарат методов оптимизации в функциональных пространствах. Также интенсивно используется аппарат функционального анализа, теории обобщённых функций и теории матриц.
Научная новизна полученных результатов. Результаты, изложенные в диссертации, являются новыми и получены автором впервые. Среди них выделим следующие основные результаты:
-
Предложены новые, не исследовавшиеся ранее в байесовском статистическом прогнозировании, модели искажений М\ — Mj гипотетических вероятностных распределений: х2_искажения априорной (Мз) и совместной (Mj) гипотетических плотностей распределения вероятностей, искажения М± априорной гипотетической плотности в Li-метрике, искажения априорной (Mi), совместной и условной (Мб) гипотетических плотностей в С-метрике с весом, а также модификации известных искажений Тьюки-Хьюбера (Мг и Ms) для модели байесовского прогнозирования, позволившие охватить широкий класс допустимых искажений (глава 1).
-
Впервые получены аналитические выражения (для искажений М\ — М5, Mi гипотетической вероятностной модели), асимптотические разложения (для Мз, Mj и Mi) и оценки (для искажений Mi, Mi, М4, Me) функционала гарантированного верхнего риска (главы 2, 3).
-
Впервые доказано свойство г+- робастности традиционно используемой байесовской прогнозирующей статистики при искажениях Mi, Мб в С-метрике с весом, а также получены точные выражения (при искажениях Мі, М$) г+-робастных прогнозирующих статистик, приближённые выражения (в случае Мз, Mr) и асимптотическое разложение (для М) робастной прогнозирующей статистики (главы 2, 3).
-
При искажениях Мз, My построены асимптотические разложения выигрыша в риске построенных устойчивых прогнозирующих статистик по сравнению с байесовской прогнозирующей статистикой (главы 2, 3).
-
Для временных рядов с трендом и авторегрессионных временных рядов при искажениях в С-метрике с весом впервые построены г+-робастные байесовские прогнозирующие статистики (глава 4), две из которых реализованы в пакете прикладных программ (ППП) по статистическому прогнозированию СТАТПРО.
Практическая и экономическая значимость полученных результатов. На основе построенных в диссертации г+-робастных прогнозирующих статистик автором разработаны два устойчивых алгоритма байесовского прогнозирования, реализованные в виде вычислительных процедур в составе ППП по статистическому прогнозированию СТАТПРО. Этот
программный продукт внедрён в Белорусском научно-внедренческом центре по землеустройству и НИИ онкологии и медрадиологии. Автором разработана библиотека компьютерных процедур "РБАР", зарегистрированная Фондом программных средств Белгосуниверситета. Эта библиотека предназначена для проведения вычислительных экспериментов по робаст-ности байесовского прогнозирования авторегрессионных временных рядов.
Экономическая значимость полученных в диссертации результатов обусловлена тем, что ППП СТАТПРО, в котором реализованы разработанные автором алгоритмы робастного прогнозирования, может рассматриваться как коммерческий программный продукт, на который имеется спрос в различных организациях, занимающихся прогнозированием в условиях нарушений традиционных модельных предположений.
Основные положения диссертации, выносимые на защиту.
-
Новые для байесовского статистического прогнозирования модели искажений гипотетических вероятностных распределений, задаваемые с помощью окрестностей в функциональных пространствах априорной, условной и совметнои плотностей распределения вероятностей в С-метрике с весом, Lj-метрике и х2"метрике.
-
Аналитические выражения, асимптотические разложения и оценки для функционала гарантированного верхнего риска при функциональных искажениях гипотетических распределений вероятностей параметров модели и наблюдаемых значений, дающие количественную оценку робастно-сти прогнозирующих статистик.
-
Точные и приближённые выражения, а также асимптотические разложения для робастных (по критерию минимакса риска прогнозирования) и г+-робастных байесовских прогнозирующих статистик при искажениях априорного распределения вероятностей вектора параметров, условного распределения наблюдений при заданном векторе параметров и совместного распределения параметров и наблюдений, а также доказательство свойства г+-робастности байесовской прогнозирующей статистики, определяемой как апостериорное среднее.
-
Оценки выигрыша в риске прогнозирования при использовании робастных байесовских статистик по сравнению с байесовской прогнозирующей статистикой при наличии х2-искажеиий распределения вероятностей параметров и наблюдений.
-
Аналитические выражения г+-робастных байесовских прогнозирующих статистик по отношению к искажениям типа Тьюки-Хьюбера и к искажениям в С-метрике для двух гипотетических моделей временных рядов: трендовой и авторегрессионной.
6. Алгоритмы и программы г+-робастного байесовского прогнозирования временных рядов с трендом и авторегрессионных временных рядов при равномерных искажениях гипотетического совместного распределения параметров модели и наблюдений.
Личный вклад соискателя. Все результаты, приведённые в диссертации, получены автором лично. Соавторам в совместных работах принадлежат предметные постановки задач, выбор направления исследований и обсуждение результатов. При ссылке на совместные публикации соискателя подразумеваются результаты, полученные лично автором.
Апробация результатов диссертации. Основные результаты диссертационного исследования были представлены и обсуждались на
VI 1-й Международной Вильнюсской конференции по теории вероят
ностей и математической статистике и 22-м Европейском совещании ста
тистиков (Вильнюс, 1998);
52-й Сессии Международного статистического института (Хельсинки, 1999);
Ш-и Скандинавско-Украинской конференции по теории вероятностей и математической статистике (Киев, 1999);
6-й Международной Тартусской конференции по многомерной статистике (Тарту, 1999);
23-й ежегодной Международной конференции по классификации
"Классификация и обработка информации" (Билефельд, 1999);
V-й Международной конференции "Компьютерный анализ данных и моделирование" (Минск, 1998);
IV-й и V-й Международных конференциях "Распознавание образов и обработка информации" (Минск, 1997, 1999);
V-й Международной научной конференции "Актуальные проблемы информатики: математическое и программное обеспечение" (Минск, 1996);
Международной конференции молодых учёных " Ломоносов-97" (Москва, 1997);
1-й Международной школе-семинаре молодых учёных по искусственному интеллекту (Браславские озёра, 1997);
Межрегиональной конференции молодых учёных "Математика и
ЭВМ-98" (Брест, 1998).
Кроме того, результаты докладывались на заседаниях Республиканского научного семинара "Математическое моделирование сложных систем и анализ данных", проводимого Белорусской Статистической Ассоциацией, а также на Республиканских и университетских научных конференциях аспирантов и студентов.
Опубликованность результатов. Основные результаты, приведённые в диссертационной работе, опубликованы в 18 научных работах, из них 2 статьи в научных журналах, 8 статей в рецензируемых тематических сборниках и рецензируемых сборниках научных трудов Международных конференций и 8 тезисов докладов на Международных и Республиканских научных конференциях. Общее число страниц в публикациях — 77.
В число публикаций не включены 4 статьи в сборниках трудов конференций аспирантов и студентоп и 3 заключительных отчёта по НИР, в которых также публиковались результаты диссертации.
Структура и объём диссертации. Диссертация состоит из введения, общей характеристики работы, четырёх глав, заключения, двух приложений и списка использованных источников. Общий объём диссертации — 125 страниц машинописного текста, включая 11 рисунков на 5 страницах, список использованных источников на 10 страницах, включающий 116 наименований, и два приложения, совместно занимающих 10 страниц.