Введение к работе
Актуальность темы. При решении широкого класса прикладных задач в технике, медицине, естественнонаучных'исследованиях часто возникает задача дискришнантного анализа (ДА) многомерных наблюдений, которая состоит в отнесении объекта к одной из совокупностей (групп, классов), заданных своими вероятностными распределениями или представляющими их конечными случайными обучающими выборками.
Применение к решению задач дискриминантного анализа теории статистических решающих функций позволило построить оптимальные' решающие правила, минимизирующие некоторый функционал риска (средних потерь) при соответствующем выборе функции потерь для заданной классической модели экспериментальных данных. В условиях полного и точного описания классов оптимальным является байесовское решающее правило (БРП). Классическая модель данных традиционно использует предположение,об однородности классифицируемых наблюдений и выборки для каадого класса. Однако на практике это модельное предположение часта нарушается, так как экспериментальные данные являются неоднородными: присутствуют "выбросы", неоднородность выборочных значений, несовпадение "фактического" распределения с гапотетическш. Неоднородность данных нарушает оптимальность решающа правил (РП), приводит к ..неконтролируемому росту риска классификации. Опыт использования классических процедур ДА показал, что некоторые наиболее употребляемые статистические процедуры оказываются весьма чувствительными даже к малым отклонениям от начальных модельных, предположений. Это означает, что небольшие искажения могут привести к существенным ошибкам в окончательных выводах, а, следовательно, классические процедуры оказываются неэффективными. Поэтому в настоящее время наблюдается интенсивное раз-' вйтие процедур дискриминантного анализа, основашшх на устойчивых (робастных) выводах, таких процедур, которые незначительно уступают в эффективности классическим процедурам при точном выполнении условий их оптимальности и являются мало чувствительными (устойчивыми) к малым отклонениям"от этих условий.
В связи с этим актуальными как в теоретическом, так ив практическом плане являются следующие задачи ДА:
I. Исследовать влияние неоднородностей в данных на устойчи-
востъ решающих правил.
2. Построить и исследовать РП, устойчивые к заданным . типам искажений (неоднородностей) данных.
Эти звдачи относятся к проблеме устойчивых статистических выводов, сформулированной П.Хьюбером, развиваемой Ф.Хампелем, М. Тику, Д. Мак-Лахланом, Я.З.Шпкидам, Б.Т.Поляком, С.А.Айвазяном, Л.Д.Мешалкиным, "А.М.ІШгрнгшшм, Ю.СХариным и другими учеными.
Для решения этих задач эффективным оказывается метод асимп-, тотических разложений. Использование первых членов асимптотических разложений по степеням величин, определяющих уровень искажений " в данных, позволяет при незначительных потерях в точности получить существенный выигрыш в простоте вычислений риска, что способствует рещению задач анализа устойчивости решающих правил, определения допустимого объема выборки и ,нахождения критических уровней искажений, гарантирующих заданный уровень устойчивости РП.
Таким образом, необходимость решения задач даскриминантного анализа неоднородных случайных наблюдений, а также эффективность асимптотических методов при решении задач исследования.устойчивости РП определяют актуальность темы диссертационной работы.
Целью работы является разработка математических моделей, методов и новых решающих правил устойчивого даскриминантного анализа неоднородных случайных наблюдений, а также реализация предложенных методов в специальном программном обеспечении по робастному статистическому анализу данных.
Поставленная цель определила следующие основные задачи:
-
Построение и описание математических моделей неоднородных наблюдений.
-
Оценка устойчивости классических решающих правил при появлении искааений модели классифицируемых наблюдений (искажения в 1,2-метрике, случайные искажения, параметрическая, неоднородность наблюдений, искажения,задаваемые смесями вероятностных распределений). \
-
Исследование устойчивости подстановочных решающих правил '(ПРП) при наличии неоднородной рбучающей выборки.
4*. Определение условий робастности решающих правил, критиче-ских уровней искажений и допустимых объемов выборки, гарантирующих заданный уровень устойчивости.
5. Построение роОастных решающих, правил, устойчивых к заданным типам искажений и их программная реализация.
Основными методами исследования являются метода теории вероятностей и математической статистики, теории-статистических решений и многомерного статистического анализа, метод асимптотических разложений, методы оптимизации, аппарат теории обобщенных функций и теории матриц.
Новые научные результаты.
В случае искажений моделей классифицируемых наблюдений:
-
Показано, что традиционно применяемое в дискриминантом анализе байесовское решающее правило теряет свою оптимальность при появлении неоднородностьй в модели данных.
-
Построены выразкения гарантированного риска классификации, впервые получены оценки коэффициента робастности классических решающих правил для следующих типов искажений: искажения в-і2-мет-рике, параметрическая неоднородность наблюдений, искажения, задаваемые смесями вероятностных распределений, случайные искажения.
-
Исследована зависимость величины гарантированного риска классификации и коэффициента робастности от уровней искажений, а в-случае искажений, в ь -метрике от вида весовой функции.
4. На основе оценок коэффициента робастности получены
условия робастности решающих правил, определены необходимые в
практическом использовании критические значения ("пороговые
точки") уровней искажений.
5. Построены новые робастные решающие правила, обеспечива
ющие минимум гарантированного риска классификации.
В случае "засорений" Гьюки-ХыоОера обучающей выборки:
-
Для случая произвольного регулярного семейства многомерных плотностей установлены асимптотические свойства оценок минимального контраста (МК-оценок), определены условия их состоятельности. .;'
-
Построены новые асимптотические разложения для моментов ' первого и второго порядка оценок минимального контраста.
-
Проведен асимптотический анализ риска классификации и устойчивости ПРП, использующего МК-оценки.
-
Построены новые асимптотические разложения коэффициента робастности и коэффициента асимптотической робастности. На основе полученных асимптотических разложений найдены допустимые объемы, выборки, гарантирующие заданный уровень устойчивости ИІ.
-
Построено новое решающее правило повышенного порядка, устойчивости, основанное на функциональном . преобразовании оценок
минимального контраста.
6. Для часто, используемой на практике гауссовской модели наблюдений проведено численное исследование устойчивости подстановочного решащего правила при наличии "выбросов* в обучающей выборке. Показано, что использование устойчивых оценок .параметров (одношаговые М-оценки, оценок медианного типа) в ПРП приводит к РП, устойчивому к "выбросам" в выборке.
Практическая ценность и реализация результатов. Практическая , ценность работы заключается в том, что ее результаты могут быть использованы при решении задач статистического анализа неоднородных экспериментальных данных в научных исследованиях, технике, экономике, медицине. Теоретические и практические результаты работы использованы и внедрены при выполнении НИР "Разработка методов, алгоритмов и программного обеспечения устойчивого (робастного) анализа данных для автоматизации научных исследований, математического моделирования на ЭВМ сложных систем в условиях априорной неопределенности" (номер гос. регистрации 01890080692) в рамках Республиканской научно -технической программы "Информатика"; при выполнении НИР "Разработка теории устойчивого математического моделирования систем, логико-комбинаторных и вероятностно- статистических методов оптимизации и распараллеливания вычислительно- информационных процессов" (номер гос. регистрации 01910054943) по плану фундаментальных исследований БГУ; при выполнении НИР "Разработка теории робастного (уотоичивого), статистического распознавания образов" по Фонду фундаментальныд/йссл&дований при Совете Министров Республики Беларусь (грант.'Ф40^2ет)..
Построенные в диссертации решающие' правила дискриминантного анализа реализованы на івм-совмеотимнх ППЭВМ и включены в пакет прикладных программ "РОСТАН* (РОбастный статистический АНализ), разработанный на. кафедре математического моделирования и анализа данных Белорусского государственного университета. Акты об использовании результатов работы приведены в 'приложении.
Аппробация работы. Основные результаты диссертационной работы докладывались на научно-технизеской конференции вузов Белоруссии, Молдавии, Эстонии, Латвии, Литвы (Минск,1989), Республиканской научной конференции "Математическое и программное обеспечение анализа данных" (Минск, 1990), на межреспубликанской научно-технической конференции "Актуальные проблемы информатики: математическое, программное и информационное обеспечение аналікзгі данных"
(Минск, 1990, 1992), на xv семинаре СНГ по проблемам устойчивости стохастических моделей (Пермь, 1992), на -семинаре "Многомерный статистический анализ и вероятностное моделирование реальных процессов" (Москва, ЦЗМИ, 1992), на Республиканской школе - семинаре "Компьютерный анализ данних и моделирование" (Минск, 1992), на vi международной конференции по теории вероятностей и математической статистике (Вильнюс, 1993), в Белгосуниверситете на семинарах кафедры математического моделирования и анализа данных (1989-1993).
Публикации. По теме диссертационной работы опубликовано 14 работ.
Достоверность приводимых в диссертации результатов обеспэ- чивается корректным применением математических методов и подтверждается результатами вычислительных экспериментов.
Структура и объем работы. Работа состоит из введения, трех глав, заключения, приложения, списка литературы,содержащего 97 наименований. Диссертация содержит 120 страниц, включая 8 рисунков.