Введение к работе
Актуальность теми. Кластер-анализ, как один из разделов современной творим прияятшїЗстатистичвских решений при отсутствии классифицированных рбу.чащих* выборок в условиях 'априорной неопределённости, использует два основних подхода: геометрический (Миркин Б.Г.,.Жэмбю М., Дюран Б., Оделл П., Мендель И.Д.) и вероятностный(Фукунага К., Миленький А.В., Book я.). Первый подход интерпретирует наблюдения как .точки В пространстве наблюдений Ш* и использует в качестве меры "близости" раз- ' личные метрики. Второй, вероятностный, представляет Наблюдения как реализации случайных векторов. С точки зрения возможностей аналитического исследования теория, которая возникает на основе последнего, оказывается значительно богаче. Более того, многие алгоритмы," которые первоначально строились исходя из чисто геометрического представления о классифицируемых -наблюдениях, удаётся переформулировать в понятиях распределения вероятностей и дополнительно изучить.
В классической теории статистической.' классификации в случае наличия полной априорной информации о классах задача синтеза оптимального в смысле минимума риска (средних потерь) решающего правила (РП) получила свое" решение в виде байесовского РП (БРП). Большинство известных алгоритмов кластер-анализа при выполнении некоторых условий допускает представление в виде подстановочных РП (ПРП, "piug-in-ruie"), которые получаются из БРП в результате подстановки вместо неизвестных вероятностных характеристик классов их -статистических оценок по так называемой неклассифицированной обучающей выбор--ке (то есть выборке из смеси вероятностных распределений).
Известно, что при выполнении определенных условий регулярности и неограниченном росте объёма выборки предельным значением риска ПРП является риск БРП. Однако на практике важно оценить устойчивость ПРП по отношению к эффектам конечных объ-бмов выборки. Кроме того, модельные предположения о классифицируемых наблюдениях зачастую нарушены (Айвазян С.А., АпЛег-berg м.я.): искажения'"гипотетических", вероятностных распределений, описывающих классы; зависимость элементов выборки; пропуски значений компонент у векторов-наблюдений.
Неучет этих нарушений и использование классических РП приводят к потере оптимальности последних. Возникают две основные проблемы:
- анализа устойчивости классических РП;
- построения робастных (устойчивых) P1I и их исследования.
В дискриминантном анализе, использующем классифицирован
ные- обучающие выборки, накоплен опыт решения этих двух задач
методом асюштотическш. разложений: использоваїше лишь первых
членов в разложениях риска по степеням величин, убывающих с
ростом числа наблюдений и уменьшением уровня искажений, позво
ляет при незначительных потерях в точности вычислить многие
важные характеристики РП и оценить их устойчивость (Харин Ю.С.,
Дучинскас К.А., Раудас Ш.Ю.). В кластер-анализе подобные ис
следования только начинаются: "очень значительный рост числа
методов и приложений кластер-анализа вс5 еще* не сопровождается
развитием статистической теории, с помощью которой можно оце
нить результаты группировок" (Хартиган Дж.А.).
Таким образом, практическая необходимость решения задач кластер-анализа при наличии нарушений классических модельных предположений, а также эффективность метода асимптотических разложений и определяют актуальность темы диссертационной работы.
Целью работы является разработка методов исследования устойчивости классических и построения робастных РП в кластерном анализе, предполагающая решение следующих основных задач:
-
Оценивание устойчивости классического подстановочного БРП (ПБРП) при наличии искажений вероятностішх распределений и построение робастных ПРП.
-
Разработка. вероятностной интерпретации классического алгоритма ъ-средних (как наиболее распроетранЗнного), синтез его робастных аналогов и анализ их устойчивости.
-
Построение оптимального ПРП при наличии зависимости номеров классов и анализ его устойчивости.
Методы исследования. Основными методами исследования являются методы: теории статистических решающих функций; асимптотического разложения риска; многомерного статистического анализа и асимптотической теории оценивания; робастной статистики; теории экстремумов случайных последовательностей и
процессов. Широко используется .аппарат ' теории матриц и обобщенных функций.
Основные результаты, выносимые на защиту:
-
Разработаны методы исследования ' асимптотической устойчивости РП кластер-анализа, основанные на разложениях риска и коэффициента робастности по степеням величин, убывающих с ростом объйма выборки и уменьшениемуровня искажений, который характеризует степень возможного отклонения от классических модельных предположений.
-
В случае искажений Тьюки-Хьюбера впервые: исследована устойчивость ПБРП, использующего классические оценки минимального контраста (ОМК) по нвклассифицирванной обучающей выбоке; построено робастное ПБРП, основанное на устойчивых ОМК с "усечённой" функцией контраста (ФК); синтезировано новое устойчивое минимаксное ПРП.
-
Дана вероятностная интерпретация известного в кластер-анализе алгоритма ь-средних и исследована его устойчивость в случае конечной выборки. При наличии искажений вероятностных распределений типа Тьюки-Хьюбера впервые оценена устойчивость классического РП х-среднта. и его робастного аналога, основанного на удалении аномальных наблюдений-"выбросов". Рассмотрены также другие виды нарушений модельных предположений: равномерное "засорение" и параметрические искажения.
-
В случае как угодно зависимых номеров классов построено оптимальное РП (ОРП) и исследована его устойчивость при помощи теории экстремумов случайных последовательностей. Рассмотрена обобщённая на случай марковской зависимости классов модель Фишера, для которой исследован риск ОРП при произвольном (возможно конечном) объёме классифицируемой выбрки и в асимптотике растущего числа классов. Синтезировано и изучено методом имитационного моделирования на ЭВМ ПРП, использующее оценки по методу моментов.
5. Для часто встречающейся в практических приложениях "искажённой" модели смеси нормальных (гауссовских) распределений на основе построенных асимптотических разложений риска получены формулы для вычисления допустимых объёмов выборки и пороговых точек, гарантирующих заданную точность решений.
Научная новизна диссертационной работы заключается в основных результатах, перечисленных выше, которые впервые получены и опубликованы автором.
Практическая значимость. Результаты работы используются при решении прикладных задач кластер-анализа многомерных наблюдений. На основе предложенных в-работе устойчивых алгоритмов разработан и реализован на ППЭВМ хви at комплекс программ на
ЯЗЫКе Turbo Pascal (utr. 5.5), ВОШЄДШИЙ В П8КЄТ ЯрИКЛЭДНЫХ
программ по робастжжіу статистическому анализу данных (ППП "РОСТАН") и компьютерную -систему статистического анализа, регулирования и контроля качества (система "CAPKKV). Результаты диссертационных, исследований использованы в БГУ при выполнении госбюджетной НИР 01890080692 "Разработка методов, алгоритмов и программного обеспечения устойчивого (робаст-ного) анализа данных для автоматизации научных исследований, математического моделирования на ЭВМ сложных систем в условиях априорной' неопределанности" .(РНТП "Информатика", задание 04.05.01), НИР ''"Разработка теории робастного (устойчивого) статистического распознавания образов" ' по Фонду фундаментальных исследований (грант Ф40-267), а 'также хоздоговорной НИР И 30960 . .
Апробация работы. Результаты диссертационной работы об-суадались на: конференциях "Актуальные проблемы информатики: математическое, 'программное и информационное обеспечение" (Минск, 1988-1992), Республиканской научной конференции "Математическое и программное обеспечение анализа данных" (Минск, 1990), Всесоюзной научно-технической конференции "Идентификация, измерение характеристик-и имитация случайных сигналов" -'(Новосибирск, Ґ99І), Республиканской научной школе-семинаре "Компьютерный анализ данных и моделирование" (Минск, 1992), vi- конференции математиков Беларуси (Гродно, 1992), Международной математической конференции, посвященной 200-летию- со.,дня .рождения Н.И. Лобачевского (Минск, 1992), Международной конференции "Информация и классификация" (Дортмунд, 1992), 17 ежегодной конференции "Общества по классификации" (Кайзерлаутерн, 1993), 6 Международной конференции по теории вероятностей и математической статистике (Вильнюс, 1993), а также докладывались в Белгосуниверситете на семинарах кафедри
, . -6-.
математического моделирования и анализа Данных, на конференциях молодых учёных.
Публикации. По теме диссертации опубликовано 20 печатных работ.
Структура и объём диссертации. Работа состоит из списка основних обозначений и сокращений, введения, трех глав, заключения, приложения и списка литературы, включающего 150 наименований. Диссертация содержит 234 страницы, включая 12 рисунков и 3 таблицы.