Асимптотическая робастность решающих правил в кластер-анализе Жук, Евгений Евгеньевич

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Жук, Евгений Евгеньевич. Асимптотическая робастность решающих правил в кластер-анализе : автореферат дис. ... кандидата физико-математических наук : 01.01.05 / Гос. ун-т.- Минск, 1993.- 19 с.: ил. РГБ ОД, 9 94-1/1320-x

Введение к работе

Актуальность теми. Кластер-анализ, как один из разделов современной творим прияятшїЗстатистичвских решений при отсутствии классифицированных рбу.чащих* выборок в условиях 'априорной неопределённости, использует два основних подхода: геометрический (Миркин Б.Г.,.Жэмбю М., Дюран Б., Оделл П., Мендель И.Д.) и вероятностный(Фукунага К., Миленький А.В., Book я.). Первый подход интерпретирует наблюдения как .точки В пространстве наблюдений Ш* и использует в качестве меры "близости" раз- ' личные метрики. Второй, вероятностный, представляет Наблюдения как реализации случайных векторов. С точки зрения возможностей аналитического исследования теория, которая возникает на основе последнего, оказывается значительно богаче. Более того, многие алгоритмы," которые первоначально строились исходя из чисто геометрического представления о классифицируемых -наблюдениях, удаётся переформулировать в понятиях распределения вероятностей и дополнительно изучить.

В классической теории статистической.' классификации в случае наличия полной априорной информации о классах задача синтеза оптимального в смысле минимума риска (средних потерь) решающего правила (РП) получила свое" решение в виде байесовского РП (БРП). Большинство известных алгоритмов кластер-анализа при выполнении некоторых условий допускает представление в виде подстановочных РП (ПРП, "piug-in-ruie"), которые получаются из БРП в результате подстановки вместо неизвестных вероятностных характеристик классов их -статистических оценок по так называемой неклассифицированной обучающей выбор--ке (то есть выборке из смеси вероятностных распределений).

Известно, что при выполнении определенных условий регулярности и неограниченном росте объёма выборки предельным значением риска ПРП является риск БРП. Однако на практике важно оценить устойчивость ПРП по отношению к эффектам конечных объ-бмов выборки. Кроме того, модельные предположения о классифицируемых наблюдениях зачастую нарушены (Айвазян С.А., АпЛег-berg м.я.): искажения'"гипотетических", вероятностных распределений, описывающих классы; зависимость элементов выборки; пропуски значений компонент у векторов-наблюдений.

Неучет этих нарушений и использование классических РП приводят к потере оптимальности последних. Возникают две основные проблемы:

- анализа устойчивости классических РП;

- построения робастных (устойчивых) P1I и их исследования.
В дискриминантном анализе, использующем классифицирован
ные- обучающие выборки, накоплен опыт решения этих двух задач
методом асюштотическш. разложений: использоваїше лишь первых
членов в разложениях риска по степеням величин, убывающих с
ростом числа наблюдений и уменьшением уровня искажений, позво
ляет при незначительных потерях в точности вычислить многие
важные характеристики РП и оценить их устойчивость (Харин Ю.С.,
Дучинскас К.А., Раудас Ш.Ю.). В кластер-анализе подобные ис
следования только начинаются: "очень значительный рост числа
методов и приложений кластер-анализа вс5 еще* не сопровождается
развитием статистической теории, с помощью которой можно оце
нить результаты группировок" (Хартиган Дж.А.).

Таким образом, практическая необходимость решения задач кластер-анализа при наличии нарушений классических модельных предположений, а также эффективность метода асимптотических разложений и определяют актуальность темы диссертационной работы.

Целью работы является разработка методов исследования устойчивости классических и построения робастных РП в кластерном анализе, предполагающая решение следующих основных задач:

Оценивание устойчивости классического подстановочного БРП (ПБРП) при наличии искажений вероятностішх распределений и построение робастных ПРП.
Разработка. вероятностной интерпретации классического алгоритма ъ-средних (как наиболее распроетранЗнного), синтез его робастных аналогов и анализ их устойчивости.
Построение оптимального ПРП при наличии зависимости номеров классов и анализ его устойчивости.

Методы исследования. Основными методами исследования являются методы: теории статистических решающих функций; асимптотического разложения риска; многомерного статистического анализа и асимптотической теории оценивания; робастной статистики; теории экстремумов случайных последовательностей и

процессов. Широко используется .аппарат ' теории матриц и обобщенных функций.

Основные результаты, выносимые на защиту:

Разработаны методы исследования ' асимптотической устойчивости РП кластер-анализа, основанные на разложениях риска и коэффициента робастности по степеням величин, убывающих с ростом объйма выборки и уменьшениемуровня искажений, который характеризует степень возможного отклонения от классических модельных предположений.
В случае искажений Тьюки-Хьюбера впервые: исследована устойчивость ПБРП, использующего классические оценки минимального контраста (ОМК) по нвклассифицирванной обучающей выбоке; построено робастное ПБРП, основанное на устойчивых ОМК с "усечённой" функцией контраста (ФК); синтезировано новое устойчивое минимаксное ПРП.
Дана вероятностная интерпретация известного в кластер-анализе алгоритма ь-средних и исследована его устойчивость в случае конечной выборки. При наличии искажений вероятностных распределений типа Тьюки-Хьюбера впервые оценена устойчивость классического РП х-среднта. и его робастного аналога, основанного на удалении аномальных наблюдений-"выбросов". Рассмотрены также другие виды нарушений модельных предположений: равномерное "засорение" и параметрические искажения.
В случае как угодно зависимых номеров классов построено оптимальное РП (ОРП) и исследована его устойчивость при помощи теории экстремумов случайных последовательностей. Рассмотрена обобщённая на случай марковской зависимости классов модель Фишера, для которой исследован риск ОРП при произвольном (возможно конечном) объёме классифицируемой выбрки и в асимптотике растущего числа классов. Синтезировано и изучено методом имитационного моделирования на ЭВМ ПРП, использующее оценки по методу моментов.

5. Для часто встречающейся в практических приложениях "искажённой" модели смеси нормальных (гауссовских) распределений на основе построенных асимптотических разложений риска получены формулы для вычисления допустимых объёмов выборки и пороговых точек, гарантирующих заданную точность решений.

Научная новизна диссертационной работы заключается в основных результатах, перечисленных выше, которые впервые получены и опубликованы автором.

Практическая значимость. Результаты работы используются при решении прикладных задач кластер-анализа многомерных наблюдений. На основе предложенных в-работе устойчивых алгоритмов разработан и реализован на ППЭВМ хви at комплекс программ на

ЯЗЫКе Turbo Pascal (utr. 5.5), ВОШЄДШИЙ В П8КЄТ ЯрИКЛЭДНЫХ

программ по робастжжіу статистическому анализу данных (ППП "РОСТАН") и компьютерную -систему статистического анализа, регулирования и контроля качества (система "CAPKKV). Результаты диссертационных, исследований использованы в БГУ при выполнении госбюджетной НИР 01890080692 "Разработка методов, алгоритмов и программного обеспечения устойчивого (робаст-ного) анализа данных для автоматизации научных исследований, математического моделирования на ЭВМ сложных систем в условиях априорной' неопределанности" .(РНТП "Информатика", задание 04.05.01), НИР ''"Разработка теории робастного (устойчивого) статистического распознавания образов" ' по Фонду фундаментальных исследований (грант Ф40-267), а 'также хоздоговорной НИР И 30960 . .

Апробация работы. Результаты диссертационной работы об-суадались на: конференциях "Актуальные проблемы информатики: математическое, 'программное и информационное обеспечение" (Минск, 1988-1992), Республиканской научной конференции "Математическое и программное обеспечение анализа данных" (Минск, 1990), Всесоюзной научно-технической конференции "Идентификация, измерение характеристик-и имитация случайных сигналов" -'(Новосибирск, Ґ99І), Республиканской научной школе-семинаре "Компьютерный анализ данных и моделирование" (Минск, 1992), vi- конференции математиков Беларуси (Гродно, 1992), Международной математической конференции, посвященной 200-летию- со.,дня .рождения Н.И. Лобачевского (Минск, 1992), Международной конференции "Информация и классификация" (Дортмунд, 1992), 17 ежегодной конференции "Общества по классификации" (Кайзерлаутерн, 1993), 6 Международной конференции по теории вероятностей и математической статистике (Вильнюс, 1993), а также докладывались в Белгосуниверситете на семинарах кафедри

, . -6-.

математического моделирования и анализа Данных, на конференциях молодых учёных.

Публикации. По теме диссертации опубликовано 20 печатных работ.

Структура и объём диссертации. Работа состоит из списка основних обозначений и сокращений, введения, трех глав, заключения, приложения и списка литературы, включающего 150 наименований. Диссертация содержит 234 страницы, включая 12 рисунков и 3 таблицы.

Асимптотическая робастность решающих правил в кластер-анализе Жук, Евгений Евгеньевич

Похожие диссертации на Асимптотическая робастность решающих правил в кластер-анализе