Идентифицируемость и обучение гауссовских графовых моделей с латентными переменными Стафеев Сергей Вячеславович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Стафеев Сергей Вячеславович. Идентифицируемость и обучение гауссовских графовых моделей с латентными переменными : диссертация ... кандидата физико-математических наук : 05.13.18 / Стафеев Сергей Вячеславович; [Место защиты: Петрозавод. гос. ун-т]. - Петрозаводск, 2008. - 145 с. : ил. РГБ ОД, 61:08-1/175

Содержание к диссертации

Введение

1 Представление вероятностно-статистических взаимосвя зей с помощью графов 16

1.1 Основные определения и обозначения 16

1.2 Моделирование условных независимостей с помощью графов 19

1.2.1 Условная независимость случайных величин 19

1.2.2 Неориентированный граф зависимостей 21

1.2.3 Ориентированный граф зависимостей 24

1.2.4 Смешанный граф зависимостей 33

1.2.5 Маргинальная модель независимостей 38

1.3 Смешанная гауссовская графовая модель 41

1.4 Гауссовские графовые модели с латентными переменными 43

1.4.1 Классическая модель факторного анализа 44

1.4.2 Модель факторного анализа с зависимыми остатками 46

2 Идентифицируемость гауссовских деревьев с латентными переменными 50

2.1 Описание класса рассматриваемых моделей 51

2.2 Гауссовские деревья с латентными переменными 54

2.3 Приведенная структура гауссовского дерева с латентными переменными 61

2.4 Структурная идентифицируемость гауссовских деревьев с латентными переменными 65

Модели факторного анализа с зависимыми остатками 74

3.1 Модель факторного анализа с зависимыми факторами . 75

3.1.1 Описание класса рассматриваемых моделей 75

3.1.2 Условия идентифицируемости при к = 2 77

3.1.3 Примеры идентифицируемых моделей 83

3.1.4 Условия идентифицируемости при произвольном к. 88

3.2 Модель с независимыми факторами 92

3.2.1 Описание класса рассматриваемых моделей 92

3.2.2 Условия идентифицируемости 93

3.2.3 Условия идентифицируемости в случае, когда постулируются некоторые нули в матрице факторных нагрузок 100

Обучение графовых гауссовских моделей с латентными переменными 102

4.1 ЕМ алгоритм 103

4.2 ЕМ алгоритм для случая нормального распределения . 104

4.3 Алгоритм нахождения оценок максимального правдоподобия для параметров гауссовской смешанной графовой модели 105

4.4 Алгоритм нахождения оценок максимального правдоподобия для параметров гауссовской смешанной графовой модели с латентными переменными 109

4.5 Структурный ЕМ алгоритм для модели факторного анализа с зависимыми остатками 110

4.6 Система LSF 114

4.6.1 Описание системы LSF 114

4.6.2 Модельные задачи 114

4.6.3 Особенности связной речи детей шестилетнего возраста с задержкой психического развития 115

4.6.4 Особенности индивидуального стиля деятельности государственных служащих 118

Заключение 120

Литература

Моделирование условных независимостей с помощью графов
Гауссовские деревья с латентными переменными
Описание класса рассматриваемых моделей
Алгоритм нахождения оценок максимального правдоподобия для параметров гауссовской смешанной графовой модели

Введение к работе

Одной из основных целей статистической обработки данных является выявление структуры зависимостей между изучаемыми переменными. Одним из интенсивно развивающихся в настоящее время подходов для достижения этой цели является графовое моделирование [91, 95, 122] - направление прикладной статистики, в котором вероятностно - статистическая структура зависимостей между переменными представляется в виде графа, вершины которого отождествляются с изучаемыми переменными, а ребра графа указывают на наличие прямой зависимости между соответствующими переменными. По сути, графовая модель, это представление многомерного распределения переменных в виде графа.

Причиной, обусловившей развитие графового моделирования, является то, что большинство моделей, используемых при решении основных задач прикладной статистики (сжатия информации, классификации, исследования зависимостей), могут быть представлены в виде графовой модели [63, 103]. Важным достоинством графовых моделей, отличающих их от большинства других статистических методов, является то, что с их помощью можно выдвигать и проверять гипотезы о причинн-следственных связях в изучаемых объектах [83, 103].

По видимому, впервые для представления вероятностно - статистической модели графы использовались в работах [123, 124]. Систематическое изучение графовых моделей началось в конце шестидесятых годов прошлого века с рассмотрения моделей, генерируемых неориентированными деревьями. Одной из первых работ в этом направлении яв ляется статья Chow([61]), в которой рассмотрен малопараметрический класс распределений, обобщающий многомерные распределения, которые возникают в цепях Маркова, получивший название "распределения с древообразной структурой зависимости". Позднее, данные модели были обобщены на случай моделей, генерируемых произвольными неориентированными графами [64]. Необходимо отметить, что существенный вклад в развитие этого направления был сделан в работах отечественных ученых [9, 15, 16, 17, 26]. В восьмидесятых годах наибольший интерес стали вызывать ориентированные графовые модели, обычно называемые байесовскими сетями [83, 84, 95]. Данный интерес был вызван, главным образом, тем, что байесовские сети являются удобной моделью представления знаний в области искусственного интеллекта (экспертные системы, системы принятия решений, диагностирующие системы и др.) [55, 102]. Отметим, что с одной стороны, для построения байесовской сети можно использовать информацию о причинных связях между переменными, а с другой стороны, с помощью построенной байесовской сети можно выдвигать и проверять гипотезы о причинных взаимосвязях между переменными [103]. Также отметим, что с помощью ориентированных графовых моделей удобно представлять регрессионные закономерности [51, 63, 96, 103]. В настоящее время байесовские сети нашли широкое применение при решении практических задач не только в области искусственного интеллекта, но и в различных областях экономики, социологии, телекоммуникаций и др. [5, 40, 56, 60, 72, 92, 114].

Вероятностно - статистическая модель может содержать как наблюдаемые, так и латентные (скрытые, ненаблюдаемые) переменные. Наиболее известной моделью с латентными переменными, является модель линейного факторного анализа [42], которая базируется на предположении, что зависимость между наблюдаемыми переменными может быть объяснена тем, что они зависят от меньшего числа латентных переменных.

В области прикладной статистики модели с латентными переменными давно и успешно применяются. Наиболее широкое применение они находят в психологии (где они первоначально и возникли), социологии, генетике, педагогике, экономике, биологии и многих других областях науки и техники [6,18, 88,103]. Отметим, что в Карельском научном центре РАН методы факторного анализа используются для решения различных задач на протяжении многих лет [8, 10, 43].

Основными целями использования моделей с латентными переменными являются: понижение числа переменных (снижение размерности), классификация переменных, косвенное оценивание переменных, не поддающихся непосредственному измерению, выявление скрытых влияющих факторов (причин) [3, б].

В области графового моделирования, в настоящее время наибольший интерес вызывают модели, возникающие при использовании смешанных графов, в которых вершины могут быть соединены различными видами ребер (неориентированными, ориентированными, двуориентированными) [46, 52, 63, 87, 105]. Такие модели являются обобщением как ориентированных, так и неориентированных графовых моделей. В диссертации, в основном, рассматриваются графовые модели, описывающие зависимость между наблюдаемыми переменными байесовских сетей с латентными переменными [105]. Эти модели в диссертации названы смешанными графовыми моделями.

На практике, как правило, структура и параметры графовой модели неизвестны и их необходимо определять с помощью данных. Этот процесс называется обучением модели. Обучение графовой модели можно представить в виде двухэтапной процедуры:

1. Идентификация (определение) структуры модели;

2. Оценка параметров модели. Проблеме обучения графовых моделей посвящено большое число работ [55, 62, 73, 74, 83, 89, 116, 117]. При обучении модели, как правило, для того, чтобы избежать эффекта [20] модели (ситуации, при которой построенная по некоторой выборке вероятностно-статистическая модель описывает только саму эту выборку и непригодна в качестве модели всей генеральной совокупности), стремятся, с одной стороны -получить модель, которая адекватно описывает зависимости между переменными, а с другой стороны - получить модель с достаточно простой (содержащей небольшое число ребер) структурой. Модель с простой структурой обладает очевидными преимуществами, по сравнению с моделью, имеющей сложную структуру. Во первых, как правило, она имеет меньшее число параметров, а значит требует меньшее количество данных для их оценивания. Во вторых, простая структура, в большинстве ситуаций, допускает более точную и понятную интерпретацию. Одним из наиболее простых и часто используемых классов структур являются деревья [93]. Необходимо подчеркнуть, что часто упростить структуру модели удается с помощью введения в модель латентных переменных [56, 84, 103].

Одной из основных проблем, возникающих при построении графовых моделей, является то, что, как правило, одно и то же многомерное распределение переменных может быть представлено графовыми моделями с различными структурами. Следствием-того, что две различные графовые модели представляют одно распределение переменных, является невозможность различения таких моделей с помощью статистических методов. Данная проблема приводит к трудностям как при-обучении модели, так и при содержательной интерпретации ее структуры [91, 95]. Например, может возникнуть ситуация, при- которой в одной графовой модели, представляющей некоторое распределение переменных, две переменные напрямую связаны (соединены ребром), а в другой графовой модели, представляющей это же распределение, эти переменные напрямую не связаны (т.е. не соединены ребром). В связи с этим, важное значение имеет определение условий, при которых по распределению переменных возможно однозначное определение структуры графовой модели, представляющей данное распределение. Такие условия называют условиями структурной идентифицируемости модели. Условия структурной идентифицируемости для графовых моделей, как правило, заключаются в наложении ограничений на класс возможных структур [58, 118].

При фиксированной структуре графовой модели может возникнуть ситуация, когда две графовые модели с одной и той же структурой, но имеющие разные параметры, представляют одно и то же распределение переменных. В связи с этим, актуальное значение имеет определение условий, при которых по распределению переменных, при фиксированной- структуре, возможно однозначное определение параметров графовой модели, представляющей данное распределение. Такие условия называют условиями параметрической идентифицируемости модели. Как отмечалось С.А. Айвазяном [4], проблема параметрической идентифицируемости является одной из ключевых проблем, которую необходимо решить при построении любой вероятностно - статистической модели. Это, главным образом, связано с тем, что следствием параметрической неидентифицируемости модели является невозможность оценивания параметров модели по статистическим данным, при котором, с ростом числа данных, оценки параметров приближаются к их истинным значениям (т.е. невозможность состоятельного оценивания параметров модели) [85]. Условия параметрической идентифицируемости для графовой модели, как правило, заключаются в наложении ограничений как на класс возможных структур, так и на параметры модели. Отметим, что при обучении графовых моделей, не содержащих латентных переменных, как правило, проблемы параметрической неидентифицируемости не возникает [91, 103]. В то же время, при обучении графовых моделей, содержащих латентные переменные, проблема идентифицируемости особенно актуальна. Это связано с тем, что, как правило, без дополнительных условий структура и параметры такой модели оказываются неидентифицируемы-ми [122]. Параметрическая неидентифицируемость графовых моделей с латентными переменными приводит к тому, что алгоритмы обучения, разработанные для графовых моделей без латентных переменных, становятся непригодными для обучения таких моделей [95, 99, 100]. Также, следствием параметрической неидентифицируемости модели может быть ошибочная содержательная интерпретация параметров модели [91, 103]. Несмотря на то, что вопросам структурной и параметрической идентифицируемости уделяется большое внимание ([76, 77, 81, 86]), для ряда моделей, в частности, для смешанных гауссовских графовых моделей с латентными переменными, условия структурной и параметрической идентифицируемости к настоящему времени не найдены.

Как уже отмечалось, одной из наиболее известных моделей с латентными переменными является модель факторного анализа. Заметим, что данную модель можно представить в виде гауссовской графовой модели: с латентными переменными [83]. При применении стандартных методов факторного анализа [6, 18, 42] часто возникает ситуация, при которой не все извлеченные факторы поддаются содержательной интерпретации, а в то же время, если мы оставим в модели только хорошо интерпретируемые факторы, то полученная модель не будет адекватно описывать зависимости между наблюдаемыми переменными. В связи с этим, целесообразно переходить к моделям с зависимыми остатками. В работах [79,80,112,113,119] были получены условия параметрической идентифицируемости для моделей однофакторного анализа с зависимостью между остатками, описываемыми марковской сетью, байесовской сетью или ковариационной графовой моделью. Однако, важная с теоретической и практической точек зрения проблема параметрической идентифицируемости для многофакторных моделей с зависимыми остатками практически не исследовалась, за исключением работ [79, 80], в которых данная проблема сводится к проблеме идентифицируемости однофакторной модели.

Цель диссертации состояла в выявлении условий структурной и параметрической идентифицируемости и разработке алгоритмов обучения гауссовских графовых моделей с латентными переменными.

Объектами исследования были гауссовские графовые модели, условия параметрической и структурной идентифицируемости рассматриваемых моделей, а также итеративные алгоритмы нахождения оценок максимального правдоподобия параметров моделей.

В диссертации использовались методы теории вероятностей, математической и прикладной статистики, теории графов.

Диссертация состоит из введения, четырех глав, заключения, списка литературы и- трех приложений.

В первой главе диссертации вводятся необходимые понятия и определения, касающиеся вопросов представления вероятностно - статистических зависимостей с помощью графов. В ней приведены определения марковской сети, байесовской сети, смешанной графовой модели, а также рассмотрены примеры гауссовских графовых моделей с латентными переменными.

Во второй главе диссертации рассматриваются вопросы параметрической и структурной идентифицируемости смешанных гауссовских графовых моделей с латентными переменными, структура которых является деревом. Данные модели в диссертации названы гауссовскими деревьями. Для рассматриваемого класса моделей вводится новая, более удобная для целей интерпретации, параметризация. Показано, что она эквивалентна предложенной в [105] параметризации модели. В теореме 2.2.1 и в следствии к этой теореме сформулированы условия параметрической идентифицируемости рассматриваемой модели. В теореме 2.2.2 получен простой "знаковый" критерий для проверки произвольной матрицы ко-вариаций на возможность быть матрицей ковариаций наблюдаемых переменных гауссовского дерева. В главе вводится понятие приведенной структуры гауссовского дерева. Необходимость введения данного понятия обусловлена тем, что структура гауссовского дерева не может быть однозначно восстановлена по матрице ковариаций наблюдаемых случайных величин. В теоремах 2.4.1 - 2.4.3 получены условия, при которых приведенная структура дерева однозначно восстанавливается по матрице ковариаций наблюдаемых случайных величин.

В третьей главе диссертации рассматриваются вопросы параметрической идентифицируемости для моделей факторного анализа с зависимыми остатками. В первом разделе главы рассматривается модель с зависимыми факторами, зависимость между остатками которой описывается ковариационной графовой моделью. Для данной модели получены условия локальной и глобальной параметрической идентифицируемости, а также определен один класс структур, для которых эти условия выполняются. В разделе 3 рассмотрена модель с независимыми факторами, зависимость между остатками которой описывается смешанной графовой моделью. Для данной модели также получены условия локальной и глобальной параметрической идентифицируемости, а также определен класс структур, для которых эти условия выполняются. Данный класс составляют деревья при некоторых ограничениях на число смежных вершин для каждой вершины дерева.

В четвертой главе диссертации рассмотрены алгоритмы обучения гауссовских смешанных графовых моделей с латентными переменными и моделей факторного анализа с зависимыми остатками. В начале главы приведена общая схема ЕМ алгоритма [24, 65] - итеративного метода на хождения оценок максимального правдоподобия параметров моделей, содержащих латентные переменные. В разделе 4 приведен разработанный автором алгоритм нахождения оценок максимального правдоподобия параметров гауссовской смешанной графовой модели с латентными переменными. Представленный алгоритм является модификацией ЕМ алгоритма и ICF алгоритма [66]. Данный алгоритм применим для графовых моделей, рассмотренных во второй и третьей главах диссертации. В разделе 5 приведен также разработанный автором алгоритм поиска структуры и параметров модели факторного анализа с зависимыми остатками, при предположении, что класс возможных структур ограничен деревьями. В разделе 6 описана разработанная автором система программ LSF (Latent Structure Finder), в которой реализованы описанные выше алгоритмы. С помощью системы были решены две задачи психологии:

1. Выявлены особенности недоразвития связной речи детей шестилетнего возраста с задержкой психического развития [13];

2. Выявлены особенности индивидуального стиля деятельности государственных служащих [19].

В заключении приведены основные результаты диссертации и сформулированы направления дальнейших исследований. В приложениях приведены результаты применения системы LSF для модельных задач и задач из области психологии.

Выносимые на защиту результаты:

1. Условия структурной и параметрической идентифицируемости для гауссовских деревьев с латентными переменными.

2. Условия параметрической идентифицируемости для моделей факторного анализа с зависимыми остатками. 3. Алгоритмы обучения гауссовских графовых моделей с латентными переменными и моделей факторного анализа с зависимыми остатками.

4. Комплекс программ, реализующий разработанные алгоритмы и результаты его применения для решения двух задач психологии.

Все выносимые на защиту результаты являются новыми. Результаты получены лично автором, за исключением результатов, полученных при решении прикладных задач, в которых автору принадлежит математическая формулировка решенных задач, выбор методов и проведение статистического анализа. Диссертационная работа выполнена в Институте прикладных математических исследований КарНЦ РАН в рамках двух научно-исследовательских тем: "Исследование и разработка методов создания интеллектуальных систем статистического анализа данных" (№гос. регистрации 01.9.80009162) и "Разработка методов исследования случайных структур и их применение при принятии статистических, решений"(№гос. регистрации 01.200.202223). Работа была поддержана грантом РФФИ №97-01-00554 "Моделирование принятия решений при выборе методов статистического анализа". Результаты работы были апробированы на 8 научных конференциях:

1. Юбилейная научная конференция РАН, Петрозаводск 1999 г.

2. Пятая международная конференция "Вероятностные методы в дискретной математике", Петрозаводск, 2000 г.

3. Научная конференция "Карелия и РФФИ", Петрозаводск, 2002 г.

4. Memorial seminar dedicated to the 60th birthday of Vladimir Kalashnikov "Applied Stochastic Models and Information Processes", Petrozavodsk, 2002. 5. Четвертый Всероссийский симпозиум по прикладной и промышленной математике, Петрозаводск, 2003 г.

6. Пятый Всероссийский симпозиум по прикладной и промышленной математике, Сочи, 2004 г.

7. Seventh International Conference "Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods", Minsk, 2004.

8. Russian — Scandinavian Symposium "Probability theory and applied probability", Petrozavodsk, 2006. и на Ученом совете ИПМИ КарНЦ РАН. Основные результаты диссертации опубликованы в 11 статьях и 8 тезисах докладов [13,19,29-39,106-111]. Одна статья опубликована в журнале "Обозрение прикладной и промышленной математики", входящем в список ВАК.

Моделирование условных независимостей с помощью графов

Пусть X = {Х\,..., Хп} - непустое множество случайных величин (переменных), имеющих совместное распределение Рх- Обозначим через Fz(zY = у) совместную условную функцию распределения элементов множества Z С X при заданном Y С X. Рассмотрим три непересекающихся подмножества X : Z = {Zi, ...,Zni}, W = {Wi,...,Wn2} и Y = {Yi,..., Yn3}. Множества случайных величин Z и W называются независимыми при данном Y, если для всех z = {zi,...,zni} Є К.1, w = {wi,..., wn2} Є ЕП2 и почти всех у = {г/і, ...,2/„3} из области возможных значений случайного вектора Y zuw(z, w Y = у) = Fz(zY = y)Fw(wY = у). (1.2.1) Независимость Z и W при данном Y мы будем обозначать как Z_LpxWY. Запись Z ,IpxWY будет обозначать зависимость Z и W при данном Y. Обозначим через 0 пустое множество. Запись Z±pxW0 будет обозначать безусловную независимость Z и W.

Заметим, что если распределение Рх является абсолютно непрерывным и элементы множества X имеют плотность совместного распределения /х(х), то (1.2.1) эквивалентно тому, что для любых z, w и любых у, для которых /у (у) ф О /zuw(z, wY = у) = /z(zY = y)/w(wY = у). С практической точки зрения, для зависимых случайных векторов Z и W, независимость Z и W при данном Y означает, что зависимость между переменными, которые составляют множество Z, с переменными, составляющими множество W, объясняется их зависимостью с переменными из множества Y. Пример 1.2.1.

Пусть X = { 1, 2,} - трехмерный случайный вектор, имеющий невырожденное нормальное распределение с нулевым вектором математических ожиданий и матрицей ковариаций = 012 СГ 6Г21 722 023 \0"31 С"32 (733;

Предположим, что Х\ и Х2 независимы при данном Хз т.е. справедливо? соотношение Хі_1_рхХ2Хз. Как известно [1], совместное распределение случайных величин Х\ и Х2 при условии Х = жз является двумерным, нормальным распределением с вектором математических ожиданий —ж3 зз 023 \0"33 / и матрицей ковариаций «733 .о-21з "22з/ Каол- - avy- шг) а СГ22 — Условие Хі±рхХ2Хз означает, что т12]з = 0"2із = 0- Откуда получаем, что 033012 - 0"130"23 = 0. (1.2.2) Пусть Є #11 #12 #13 #21 #22 #23 \#31 #32 #33у матрица, обратная к матрице Е. Так так л л О"330"12 — СГ130"23 в12 = $21 = —ОД— где dei(E) - детерминант матрицы Е, то из (1.2.2) следует, что #12 = 21 = 0. Покажем, что верно и обратное утверждение. Пусть X = {Xi, Х2, Х3} - трехмерный случайный вектор, имеющий невырожденное нормаль ное распределение с нулевым вектором математических ожиданий и матрицей ковариаций Е = 0-1. Предположим, что ви = #2і = 0. Получаем, что выполняется соотношение (1.2.2). Откуда следует, что о"12)з — гцз = 0, а это означает, что Xxl X X . Пример 1 допускает следующее обобщение. Пусть X = {Х\,...,Хп} - множество случайных величин, имеющих совместное невырожденное нормальное распределение с невырожденной матрицей ковариаций Е. В работе [9] показано, что в этом случае, для того, чтобы было верно утверждение Z_LpxWY, где Z, W, Y непересекающиеся подмножества X, необходимо и достаточно, чтобы Sz,w = Z,YY,Y Y,WJ (1.2.3) где Ez,Wj z,Yj SY,Y3 Sy - соответствующие подматрицы матрицы ковариаций Е. Соотношение (1.2.3) эквивалентно тому, что Ez,w = 0, где Ez,w соответствующая подматрица матрицы Е-1.

Гауссовские деревья с латентными переменными

Пусть {Т, NTUICT} - гауссовское дерево, где Т = (X, Е) Є Их, (тп, Ст) ЄІпх С?. Предположим, что множество случайных величин X = {Xi, ...,ХП} представляется в виде объединения подмножества наблюдаемых случайных величин Y = {Yi, ...,Yni} и подмножества ненаблюдаемых (латентных) случайных величин Н = {Hi,..., НП2}. Основная проблема, возникающая при работе с моделями, содержащими латентные переменные, состоит в восстановлении распределения Рх по распределению Ру наблюдаемых случайных величин .

Так как, в нашем случае, элементы X имеют общее нормальное распределение, то задача идентифицируемости сводится к выяснению возможности однозначного определения параметров (т, Ст) дерева Т по известному вектору математических ожиданий THY И известной положительно определенной матрице ковариаций Еу наблюдаемых случайных величин.

Легко видеть, что при фиксированных ту и EY математические ожидания латентных случайных величин могут принимать произвольные значения, а дисперсии - произвольные положительные значения. Для определенности, мы будем считать, что М(Я;)=0, D(# ) = l, І = 1,...,712. Очевидно, математические ожидания и дисперсии наблюдаемых случайных величин определяются однозначно. Вершина Н" Є Н называется внутренней для дерева Т, если найдутся вершины Уї, І2 Є Y такие, что Н G P(Yi, Y2). Назовем распределение Рх связанным, если множество X не представляется в виде объединения таких двух подмножеств X и X", что для любых 1 бХ и любых X" Є X" Corr(X\ X") = 0.

Обозначим через [А] число элементов множества А. Определим множество латентных случайных величин Н(Т) = {НЄ Н [Ad(#)] 3, [Ne(#) U Ch(#)] 2}.

Верна следующая теорема. вершины множества Н являются внутренними в дереве Т, Ру связанным, то по матрице ковариаций наблюдаемых случайных величин SY МЫ можем однозначно определить \Corr(Y,H)\, Y Є Y, Я Є Н(Т), \Corr(HhHj)\, Hi,Hj Є Н(Г).

Доказательство. Доказательство проведем индукцией по числу /г латентных случайных величин, составляющих множество Н(Т). Если k = О, то очевидно, что теорема справедлива. Предположим, что теорема верна при к I. Рассмотрим гауссовское дерево с к I + 1. Пусть L -произвольная вершина из множества Н(Т).

Пусть А,В Є Ad(L) и L нетупиковая вершина для цепи Р(А, В). Удалим в дереве Т все вершины, составляющие множество {XeX\A,BP{X,L)} и инцидентные с ними ребра.

В полученном дереве ТА,в = (Хл,в3Ел,в): Хдв = YA,B U НА,В, где Yvi,s С Y, НА,В С Н, [Н(ТЛ,В)] I, распределение РуА,в является связанным, а вершины составляющие множество ИА)в являются внутренними для дерева ТА,В- Таким образом, мы можем определить \Corr(Y,H)\, Y Є YA,B: Н Є Н(ГА)Б), \Corr(Hi,Hj)l Ни Hj Є H(TA)B). Очевидно, что Y = (J VA,B A,BzAd(L), L нетупиковая вершина для P(A,B) И H\L= U ЩТА,в). A,BAd(L), L нетупиковая вершина для Р(А,В) Таким образом, мы можем определить \Corr(Y, tf), Y" Є Y, tf Є H(T) \ L, \Согг(Щ, Hj)\, Щ, Hj є H(T) \ L. Теперь докажем, что мы можем определить \Corr(X, L)\, X Є Y U Й(Т) \ L. Рассмотрим любые две различные вершины Хі,Х2 Є. Y U Н(Тд#) такие, что іеР(ХДі), LGP(X,X2), ЬеР(ХъХ2) и L нетупиковая вершина для этих цепей. Как было показано, мы можем определить ICorr Xj], \Corr(X,X2)\, \Corr(XhX2)\. Используя лемму 2.1.1 мы получаем: Corr{X,L)Corr(L,X{) = Согг(Х,Хг), Corr{X, L)Corr{L, Х2) = Согг{Х, Х2), Corr{XhL)Corr{L,X2) = Согг{ХХіХ2). Так как, распределение Ру связанное, то Согг(Хі,Х2) ф 0. Получаем, что 2 = Corr XQCorr , ,) 1 П ;; С0гг(Хі,Х2) Таким образом, мы можем определить все корреляции \Corr(X,L)\, ХеУиЩТ), что и требовалось. Теорема доказана.

Следствие 2.2.1. Пусть {Т ЫттСт} гауссовское дерево, где Т = (X,Е) Є Т, (га,Ст) Є Жп х Сг, причел X = YUH; где Y - ЛІМО-жество наблюдаемых, а Н - латентных случайных величин. Если H = Н(Т) и распределение PY - связанное, то по матрице ковариа-ций наблюдаемых случайных величин Еу параметры » ЗД YuYj Є Y, (Yi,Yj) Є E, i,j = 1,...,n, определяются однозначно, а параметры схд, ХЄХ,ЯєН,(Х,Я)єЕ, с точностью до знака.

Заметим, что полученные условия параметрической идентифицируемости аналогичны условиям идентифицируемости, полученным в [100] для бинарных неориентированных деревьев.

Опишем все возможные варианты выбора знаков для сх,н, X X., Я Є Н, (X, Я) Є Е, для данной у. Пусть F(T) - множество листьев дерева Т, т.е. множество вершин дерева, имеющих только одну смежную вершину.

Рассмотрим поддерево Г С Г, Г = (X , Е ), Х; = Y; U Н7, Y С Y, Н CH,Y = F(T ), причем, не существует такого дерева Т" = (Х",Е"), что Г С Т", X" = Y" U Н", Y С Y" CY,H C Л" С Н, У" = F{T"). На рис. 2.2 приведен пример дерева Т и соответствующего дерева Т .

Описание класса рассматриваемых моделей

Пусть Gy множество всех а-графов с п+к вершинами, каждый граф G = (X, Е) которого обладает следующими свойствами: 1. X = HUY, гдеН = {#!,..., Я }, a Y = {yb...,Yn}; 2. Вершины графа G, которые соединены неориентированными ребрами, составляют множество Н, т.е. IJIIG = Н; 3. Любые две различные вершины множества Н соединены ребром; 4. Для любой вершины # Є Н, Ch(H ) ф 0; 5. Каждая вершина Y Є Y имеет только одного родителя, причем Ра(У) = {#"}, Н" Є Н.

Пусть {G, NG(m, A,B,Q)} смешанная гауссовская графовая модель, гдеО= (Х,Е) Є G?, X = HUY, m Є E"+fc,G(A,B,Q) Є PG H -множество латентных случайных величин, a Y - множество наблюдаемых случайных величин .

Удалим в графе G все вершины множества Н и инцидентные с ними ребра. Полученный двуориентированный граф S = (Y, Е5) мы будем называть структурой модели.

Мы можем представить зависимость между элементами множества Y в виде системы регрессионных уравнений Y{ = ті + щН{Хі) + Єі, г = 1,...,71, (3.1.1) где H(Yi) = Ра(У ); m = {ті,..., mn} - вектор математических ожиданий наблюдаемых случайных величин.

Зависимость между компонентами случайного вектора остатков є = {єі,...,єп} описывается гауссовской ковариационной графовой моделью со структурой S. Пусть D, = (о; ) - матрица ковариаций вектора є, тогда если Yi -н- Yj Е, то Cov{ei,ej) = 0 (о; - = 0).

Случайные величины Н\,...,Н}. имеют общее нормальное распределение с матрицей ковариаций А = (ац), причем M(#j) = 0 и Т (Щ) = 1, і = 1,..., к.

Пусть в = {т, CLi, г = 1, ...,п, О, А}. Определим параметрическое множество Q = {0\Q, А — положительно определены}.

Будем говорить, что модель (3.1.1) идентифицируема при 0 с в если при в Є в С 6 по матрице ковариаций наблюдаемых случайных величин Еу параметры 0, Yi -в- Yj Є Es определяются однозначно, ач параметры {а\, ...,ап, ац, l i j k}c точностью до знака.

Модель (3.1.1) локально идентифицируема при в Є в" С 0, если для любого в Є в", модель будет идентифицируемой при в Ue, где U$ -некоторая окрестность в.

В работе [80] были получены условия идентифицируемости модели (3.1.1) для случая к — 1. Мы будем рассматривать случай произвольного к. Определим к множеств Yj = {YG Y\Hj = Pa(F)} и пусть YJ = Uj, j = 1,..., к, J-=1nj — n. Пусть 5(Y,E) -дополнительный граф структуры S.

Пусть С подграф дополнительного графа, являющийся простым циклом, состоящим из вершин {Vi, ...,14} Є Y, a Q подграф дополнитель ного графа, состоящий из простого цикла с вершинами {Vi,..., V } Є Y, простой цепи с вершинами {Ц,1:..., Vi2} Є Y, и простого цикла с вершинами {Vf2,..., Vn} Є Y.

Для 1 m I к определим функции Ff{C) = Y,Xmi{Vi, Vi+1){-l)i+1 + Хт1(УІ7 Vk)(-l)k+1 i=l и F?\Q) = гіЕХті(У +i)(-l)i+1 + Xml{Vlt )(-l)«i+4 3=} 2( ( , -+1)(-1) )+ E1 XmlW, +і)(-іУ+1 + Xml(Vm Vh)(-lY . где Хшг(И, -) = 1 если Ц Є Ym, Vj Є Yl или Vj Є Ym, V- є Yl и Xmi( j j) = О в противном случае.

Условия идентифицируемости при к = 2

Пусть множество Н состоит из двух вершин ( т.е. к = 2) и пусть, оу = ои Fp(C) = Fi(C), Fl2(Q) = i (Q)- Для этого случая нами получены необходимые и достаточные условия идентифицируемости МОДЄЛИГ (3.1.1).

Теорема 3.1.1. Пусть к = 2; щ\ф О, а ф 0, і = 1, ...,п. Модель 3.1.1 локально идентифицируема тогда и только тогда, когда одновременно выполнены следующие два условия:

1. Каждая компонента связности дополнительного графа S содер-oicum по крайней мере один нечетный цикл;

2. По крайней мере одна компонента связности дополнительного графа S содержит либо четный цикл С, для которого F\{C) ф 0, или граф Q, состоящий из двух простых нечетных циклов, соединенных простой цепью, для которого - (Q) ф 0.

Алгоритм нахождения оценок максимального правдоподобия для параметров гауссовской смешанной графовой модели

Пусть к Yf = rrii + Yl aijHj + Z» і — 1,..., n, (3.2.1) j=i где Y = {Yi,..., Yn} - вектор наблюдаемых случайных величин с вектором математических ожиданий га = {rai,...,ran} и ковариационной матрицей Еу; Н = {Hi,...,Hk} — множество независимых в совокупности нормально распределенных латентных случайных величин (факторов), причем М(Нэ) = 0,В(Н5) = 1 = 1,...,к; A = (aij) - матрица факторных нагрузок ; Z = {Z\y..., Zn} - вектор остатков, имеющий-невырожденное нормальное распределение с нулевым вектором математических ожиданий и ковариационной матрицей Ez; Z И Н независимы.

Предположим, что между компонентами вектора Z существует зависимость, описываемая гауссовской смешанной графовой- моделью {(7, NQ(0, Л, В, Q)}, генерируемой графом G = (Z,E), вершины которого отождествлены с компонентами вектора Z.

Вектор параметров модели (3.2.1) в состоит из вектора математических ожиданий га, множества факторных нагрузок a = {aij,i = l,...,n,j = 1, ...,&} и параметров гауссовской смешанной графовой модели Ь = {bij, Zi — Zj Є Е}, Л" = {An, An/n/, Xfj, Zi — Zj є E}, w = { Є E}. Пусть- ra_ , n_, n . соответственно число ориентированных, неориентированных и двуориентиро-ванных ребер в г графе G. Параметрическое множество 0 модели (3.2.1) определим следующим образом: 9 = {га Є Жп,а Є Шпк,Ь Є Жп-+,\ Є Rn-+n ,u Є Rn +n_n A, Q - положительно определены}.

Мы будем говорить, что модель (3:2.1) идентифицируема при в G 0 С 9 , если при в Є 0 по матрице у множество параметров {В, Л , Щ определяется! однозначно, а матрица факторных нагрузок А с точностью, до ортогонального преобразования.

Модель (3.2.1) почти всюду (п.в.) локально идентифицируема при в Є в, если найдется є 0 такое, что для любого во Є в" С в существует окрестность С/й С 0" такая, что модель (3.2.1) идентифицируема при 9 Є Ща С 0" и при этом, множество 0 \ 0" имеет меру нуль.

Пусть G = (Z,E), где Ё = {Zi- Zh 1 j і n\Zi - ZhZ{ -Zj, Z\ -H- Zj E}, дополнительный к G = (Z, E) граф.

Заменим в графе дуги и двуориентированные ребра на неориентированные ребра и каждой вершине добавим петлю. Полученный граф U = (Z,Ey) назовем- сопутствующим для графа G. Пусть GF = (Z,Ei?) - полный граф с петлями и с вершинами из» множества Z и- z - множество графов, заданных с помощью (к + 1) х (к + 1) подматриц матрицы смежности F графа Gj?. Подматрица I Ь f- \ jpti,...,ik+i _ rh,-,3k+i \Jik+iji " Jik+dk+i/ матрицы F задает подграф Gj fj графа GF С множеством вершин {Zhi...,zih+l} и {zh,...,zjk+1} и множеством ребер Е}1/;; = {Zim j/lm) /=1} —і A + !} Ребро jm — Zjf назовем дважды заданным, если im Ф Of и г т Є 0 і -»І +і} І/ є { ii-, fc+i}- Для случая fe = 2 на I ft о рис. 3.4 приведен граф, заданный матрицей i i 2,, причем только ребро Z\ — Z2 является дважды заданным. Нами получены достаточные условия п.в. локальной идентифицируемости модели (3.2.1). Пусть 0 = , 4 = (} и пусть Мп = (СЩ ЄЕ,,, М2і = (с ) - еЁ» Mi2 = W Zi-ZjEEu, М22 = [ \3)2{-г - Матрица J(0 ) с помощью перестановки строк и столбцов может быть приведена к виду ГМП М12 где матрица Ми диагональная с 1 и -1 на диагонали, а М22 матрица, все элементы которой равны нулю.

Очевидно матрица «/(# ) имеет ранг І2, если ранг матрицы М2\ равен пк—\к{к—1). Докажем, что п.в. при а Є Wlk все элементы матрицы С однозначно восстанавливаются по множеству элементов {су, Z\ — Zj Є Е}. Легко видеть, что отсюда будет следовать утверждение теоремы.

Мы будем использовать следующий простой факт. Пусть jJj. . .jJJJ это [к + 1) х (к + 1) подматрица матрицы С. Предположим, что любые к строк матрицы А линейно независимы. (Заметим, что это условие выполняется п.в. при а Є Rnk.) Отсюда, используя то, что в этом случае любые кхк миноры матрицы С не равны нулю, мы получаем, что любой не дваждыгзаданный элемент матрицы! C j".j однозначно выражается через остальные элементы этой-матрицы.

Пусть ЄІ = (Zilt Zi2) и сЄі = СІХІ2. По условиям теоремы, для і — Is,..., s, найдется граф G; = (Z EG,.) такой, что множество (EG U ... U Е ) П E[/)\(EG;1 U-.-UEc JnEj;) состоит из одного ребра е$ и оно не является дважды заданным. Как было показано выше, элемент сЄі однозначно выражается через множество-элементов {сее є EG,- \Щ}- Таким образом, се1 однозначно выражается через {сее G Е П Е} с Е, сб2 однозначно выражается через {сее Є (EGX U EG2) П E} С E,..., сЄв однозначно выражается через {се\е Є (EGX U ... U EG8_J ПЕ}СЕ. Таким образом, элементы множества {c%j,Z\ — Zj Є Еу} однозначно выражаются-через. элементы множества.{с , — 1 Є Е}. Теорема доказана.

Следствие 3.2.1. Модель ( 3.2.1 тг.в. идентифицируема приЄ Внесли дополнительный граф структуры содержит полный граф с вершинами Zi,..., Zno) щ 2к+1, а остальные вершины графа можно упорядочить таким образом, что вершина Z{, г щ, соединена ребрами с не менее чем с к вершинами из множества {Zi,..., Д-_і}.

Идентифицируемость и обучение гауссовских графовых моделей с латентными переменными Стафеев Сергей Вячеславович

Моделирование условных независимостей с помощью графов

Гауссовские деревья с латентными переменными

Описание класса рассматриваемых моделей

Алгоритм нахождения оценок максимального правдоподобия для параметров гауссовской смешанной графовой модели

Похожие диссертации на Идентифицируемость и обучение гауссовских графовых моделей с латентными переменными