Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе Жаринов Сергей Евгеньевич

Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе
<
Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Жаринов Сергей Евгеньевич. Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе : ил РГБ ОД 61:85-5/1888

Содержание к диссертации

Введение

Глава I. Методы, алгоритмы и программы анализа структуры многомерных данных 10

1.1. Исходные предпосылки 10

1.2. Пакеты и системы программ анализа данных. Диалоговый подход II

1.3. Статистические тесты проверки гипотез о наличии классов 20

1.4. Выводы по главе I 27

Глава 2. Организация грашческой диалоговой системы анализа структуры многомерных данных 29

2.1. Требования к системе 29

2.2. Состав и структура системы 31

2.3. Организация данных .,. 37

2.4. Организация диалога 44

2.5. Краткая характеристика диалоговой системы ВУЛКАНИТ 49

2.6. Выводы по главе 2 61

Глава 3. Разработка и исследование процедур проверки статистических гипотез о наличии классов 62

3.1. Исходные предпосылки 62

3.2. Локализация особенности на гистограмме 64

3.3. Критерий локальной неоднородности.

Постановка задачи, формализация 68

3.4. Решение задачи в общем случае 73

3.5. Модифицированная статистика. Приближенные тесты для случая трех интервалов группировки . 82

3.6. Исследование мощности локальных тестов 89

3.7. Выводы по главе 3 96

Глава 4. Статистические процедуры сравнения совокупности многомерных объектов 98

4.1. Вводные замечания 98

4.2. Формализация и предпосылки статистической модели 99

4.3. Модель А 101

4.4. Модель В 103

4.5. Реализация процедур с помощью диалоговой системы ВУЛКАНИТ 105

4.6. Выводы по главе 4 108

Глава 5. Применение разработанных статистических процедур и программных средств для сравнения андезитов курильских островов и классификации базальтов тихоокеанского региона по геохимическим данным 109

5.1. Вводные замечания 109

5.2. Статистическое сравнение вулканических пород (андезитов) Курильских островов по геохимическим данным НО

5.3. Классификация вулканических пород (базальтов) Тихоокеанского региона по химическому составу 124

5.4. Выводы по главе 5 136

Заключение 137

Литература 141

Приложение I. Математическое описание основных алгоритмов обработки данных в системе Вулканит 152

Приложение 2. Акты о внедрении 172

Введение к работе

Диссертационная работа посвящена разработке, исследованию и применению статистичесних методов и программных средств для автоматизации научных исследований по анализу и классификации многомерных количественных данных.

Актуальность темы. Одной из основных задач экономического и социального развития СССР на I98I-I985 годы и на период до 1990 года является, как это отмечено на ХХУІ съезде КПСС, задача повышения эффективности научных исследований. Для ее решения необходимо "расширить автоматизацию ... научно-исследовательских работ с применением электронно-вычислительной техники" [і, с.144], а в области естественных и технических наук "сосредоточить усилия на развитии математической теории и повышении эффективности ее использования в прикладных целях" [і, с.146J. В 1983 году для усиления и координации работ по автоматизации в Академии наук СССР образовано отделение информатики, вычислительной техники и автоматизации.

Типичными для естественно-научных исследований являются задачи анализа и классификации больших объемов многомерных количественных данных. Например, в проанализированных 50 монографиях по геохимии горных пород за последние 10 лет используется от 100 до 30000 анализов в каждой (в среднем 1200); анализы содержат от 10 до 30 компонент. Математическая обработка отсутствует в 20 случаях (приводятся лишь таблицы исходных данных); в 24 работах применяются простейшие статистические приемы (расчет средних, дисперсий, коэффициентов корреляции, построение гистограмм); только в б книгах привлечен аппарат многомер р ной статистики (один раз Т -критерий, дважды алгоритмы кластер-анализа и по одному разу - линейный дискриминант и метод глав .-5 ных компонент . Так, в работе [73] 3000 петрохимических составов описаны в виде 26 таблиц средних и дисперсий, в работе [54] более 5000 химических определений пород и минералов сведены в 65 таблиц, занимающих 90 страниц. В монографии [з] использовано 30000 химических анализов (уникальный для геохимии объем информации); результаты обработки представлены на 300 гистограммах, в 50 таблицах средних, дисперсий и коэффициентов корреляции; из многомерных методов применен лишь метод главных компонент в одной из модификаций; вопросы статистической достоверности полученных закономерностей практически не рассматривались.

Приведенные примеры показывают типичность задач обработки больших объемов количественной информации, их трудоемкость (расчеты статистических характеристик, различные графические построения) и недостаточный уровень автоматизации и применения математических методов [is]. Существующие у нас в стране и за \ рубежом пакеты и системы программ, включающие в себя средства многомерного анализа, как показывает опыт, недостаточно просты для пользователей, не имеющих специальной подготовки по математической статистике и программированию.

Поиск неоднородностей в структуре данных и классификация - типичные задачи анализа многомерной информации [12,2], однако задача проверки статистических гипотез о наличии классов пока исследована недостаточно; она названа в списке нерешенных задач прикладной статистики [37]. Этим, а также необходимостью получения статистически достоверных выводов при поиске неоднородностей определяется актуальность рассмотрения данного вопроса в диссертации. Более подробно об актуальности проверки статистических гипотез о наличии классов сказано в разделе 1.3. Актуальность разрабатываемых в диссертации процедур анализа внутренней размерности при сравнении многомерных объектов определяется необходимостью "внедрения в практику научных исследований математических методов (формализация понятий, статистическая обработка данных, создание моделей)", что было отмечено на У Всесоюзном вулканологическом совещании [58, с.12].

.Диссертационная работа выполнялась по планам ДВНЦ АН СССР с 1978 по 1983 годы в лабораториях наземного вулканизма и математического обеспечения исследований Института вулканологии (тема 3.1.6.I (Р 8І068І62), раздел 2 "Анализ пространственно-временного распределения вещества в вулканических центрах методами петрологии и математической статистики. Автоматизация исследования статистических задач геохимии и геофизики" .

Целью диссертации является разработка, исследование и применение статистических методов и диалоговой системы анализа и классификации многомерной количественной информации. Как известно [42], исследования по анализу многомерных данных носят итерационный характер, длятся месяцы и требуют участия трех специалистов: математика, программиста и предметника. Автоматизация ослабляет зависимость специалиста-предметника от математика и программиста и существенно ускоряет обработку информации. Для достижения этих эффектов диалоговая система должна, во-первых, содержать методы и процедуры анализа данных, применимые в случаях наличия у исследователя различной априорной информации (в том числе статистические методы проверки значимости обнаруженных особенностей и процедуры снижения размерности); во-вторых, быть доступна пользователю, не имеющему специальной подготовки по математическим методам и программированию; в третьих, позволять реализовывать типичные стратегии анализа структуры многомерных данных.

Задачи работы. В диссертации решаются следующие задачи:

- разрабатывается структура диалоговой системы, организа - 7 ция данных, диалога и соответствующее программное обеспечение;

- разрабатываются и исследуются статистические методы проверки гипотез о классах на выборочных гистограммах;

- разрабатываются статистические процедуры анализа внутренней размерности для задачи сравнения совокупности многомерных объектов;

- применяются разработанные математические методы и программное обеспечение для решения конкретных задач вулканологии.

Научная новизна. В диссертации показана целесообразность локализации особенности на выборочной гистограмме при проверке гипотезы неоднородности и предложена формализация понятия однородной совокупности в виде семейств унимодальных, сильно унимодальных и выпуклых на отрезке плотностей распределения вероятностей. Показано, что для каждой модели однородности задача определения статистики критерия сводится к задаче нелинейной условной оптимизации, имеющей единственное решение.

Получены формулы для процентных точек критерия локальной неоднородности, гарантирующих заданный уровень значимости при отклонении нулевой гипотезы. Получены простые аналитические приближения статистик критериев для случая трех интервалов группировки. Получены оценки мощности локальных тестов.

Предложена статистическая формализация класса задач сравнения совокупности многомерных объектов. Разработаны процедуры анализа внутренней размерности в случае линейной модели.

Практическая значимость работы определяется разработанным программным обеспечением диалоговой системы ВУЛКАНИТ. Структурная схема системы и организация данных позволяют, в отличие от известных систем, более эффективно использовать имеющиеся возможности для реализации типичных стратегий анализа данных, а также работать с пересекающимися классами, сохранять и использовать информацию, полученную на ранних этапах исследования. Система работает на ЕС ЭВМ и доступна пользователям, не имеющим специальной подготовки по математическим методам и программированию.

Разработанные в диссертации статистические процедуры позволяют повысить достоверность выводов при анализе данных. Обработка химических составов горных пород Курильской островной дуги и Тихоокеанского региона дала новые сведения для вулканологии.

Реализация результатов. Разработанные в диссертации статистические методы и диалоговая система ВУЛКАНИТ с 1982 года используются в Институте вулканологии ДВЩ АН СССР для решения задач петрологии и геохимии вулканических горных пород, минералогии вулканических пеплов, изучения данных по термо- и рудо-проявлениям, исследования пространственно-временных характеристик землетрясений. Программное обеспечение внедрено и используется в Институте океанологии АН СССР, в ПГО "Камчатгеология", в НПО "Аналитприбор", во ВНИИПО МВД СССР.

Программное обеспечение зарегистрировано в Государственном фонде алгоритмов и программ (рег.Р П0066ІЗ).

Апробация работы. Материалы работы докладывались и обсуждались: на УІІІ Всесоюзном совещании по проблемам управления (г.Таллин, 1980 г.); на УІ Всесоюзной конференции по планированию и автоматизации эксперимента в научных исследованиях (г.Москва, 1980 г.); на У Всесоюзном вулканологическом совещании (г.Тбилиси, 1980 г.); на Всесоюзном семинаре "Многомерный статистический анализ и вероятностное моделирование реальных процессов" (г.Москва, ЦЭМИ АН СССР, 1980, 1982, 1984 гг.); на ІУ, У, УІ, УІІ Конференциях молодых ученых Института вулканологии ДВНЦ АН СССР (г.Петропавловск-Камчатский, 1979, 1980, 1981, 1983 гг.).

По теме диссертации опубликовано 9 печатных работ [22-27, 90-91,115] и 4 работы находятся в печати.

Основное содержание диссертации изложено в пяти главах. Первая глава содержит обзор методов, алгоритмові программ анализа структуры многомерных данных, а также обоснование задач исследования.

Вторая глава посвящена разработке структуры диалоговой системы анализа и классификации многомерных данных, разработке организации данных и диалога. Здесь же дается краткое описание системы ВУЛКАНИТ, реализованной в ОС ЕС ЭВМ.

В третьей главе диссертации рассматривается задача о статистической проверке значимости замеченных визуально неоднородностей в структуре данных. В рамках непараметрического подхода предложено и исследовано несколько моделей неоднородности; получены соответствующие статистические тесты и проведено их сравнение по мощности.

В четвертой главе для класса задач сравнения совокупности многомерных объектов предложены две статистические модели получения сжатой информации о различии между объектами. Результаты представлены в виде процедур анализа внутренней размерности, реализуемых с помощью диалоговой системы ВУЛКАНИТ.

Пятая глава диссертации содержит два исследования, проведенных с помощью разработанных в третьей и четвертой главах статистических процедур и системы ВУЛКАНИТ.

В приложениях к работе содержится описание основных алгоритмов обработки данных в системе ВУЛКАНИТ, а также приводятся акты, подтверждающие внедрение результатов диссертации. 

Статистические тесты проверки гипотез о наличии классов

Установление неоднородности данных и их классификация в той или иной форме типичны для естественно-научных исследований. Например, характерными задачами, решаемыми с помощью построения геохимических классификаций, являются расчленение вулканогенных комплексов [59], выделение генетических типов исходных магм [l2], фациально-формационный анализ [2]. Как известно [4,33], алгоритмы кластер-анализа дают разбиение любой совокупности данных, однако они практически "не сопровождаются развитием статистической теории, с помощью которой можно оценить результаты группировок" [69J. Задача проверки гипотез о наличии классов пока исследована недостаточно; она названа в списке нерешенных задач прикладной статистики [37]. Актуальность ее определяется необходимостью получения статистически достоверных выводов при поиске неоднородностей в прикладных целях [50]. "Поскольку классификация по существу носит поисковый характер, исследователь должен иметь возможность оперативно проверить данные на тенденцию к группировке, выбрать подходящий алгоритм, оценить его результаты, определить их достоверность и сформулировать гипотезы о структуре" [84]. Следовательно, процедуры проверки гипотез о наличии классов должны входить в программное обеспечение по анализу данных.

Одна из главных причин слабой изученности вопроса - трудность и неоднозначность формализации понятий однородной и неоднородной генеральной совокупности [84,69]. Для данных количественного характера обычно используется такой подход:

- задается плотность распределения вероятностей р(х) (например, в виде параметрического семейства), соответствующая какой-либо формализации понятия однородности;

- элементы выборки X = (xj,X, ... ,xN) предполагаются независимыми реализациями случайной величины с плотностью р(х);

- проверяется гипотеза HQ о принадлежности выборки данному семейству плотностей;

- если гипотеза Н0 отклоняется, то выборка считается неоднородной.

В общем многомерном случае даже для простейших видов плотностей (равномерного, нормального) удовлетворительное решение задачи отсутствует [84,37]. В нескольких работах [112,100,69,9] для модели многомерного нормального распределения предложены критерии оценки числа классов, однако в большинстве случаев неизвестны даже асимптотические распределения соответствующих статистик. Ниже рассматривается частный случай задачи - проверка гипотезы о неоднородности в одномерном пространстве.

В естественно-научных исследованиях одномерным распреде - 22 -лениям традиционно придается большое значение; построение выборочных гистограмм, например, типичный прием анализа геохимической информации [l2,3,60J. "С этого обычно начинается первичная обработка аналитических данных. Помимо количественной оценки средних содержаний и степени равномерности распределения элементов в горных породах, функции распределения позволяют более объективно оценивать распространенность в природе тех или иных разновидностей изверженных горных пород, выявлять естественные границы между ними, а в ряде случаев служат средством контроля генетических построений" [2J. Поскольку при автоматизации процесса классификации решающую роль играет визуализация данных (в том числе представление в виде одномерных проекций), проверка статистических гипотез о неоднородности выборочных гистограмм - актуальная задача.

Существующие статистические модели в задаче проверки гипотез о наличии классов разделим на три группы [69]:

- модели смеси распределений,

- модели "расслоения" выборки (название условное),

- модель унимодальности распределения.

В первом случае предполагается, что наблюдения извлекаются из смеси к нормальных распределений с неизвестными математичес кими ожиданиями Мц , ju2, ,.,9нк и равными дисперсиями о : к xj (условие равенства дисперсий необходимо для идентифицируемости смеси и сходимости алгоритмов оценивания параметров [32]). Пусть LR(X), LK+j(x) - максимумы функции правдоподобия, соответствующие гипотезам HJJ и HK+j ( : исследуемая совокуп - 23 ность есть смесь к нормальных распределений (І.І)). Для случая к=І в [б9] показано, что статистика при справедливости гипотезы Hji (Ui =U» "" имеет асимптоти-ческое распределение, расположенное между Х (х) и Хг(х) » то есть в больших выборках процентная точка / (2) гарантирует уровень значимости ос при отклонении Нт. Экспериментальные исследования мощности данного теста [9], проведенные на простых модельных примерах, показали, что смеси уверенно разделяются только при достаточно больших расстояниях Махала-нобиса (р 4), когда выборочная гистограмма имеет ярко выраженный локальный минимум. Обобщение (1.2) на случай к 1 компонент смеси приводит к процедуре последовательной проверки двух конкурирующих гипотез Нд и HJ J, к=1,2,... . В работе [9] на основании результатов Уилкса [_6Ь\ предлагается принимать ту гипотезу, которая первой согласуется с данными наблюдений в соответствии с решающим правилом

Краткая характеристика диалоговой системы ВУЛКАНИТ

Диалоговая система анализа и классификации многомерных данных ВУЛКАНИТ появилась в результате решения конкретных задач обработки химических составов вулканических горных пород. Первый вариант системы был реализован на ЭВМ Минск-32 с диалогом через пультовую пишущую машинку. Второй вариант системы работает на ЕС ЭВМ под управлением операционной системы ОС ЕС (версия 6.1), причем для диалога используется алфавитно-цифровой дисплей комплекса ЕС-7906 или ЕС-7920. Результаты выполненных действий выводятся на АЦПУ. Класс задач, на которые рассчитана система, относится к достаточно распространенному типу: признаки имеют количественный характер, число признаков-десятки, число объектов - сотни. Пользователи системы - специалисты в области геохимии, петрологии, вулканологии.

Структура системы ВУЛКАНИТ, организация данных и диалога основаны на схемах, предложенных в разделах 2.2 - 2.4. Состав блоков и логика выполнения операций выбраны, исходя из опыта решения задач в указанной выше предметной области. Ниже приводится краткое описание основных возможностей системы с соответствующими логическими схемами диалога на уровне вопросов и ответов. Более полное описание используемых математических методов и алгоритмов вынесено в Приложение I.

Работа с системой начинается с предварительной обработки, где при помощи операций удаления признаков и/или объектов (столбцов и строк исходной таблицы данных), а также усреднения групп объектов формируются рабочие данные. На примере схемы, показанной на рис.2.б, поясним логику проведения исследования. Прежде всего пользователю предоставляется возможность распечатать на АЦПУ таблицу исходных данных. После этого, либо в случае отказа от распечатки, происходит переход к основной части блока - собственно формированию рабочих данных. С этой целью необходимо указать системе один из четырех вариантов:

1. Удаление признаков

2. Удаление объектов

3. Усреднение

4. Продолжение

В первых трех случаях исследователь в ответ на дополнительные вопросы должен сообщить номера соответствующих признаков или объектов, после чего система вновь задает тот же вопрос, - до тех пор, пока не получит указание 4 - продолжить работу. Далее автоматически выполняются все названные пользователем удаления и усреднения, а затем предлагается распечатать образованные рабочие данные. После получения рабочих данных исследователь может определить один или несколько классов простым указанием номеров входящих в них объектов. Вопрос об образовании классов повторяется в цикле, пока пользователь в ответ на него не укажет вторую возможность - продолжение. Тогда происходит выход из блока предварительной обработки и переход (через формирование классов) к блоку выбора классов. Таким же образом построены все логические схемы. Заметим только, что в вопросах типа "разветвление" на схемах не указаны возможности "прерывание" и "конец", поскольку по ним переходы стандартные - в конечный блок.

Оценки параметров статистических моделей в системе ВУЛКАНИТ проводятся по обычным схемам и включают в себя вычисление средних, дисперсий, коэффициентов парной корреляции признаков вместе с соответствующими доверительными интервалами, а также расчет уравнения линейной множественной регрессии. Логическая схема блока статистического анализа приведена на рис.2.7. Исследователь должен выбрать вид анализа (корреляционный или регрессионный) и задать параметры - доверительную вероятность, а в случае регрессионного анализа, кроме того, номера управляемого и управляющих признаков. При наличии классов в текущих данных, указав возможности 4 или 5 и перечислив номера нужных классов, можно получить соответствующие статистические характеристики по каждому из названных классов.

Модифицированная статистика. Приближенные тесты для случая трех интервалов группировки

Вычисление s в общем случае, очевидно, весьма трудоемко и возможно только с использованием ЭВМ. Однако при решении конкретных задач типичен случай, когда удается выбрать интервалы группировки в гистограмме таким образом, что область локализации особенности состоит всего из трех интервалов. В последнем случае задача существенно упрощается; возможно получение достаточно точных аналитических приближений для статистики критерия, пригодных для "ручного" счета.

Введем вместо статистики s модифицированную статистику

Сравнение предложенных выше локальных тестов начнем с построения критических областей (областей отклонения нулевой гипотезы) для классов U,, , U2» Us. Рассмотрим семейство гистограмм (3.42), но положим а= 0. Для области изменения параметров д е JQ-0 I#0J. д2 е J"0#0 2в0]

и трех объемов выборок (n = 25,50,100) полученные критические области, соответствующие уровню значимости OL = 0.05, изображены на рис.3.8.

Для определения количественных характеристик оценим мощность тестов для различных классов альтернатив. Будем проверять гипотезу HQ: р(х) не имеет особенности на отрезке [q ,Ь] при условии, что на гистограмме особенность есть, - против альтернативы Ну: р(х) имеет на [a , Ь] особенность. Рассмотрим в качестве формализации альтернативы класс распределений типа (3.42):

На рис.3.9 приведены рассчитанные по формулам (3.44) -(3.48) функции мощности & в зависимости от Д для трех значений Д2 (0, 0.5, 1.0) и нескольких значений объема выборки п и уровня значимости ос .

Анализ построенных графиков и диаграмм позволяет проследить влияние параметров д и д2 на чувствительность тестов и сделать следующие выводы:

- статистика s практически не реагирует на степень асимметрии Д2 и определяется только "глубиной" локального минимума д4 (например, при ос = O.I, n = 50 мощность теста при д4 = 0.5 и увеличении д2 от 0 до 1.0 снижается с 0.55 до 0.45, то есть всего на 0.1);

- критические области статистик S2 и S3 почти не различаются между собой, но сильно отличны от критической области статистики S ;

- при отсутствии асимметрии (Д2= 0) функции мощности всех трех статистик близки (при = 0.05 они не отличаются более, .чем на 0.1) независимо от Д,, и п ;

- с увеличением Д2 и с ростом объема выборки її мощность статистик S2 и s3 резко возрастает по сравнению с мощностью Si (так, при ос = 0.01, Д2 = 1-0, П = 100 мощность S для д = 0.4 оценивается величиной 0.17, а мощности S2 и S3 величинами 0.75 и 0.84 соответственно);

Статистическое сравнение вулканических пород (андезитов) Курильских островов по геохимическим данным

Задача сравнения вулканических пород по химическому составу типична для петрологических исследований [2,73 . Она возникает, в частности, при исследовании связи между геохимическими и геологическими признаками вулканического процесса [28, 3]. Для Курильской островной дуги в результате такого сравнения предполагалось ответить на следующие вопросы:

- о количестве главных факторов, определяющих петрохими-ческое разнообразие магм андезитового состава данного региона;

- об отличии химических составов пород вулканов, расположенных на коре разного типа;

- о зависимости состава вулканитов от глубины до Тихоокеанского фокального слоя .

В качестве исходного материала для решения поставленных задач по литературным источникам [28,53J было отобрано 180 химических анализов изверженных пород 20 вулканов Главной зоны Большой Курильской гряды. В таблице 5.1 перечислены вулканы, даны обозначения, объемы выборок и средние химические составы. Выбранная группа представлена в основном вулканами, расположенными в сходной геологической обстановке. Породы соответствуют андезитам и андезито-базальтам (с границами изменения

окиси кремния от 52 до 62 %) голоценового и верхнеплейстоцено р вого возраста . В выборке представлены все крупные острова

Фокальный слой (зона Беньофа) - слой, соответствующий области наибольшей концентрации гипоцентров землетрясений, характерный для структур типа островных дуг.

Верхний плейстоцен, голоцен - геологические эпохи, соответствующие, периоду последних 100 тысяч лет.

Курильской дуги, причем рассматриваемые вулканы распределены равномерно по простиранию дуги. После предварительной обработки 22 анализа были исключены по критерию "больших отклонений".

Статистическая обработка отобранных для исследования данных выполнялась по методике, изложенной в главе 4, на ЭВМ ЕС-1033 с помощью графической диалоговой системы ВУЛКАНИТ, описанной в главе 2. В этом случае К = 20, П = 158, d = 10; предположения (4.1) и (4.2), как показала проверка соответствующих статистических гипотез, не противоречат исходным данным. В таблице 5.2 приведены значения квадратных корней из собственных чисел общей выборочной ковариационной матрицы V (4.3); видно, что они сильно отличаются друг от друга по величине (большее относится к меньшему как 32 к I), что подтверждает целесообразность преобразования (4.5).

Расчеты, проведенные в соответствии с моделью В (см. раздел 4.4), приведены в таблице 5.3. Анализ собственных чисел матрицы С (4.14) при помощи статистики XB(r) (4.12) показывает, что на уровне значимости 1% следует принять гипотезу Х(2) - 55.8, )в = 35, /о1 (35) = 57.34 (заметим, что гипотеза г = 3 принимается уже на уровне значимости не менее 20%). Из таблицы 5.3 также следует, что на долю первых двух компонент приходится около 75% общего разброса совокупности. Следовательно, в рамках принятой статистической модели, не имеет смысла рассматривать более двух факторов, описывающих разнообразие химических составов андезитов рассматриваемого региона.

Похожие диссертации на Разработка статистических методов анализа и классификация многомерных данных и их реализация в диалоговой системе