Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Перемитина Татьяна Олеговна

Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем
<
Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Перемитина Татьяна Олеговна. Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем : диссертация ... кандидата технических наук : 05.13.18.- Томск, 2003.- 143 с.: ил. РГБ ОД, 61 03-5/3244-8

Содержание к диссертации

Введение

Глава 1. Состояние проблемы комплексного анализа многомерных данных 13

1.1 Анализ задач комплексной обработки многомерных данных 13

1.1.1 Вводные замечания 13

1.1.2 Примеры задач комплексных исследований природных объектов 13

1.1.3 Особенности объектов исследования.. 23

1.2 Метод главных компонент и его применение 24

1.2.1 Обзор статистических методов анализа многомерных данных 24

1.2.2 Метод главных компонент... 39

1.2.3 Применения метода главных компонент в научных исследованиях.. 44

1.3 Пространственный анализ данных с применением ГИС 46

1.4 Постановка задач диссертационных исследований 54

Глава 2. Разработка методики и алгоритма комплексного анализа 55

2.1 Разработка процедуры комплексного анализа многомерных данных 55

2.2 Алгоритм комплексного анализа многомерных данных 63

2.2.1 Процедура подготовки данных к анализу 64

2.2.2 Выбор метода вычисления собственных значений и собственных векторов 66

2.2.3 Алгоритм МГК-анализа данных о пространственных объектах 70

2.2.4 Алгоритм графического представления результатов 73

2.2.5 Оценивание главных компонент 75

2.3 Методические вопросы пространственного анализа с применением ГИС 77

2.3.1 Проведение пространственного анализа по схеме П-ГК 78

2.3.2 Проведение пространственного анализа по схеме ГК-П 80

Выводы по главе 2 82

Глава 3. Программная реализация алгоритма комплексного анализа 83

3.1 Выбор средства программной реализации алгоритма 83

3.1.1. Сравнительный анализ средств разработки 83

3.1.2 Обоснование выбора средства программной реализации алгоритма. 85

3.2 Общая структура программного комплекса 86

3.2.1 Предварительная обработка массива данных 89

3.2.2 Восстановление пропущенных значений в массивах данных 90

3.2.3 Выполнение запросов и построение новых таблиц 91

3.3 Два направления проведения комплексного анализа многомерных данных 93

3.3.1 Особенности программной реализации алгоритма по схеме ГК-П 93

3.3.2 Особенности программной реализации алгоритма по схеме П-ГК 99

Выводы по главе 3 102

Глава 4. Применение результатов диссертационного исследования в практических задачах 103

4.1 Анализ геохимических данных о рассеянном органическом веществе нефтеносных пород 103

4.2 Анализ данных о физико-химических свойствах нефтей (на примере Западно-Сибирской нефтегазоносной провинции) 108

4.3 Анализ содержания тяжелых металлов в годичных кольцах деревьев в районе Тунгусской катастрофы 113

4.4 Анализ данных о радиационном загрязнении среды в зоне воздействия крупного предприятия ядерного цикла 120

4.5 Анализ природно-климатического состояния территории юго-востока Западно-Сибирской равнины 124

Заключение 128

Список литературы: 131

Введение к работе

При изучении свойств и поведения объектов приходится использовать большие объемы разнородной информации, в связи с этим задача выявления закономерностей становится труднообозримой, возникает потребность в сжатии информации - описании объектов меньшим числом обобщенных показателей, например факторами или главными компонентами. Главные компоненты являются более удобными интегральными показателями, так как они отражают внутренние закономерности, которые не поддаются непосредственному наблюдению. При использовании метода главных компонент (МГК), корреляционная матрица используется как исходная ступень для дальнейшего анализа и появляется возможность извлечения дополнительной информации об исследуемом объекте, проведения причинного анализа взаимосвязей характеристик и определения их стохастической связи с главными компонентами.

Существует широкий класс природных объектов, при анализе которых необходимо учитывать пространственные свойства. Включение пространственных свойств, таких как координаты, площадь и др., вносит разнородность в массив и требует проведения стандартизации данных, что в свою очередь влечет переход от ковариационной матрицы к корреляционной. В условиях необходимости учета таких пространственных свойств, как форма и взаиморасположение объектов, требуется проведение комплексного анализа данных с применением методов пространственного анализа.

На современном этапе для анализа пространственных данных широко применяются геоинформационные системы, позволяющие манипулировать и управлять пространственными данными, хранящимися в виде тематических слоев, географически определенных относительно карты-основы.

В настоящее время методические вопросы комплексного анализа многомерных данных о природных объектах на основе сочетания методов статистического анализа и методов пространственного анализа разработаны

7 недостаточно. Отсутствуют алгоритмы и программные средства анализа

таких данных на основе метода главных компонент с учетом

пространственных свойств объектов. В связи с этим возникла необходимость

разработки нового подхода к комплексному анализу многомерных данных,

основанного на сочетании метода главных компонент и метода

пространственного анализа с применением геоинформационных систем

(ГИС).

Цель работы. Целью настоящей диссертационной работы является

разработка методики и алгоритма комплексного анализа многомерных

данных о пространственно-распределенных объектах, основанных на

сочетании метода главных компонент и методов пространственного анализа

с применением геоинформационных систем.

Для достижения поставленной цели решаются следующие задачи:

разработка обобщенной процедуры комплексного анализа, основанной на сочетании метода главных компонент и метода пространственного анализа с применением ГИС;

разработка алгоритма комплексного анализа многомерных данных о пространственно-распределенных объектах;

разработка процедуры графического отображения результатов анализа;

разработка программного комплекса анализа многомерных данных с применением метода главных компонент и метода пространственного анализа с использованием ГИС;

применение программного комплекса в задачах анализа многомерных данных об объектах различной природы.

Методы исследований: методы статистической обработки данных, метод главных компонент, численные методы, методы пространственного анализа с использованием геоинформационных систем.

8 Защищаемые положения.

  1. Разработанная процедура проведения комплексного анализа многомерных данных о пространственно-распределенных объектах, обеспечивает проведение анализа данных методом главных компонент и средствами ГИС.

  2. На основе обобщенной процедуры разработан алгоритм комплексного анализа, основанный на сочетании метода главных компонент и метода пространственного анализа с применением ГИС.

  3. Разработана процедура графического отображения.

  4. Создан программный комплекс обработки многомерных данных о пространственно-распределенных объектах.

Достоверность результатов обеспечивается применением строгих математических методов решения задач и тестированием программного комплекса на контрольных примерах.

Научная новизна. В диссертационной работе получены следующие новые научные результаты:

  1. Разработан геоинформационный подход к комплексному анализу многомерных данных, основанный на сочетании метода главных компонент и метода пространственного анализа с использованием ГИС.

  2. Разработан алгоритм комплексного анализа многомерных данных с применением метода главных компонент и метода пространственного анализа с использованием геоинформационных технологий.

  3. Разработана процедура графического отображения результатов комплексного анализа.

Практическая ценность. Основными результатами диссертационной работы, составляющими ее практическую ценность, являются программный комплекс геоинформационного анализа многомерных данных, реализующий разработанные алгоритмы и результаты исследований в разных областях,

9 полученные с его помощью. Созданный программный комплекс внедрен в

ИХН СО РАН и используется для анализа геохимических данных о нефтях и

рассеянном органическом веществе пород, что позволяет выявлять

закономерности изменения содержания и состава углеводородов нефтей и

рассеянного органического вещества в зависимости от глубины залегания и

фациального районирования (геолого-геохимических условий залегания).

Программный комплекс внедрен в ИОМ СО РАН и применен для анализа

природно-климатических данных о состоянии территории юго-востока

Западной Сибири, что позволило установить особенности в климатическом

состоянии Васюганской равнины по сравнению с сопредельными

территориями и выявить факторы, оказывающие существенное воздействие

на состояние территории. Проведенный с помощью программного комплекса

анализ дендрохронологических данных о радиационном загрязнении

окрестностей г. Томска (совместно с НИИ ББ при ТГУ) позволил выявить

зависимость концентраций радиоактивных веществ от расстояния до

источника радиоактивного загрязнения. Применение программного

комплекса, для анализа данных дендрохроноиндикации о содержании

различных химических элементов в годичных кольцах деревьев района

Тунгусской катастрофы, позволило выявить аномальные изменения в

функциональном состоянии деревьев, расположенных в зоне Тунгусского

взрыва.

Созданный программный комплекс может использоваться для проведения комплексного анализа широкого класса объектов. Например, объекты геоэкологии, геохимии, геологии, а также в других областях, где объекты исследования имеют пространственную привязку и представлены многомерными массивами данных.

Апробация работы. Основные результаты диссертационной работы были доложены на 11 научных конференциях и симпозиумах, в том числе на 7 международных конференциях: 4ая международная конференция «Химия

10 нефти и газа» (Томск, 2000); 1ая международная научно-практическая

конференция «Медицинские и экологические эффекты ионизирующей

радиации» (Томск, 2001); Зии международный симпозиум «Контроль и

реабилитация окружающей среды» (Томск, 2002), 20ыи международный

симпозиум по органической геохимии (Франция, 2001); 4ЫИ Югославский

симпозиум "Химия и окружающая среда" (Югославия, 2001); международная

конференция «Экология Сибири, Дальнего Востока и Арктики» (Томск,

2001), международная конференция «Измерения, моделирование и

информационные системы как средства снижения загрязнений на городском

и региональном уровне» (Томск, 2002), 3я научно-практическая конференция

«Комплексные решения в автоматизации для динамичного развития

нефтегазовой отрасли» (Томск, 2002).

Личный вклад соискателя. Диссертация написана с использованием

результатов, полученных лично автором или при его участии во всех этапах

решения поставленной задачи.

  1. Автором разработан алгоритм комплексного анализа многомерных данных, основанный на сочетании метода главных компонент и метода пространственного анализа с применением ГИС технологий .

  2. Структура и состав программного комплекса анализа многомерных данных о пространственно-распределенных объектах с применением методов главных компонент и пространственного анализа (ГИС) разработаны лично автором.

  3. Автором разработана процедура графического отображения результатов комплексного анализа.

  4. С использованием разработанного подхода автором проведен комплексный анализ физико-химических свойств нефтей нижней и средней юры Западно-Сибирской нефтегазоносной провинции.

  5. Автором, по разработанным алгоритмам, проведен комплексный анализ природно-климатических данных о состоянии территории

юго-востока Западной Сибири совместно с аспиранткой ИХН СО РАН Иродовой В.П., предоставившей также массив данных.

  1. С применением разработанного подхода, автором проведена обработка данных о радиоактивном загрязнении окрестностей г. Томска, и о содержании тяжелых металлов в годичных кольцах деревьев района падения Тунгусского метеорита. Сбор и интерпретация дендрохронологических данных проведены с участием Несветайло В.Д. (НИИ ББ при ТГУ).

  2. Комплексный анализ геохимических данных о нефтях и рассеянном органическом веществе пород проведен автором совместно с Певневой Г.С, предоставившей также массив данных.

8) Автором подготовлены цифровые карты фациального районирования
нижне-среднеюрских отложений Томской области и Западно-
Сибирской нефтегазоносной провинции на основе схем фациального
районирования территории Западной Сибири, опубликованных в
монографии Суркова B.C., Серебренниковой О.В. и др.
Седиментогенез и геохимия нижне-среднеюрских отложений юго-
востока Западной Сибири. - Новосибирск: Наука, 2001. - 213 с.
Публикации. Материалы диссертационной работы опубликованы в

14 печатных работах, в том числе в зарубежных публикациях.

Структура и объем работы. Диссертация состоит из основной части, включающей в себя введение, четыре главы и заключение на 129 страницах, списка используемой литературы из ПО источников и 2 приложений. Работа иллюстрируется 55 рисунками и 3 таблицами.

Основное содержание работы.

В первой главе диссертации рассмотрено современное состояние

проблемы комплексного анализа многомерных данных о природных

объектах. Проведен анализ особенностей нескольких известных методов

анализа многомерных данных. Дана характеристика задач комплексного

12 анализа природных объектов в различных областях научных исследований.

Рассмотрены примеры многомерных данных об объектах различной

природы, требующих комплексного исследования. Показано, что для

проведения комплексного анализа рассмотренных примеров природных

объектов необходим новый подход, который позволил бы учитывать не

только многомерность, разнородность и статистический характер данных, но

и пространственные свойства объектов. Анализ особенностей анализа

природных объектов позволил сформулировать цель и основные задачи,

решаемые в диссертационной работе.

Во второй главе диссертации излагаются разработанные в ходе диссертационных исследований процедура и алгоритмы комплексного анализа многомерных данных. Представлены обобщенные схемы геоинформационного подхода к комплексному анализу.

В третьей главе рассматриваются вопросы программной реализации разработанных в диссертации алгоритмов и создания на их основе программного комплекса обработки и анализа многомерных данных с использованием МГК в сочетании с ГИС. Описаны два направления проведения комплексного анализа многомерных данных и рассмотрены особенности их программной реализации.

В четвертой главе диссертационной работы представлены пять примеров практического применения разработанного подхода для проведения комплексного анализа многомерных данных о пространственно -распределенных объектах.

В заключении формулируются основные результаты, полученные в диссертационном исследовании.

В приложении приведены документы, подтверждающие практическое применение диссертационных результатов.

Метод главных компонент и его применение

Целью данного обзора является описание различных подходов к анализу многомерных данных. Наиболее широко для анализа многомерных данных применяются классические статистические методы, такие как корреляционный, регрессионный, дисперсионный и факторный анализ [48, 49, 50]. Корреляционный анализ посвящен методам, позволяющим ответить на вопросы, имеется ли какая-либо связь между исследуемыми переменными, как измерить их тесноту.

Существуют различные виды корреляции, основные из них [53]: 1) По характеру появления связи различают следующие виды корреляции: a) положительная корреляция; b) отрицательная корреляция. 2) По числу взаимосвязанных переменных: a) парная (простая) корреляция; b) множественная корреляция; c) частная корреляция. 3) По форме связи различают следующие виды: а) линейная корреляция; b) нелинейная корреляция; 4) По типу соединения причины и следствия различают следующие виды: a) непосредственная корреляция: исследуемые явления непосредственно, без промежуточных связей, связаны между собой; b) косвенная корреляция: непосредственной причинно-следственной связи между переменными объективно не существует, связь обусловлена общей для этих переменных причиной; c) ложная корреляция (нонсенс-корреляция): имеется чисто формальная связь между явлениями, не имеющая никакого логического объяснения, проявляется лишь в силу количественного соотношения между переменными. Задачи корреляционного анализа [54]: 1) Количественное измерение силы, интенсивности связи двух и более явлений, переменных. 2) Отбор и ранжирование факторов по силе связи с исследуемым выходным параметром. 3) Обнаружение ранее неизвестных причинно-следственных связей между исследуемыми переменными. Понятия о корреляции и регрессии тесно связаны друг с другом. С помощью корреляционного анализа оценивается сила стохастической связи, а с помощью регрессионного анализа оценивается и исследуется ее вид, форма.

Задачи регрессионного анализа: 1) Идентификация формы зависимости между исследуемыми переменными. 2) Определение, оценка функции регрессии. 3) Оценка неизвестных значений (прогноз) зависимостей по известным независимым (входным) переменным с помощью функции регрессии. Регрессионный анализ, наиболее широко используемый метод многомерного статистического анализа. Различные аспекты регрессионного анализа подробно рассмотрены в литературе [49, 51, 52]. Термин "множественная регрессия" объясняется тем, что анализу подвергается зависимость одного признака (результирующего) от набора независимых (факторных) признаков. Разделение признаков на результирующие и факторные осуществляется исследователем на основе содержательных представлений об изучаемом явлении (процессе). Все признаки должны быть количественными. Применение регрессионного анализа для обработки многомерных данных позволяет находить функциональные зависимости между характеристиками объектов исследования. Среди множества возможных функций выбирается такая, которая наилучшим образом описывала бы изменчивость всех характеристик и, тем самым, сокращала бы объем данных. В качестве класса функций чаще всего выбирается класс линейных функций, и задача анализа сводится к выбору заранее неизвестных коэффициентов {bf, j = і, т } в системе уравнений Для корректного использования регрессионного анализа требуется выполнение определенных условий.

Факторные признаки должны быть некоррелированы (отсутствие мультиколлинеарности), они предполагаются замеренными точно и в их измерениях нет автокорреляции, то есть значения признаков у одного объекта не должны зависеть от значений признаков у других объектов. Результирующий признак должен иметь постоянную дисперсию. При построении регрессионных моделей прежде всего возникает вопрос о виде функциональной зависимости, характеризующей взаимосвязи между результирующим признаком и несколькими признаками-факторами. Выбор формы связи должен основываться на качественном, теоретическом и логическом анализе сущности изучаемых явлений. Коэффициенты регрессии bj определяются таким образом, чтобы рассогласования є, характеризующие степень приближения реальных значений результирующего признака Y с помощью линейной модели были минимальными. Это достигается на основе метода наименьших квадратов [49]. При построении уравнений множественной регрессии основным этапом является отбор наиболее существенных факторов, воздействующих на результирующий признак. Этот этап построения модели множественной регрессии производится на основе качественного, теоретического анализа в сочетании с использованием статистических приемов. Обычно отбор факторов проходит две стадии. На первой стадии на основе содержательного анализа намечают круг факторов, теоретически существенно влияющих на результирующий признак. На второй стадии качественный анализ дополняется количественными оценками, которые позволяют отобрать статистически существенные факторы для рассматриваемых конкретных условий реализации связи. Таких оценок существует довольно много. Они основаны на использовании парных или частных коэффициентов корреляции факторных признаков с результирующим признаком Y, t-критерия вкладов факторов в объясненную дисперсию и так далее. Отбор факторов, на второй стадии исследования, начинают обычно с анализа матрицы парных коэффициентов корреляции признаков, полученных на первой стадии. Выявляются факторы, тесно связанные между собой

Алгоритм комплексного анализа многомерных данных

Рассмотрим коротко алгоритм метода главных компонент. Пусть в анализ включено m объектов, охарактеризованных п признаками, и при проведении эксперимента получены результаты в виде матрицы наблюдаемых величин: где пі - число наблюдаемых объектов; п - число измеряемых признаков (измеряемых характеристик объекта). В основу МГК положена линейная модель [50,60]: где Aj- j-я главная компонента; к - вес (нагрузка) j-ой компоненты на і-ую переменную; х , - координаты і-ой точки в пространстве X].. ..X п. Решение практических задач с применением традиционного алгоритма МГК показало, что существует ряд задач, которые не могут быть решены применением одного только МГК: предварительная подготовка массива данных к анализу (стандартизация или нормирование массива, расчет статистических параметров); ? формирование массивов данных в процессе обработки (построение новых массивов, разбиение массива на подмассивы); ? графическое отображение векторных нагрузок в пространстве двух главных компонент; ? графическое представление результатов анализа с отображением средних значений и доверительных областей для каждого класса объектов; ? учет пространственных свойств природных объектов исследования. Как отмечалось ранее, очень часто объекты исследования характеризуются переменными, выраженными в различных единицах измерения.

Множество данных можно преобразовать в стандартную или безразмерную форму с помощью операций центрирования и нормирования (вычитания из каждого наблюдения соответствующего среднего арифметического и деления разности на стандартное отклонение), называемой стандартизацией, после этого преобразования переменные имеют нулевое среднее значение и единичную дисперсию. Эта процедура необходима, если мы хотим сравнить распределение переменных, когда они выражены в различных единицах измерения. Стандартизация имеет огромное влияние на структуру ковариационных матриц и, следовательно, на результаты ФА [1]. В дальнейшем, вместо случайных величин лс,у используются их нормированные и центрированные аналоги у где xj - среднее значение величины Xj, вычисляемое по результатам m измерений по формуле: а её среднее квадратическое отклонение: После составления матрицы центрированных и нормированных значений признаков производится расчет матрицы парных коэффициентов корреляции: где Y - матрица нормированных и центрированных значений признаков; Y -транспонированная матрица [75]. По определению, известному из линейной алгебры, собственным вектором х матрицы А, соответствующему собственному значению Я, называется отличный он нуля вектор Матрицу А можно рассматривать как матрицу линейного преобразования, преобразующего собственный вектор х в вектор Ах.

Можно (2.8) записать: Это уравнение является однородным и имеет ненулевое решение только тогда, когда характеристический многочлен равен нулю: А-ЛІЛ; = 0, или в развернутом виде: Данное выражение называется также характеристическим уравнением. Если корни этого уравнения Лг все различны, то каждому из них соответствует характеристический вектор %r, определяемый с точностью до Для того чтобы эта система линейных однородных уравнений имела ненулевое решение, необходимо и достаточно, чтобы определитель ее был равен нулю. Определитель матрицы (А -ЛЕ) является многочленом степени п относительно Л: Этот многочлен называется характеристическим многочленом матрицы А, корни характеристического многочлена называются собственными значениями матрицы А. Каждому собственному значению соответствует свой собственный вектор матрицы А. Методы вычисления собственных значений и собственных векторов делятся на два класса - прямые и итерационные. Прямые методы основаны на решении характеристического уравнения и очень чувствительны к погрешностям округления [85].

Сущность итерационных методов заключается в том, что исходную матрицу путем преобразований подобия [86], не изменяющих ее собственных значений, приводят к диагональному или треугольному виду. Как показано в [87], среди итерационных методов нахождения собственных значений и векторов симметрических матриц особое место занимает метод вращения Якоби. Он основан на построении последовательности матриц, подобных исходной и имеющих монотонно убывающую до нуля сумму квадратов всех внедиагональных элементов. Этот метод очень прост, легко реализуется на ЭВМ. Подробное описание алгоритма метода вращения Якоби приведено в [1,60,86,87,88, 89]. Применяя этот метод в нашей задаче, получим матрицы: где U - матрица собственных значений,V - матрица собственных векторов. Собственные значения корреляционной матрицы А, называют главными компонентами, которые далее будут обозначаться ГК1, ГК2, ..., ГКп. После вычисления собственных значений и собственных векторов корреляционной матрицы проводится анализ вклада каждой главной компоненты в общую дисперсию. Должно выполняться неравенство: Для проведения дальнейшего анализа отбираются первые главные компоненты, имеющие наибольший вклад в дисперсию. Переход из исходного пространства (хь х2,...., хп) в пространство отобранных главных компонент (ГК1, ГК2,...ГКп) производится путем проектирования объектов исследования Ху в пространство отобранных главных компонент по формулам, приведенным в табл. 2.1. Для реализации процедуры комплексного анализа многомерных данных предложен модифицированный алгоритм МГК (рис. 2.6), где приняты следующие сокращения: ЦК - цифровая карта; Кг - критерий оценки главных компонент. Разработанный алгоритм учитывает два направления проведения комплексного анализа, согласно представленным выше схемам (рис. 2.1). Модифицированный алгоритм МГК-анализа включает следующие этапы

Общая структура программного комплекса

Модуль пространственного анализа данных реализован средствами ГИС Arc View 3.x, который имеет встроенный язык программирования Avenue, содержащий большой набор типов данных, операторов, процедур и функций для работы с картографической информацией. Такая специфика языка делает его малопригодным для целей анализа свойств (характеристик) объектов. В нашем случае для выполнения анализа пространственных характеристик объектов исследования достаточно применения только средств ArcView 3.x, но для передачи результатов пространственного анализа необходимо использовать более совершенные программные средства. Функцию экспорта результатов пространственного анализа в модуль МГК-обработки и экспорта результатов МГК-анализа в модуль пространственного анализа выполняет модуль интерфейсов. Модуль интерфейсов предназначен для осуществления взаимодействия между разнородными частями системы модуля ПА и модуля МГК-анализа. Он отвечает за экспорт результатов пространственного анализа в модуль МГК-анализа (схема П-ГК), и за экспорт результатов МГК-анализа в модуль пространственного анализа (схема ГК-П). Как отмечалось выше, исходный массив данных может содержать значения переменных, выраженных в различных единицах измерения, тогда необходимо проведение предварительной процедуры стандартизации данных [59]. Существуют массивы данных, в которых переменные измерены в одинаковых единицах измерения, где не возникает потребности приводить массив к безразмерной форме.

В алгоритме программного комплекса предусмотрены два варианта проведения предварительной обработки исходных данных: S с проведением стандартизации исходных данных и построением корреляционной матрицы (в случае разнородных данных); / с проведением нормирования исходных данных и построением ковариационной матрицы (в случае однородных данных), как показано нарис. 3.2; Если среди значений характеристик объектов исследования имеются «пустые» значения, то пользуются различными эмпирическими приемами при расчетах среднего и дисперсии. Чаще всего используют один из трех приемов [60]: S содержание «пустых» значений заменяют нулевыми и включаются в расчеты среднего и дисперсии. Тогда дисперсия искусственно завышается, так как замена низких значений нулем увеличивает сумму отклонений от среднего; S пропущенные значения заменяются значением порога чувствительности прибора, или его половины, трети и т.д. В этом случае дисперсия занижается, среднее значение завышается; S строки или столбцы таблицы данных, имеющие пропущенные значения, исключают из анализа, расчет ведется только по оставшимся пробам. В разработанном программном комплексе задача восстановления пропущенных значений реализована двумя способами.

Первый способ. Подход предназначен для широкого класса объектов, где пропущенные значения не учитываются при оценке среднего или дисперсии. При вычислении среднего значения параметра из общего количества объектов N вычитается количество пропущенных значений данного параметра, чтобы пропущенные значения не оказывали влияния на общую дисперсию объектов. Второй способ. В практических задачах применения программного комплекса возникла необходимость обработки массива данных, содержащего пропуски, которые нельзя обойти процедурой формирования новых массивов данных (п. 3.1.2). С этой целью был разработан алгоритм, который заменяет пропущенное значение средним значением данного параметра. Заметим, что этот прием применим не для всех объектов исследования.

Анализ данных о физико-химических свойствах нефтей (на примере Западно-Сибирской нефтегазоносной провинции)

Разработанный в диссертации геоинформационный подход был применен для обработки и комплексного анализа данных о физико-химических свойствах нефти Западно-Сибирской нефтегазоносной провинции. Исследования проводились с использованием информации, накопленной в базе данных по физико-химическим свойствам нефти ИХН СО РАН [17]. В обработку были включены 200 образцов нижне-среднеюрских нефтей Западно-Сибирской нефтегазоносной провинции, перечень 17 физико-химических характеристик нефтей приведен в Приложении 2. Обработка и анализ проводились по двум схемам комплексного анализа (п.2.1)

Анализ по схеме ГК-П. На первом этапе проводился МГК-анализ данных, где первая главная компонента (ГК 1) составила 60 % дисперсии, ГК2 - 20 % дисперсии. Вклад ГК 3 и остальных компонент незначителен, поэтому их не рассматривали. При проведении эвристической классификации в пространстве двух главных компонент были выделены четыре класса образцов (рис. 4.6). В первый класс вошли 4 образца, во второй класс- 180 образцов, в третий класс - 14 образцов, в четвертый - 2 образца. Для проведения пространственного анализа результатов эвристической классификации использована карта фациального районирования нижней и средней юры Западно-Сибирской нефтегазоносной провинции, приведенной в [100], на основе которой в диссертационной работе была создана цифровая карта фациального районирования нижне-среднеюрских отложений на территории Западно-Сибирской нефтегазоносной провинции.

Результаты классификации в пространстве двух главных компонент были экспортированы в ГИС и четыре класса образцов отображены на цифровой карте разными цветами. На рис. 4.7 приведены результаты пространственного отображения результатов классификации.

Анализ нагрузок на ГК 1 (в среднем 60 % для каждого класса) четырех классов образцов нефтей показал сходства значений первых трех классов и значимое отличие четвертого класса. Для классов 1-3 наибольшее значение нагрузки имеет параметр содержания газа в нефти. Для 4 ш класса максимальное значение имеет нагрузка параметра вязкости нефти при 20С. Пространственный анализ полученных классов не позволил выявить какие-либо различия в условиях генезиса нефтей, относящихся к разным классам. Так, например, в четвертый класс входят два образца нефти с различными пространственными характеристиками (рис. 4.7). Схема ГК-П геоинформационного подхода не дала возможности разделить образцы нефтей на классы по условиям их генезиса и с учетом их физико-химических свойств. В связи с этим проводился анализ по схеме П-ГК комплексного подхода.

По схеме П-ГК комплексного анализа исследуемые образцы были разбиты на 3 основных группы согласно их расположения на территории одной из трех фациальных зон (рис. 4.8).

Проведение МГК-анализа выделенных классов показало, что главные компоненты имеют следующие величины: первая главная компонента (ГК1)-72%, ГК2 - 11%, ГКЗ - 5; ГК4 - 3%, из-за малых значений ГКЗ и ГК4 не были приняты в дальнейшее рассмотрение. Результаты анализа выделенных трех классов нефтей, представленные в пространстве первых двух главных компонент ГК1 и ГК2 на рис. 4.9, где приведены средние значения и доверительные интервалы ГК1 и ГК2 для каждой группы образцов.

Как видно из рис. 4.9, имеет место статистически значимое различие между группами образцов, относящихся к различным фациальным зонам. Анализ нагрузок на главные компоненты трех классов образцов нефтей показал, что значения нагрузок характеристик 1-17 сильно различаются. В частности, для нефтей из морской фациальной зоны наибольшим значением нагрузки обладает параметр температуры пласта, для образцов переходной зоны наибольшим значением нагрузки обладает параметр содержания газа в нефти. Эти характеристики являются наиболее значимыми параметрами для своего класса.

Проведенный комплексный анализ показал, что между выделенными группами образцов по условиям генезиса имеется статистически значимое отличие по 17 физико-химическим свойствам. Геоинформационный подход по схеме П-ГК позволяет разделить образцы нефтей на классы по их фациальным типам, отражающим источники генерации и формирования залежей углеводородов [101].

В анализ были включены, согласно выше изложенному (п.1Л.2), четыре дерева: сосна и три лиственницы (С-86, Л-82, Л-87 и Л-89) в районе Тунгусской катастрофы. Объектами анализа являются годичные кольца с 1900 по 1925 г., которые характеризуются 12 параметрами (содержание в годичном кольце 12 химических элементов). Многомерные массивы данных для каждого модельного дерева были обработаны МГК. Результаты обработки данных МГК показали значимое отличие содержаний тяжелых металлов в годичных кольцах 1908 года. На рис. 4.10 представлены результаты МГК-анализа содержания тяжелых металлов в годичных кольцах лиственницы Л-87 (рис. 4.10а) и С-86 (рис. 4.10b) с 1900 по 1925 г.

Из результатов видно, что все множество точек можно разделить на три класса, относящихся к периодам до 1908 года, после 1908 года и к 1908 году. Для Л-89 было сделано два спила - верхний (Л-89в) и нижний (Л-89н). На рис. 4.11 показаны результаты МГК-анализа годичных колец двух спилов в пространстве двух главных компонент.

Результаты МГК-анализа двух спилов Л-89 показали значительное отличие содержаний тяжелых металлов в годичных кольцах верхнего и нижнего спилов, причем 1908 год для каждого спила резко отличается от других.

Похожие диссертации на Алгоритмы комплексного анализа многомерных данных о природных объектах с применением метода главных компонент и геоинформационных систем