Содержание к диссертации
Общая характеристика работы 4
Глава 1. Краткий обзор библиографии по теме диссертации 9
Глава 2. Кластеризация данных. Разработка новых алгоритмов
кластеризации. Разработка системы тестов для алгоритмов
кластеризации 16
Кластеризация данных 16
Алгоритмы кластеризации 18
Иерархическая кластеризация — 18
Кластеризация методами теории графов 19
Алгоритм ЕМ (Expectation-Maximization) 21
Алгоритм кластеризации К-средних 22
Алгоритм кластеризации Х-средних 24
Алгоритм Форель 27
Нейронная сеть Кохонена 28
Анализ результатов кластеризации 32
2.3. Развитие существующих алгоритмов кластеризации, разработка системы тестов
алгоритмов кластеризации 35
2.3.1 Алгоритм кластеризации CFF 36
Комплексный алгоритм устойчивой кластеризации данных 48
Система тестов алгоритмов кластеризации 51
2.4. Выводы 60
Глава 3. Многомерная визуализация. Приемы визуализации геолого-
геофизических данных 61
3.1. Перспективность использования многомерной визуализации для разделения
геолого-геофизических объектов 61
3.2. Реализация программы визуализации трехмерных данных с использованием
библиотеки OpenGL 62
Основные возможности OpenGL 64
Разработанная программа визуализации данных в трехмерном пространстве 67
3.3. Приложение, выполняющее визуализацию трехмерных данных, реализованное в
системе MATLAB 70
3.4. Обоснование методов разграничения геофизических объектов в трехмерных
пространствах 73
Дискриминантная поверхность : 73
Центроидное расстояние— - 75
Медианное расстояние 75
Расстояние, вычисляемое по принципу «дальнего соседа» 76
Максиминное расстояние 77
Расстояние, вычисляемое между «центром тяжести» одного множества и наиболее уделенной от него точкой другого множества 77
Расстояние, вычисляемое между «центром тяжести» одного множества и ближайшей к нему точкой другого множества. 77
3.5. Выводы 79
Глава 4. Практическое применение разработанных алгоритмов и
программных реализаций для работы с геолого-геофизическими
данными 80
4.1. Интерпретация многомерных данных каротажа 80
Выделение аномальных интервалов по комплексу каротажа на месторождении с нетрадиционным коллектором нефти 80
Интерпретация автономных методов каротажа горизонтальных скважин—88
Применение ЗБ-визуализации для интерпретации СО-каротажа. Алгоритм для оценки характера насыщения пласта 93
4.2. Кластеризация сейсмических данных 95
Сейсмофациальный анализ 95
Краткие сведения по сейсмическим атрибутам 96
Расчет карт сейсмических фаций 107
4.2.4. Кластеризация кубов сейсмических атрибутов 118
4.2.6. Перспективные идеи классификации 121
4.3. Выводы 121
Заключение 123
Благодарности 123
Список использованной литературы 125
Введение к работе
Общая характеристика работы
Актуальность темы
Технологии кластеризации и визуализации данных в настоящее время активно развиваются и являются одними из приоритетных направлений исследований в области информационных технологий. Вследствие бурного роста объема информации, развития технологий ее сбора, хранения и организации в базах данных, точные методы анализа информации и моделирования исследуемых объектов зачастую отстают от потребностей реальной жизни. Требуются универсальные и надежные подходы, пригодные для обработки информации из различных областей. В качестве подобного базиса могут быть использованы технологии и подходы математической теории распознавания и классификации.
Первые работы в области теории распознавания и классификации появились в 30-х годах XX в. и были связаны с байесовской теорией принятия решений, применением разделяющих функций к задаче классификации (Э. Г. Фишер), решением вопросов проверки гипотез (А. Вальд). В 50-х годах появились первые нейросетевые модели распознавания (Ф. Розенблатт). Большой вклад в развитие теории распознавания и классификации внесли отечественные ученые: Айвазян С.А., Айзерман М.А., Браверманн Э.М., Розоноэр Л.И., Вапник В.Н., Червоненкис А.Я. (статистическая теория распознавания). Техника кластеризации применяется в самых разнообразных областях. Хартиган (J.A. Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. В настоящее время существует множество разнообразных подходов и конкретных алгоритмов для решения задач кластерного анализа, когда требуется найти кластеры по заданной выборке их векторных признаковых описаний (Duba R., Hart P., 2000, Pelleg D., Moore A., 2001).
Решения, найденные различными алгоритмами, могут существенно отличаться друг от друга. Существуют две основные проблемы при решении задач кластеризации: определение числа кластеров и получение устойчивого результата. Поэтому в применении процедур кластерного анализа немаловажным аспектом является правильное определение количества кластеров, возможность выделения кластеров произвольной формы и устойчивость структуры кластеров, отражающая реальную объективность кластеризации. Таким образом, к современным приложениям, осуществляющим кластеризацию данных,
предъявляют жесткие требования, связанные с улучшением качества получаемых результатов и с сокращением времени работы алгоритмов кластеризации.
Наряду с разработкой математического аппарата кластеризации, существенное значение приобретают средства представления результатов кластерного анализа и оценки достоверности этих результатов. К задаче визуализации данных сводится проблема представления в наглядной форме данных эксперимента или результатов теоретического исследования. Качественная визуализация данных является важной частью любой аналитической системы. Во многих случаях эксперту достаточно просто взглянуть на данные, чтобы сделать необходимые выводы. Но одни и те же данные можно отображать множеством способов, и какой из них будет наиболее приемлем, зависит от решаемой задачи.
Традиционными для геофизики средствами визуализации являются карты, разрезы, кроссплоты, то есть средства 2D визуализации. В настоящее время возникает потребность графического представления данных более высокой размерности. Очевидно, что повышение достоверности результатов интерпретации данных геофизических исследований и, как следствие, эффективности сейсмических съемок и ГИС в значительной степени обусловлено последними достижениями в области визуализации первичной геолого-геофизической информации.
Существует большое количество программных средств, нацеленных на аналитическую работу с многомерными структурами данных. Однако при использовании подобных программ пользователь наталкивается на целый ряд проблем. Во-первых, процедуры обработки данных налагают определенные требования на выборку (например, независимость, однородность, случайность, вид распределения). Несоответствие исходной выборки этим требованиям приводит к недостоверным результатам обработки. Во-вторых, пользователь - специалист в определенной области знаний - зачастую плохо понимает аппарат многомерного анализа, а при отсутствии образного визуального представления результатов с трудом их воспринимает. И, наконец, чрезмерная универсальность готовых пакетов визуализации (в наборах существующих стандартных методов не всегда присутствуют необходимые для решения конкретной задачи инструменты) и их стоимость. Всё это говорит об актуальности создания простых, удобных в использовании средств визуализации данных.
Цель работы
Целью работы является разработка алгоритмов кластеризации и визуализации результатов, развитии существующих алгоритмов кластеризации для решения задачи
определения количества кластеров и получения устойчивого решения, а также реализации специальных средств визуализации многомерных геолого-геофизических данных.
Основные задачи исследования
1. Разработка новых алгоритмов кластеризации для решения следующих задач:
кластеризация зашумленных данных;
определение в процессе работы неизвестного числа кластеров;
получение устойчивого результата кластеризации.
Разработка системы тестов для проверки алгоритмов кластеризации и оценки их результатов.
Разработка программы визуализации многомерных данных со специальными функциями для интерпретации различных видов каротажа.
Тестирование предложенных алгоритмов на модельных данных.
Решение практических задач по кластеризации и визуализации совместной интерпретации данных сейсморазведки и ГИС.
Научная новизна
Разработаны, опробованы, реализованы в программе SeisProN два алгоритма, осуществляющих устойчивую кластеризацию зашумленных данных на заранее неизвестное количество кластеров. Получено свидетельство о регистрации программы SeisProN.
Реализовано семейство многомерных тестов для алгоритмов кластеризации (например, задание кластеров различной плотности в вершинах многомерного куба), допускающих задание переменного уровня шума и позволяющих оценить вероятности правильной классификации.
Написаны программы визуализации геолого-геофизических данных с привлечением ресурсов современных технологий библиотеки OpenGL. Программы позволяют решать конкретные задачи интерпретации комплекса различных методов каротажа и обладают специальными инструментами для решения данных задач (выделение и визуализация аномальных интервалов разреза скважин).
Защищаемые положения
1. Созданное программно-алгоритмическое обеспечение по кластеризации и визуализации многомерных геолого-геофизических данных обеспечивает решение задач по кластеризации сильно зашумленных данных, определению неизвестного
числа кластеров, выделению кластеров неэллиптической формы, получению воспроизводимого и устойчивого результата классификации данных сейсморазведки и ГИС.
Предложенные методы интерпретации и разграничения (кластеризации) данных каротажа в многомерном пространстве обеспечивают, например, надежное разделение нефтенасыщенного и водонасыщенного коллекторов, разделение терригенного коллектора и непроницаемого интервала в горизонтальных скважинах.
Разработанные автором алгоритмы кластеризации и визуализации применены в пространстве сейсмических атрибутов для выделения перспективных сейсмических фаций (нефтегазовых коллекторов). Созданная на их основе методика кластеризации кубов сейсмических атрибутов (кластеризация большого объема данных) используется в ОАО «Центральная Геофизическая Экспедиция» при разработке практических проектов поисково-разведочного бурения.
Практическая ценность
Алгоритмы реализованы в программе SeisProN, используются для совместной интерпретации 3D данных сейсморазведки и ГИС (выделение перспективных объектов для разведочного бурения) в ОАО «Центральная Геофизическая Экспедиция». Разработанные технологии имеют определенную область применения: интерпретация геолого-геофизических данных. Однако они могут быть использованы и в других отраслях, где возникает необходимость в разделении и визуализации большого количества данных.
Апробация работы
По теме диссертации опубликовано 10 работ. Основные результаты проводимых исследований, изложенных в работе, докладывались на конференциях «Новые идеи в науках о Земле» (Москва, 2005-2007 гг.), «Геофизика-2005» (Санкт-Петербург 2005 г), «Геонауки: от новых идей к новым открытиям» (Санкт-Петербург, 2008 г.), «Геомодель-2008» (Геленджик 2008 г.), опубликованы в журналах «Каротажник» (2006), сборнике «Инновационные технологии, нейросетевая парадигма геологоразведочных работ на нефть, газ и золото» (2007), «Геофизика» (2007).
На основе результатов, изложенных в работе, представлен доклад на конкурсе студенческих и аспирантских работ в рамках Российской технической нефтегазовой
конференции и выставки SPE (октябрь 2008). По результатам представленного доклада Белянушкиной М.С. было присуждено первое место в конкурсе аспирантских работ.