Содержание к диссертации
Введение
Глава 1. Принципы управления геолого-геофизическими данными и подходы к оценке качества 12
1.1. Обзор литературных источников, освещающих вопросы управления данными и контроля качества 12
1.1.1 Классификация методов контроля качества в области управления данными 12
1.1.2 Обзор возможностей математического моделирования процессов принятия решений, связанных с контролем качества производственных процессов 17
1.2 Обзор промышленных решений для создания геолого-геофизических банков данных 21
1.2.1 Программные комплексы для управления геолого-геофизическими данными 23
1.2.2 Особенности программно-аппаратной инфраструктуры для хранения сейсмической информации в банке данных 27
1.3 Актуальность исследования методов контроля качества на разных стадиях работы с корпоративным банком данных 30
Выводы к главе 33
Глава 2. Концептуальная математическая модель для анализа качества метаданных сейсморазведки 34
2.1. Формализация данных сейсмической разведки и построение первого уровня концептуальной математической модели 37
2.2. Второй уровень концептуальной математической модели – уровень численных методов оценки качества 44
Выводы к главе 49
Глава 3. Методы оценки качества метаданных сейсморазведки 50
3.1. Контроль качества данных на магнитных лентах 50
3.1.1 Формирование набора атрибутов для анализа качества данных на магнитной ленте 52
3.1.2 Создание рабочего процесса контроля качества данных на магнитной ленте 57
3.1.2.1 Метод контроля физического состояния ленты 58
3.1.2.2 Метод верификации формата 62
3.1.2.3 Метод контроля полноты атрибутивного состава 73
3.1.2.4 Метод оценки качества инкапсуляции данных 79
3.2 Контроль качества служебной информации в SEGY-файлах 83
3.2.1 Формирование атрибутивного состава анализируемых данных 85
3.2.2 Типовой рабочий процесс анализа качества атрибутивных данных в промышленном формате SEGY 87
3.2.3 Метод восстановления некорректных атрибутов служебных заголовков SEGY
файлов на основе нейронной сети Хэмминга 89
3.3 Оценка качества геометрии сейсмической съемки 99
3.3.1 Усовершенствованный алгоритм Джарвиса для расчета невыпуклого контура сейсмической съемки 100
3.3.2 Численные методы оценки качества геометрии сейсмического профиля
3.3.2.1 Метод контроля пропущенных точек профиля 114
3.3.2.2 Метод контроля кривизны сейсмического профиля 115
3.3.3 Использование метода трассировки луча для отбора пространственных данных 117
3.4 Пример практического применения методики контроля качества 121
Выводы к главе 125
Глава 4. Разработанные программные комплексы, реализующие методы оценки качества метаданных сейсморазведки 127
4.1. Архитектура информационной системы 127
4.2. Особенности реализации программного комплекса GeoStore 130
4.3. Особенности реализации программного комплекса SeismicLoader 133
4.4. Особенности реализации процедуры принятия решения о качестве данных в программном комплексе Decision Space Data Quality 140
Выводы к главе 145
Заключение 146
Список сокращений и условных обозначений 148
Список использованной литературы 149
- Обзор возможностей математического моделирования процессов принятия решений, связанных с контролем качества производственных процессов
- Второй уровень концептуальной математической модели – уровень численных методов оценки качества
- Метод контроля физического состояния ленты
- Особенности реализации процедуры принятия решения о качестве данных в программном комплексе Decision Space Data Quality
Введение к работе
Актуальность темы исследований. На сегодняшний день в компаниях, занимающихся разведкой и разработкой месторождений полезных ископаемых, накопленные объемы данных варьируются в среднем от нескольких десятков терабайт до нескольких петабайт и более в цифровом исчислении. При этом большую часть геолого-геофизических материалов занимают данные сейсмической разведки. Преследуя цель иметь комплексную геолого-технологическую модель, организации зачастую осуществляют сбор информации в избыточном количестве, отодвигая вопросы контроля качества таких данных на долгую перспективу. Вопросы управления большими объемами цифрового и вещественного материала, в свою очередь, обозначают следующие актуальные проблемы геолого-геофизической отрасли:
Как правило, цифровые и вещественные наборы данных внутри больших организаций хранятся в разрозненных формах, множественных хранилищах, часто не имеющих ни логической, ни физической связей.
Отсутствие комплексной модели хранения данных вынуждает пользователей тратить существенное время на поиск информации по неформализованным критериям, при этом результат их поисков не всегда достоверен в силу физической недоступности всего спектра данных и ряда других технических проблем.
Отсутствие централизованного репозитория с логически выверенной структурой является причиной дублирования данных, что накладывает на компанию, в том числе, и коммерческие издержки по их хранению и приобретению.
Без стандартов оценки качества материала часть данных в результате оказывается в таком состоянии, из которого невозможно извлечь практическую пользу.
Формирование банков данных - это сложный, зачастую многолетний процесс. Принятие решений в пользу создания информационной модели порой воспринимается как серьезный риск, который осложнит возможность управления уже устоявшимися бизнес-процессами.
Является проблемой отслеживание всей истории изменений по мере использования данных.
Одна из главных проблем - это отсутствие методик как в части системы организации всего спектра геолого-геофизических данных, так и в части их верификации при наполнении банка данных и по мере дальнейшего использования.
Опираясь на практический опыт по созданию банков данных геолого-геофизических материалов, автор склонен утверждать, что промышленная польза от наличия информационных репозиториев в нефтегазовых компаниях
не может быть недооценена. Видимый невооруженным глазом процент брака среди данных, с которыми работает типичный пользователь (геолог, геофизик, геодезист, оператор и др.) может и должен быть исключен средствами автоматизации. Современный технологичный мир с высоким взаимным проникновением математики, геологии, геофизики позволяет оптимизировать значительные объемы ручного труда, используя при этом абсолютно несложные и недорогие с точки зрения реализации методы.
Стратегическая задача, которую сегодня ставят перед собой многие ресурсодобывающие компании, заключается в повышении нефтеотдачи за счет внедрения современных информационных решений в области анализа уже имеющихся данных. Приоритет задач контроля качества технологических процессов становится все выше с ростом объемов и частоты поступления новых данных. В связи с обозначенными причинами необходимость формирования информационных ресурсных моделей и разработка стандартов оценки качества данных подтверждают актуальность темы диссертационной работы.
Целью диссертационной работы является разработка средствами математического моделирования методической основы для оценки качества мета-информации в структуре сейсмических данных и реализация численных методов контроля качества в программных комплексах, применяемых в процессе формирования и сопровождения геолого-геофизических банков данных.
Задачи работы:
-
Провести обзор литературных источников, исследующих вопросы управления информацией и контроля качества данных в нефтегазовой отрасли.
-
Провести анализ практических способов управления данными разведки и разработки в отечественной и зарубежной практике.
-
Рассмотреть математические модели, позволяющие вести контроль качества технологических процессов.
-
Провести систематизацию данных сейсморазведки и выделить множества метаданных, подлежащих анализу, на предмет контроля качества.
-
Представить концептуальную математическую модель для количественной оценки качества данных сейсморазведки на основе анализа метаданных.
-
Представить математические модели авторских численных методов, использовавшихся в реальных практических задачах для контроля качества сейсмических данных.
-
Описать функциональную архитектуру программных комплексов, в которых реализованы авторские численные методы.
-
Продемонстрировать полезность авторских алгоритмов и методик, внедренных в реальные производственные процессы ведущих российских и зарубежных нефтегазовых компаний.
Объектом исследования являются данные сейсмической разведки и сопутствующие им материалы и атрибуты сейсмической съемки.
Предмет исследования - средства анализа для наполнения и оценки качества геолого-геофизических банков данных.
Методами исследования являются методы математического моделирования, методы теории принятия решений, методы нечеткой логики, анализ производственных процессов оценки качества данных сейсмической разведки, аналитические и численные алгоритмы, расчеты и их программная реализация, анализ эффективности полученных результатов.
На защиту выносятся следующие результаты, соответствующие четырем пунктам паспорта специальности 05.13.18 - математическое моделирование, численные методы и комплексы программ по техническим наукам:
Пункт 1. Разработка новых математических методов моделирования объектов и явлений.
1. Предложенная автором концептуальная двухуровневая математиче
ская модель для анализа качества сейсмических данных.
Пункт 3. Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий.
2. Разработанные автором численные методы, использующиеся для по
вышения эффективности контроля качества и загрузки атрибутов сейсмиче
ских данных:
Метод верификации форматов данных сейсморазведки, поступающих на магнитных лентах, работающий по алгоритму дерева принятия решений;
Усовершенствованный алгоритм Джарвиса для расчета выпукло-вогнутого контура 2D и 3D сейсмической площади;
Сформулированный математически и разработанный вычислительный метод контроля качества геометрии 2D сейсмического профиля. Отдельные блоки метода были известны ранее, выполнялись специалистами вручную и не связывались между собой в единый расчетный комплекс, поэтому ранее были глубоко эмпирическими, присущими конкретным исполнителям;
Метод контроля корректности и автоматического исправления текстовых и бинарных атрибутов в служебных заголовках файлов SEGY, основанный на нейронной сети Хэмминга. Применительно к метаданным сейсморазведки метод реализован впервые.
Пункт 4. Реализация эффективных численных методов и алгоритмов в виде комплексов программно-ориентированных программ для проведения вычислительного эксперимента.
3. Разработанные автором программные комплексы SeismicLoader,
GeoStore и SmartSEGY. Указанные программные комплексы реализуют пред
ложенный спектр алгоритмов и используются в коммерческих и государст-
венных нефтегазовых компаниях для вычислительных экспериментов с целью оценки качества атрибутов сейсморазведки и их последующей загрузки в банки данных. Программный комплекс SmartSEGY и программный модуль построения невыпуклых оболочек ConcaveHullBuilder прошли государственную регистрацию под номерами 2015614190 и 2016610147 соответственно. Неполный список компаний, использующих разработанное ПО:
Total - французская нефтяная компания, ведущая общемировой банк данных сейсморазведочной информации;
ReMASA - компания, являющаяся официальным оператором национального геолого-геофизического банка данных Аргентины;
PTTEP - национальная компания Таиланда, ведущая банк данных сейсмики по всем разведочным активам компании, находящимся в разных участках земного шара;
Лукойл - крупнейшая коммерческая российская нефтяная компания, ведущая банк данных геолого-геофизической информации по Западной Сибири;
Южморгеология - национальная российская компания в структуре Росгеолфонда, ведущая учет сейсморазведочной информации на шельфе Черного моря.
Пункт 5. Комплексные исследования научных и технических проблем с применением современной технологии математического моделирования и вычислительного эксперимента.
4. Автором предложены комплексные методы оценки качества и актуальности как поступающей, так и хранимой в БД сейсморазведочной информации. Алгоритмы внедрены автором как в собственные программные комплексы, так и в функциональную часть программного комплекса Decision Space Data Quality компании Halliburton и используются в сотнях компаний по всему миру. Указанный программный комплекс используется также и в родственных областях исследований: ГИС, в анализе оперативных данных реального времени в процессе бурения, в анализе информации по добыче.
Таким образом, в соответствии с формулой специальности 05.13.18, в диссертации представлены оригинальные результаты одновременно из трех областей: математического моделирования, численных методов и комплексов программ.
Научная новизна основных результатов, полученных в ходе исследования, по трем областям специальности 05.13.18, заключается в следующих положениях:
Математическое моделирование
1. Предпринята попытка повышения качества сейсмических данных за счет служебной информации (атрибутов метаданных), а не сейсмического сигнала как такового.
-
Новыми являются предложенные алгоритмы оценки качества геометрии сейсмического профиля; ранее для оценки качества геометрии применялся только визуальный экпертный контроль.
-
Показана возможность использования известных математических моделей для количественной оценки качества информации, поступающей на загрузку в геолого-геофизический банк данных. Эта оценка в ряде случаев может служить «маркером» для принятия решения о допустимости дальнейшей работы с конкретным набором данных.
-
Принципиально новой является концепция отображения численных методов и используемого ими потока атрибутов сейсмоданных на двухуровневую математическую модель с целью принятия решения о численной оценке качества.
-
Благодаря предложенной двухуровневой математической модели удалось формализовать большой объем разрозненной информации, обладающей полезными для анализа свойствами. Математическая модель оценки качества определила универсальный механизм работы авторских численных методов, реализованных в программных продуктах. Таким образом, роль человеческого фактора в анализе качества данных сведена к минимуму.
Численные методы
-
Алгоритм построения выпукло-вогнутых контуров сейсмических площадей является полностью авторским. В его основу легла методика расчета выпуклой оболочки алгоритмом Джарвиса. Далее была сформулирована и доказана теорема о возможности формирования вогнутой оболочки на основе выпуклой и с учетом входных условий предложен метод преобразования выпуклой оболочки в вогнутую. Данный результат получил широкое аналитическое и коммерческое применение, в частности, в перечисленных выше компаниях, и в значительной степени упростил процесс формирования карт сейсмо-разведочных работ.
-
Предложен эффективный способ фильтрации сейсмических трасс по пространственному критерию, основанный на переносе метода трассировки луча из вычислительной геометрии в анализ данных сейсморазведки. В программном комплексе PetroVision данное решение позволило быстро реализовать отбор данных с карты в соответствии с территориальными правами доступа. Ранее в подобных ГИС-ориентированных системах использовались визуальные, а не вычислительные средства отбора даных, поэтому алгоритм является очевидным новшеством.
-
Алгоритм мониторинга и последующего исправления ошибок в атрибутах служебных заголовков файлов сейсмоданных на основе нейронной сети Хэмминга является нововведением в части автоматизированного наполнения банка данных и автокоррекции загружаемых атрибутов.
-
Разработанные средства оценки и корректировки сейсморазведочной информации, хранящейся в банке данных, являются универсальными, поэтому их методическая значимость состоит в том, что они легко проецируемы на родственные области исследований: анализ данных ГИС, анализ атрибутов добычи и пр.
-
Подготовлена концептуальная методическая база знаний оценки качества атрибутов сейсмической съемки, представленная основными алгоритмами. Некоторые их алгоритмов опираются в своей основе на известные математические модели, однако применение этих моделей для исследования проблем контроля качества метаданных сейсморазведки является новым авторским подходом.
Комплексы программ
Спроектированы и разработаны программные комплексы, в которых реализованы все вышеобозначенные научные методы. Гибкость архитектуры авторских программных комплексов SeismicLoader, GeoStore, SmartSEGY позволяет использовать существующие методы на широком спектре данных сейсмической разведки и, кроме того, дополнять его новыми простейшими методами оценки качества без внесения изменений в исходный код. Программные комплексы были реализованы автором для непосредственного их использования в нефтегазовых компаниях и государственных структурах, ведущих централизованный сбор геолого-геофизических данных. Программные продукты SeismicLoader и GeoStore были разработаны автором в процессе работы в ООО «Геолидер», внедрение в производство осуществлялось непосредственно автором. Комплекс SmartSEGY разработан автором в процессе работы в подразделении Landmark нефтесервисной компании Halliburton. Здесь же автором выполнена реализация логики принятия решения концептуальной математической модели в функциональной части программного комплекса Decision Space Data Quality.
Достоверность и обоснованность полученных результатов подтверждаются экспертными оценками пользователей, применяющих реализованные методы в реальном производстве. Кроме того, в основу формирования базы методик, разработанных для оценки качества, легли реальные проблемы, «тормозящие» производственные процессы в нефтегазовых компаниях. В процессе тестирования разработанных методов результаты сопоставлялись с ранее полученными экспертными заключениями. Быстрое распространение и широкое применение авторских комплексов SeismicLoader, GeoStore, Smart-SEGY в крупных нефтегазовых компаниях также говорит о соответствии результатов его работы реальным практическим ожиданиям.
Практическая значимость полученных результатов состоит в применении программных комплексов SeismicLoader, GeoStore, SmartSEGY для кон-
троля качества служебных данных сейсморазведки, поступающих на загрузку в геолого-геофизические банки данных. Методики и алгоритмы разрабатывались прежде всего для практического применения в компаниях, занимающихся формированием банков данных разведки и разработки месторождений полезных ископаемых. Укажем лишь на некоторые из областей применения полученных результатов в реальной производственной практике:
автоматизация процессов загрузки атрибутов сейсмической разведки в банк данных;
исправление ошибок в метаданных с минимизацией человеческого фактора;
построение карт сейсмических съемок;
комплексная оценка качества поступающей и хранящейся сейсмической информации;
отбор данных на основе критерев, согласованных с корпоративными регламентами доступа к информации.
Апробация результатов. Основные положения и результаты диссертации докладывались и обсуждались на следующих научно-практических мероприятиях:
-
III Международный Симпозиум пользователей программного обеспечения PetroVision (По, Франция, 2007 г.).
-
Защита концепции внедрения национального сейсмического Банка Данных Таиланда в компании РТТЕР (Бангкок, Таиланд, 2010).
-
Вторая научно-практическая конференция «Новые технологии поиска нефти и газа» (Тюмень 2014).
-
Общемировой инновационный форум пользователей программного обеспечения Landmark (Париж, Франция, 2014).
-
Международная научно-практическая конференция «NDR 2014» (Баку, Азербайджан, 2014).
-
70-я международная научно-практическая конференция «Нефть и газ - 2016» (Москва, РГУ нефти и газа имени И.М. Губкина, 2016).
-
Научно-техническая конференция «Современные технологии нефтегазовой геофизики» (Тюмень, ФГБОУ ВО «Тюменский индустриальный университет», 2016).
-
Научные семинары кафедры алгебры и математической логики Тюменского государственного университета.
Публикации. Основные результаты диссертации опубликованы в 10 печатных работах, в том числе 2 статьи в рецензируемых изданиях, рекомендованных ВАК для предоставления основных научных результатов диссертаций на соискание ученой степени доктора или кандидата наук. Получено 2 свидетельства об официальной регистрации программ для ЭВМ.
Личный вклад. Результаты, составляющие основное содержание диссертации, получены автором самостоятельно. Авторскими являются как численные алгоритмы, так и их реализация в программных комплексах. Совместно с научным руководителем была разработана концептуальная математическая модель и универсальный механизм принятия решения о качестве данных, реализованный с помощью предложенных автором численных методов.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка сокращений и условных обозначений, списка литературы, включающего 134 наименования, и четырех приложений. Диссертация изложена на 164 страницах машинописного текста, включая 55 рисунков и 10 таблиц.
Обзор возможностей математического моделирования процессов принятия решений, связанных с контролем качества производственных процессов
Обратимся далее к вопросам контроля качества данных. DAMA определяет необходимость контроля качества информации как одну из глобальных задач управления данными. Задачи автоматизированного контроля качества сегодня ставятся многими производственными предприятиями, занимающимися выпусками больших объемов продукции. Реализация подобных задач тесно связана с формализованностью подходов к оценке качества продукции. Другими словами, контроль качества предполагает наличие методик, которые предписывают критерии качества продукции и собственно сам механизм контроля. Такие критерии зачастую называют бизнес-правилами, подчеркивая этим их практическую производственную значимость. Так, в очередной раз обращаясь к книге «The DAMA Guide to The Data Management Body of Knowledge», выделим обозначенные в ней концептуальные категории бизнес-правил\\\Ъ, С. 296], на которые будем далее ориентироваться в построении моделей оценки качества данных сейсморазведки:
Корректность данных (Accuracy). Эта категория правил призвана определять, насколько данные верно описывают те объекты реального мира, которые они моделируют. Во многих случаях этот подход представляет собой сопоставление реальных значений параметров объекта некоторым эталонным значениям, хранящихся в эталонных справочниках баз данных или вычисленных на основе аналитической модели.
Полнота данных (Completeness). Данная категория предлагает рассматривать объект интереса как набор атрибутов, которые его описывают. Так, в процессе контроля качества предлагается вести вариативный мониторинг атрибутов в трех направлениях, отвечающих на следующие вопросы: Все ли обязательные атрибуты объекта имеют присвоенные им значения? Нет ли пустых атрибутов, считающихся обязательными? о Имеются ли в описании объекта вспомогательные атрибуты, не считающиеся обязательными, и насколько они заполнены ожидаемыми значениями? о Имеются ли в описании объекта те атрибуты, чье присутствие считается избыточным или недопустимым?
Согласованность данных (Consistency). По бизнес-правилам данной категории происходят проверки, согласованы ли значения одних атрибутов, описывающих объект интереса, со значениями других атрибутов, от которых первые находятся в определенной логической зависимости. Часто речь идет о контроле согласованности значений атрибутов, поступающих из разных баз данных или других информационных репозиториев.
Используемость (востребованность) данных (Currency) Речь идет о таких правилах, которые определяют, насколько данные могут быть востребованы в современных реалиях. Другими словами, данные правила устанавливают границы «времени жизни» данных, в пределах которых должно быть принято решение о невостребованности информации или ее обновлении до требуемого в текущих условиях состояния.
Точность данных (Precision) - это степерь детализации отдельных элементов данных. Для численных значений этой мерой может являться их представление с точностью до определенного числа десятичных знаков. Округление до целых значений или отсечение дробных частей в данном случае часто влечет ошибки в результатах.
Конфиденциальность (Privacy) как необходимость контроля доступа к данным и мониторинга их использования.
Обоснованность (Reasonableness). Такого рода правила необходимо использовать для определения обоснованности и согласованности ожидаемых результатов в каждом конкретном операционном пространстве. В качестве примера авторами книги демонстрируется возможность ожидать количество операционных транзакций в размере 105% от среднего числа подобных операций за последние 30 дней. Действительно, данное ожидание должно пройти проверку на предмет его обоснованности.
Ссылочная целостность (Referential Integrity). Данные условия часто контролируются для верификации данных в реляционных базах данных. В русскоязычной литературе часто используется термин «висячие строки». Подразумевается обязательное наличие «родительских» записей в справочных таблицах, на которые ссылаются «дочерние» записи посредством использования внешних ключей.
Своевременность данных (Timeliness). Таковые ограничения относятся к временным ожиданиям доступности и возможности использования данных. Так, с одной стороны, данные могут уже быть доступны, но при этом не быть в должном состоянии для того, чтобы их было возможно использовать для выполнения конкретных задач. Уникальность данных (Uniqueness). Очевидно, что подразумевается наличие единственно верного объекта (экземпляра) данных в рамках всего исследуемого набора. В контексте реляционных баз данных предлагается использовать уникальные ключи, ссылающиеся на первое упоминание объекта интереса, для необходимости упоминать этот объект в дальнейшем (например, в других таблицах БД).
Пригодность данных (Validity). Группа правил призвана установить, корректно ли экземпляры данных хранятся, предоставляются, соответствует ли атрибутивный состав данных форматам, принятым в предметной области использования данных, а также согласованы ли атрибуты данных подобным атрибутам других экеземпляров данных. Эти правила определяют, насколько значения атрибутов данных соответствуют множеству принятых ограничений в предметной области:
Обратим отдельное внимание на анализ математической природы процессов принятия решений в отношении качества данных. Анализ прикладных областей, в которых рассматриваются математические методы принятия решений, показывает, что большинство вопросов оптимизации или оценки качества производственных процессов поднимаются в экономических задачах [43; 51]. Классы таких задач относятся к теории принятия решений и достаточно хорошо рассмотрены в отечественной и мировой литературе [33; 39; 42; 69]. Как справедливо утверждают многие авторы, процесс управления теряет смысл, если нет возможности оценить состояние управляемого объекта [11]. В контексте данной диссертационной работы оценка качества сейсморазведочных данных является задачей оперативного принятия решения, выполнение которой непосредственно влияет на множество сопряженных процессов управления производством внутри нефтегазовой компании. В. И. Бодров, Т.Я. Лазарева, Ю.Ф. Мартемьянов в своем учебном пособии «Математические методы принятия решений» [9] дают достаточно подробный обзор задач принятия решений экономического и технического плана, основными из которых являются классические методы, методы линейного и нелинейного программирования, динамическое программирование, игровые методы. Уже во введении авторы акцентируют внимание читателя на возможности использования субъективных оценок в тех случаях, когда объективной информации оказывается недостаточно для определения численных значений требуемого критерия при принятии решения. Эти субъективные оценки основываются на накопленном опыте, знаниях, идеях, мнениях и догадках специалистов, привлеченных к выработке субъективной оценки. Речь в данном случае идет о привлечении экспертов к решению задач оперативного принятия решений. Возможность использования субъективных оценок обусловливается двумя аксиомами:
Второй уровень концептуальной математической модели – уровень численных методов оценки качества
В нашей работе каждый из используемых в конкретном процессе метод уникален по своим функциональным особенностям, поэтому уникальными являются и способы расчета уровней качества областей данных, с которыми работают конкретные методы. На особенности расчетов данных уровней мы обратим внимание в практической части работы в процессе рассмотрения предлагаемых методов.
Определение 2.2 Рассчитанным уровнем качества области данных , исследуемой методом , называется численная характеристика реально рассчитанного качества этой выделенной области. Аналогично определению 2.1, вводим функцию расч: расч, = 1.. , {,,}, {,,} Определение 2.3 Нормированным уровнем качества области данных , оцениваемой методом , назовем функцию : [0,1]. Имея характеристики предельного и рассчитанного уровней качества, можно задать уравнение функции :
С учетом введенных параметров оценки качества выделенных областей данных можно определить нормированную оценку качества данных, исследуемых конкретным процессом . Определив процесс как упорядоченное множество методов , мы показали важность очередности следования методов внутри процесса. Кроме того, на схеме из рис. 2.4 показано наличие нормированных весов , присвоенных каждому методу процесса. В итоге каждый процесс принятия решения по выделенному направлению анализа данных моделируется в виде графа предшествования = , , где вершинами являются нормированные уровни качества соответствующих областей данных , а ребрами - методы с присвоенными весами (рис. 2.5).
Модель процесса анализа качества данных j-й группы в виде графа предшествования Определение 2.4 Нормированной оценкой качества данных j-й группы, исследуемой процессом PJ, будем называть линейную комбинацию нормированных уровней качества, рассчитанных используемыми в процессе Р7 методами М(, т. е. рР -pi _ [од] - функция, определяющая нормированную оценку качества данных по процессу Pi. По определению, где Wt} - веса методов MJ в процессе P7 такие, что f=1 Wt} = 1. Веса Wt} для каждого конкретного процесса могут быть определены как экспертно, так и эмпирически. Аналогично перейдем к определению меры комплексной оценки качества данных. Определение 2.5. Мерой комплексной оценки качества сейсмических данных будем называть линейную комбинацию нормированных оценок качества данных, полученных в результате работы всех процессов PJ Є Q, т. е. FQ = Zye{r,D,w} WJ Fpj. В нашем случае выделено три процесса Р- , поэтому FQ=FT WT + FD WD + FN WN, (2.3) где FT и WT - нормированная оценка качества данных на магнитных лентах и вес множества методов Т в комплексной оценке качества сейсмических данных, FD и WD, FN и WN - аналогичные параметры оценки для направлений D и N.
Отметим, что комплексную оценку качества данных сейсморазведки по всем трем группам провести на практике удается не всегда в силу того, что какая-либо из групп при приемке материалов может попросту отсутствовать. К примеру, данные могут сдаваться сразу в форматах SEGY на жестких дисках без предоставления оригинальных магнитных лент, организация может вообще не вести контроль полевых данных, а наполнять БнД только результатами обработанной сейсмики и т.д. Поэтому практичнее принимать решение о количественной оценке качества на уровне конкретной j-й группы, а не комплексно на уровне всех групп.
Все используемые в процессе анализа качества методы можно разделить на две категории по характеру автоматизированности принятия решений:
МЕ - категория методов, принятие решении которыми обусловлено мнением и результатом работы эксперта;
МА - методы принятия решений, результат работы которых - строгая нормированная оценка, рассчитанная в полностью автоматизированном режиме. Очевидно, что замена экспертных методов аналогичными автоматизированными численными методами или появление новых численных методов позволит существенно повысить эффективность оценки материала. Практическая часть данной работы (Глава 3) содержит описание ряда новых численных методов, направленных на повышение эффективности оценки материала.
Таким образом, предложена математическая основа для принятия решения о количественной характеристике качества данных сейсморазведки. Предложенную модель принятия решения будем называть первым уровнем концептуальной математической модели.
Систематизируем функции концептуальной модели на первом уровне: Строгое распределение методов анализа сейсмических данных по трем направлениям: .1. анализ данных на магнитных лентах; .2. анализ данных в промышленных форматах записи; .3. анализ навигационных данных. определение процесса оценки качества данных как последовательно выполняемых методов оценивания М(, каждый из которых характеризуется весом Wt} и нормированным уровнем качества F?; определение понятий нормированной оценки качества данных и меры комплексной оценки качества, которые численно определяют исследуемые далее характеристики качества; определение направления дальнейшего моделирования как исследование соотношения численных (автоматизированных) и экспертных методов в процессе анализа качества данных; основная функция - принятие решения о количественной мере качества данных. Предложенная модель принятия решения в классическом виде представляет собой экспертную математическую модель интегральной оценки, особенности которой мы рассматривали в п. 1.1.2.
Метод контроля физического состояния ленты
Полный набор счетчиков, как правило, описывается в технической документации к конкретному устройству управления магнитными лентами [99; 102; 103].
В соответствии с требованиями к контролю качества, изложенными в таблице 3.6, в контексте данной работы необходимо контролировать значения счетчиков NO SOFT ERRORS и NO HARD ERRORS. Эти переменные введены автором для условного обобщенного обозначения двух категорий ошибок чтения данных с магнитной ленты: SOFT ERRORS - ошибки чтения/записи с возможностью исправления. Нас в данном случае интересуют только ошибки чтения. Причинами возникновения таких ошибок может быть некорректный размер буфера памяти для чтения данных с ленты, некорректно заданный адрес блока ленты, из которого необходимо прочитать информацию, временный технологический сбой устройства чтения и пр. Как правило, эти ошибки исчезают после повторного прочтения данных. На качество полученной в итоге информации количество таких ошибок не влияет, однако большое их количество может быть причиной существенного увеличения времени считывания данных с ленты, поэтому контроль данных ошибок в некоторых случаях позволяет объяснить скорость операций ввода/вывода. HARD ERRORS - ошибки чтения/записи без возможности исправления. Потенциальные причины возникновения подобных ошибок: повреждение определенного участка магнитной ленты, ошибка в логической структуре записанных данных (при записи информации по технологических причинам могли неверно записать межблоковые метки, метки окончания файлов или данных в целом). Порой такие ошибки возникают из-за проблем не в самой ленте, а в устройстве чтения: пыль или грязь на читающей головке, перегрев и пр. Очевидно, что проблемы с магнитной лентой зачастую ведут к потере данных, поэтому внимание к контролю показателей HARD ERRORS со стороны специалистов должно быть особо пристальным.
Таким образом, после очередной операции доступа к данным сейсморазведки на магнитной ленте имеется возможность отслеживать значения необходимых технологических параметров как самого устройства ввода/вывода, так и управляемой им ленты. В приложении GeoStore автором реализована процедура контроля счетчиков указанных двух категорий ошибок.
Определим механизм принятия решения о качестве физического состояния магнитной ленты в виде следующей последовательности процедур: 1. Сброс накопленных значений счетчиков ошибок NO SOFT ERRORS и NO HARD ERRORS перед чтением очередной ленты с сейсмическими данными; 2. Выполнение операций считывания данных с ленты; 3. Запрос текущих показаний счетчиков NO SOFT ERRORS и NO HARD ERRORS; 4. Запись полученных значений в БД GeoStore. В результате на каждый индексируемый в БД GeoStore файл с сейсмической информацией специалист получает необходимые для анализа атрибуты прочитанной информации, на основании которых имеется возможность произвести оценку качества.
Для принятия решения о качестве области, исследуемой методом М(, воспользуемся формулой (2.1) из определения нормированного уровня качества области данных, введенного в п. 2.1. Для метода М[ она будет следующей: Т FnST = QPElL (Зі) Qmax[
Исследуемой областью Sf для метода М[ является физическое состояние магнитной ленты. Как мы упоминали в п. 2.1, показатели предельного и расчетного уровней качества для каждого метода рассчитываются индивидуально. В данном случае приводится пример авторского способа расчета, реализованного для метода контроля физического состояния магнитной ленты (М[) в программном комплексе Decision Space Data Quality.
Заметим, что ошибки NO HARD ERRORS являются критическими, и их появление расценивается рядом специалистов как признак нулевого качества данных, в которых эти ошибки были обнаружены. Однако порой бывает достаточно сложно получить образец сейсмического материала, записанного на физически корректной магнитной ленте, поэтому даже в случае наличия нечитаемых блоков специалисты могут применять механизмы интеллектуального восстановления утраченных данных, например интерполировать недостающие сейсмические трассы. Поэтому будем применять «щадящий» алгоритм расчета качества данных с ошибками HARD ERRORS.
Пусть в результате прочтения N блоков данных с ленты было обнаружено Nerr ошибок типа HARD ERRORS, Nerr N. После анализа характера ошибок специалистом было выяснено, что все ошибки связаны с невозможностью прочтения блоков данных. Очевидно, что ожидаемый уровень корректных блоков Qmax[ = N. В данном примере число корректных блоков равно (iV — Nerr). Это число будем считать рассчитанным уровнем качества, то есть (2расч = (JV — Nerr). Поэтому значение функции принятия решения F[ вычисляется так:
Данный алгоритм расчета является «щадящим», потому что наличие критических ошибок априори должно определять 0-й уровень качества данных. Следование этой логике в случае, если из 100 блоков данных обнаружена одна ошибка из категории HARD ERRORS, будет означать, что достигнут 99% уровень качества. Однако в действительности этот блок может содержать настолько значимый для анализа участок сигнала, что данные без него не будут иметь смысла. Поэтому автор предлагает использовать в формуле (3.2) коэффициент ослабления КІ Є [ОД], который позволил бы подчеркнуть критическую важность данного метода. Формула (3.2) в итоге приобретает вид Г( Г) = (м-мегг) # г (33) В программном комплексе GeoStore, реализующем логику работы данного метода, предусмотрена возможность явно задать константу КІ. Вместе с этим мы полагаем, что расчет значения КІ должен быть исследован отдельно, чтобы впоследствии с помощью него можно было учитывать реальные факторы, влиящие на качество итоговой оценки данных на ленте, а не только мнения экспертов.
Таким образом, метод контроля физического состояния магнитной ленты призван помочь эксперту принять решение о допустимости использования данных с ленты для их последующего анализа и загрузки в банк данных для долговременного принятия решения. В терминах теории принятия решений эксперт решает следующую экстремальную задачу: (N-Nerr) „г Ki - max, (3.4) Nerr Nmax, где Nmax - пороговое значение количества ошибок типа HARD ERRORS, устанавливаемое экспертом. Полагаем, что весовой коэффициент W?, присваеваемый экспертами данному методу, должен быть достаточно высоким, чтобы подчеркнуть его критическую важность среди прочих методов процесса анализа сейсмических данных на магнитных лентах.
Особенности реализации процедуры принятия решения о качестве данных в программном комплексе Decision Space Data Quality
Автоматическое построение контуров площадей работ значительно упрощает ручной труд специалистов, принося ощутимые экономические выводы для крупных компаний.
В связи с обозначенными выше причинами производственная задача контроля качества перерастает в математическую вычислительную задачу. Площадь сейсмической съемки в геометрическом смысле представлена набором точек на плоскости. Точки – это позиции источников или приемников цифрового сигнала. Следуя правилам расстановки при проведении сейсмической съемки [8; 19], отдельные группы точек формируют сейсмический профиль (2D сейсмосъемка)[10] или инлайн/кросслайн (3D сейсмосъемка)[50].
Таким образом, итоговая карта сейсмической съемки выглядит как пучок отрезков на плоскости (2D) (рис. 1) или регулярная сетка в виде, опять, же, перекрещивающихся отрезков (3D). Задача состоит в том, чтобы построить многоугольник, по возможности минимальной площади, содержащий внутри себя все заданные отрезки.
Поставленная задача принадлежит в общем виде к спектру задач вычисления контуров (оболочек) вокруг множества точек на плоскости. Существует две группы таких оболочек: выпуклые и невыпуклые. Частные решения задач построения контуров во множестве представлены в отечественных и зарубежных исследованиях [46; 67; 82; 84; 90; 116]. Введем определение.
Определение 3.6. Выпуклой оболочкой множества точек X = {хх,хг, ...,хп} будем называть наименьший по площади выпуклый многоугольник Р, содержащий X [36].
Теория и применение выпуклых оболочек сегодня достаточно хорошо исследованы. Существует ряд популярных алгоритмов расчета выпуклых оболочек (Алгоритм Джарвиса [78, С. 1037-1038], Алгоритм Грэхема [78, С. 1030-1037], Алгоритм Чана [114, C. 18-20], Алгоритм быстрой оболочки [73, C. 469-483] и др.). Нахождение выпуклых оболочек применяется в задачах распознавания образов, задачах кластеризации, статистических задачах. В то же время выпуклая оболочка не всегда является действительным и допустимым отображением реальной геометрической характеристики искомого объекта. В качестве простого примера на рис. 3.19 (а, б) изображены выпуклая и вогнутая оболочки как рассчитанные контуры сейсмической съемки. Легко заметить, что выпуклая оболочка содержит много участков, на которых в действительности никакие работы не проводились, в то время как на втором изображении количество таких участков значительно меньше. В итоге отыскание выпукло-вогнутой оболочки является с практической точки зрения более актуальной задачей. а) выпуклая оболочка б) вогнутая оболочка
Расчетам «выпукло-вогнутых» оболочек посвящен ряд работ, которые в той или иной степени приближения, в зависимости от поставленной задачи, демонстрируют механизм реализации вычислений. В частности, достаточно популярной является методика использования механизма «alpha shapes» [83], являющегося обобщением построения диаграммы Вороного. Сопряженные методы триангуляции [38] (напр., Триангуляция Делоне) также в значительной мере применяются в построении оболочек. Ряд известных работ по построению невыпуклых оболочек демонстрирует механизм, основанный на известных методах конструирования выпуклых контуров. Как пример, статья [112] португальских авторов А. Морейра и М. Сантоса показывает возможность расчета вогнутой оболочки на основе известного метода Джарвиса с применением предложенной ими методики выбора очередной точки вогнутого контура. Авторами данной статьи в процессе работы были использованы некоторые из указанных выше методик, но ввиду высоких аппаратных требований существующих методов и лучшей формализованности предметной задачи построения контура вокруг сейсмической площади было принято решение поиска альтернативных методов вычислений.
В свободном доступе имеется достаточно библиотек, реализующих данную методику (напр., популярная библиотека CGAL [77], реализующая широкий спектр задач вычислительной геометрии).
Однозначно определить выпукло-вогнутую оболочку достаточно сложно. Тем не менее, введем определение, исходя из которого будем проводить дальнейший поиск решения.
Определение 3.7. Невыпуклой оболочкой множества точек X = {хъх2, ...,хп} будем называть любой многоугольник РгР2 ... Рт: Рг Є X, Р2 Є X,..., Рт Є Х,т п, ограничивающий X, имеющий при этом меньшую площадь по отношению к выпуклой оболочке для X.
Конечная цель - найти такую невыпуклую оболочку для площади сейсмической съемки, которая имела бы, по возможности, минимальную площадь среди всех прочих невыпуклых оболочек данной сейсмосъемки. В ходе дальнейшего изложения понятия «вогнутая оболочка», «выпукло-вогнутая оболочка» и «невыпуклая оболочка» будем считать синонимами.
Определение 3.8. Входным множеством данных назовем такое множество 5 = {[S11S12L [S21S22],..., [SnlSn2]l где [ЗД2] - это отрезок с концами в точках Stl, Si2, аn- общее число отрезков на плоскости. Множество точек, составленное из концов отрезков [SaSi2l обозначим за Sp. Определение 3.9. Выпуклая оболочка для S - это такое множество ConvexHull(S) = {[СцС12], [С21С22],..., [Ст1Ст2\1 являющееся выпуклой оболочкой для всех точек Sjk Є 5Р, где [СЦСЦ] – это отрезок выпуклой оболочки, ограниченный парой точек из 5Р, а т - число отрезков выпуклой оболочки S,m n.
Для дальнейших вычислений докажем, что выпукло-вогнутая оболочка может быть рассчитана на основе выпуклой оболочки путем последовательной замены каждого отрезка [CtlCi2\ на два смежных отрезка [СаК] и [КСІ2], где К Є Sp, но не является точкой выпуклой оболочки, то есть лежит внутри нее. Теорема 1. Пусть S = {S1,S2,...,Sn} - конечное множество точек плоскости, А = {AltA2, ...,Ат} - множество концов отрезков (угловых точек) выпукло-вогнутой оболочки, то есть А с S. Тогда если В = {B Bz, -,Вк} - множество концов отрезков выпуклой оболочки, где В с S, то В с А.
Доказательство. Докажем от противного. Предположим, что найдется такая угловая точка Bf выпуклой оболочки В, не являющаяся одной из угловых точек выпукло-вогнутой оболочки А. Тогда точка Bf обязана быть внутри оболочки А либо на отрезках оболочки. Снаружи она быть не может, т. к. это противоречит определению оболочки. Изобразим наш случай схематично на рис 3.20.
Проведем через точку Bf произвольную прямую L. Очевидно, что если точка Bf внутренняя точка области А1А2АъА4А АвА7А8, то всякая прямая L делит плоскость на две полуплоскости, в каждой из которых найдется хотя бы одна точка из множества А. (3 19)
По нашему предположению, точка Bf - точка выпуклой оболочки. Смежная ей угловая точка Bf+1 выпуклой оболочки должна быть либо на границе, либо внутри оболочки Ах ...А8. Если провести прямую L через точки Bf и Bf+1, то, как замечено выше (3.19), в обеих плоскостях относительно L окажутся угловые точки оболочки Аг ...А8. Но точки Bf и Bf+1 - это точки выпуклой оболочки. По определению выпуклого ІУ-угольника (являющего в нашем случае выпуклой оболочкой), все его точки должны лежать в одной полуплоскости относительно прямой, содержащей любую его сторону. Получено противоречие. Таким образом, наше предположение не верно, и точка Bf обязана лежать на оболочке А1...А8. Остается доказать, что точки множества В обязаны быть среди точек множества А, а не лежать между ними на соответствующих отрезках [Л]Л2], [І42І43], ..., [І ЛІ].