Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Численные методы и алгоритмы для обработки больших данных и выбора стабильных информационных сегментов Смагличенко Александр Вадимович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Смагличенко Александр Вадимович. Численные методы и алгоритмы для обработки больших данных и выбора стабильных информационных сегментов: диссертация ... кандидата Технических наук: 05.13.18 / Смагличенко Александр Вадимович;[Место защиты: ФГБУН Институт проблем управления им.В. А.Трапезникова Российской академии наук], 2018

Содержание к диссертации

Введение

Глава 1. Реконструкция характеристик имитационной модели залежи с помощью модификации метода исключения Гаусса 15

1.1 Обратная задача сейсморазведки и методы ее решения 15

1.2 Модификация метода исключения Гаусса 19

1.3 Геометрия сейсмических наблюдений в имитационной модели углеводородной залежи 26

1.4 Разработка структурного алгоритма для оптимизации решения обратной задачи 31

1.5 Эффективность разработанного алгоритма и результат восстановления имитационной модели 35

1.6 Структуризация сейсмических данных 38

Глава 2. Метод распознавания пар сходных строк и его применение к различным задачам 41

2.1 Метод распознавания пар сходных строк 41

2.2 Тестирование метода на численном примере 45

2.3 Алгоритм для поиска экстремума на подмножестве сходных строк 47

2.4 Применение алгоритма для выбора стабильного ряда сейсмических данных 49

2.5 Алгоритм для выделения шумовой составляющей сейсмического сигнала на основе метода распознавания сходных строк 50

Глава 3. Алгоритмы определения и проверки адекватности стохастических моделей микросейсмического зондирования 57

3.1 Методы зондирования, использующие БПФ, и метод микросейсмического зондирования 57

3.2 Стохастический параметр как инструментарий метода 60

3.3 Разработка и тестирование оборудования для проведения имитационного эксперимента 63

3.4 Алгоритмы и программы для компактного хранения данных натурных экспериментов 70

3.5 Анализ и повышение качества восстановления стохастических моделей, построенных по экспериментальным данным 74

3.6 Алгоритм сегментирования геологических данных с применением метода микросейсмического зондирования и структурно-геоморфологического метода 81

Глава 4. Практическое применение разработанных алгоритмов к различным типам данных 87

4.1 Алгоритм модификации метода Гаусса для сейсморазведки и других задач математической физики 87

4.2 Алгоритм структуризации данных для центров по сбору сейсмической информации 88

4.3 Оригинальный алгоритм распознавания пар сходных строк для широкого класса практических и теоретических задач 90

4.4 Алгоритмы стохастического моделирования и сегментирования данных для задачи сейсмического зондирования 92

Заключение 93

Основные результаты диссертации 94

Список сокращений и условных обозначений 95

Список литературы 96

Приложение А 109

Приложение Б 123

Приложение В 144

Приложение Г 156

Введение к работе

Актуальность работы. Некорректно поставленные задачи, связанные с решением плохо обусловленных разреженных систем линейных уравнений, возникают при моделировании процессов для самых различных естественнонаучных задач, таких, как, например, прогноз погоды, или производство биотоплива. Актуальными проблемами являются максимальная рационализация процесса разработки нефтегазоносных залежей, а также анализ состояния сейсмически опасных регионов. В этих случаях исходными являются данные от многочисленных сейсмических событий, зарегистрированных сетью станций, и дискретная задача сводится к поиску решения системы линейных уравнений, моделирующей скорость распространения сейсмической волны. Решение подобных систем часто не существует, либо не единственно и очень чувствительно к малейшему изменению в исходных данных, которые, как правило, зашумлены. Разработка эффективного алгоритма построения оптимального решения для рассмотренного в работе примера углеводородной залежи – важный шаг в направлении решения некорректно поставленных задач.

Решение сопутствующей проблемы: разработка системы компактного хранения единого формата исходных сейсмических данных, хранящихся на серверах различных станций – современная задача, решение которой будет способствовать продуктивной работе информационных центров, а также их сотрудничеству с организациями, обрабатывающими эти данные.

В то же время, актуальной задачей является обеспечение достоверности информации, уровень которой при обработке временного ряда определяется выделением полезного сигнала на фоне шума. Опыт сейсмологов показывает, что существующие статистические методы, включая корреляционный анализ, не всегда справляются с этой сложной проблемой, требующей привлечения дополнительных подходов, включая оптимизационные.

Стохастические модели широко применяются для понижения уровня шума в телекоммуникационных системах, для зондирования атмосферы, в медицине и пр. Известно, что адекватность стохастических моделей, построенных с применением БПФ для обработки

случайных сигналов, в ряде случаев может быть под сомнением. Тем не менее, использование полученных с помощью БПФ амплитудных спектров сигналов часто применяется, в том числе для микросейсмического зондирования, позволяющего оценивать приповерхностные неоднородности Земли. Такие оценки чрезвычайно важны для контроля карстовых процессов, вызывающих неожиданные разрушения грунта и, как следствие, – провалы жилых домов или других сооружений. Таким образом, проверка адекватности стохастических моделей – проблема, требующая определения критериев эффективности метода построения моделей, количественных характеристик, отражающих меру соответствия построенных моделей реальности.

Другим актуальным аспектом является интерпретация стохастических моделей в аспекте геоинформатики: в частности, данные могут быть представлены в графическом формате, например, снимками со спутников. Разработка эффективного алгоритма интерпретации – важная задача качественного исследования адекватности моделей.

Цель диссертационной работы: разработка и реализация алгоритмов анализа данных большой размерности для проведения вычислительных и натурных экспериментов по проверке адекватности имитационных стохастических моделей, а также по обработке сигналов.

Задачи диссертационного исследования:

  1. Разработка структурного алгоритма для решения плохо обусловленной разреженной системы линейных уравнений на базе численных методов: модификации метода исключения Гаусса и метода скорейшего спуска. Сравнительный анализ полученного решения и результата часто применяемого метода сингулярного разложения.

  2. Разработка алгоритма для упорядоченной структуризации больших массивов данных, поступающих в центры сбора информации.

  3. Разработка методов проверки адекватности стохастических моделей, полученных на основе использования спектрального представления Лима и Харриса c применением статистического подхода, а также модификации метода ветвей и границ.

  4. Организация натурного эксперимента с помощью самостоятельно созданного программно-измерительного комплекса.

  5. Разработка алгоритма выбора стабильной информации из числовых данных большой размерности, содержащих избыточные элементы.

  6. Разработка алгоритма комплексной интерпретации натурного эксперимента на основе стохастической модели, построенной по сейсмическим данным, и анализа данных в графическом формате.

Научная новизна работы

  1. Разработан алгоритм решения плохо обусловленной разреженной системы с многоленточной матрицей, позволяющий значительно повысить точность решения по сравнению с существующим методом сингулярного разложения.

  2. Разработан метод распознавания пар сходных числовых строк, отличающийся от алгоритма распознавания, использующего Евклидово расстояние.

  3. Предложен вариант модификации метода ветвей и границ для выбора стабильной информации и для обработки временного ряда – как альтернатива методам корреляционного анализа.

  4. Разработаны алгоритмы и реализованы в виде программного комплекса, ориентированного на структуризацию, форматирование и компактное хранение больших данных.

  5. Дана оценка адекватности стохастических моделей, полученных на основе нового спектрального представления, и протестированных экспериментальным путём.

  6. Разработан способ проверки численных характеристик модели измерительной системы.

  7. Разработан алгоритм комплексной интерпретации натурного эксперимента на основе

сегментирования данных, представленных в графическом формате, вместо принятого в практике сравнительного анализа графического изображения в целом. 8. Впервые в мировой практике применения пассивных сейсмических данных для проверки вычислительного метода используется модель, имеющая составные части нефтяных залежей.

Соответствие шифру специальности. Работа соответствует формуле специальности 05.13.18 – Математическое моделирование, численные методы и комплексы программ и охватывает следующие области исследования, входящие в специальность 05.13.18: п.3 Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий; п.4. Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента; п.6. Разработка новых математических методов и алгоритмов проверки адекватности математических моделей объектов на основе данных натурного эксперимента; п.7. Разработка новых математических методов и алгоритмов интерпретации натурного эксперимента на основе его математической модели.

Теоретическая и практическая ценность работы. Результаты проведённого численного моделирования приповерхностной углеводородной залежи подтверждают эффективность принципа разбиения исходного множества данных на подмножества, применяемого в некоторых сходных областях научного исследования. Разработанный алгоритм имеет теоретическую значимость для методов численного анализа и практическую ценность для рационализации процесса добычи углеводородов. Разработанные алгоритмы и быстродействующие программы по выделению следов сейсмических сигналов дают возможность создания компактной базы тестовых данных для проверки широкого класса моделей сейсмического просвечивания и могут быть применены в любой другой области, связанной с теорией информации и обработки сигналов. Выбранные для экспериментального тестирования физические модели имеют практическую значимость для определения: магматических камер, карстовых обводнённых пустот и залежей полезных ископаемых. Созданный алгоритм проверки адекватности математической модели может быть применён в других областях естественных наук, например, в материаловедении, которое является междисциплинарной областью физики, химии, электрофизики, металлофизики.

Разработанный алгоритм структуризации и оптимизации формата данных может быть применён для эффективного взаимодействия центров по сбору сейсмической информации с исследовательскими группами, решающими задачи сейсмического прогнозирования. Созданный соискателем алгоритм по распознаванию пар сходных числовых строк, является важным для деятельности таких центров в целом, так как центр ответственен за точность данных, предоставляемых исследовательским группам. Алгоритм был применён к сейсмическим данным, зарегистрированным в метеорологической службе Исландии при проведении работ по проекту научно-исследовательского фонда Исландии RANNISID-152432-051.

Автор участвовал в проведении полевых экспедиционных исследований на территории подвижной геодинамической системы Ахтырского разлома (Краснодарский край) при реализации проекта РФФИ №10-05-10068К и хоздоговорной научно-исследовательской работы “Южный поток”. Полученные данные были применены для определения характеристик поверхностной волны Рэлея с целью реализации разработанного соискателем оригинального подхода к комплексной интерпретации методов, изучающих напряжённое состояние земной коры.

Созданный автором программно-измерительный комплекс может быть использован в качестве обучающего стенда для студентов ВУЗов. Разработанный оригинальный способ проверки численных характеристик модели измерительной системы может быть применён в

метрологических службах конструкторских бюро по тестированию измерительных приборов.

Методы исследования. Для решения поставленных в диссертационной работе задач применялись: численные методы решения систем линейных уравнений; релаксационная схема метода скорейшего спуска; модификация метода исключения Гаусса; прямой метод измерений в метрологии; метод физического моделирования; метод микросейсмического зондирования; метод вычисления дискретного преобразования Фурье; статистические методы обработки экспериментальных данных; спектральный метод анализа; метод ветвей и границ, структурно-геоморфологический метод.

Основные положения, выносимые на защиту:

  1. Разработан структурный алгоритм решения линейной системы с многоленточной матрицей, позволивший выбирать оптимальное решение на основе модификации метода исключения Гаусса – более эффективный, чем общеизвестный метод сингулярного разложения.

  2. Разработан метод по распознаванию пар сходных числовых строк. На основе метода и применения оригинальных схем метода ветвей и границ разработаны алгоритмы решения задач по выбору стабильной информации и определению частей сигнала, близких к модели шума. Создан пакет прикладных программ.

  3. Предложен алгоритм сегментирования, базирующийся на разбиении множества исходных данных на подмножества с последующим анализом каждого подмножества; алгоритм применён для геологических данных в графическом формате.

  4. Построены стохастические модели микросейсмического зондирования, адекватно оценивающие расположение физического объекта при использовании большого числа данных.

  5. Осуществлено практическое применение алгоритма упорядоченной структуризации для сейсмических данных.

Достоверность результатов

Достоверность результатов при использовании различных численных методов определяется путём сравнения полученных решений с решениями по методу наименьших квадратов. Эффективность всех разработанных алгоритмов доказана путем сопоставления найденных численных решений с известными параметрами имитационных моделей.

Личный вклад автора. Все результаты, изложенные в диссертации, получены лично соискателем или при его непосредственном участии. Наиболее существенные результаты отражены в следующих работах. В публикациях [2, 6, 13, 16, 19, 20] соавторами дана постановка, предложены шаги решения проблемы по восстановлению характеристик приповерхностной углеводородной залежи, проведена часть контрольных вычислений. Лично автором: определены физические условия решения задачи, разработан алгоритм численного решения линейной системы с многоленточной матрицей. Лично автором создан комплекс программ по структуризации данных большой размерности, использованный в работах [7, 8]. В работах [22, 23, 24, 25, 26] соавторами предоставлены данные для обработки. Лично автором: разработан оригинальный численный метод по распознаванию пар сходных строк, не имеющий аналогов алгоритм обработки временного ряда, создана программа выбора стабильной информации. Лично автором: создан программно-измерительный комплекс и разработан оригинальный способ его тестирования [1, 4], проведены натурные эксперименты, разработаны быстродействующие программы по выделению следов сигналов из больших массивов данных. В работе [5] соавторами сформулирована задача по определению разрешающей способности метода микросейсмического зондирования. Лично автором предложен и про-

тестирован стохастический параметр по аналогии со спектральным представлением для распознавания речи, численные значения которого характеризуют адекватность результата метода [18]. Интерпретационный приём сегментирования разработан автором и применён к результатам обработки экспериментальных данных по Ахтырскому разлому совместно с соавторами опубликованных работ [3, 15].

Апробация результатов работы. Основные результаты работы были представлены соискателем в виде докладов на следующих конференциях и научных семинарах:

  1. Генеральная ассамблея объединения геологических наук Европы(EGU), г. Вена, Австрия, 19-24 апреля2009 г.; 2-7 мая 2010 г.; 3-8 апреля 2011г.

  2. Научный семинар лаборатории «Экспериментальная геофизика» Института физики Земли РАН, 11 апреля 2012 г.

  3. Научная конференция молодых ученых и аспирантов Института физики Земли РАН, г. Москва, 16 апреля 2012 г.; 23-24 апреля 2013 г.

  4. Генеральная ассамблея объединения геологических наук Европы (EGU), г. Вена, Австрия, 22-27 апреля 2012 г.

  5. Научный семинар лаборатории «Фундаментальных и прикладных проблем тектонофи-зики» Института физики Земли РАН, 10 мая 2013 г.

  6. Научный семинар Института физики Земли РАН,13 мая 2013 г.; 9 октября 2013 г.

  7. Научный семинар Института проблем нефти и газа РАН, 7 октября 2013 г.

  8. Междисциплинарный международный симпозиум «Сложные системы» (Complex systems), г. Прага, Чехия, 10-13 сентября 2013 г.

  9. Междисциплинарный международный симпозиум «Сложные системы» (Complex systems), г. Флоренция, Италия, 14-18 сентября 2014 г.

  10. Десятая международная конференция «Сеточные методы для краевых задач и приложения», п. Васильевское, г. Казань, 24-29 сентября 2014 г.

  11. Научный семинар Института динамики и геосфер РАН, г. Москва, 7 октября 2014 г.

  12. Научно-практическая Internet конференция «Математическое моделирование в области клеточной биологии, биохимии и биофизики», г. Тольятти. 25-26 ноября 2014 г.

  13. Международная конференция «День науки высшей школы инженеров и естественных наук университета Исландии», г. Рейкьявик, 31 октября 2015 г.

  14. Научно-практическая конференция с международным участием "Экологическая, промышленная и энергетическая безопасность", г. Севастополь, 11-15 сентября 2017 г.

  15. Всероссийская научная конференция, посвящённая 30-летию Института проблем нефти и газа РАН, г.Москва, 11-13 октября 2017 г.

Публикации. Основные научные положения диссертации опубликованы в 28 статьях и тезисах докладов, из них 8 статей – в изданиях, рекомендованных ВАК.

Структура и объем диссертации. Диссертационная работа состоит из введения, 4 глав, заключения и списка цитируемой литературы. Материал работы изложен на 159 страницах, включающих 34 рисунка, 13 таблиц и 4 приложения. Приложения включают коды компьютерных программ с комментариями. Список цитированной литературы содержит 121 наименование.

Модификация метода исключения Гаусса

Важно заметить, что задача, описанная в уравнении (4) является некорректно-поставленной. Понятие корректности было введено Жаком Адамаром для уравнений с частными производными [2]. Три условия корректности включают: 1) существование решения; 2) единственность решения; и 3) непрерывную зависимость решения от исходных данных. Авторы А.Н. Тихонов и В.Я. Арсенин в своей работе «Методы решения некорректных задач» [58] расширили спектр задач физики и техники, которые являются некорректно-поставленными, включив туда также решение плохо обусловленных систем линейных алгебраических уравнений. Плохая обусловленность системы, описанной уравнением (4), вытекает из присутствия ошибок в исходных сейсмических данных, представленных вектором 1. Погрешности вектора могут быть непредсказумо большими, и несомненно, они могут приводить к ошибке в решении. Более того, погрешности матрицы A, которая строится по исходной скоростной модели, также приводят к большим колебаниям в решении. Таким образом, третье условие корректности постановки задачи не выполняется. Более того, не всегда может быть выполнено первое условие. В связи с сильной разрежённостью матрицы исходная система может быть вырождена (её определитель равен нулю), и тогда система не имеет решений.

Как правило, число сейсмических лучей (число строк в системе) намного превышает число неизвестных параметров (число блоков среды, в которых определяются неизвестные скоростные параметры). Поэтому система является переопределённой. В то же время надо учитывать, что сейсмические наблюдения часто повторяют друг друга. Например, часто источники землетрясений распределены кластерно, роями, то есть совокупности землетрясений располагаются близко друг к другу в некоторых местах. Это приводит к тому, что для станции, зарегистрировавшей каждое событие такого роя, сейсмические лучи расположены так же близко друг к другу. Они проходят через одни и те же блоки среды, и, соответственно, элементы строк матрицы повторяют друг друга. В таких случаях система становится недоопределённой, так как резко сокращается число независимых строк. Ранг системы в таких случаях меньше, чем число неизвестных, соответственно решение системы неединственно и, таким образом, второе условие корректности не выполняется.

Для того, чтобы преодолеть проблему некоррекности рассматриваемой задачи была разработана модификация метода исключения Гаусса [111]. Согласно методу исходная система разбивается на подсистемы. Для того, чтобы преодолеть проблему возможной вырожденности матрицы, подсистемы выбираются так, чтобы их матрицы содержали только ненулевые элементы, или количество нулей в строке матрицы должно быть минимально при избежании ситуации, когда нули попадают на главную диагональ. Для того, чтобы решение было единственным, строки каждой подматрицы перебираются с последовательным формированием подматриц, каждая из которых удовлетворяет теореме Кронекера-Капелли, утверждающей критерий совместимости систем линейных алгебраических уравнений. Единственные решения всех подсистем для одной и той же компоненты неизвестного вектора x сравниваются между собой и из последовательности найденных значений выбираются те, которые приближённо были равны или отличаются в пределах допустимой погрешности, определяемой из условия проведённых сейсмических наблюдений. Такая тщательная процедура отбора позволяет не только защитить систему от различных ошибок, которые дают неоднозначные результаты при обращении разных наборов сейсмических данных и искажают реальность, но и для того, чтобы преодолеть численную проблему ошибок округления. Известно, что из-за присутствия рекуррентных формул адекватность решения разрежённой большой системы может быть потеряна, так как ошибка округления накапливается в процессе трудоёмких вычислений. Тем не менее, алгоритм Пейджа и Саундерса, часто используемый на практике, характеризуется присутствием достаточно большого числа рекуррентных формул. Названная проблема может быть решена путём разбиения исходной системы на множество подсистем малой размерности. Пример разбиения исходной системы на две подсистемы дан в работе Ланцоша [79]. Далее определяется решение отдельно взятой подсистемы, и найденные значения подставляются в исходную большую систему. Согласно модифицированному методу Гаусса найденные точные решения подсистем малой размерности сравниваются для одной и той же компоненты неизвестного вектора с последующим выбором одного стабильного значения.

Заметим, уникальная идея разбиения исходной системы на подсистемы применялась не только в теории численных методов, но и в методологии иммита-ционного моделирования технологических процессов. Так, одним из самых актуальных объектов современного производства является нагрев и прокатка металла на специальном оборудовании металлургических комбинатов. А.Л. Генкин в своей работе «Моделирование и оптимизация процесса горячей прокатки полос» привёл описание ряда разработанных алгоритмов для оптимизации процесса управления технологическими переменными, определяющими качество горячей прокатки полос металла [10]. Один из таких алгоритмов, базируясь на имитационном моделировании системы управления листопрокатным комплексом, включает энергосберегающий режим [9]. Процесс управления разбивается на подсистемы верхнего и нижнего уровня. Верхний уровень соответствует расчёту оптимальных параметров процесса прокатки в печах с точки зрения минимума целевой функции, предусматривающей затраты на топливо при нагреве металла в печах, на электроэнергию при прокатке металла, на потери металла в связи с образованием окалины [8], в то время как нижний уровень предназначен для корректировки этих параметров в условиях реального текущего технологического процесса. Можно провести аналогию с модификацией метода Гауссовского исключения. На верхнем уровне метод модификации предполагает определение параметра идеального с точки зрения минимизации среднеквадратичного функционала решения для отдельно взятой переменной. А на нижнем уровне проводится корректировка этого решения в условиях реальной переопределённой системы. Последнее численно выражается построением сходящейся подпоследовательности значений найденного параметра для данной переменной.

При работе с большими массивами сейсмических данных использование модификации метода Гаусса требует затрат времени на обработку множеств подматриц, на поиск их перекрестных частей. Поэтому возникает необходимость использования алгоритма параллельных вычислений. Реализация такого алгоритма была описана соискателем А.В. Смагличенко в работе «Параллельная реализация модификации метода Гаусса для больших разреженных систем в обратных задачах сейсмологии», являющейся совместной публикацией с другими авторами Т.А. Смагличенко, М.К. Саянкиной, А.А. Лукьяница [37].

Вычислительный процесс реализуется по частям. А именно, после того, как сформировано несколько множеств подматриц, эти множества могут быть обработаны на виртуальных компьютерах одной машины или на нескольких персональных компьютерах. Рисунок 2 иллюстрирует схему алгоритма для самого простого случая – двух подматриц. ПК1 и ПК2 – виртуальные компьютеры одной машины или персональные компьютеры. Надо отметить, что для проведения параллельных вычислений наиболее важным параметром является совокупность мощности вычислительной машины. Так например, время, затраченное на параллельный просчёт данных на двух персональных компьютерах, каждый из которых имеет объём оперативной памяти 500 Mб и тактовую частоту процессора 1 ГГц, будет намного дольше, чем например на персональном компьютере, объём оперативной памяти которого 4 Гб при тактовой частоте 2-ядерного процессора 3 ГГц. Из личного опыта автора расчёт данных на таком компьютере может быть быстрее при использовании параллельных окон для программы. При этом некоторые проблемы могут возникать при разном ресурсопотреблении окон, то есть одно окно может забирать на обработку большее количество ресурсов, чем другое. Но существует множество инструментов, позволяющих избежать подобных ситуаций, в случае, если это необходимо. Одним из таких инструментов является использование виртуальных компьютеров [14]. Для этого перед запуском виртуального компьютера задаются параметры операционной системы, определяющие необходимые требования максимального потребления им ресурсов. Таких виртуальных устройств на одной рабочей станции может быть несколько, иногда до нескольких десятков. Единственное условие, необходимое для их корректной работы, – это приемлемая ресурсоёмкость физического устройства. Чаще всего подобные решения можно встретить в серверном оборудовании. В любом случае, имея достаточную ресурсоёмкость, в любой операционной системе возможен раздел ресурсов на несколько виртуальных систем, что обеспечивает равномерный параллельный расчёт данных.

Отметим, что задачи, требующие параллельных вычислений, возникают и в других областях прикладной математики. Так, например, при выращивании микроводоросли возникает необходимость исследования простейших моделей, связывающих скорость «темнового» дыхания, скорость синтеза биомассы для отдельных компонент биомассы [90]. Уравнения в частных производных, описывающие модели, могут быть преобразованы в систему линейных алгебраических уравнений с помощью метода конечных разностей или метода конечных объёмов. В таких случаях неизвестные значения концентрации (плотности) клеток микроводоросли определяются в точках дискретной сетки. Линейная система обычно решается итерационным численным методом. В то же время, надо отметить, что в случае флюидо-динамической модели при огромном числе точек сетки, она (сетка) разделяется на множество областей (доменов). Чтобы уменьшить общее время вычислений, вычисления производятся параллельно по каждому домену. Для реализации такой процедуры решения применяется метод решёточных уравнений Больцмана. Возможность альтернативного решения с помощью модификации метода исключения Гаусса предложена авторами Смагличенко А.В., Мельниковым Б.Ф., Саянкиной М.К. в работе «Применение модификации метода Гаусса для моделей выращивания микроводоросли» [53].

Алгоритм для выделения шумовой составляющей сейсмического сигнала на основе метода распознавания сходных строк

На базе данного метода распознавания пар сходных строк был разработан алгоритм последовательного анализа сейсмических сигналов с целью оценивания времён прибытия первых поступающих фаз P- и S-волн и распознавания типов волн на сейсмограмме [108]. Способ включает в себя применение фильтра Бат-терворта для сглаживания данных, распознавание шумовой составляющей, и является альтернативным для группы кросс-кореляционных методов, использующих БПФ. Рисунок 13 иллюстрирует блок-схему алгоритма, реализующего метод7.

Алгоритм был протестирован на множестве сейсмограмм от сейсмических событий, имевших место на юге Исландии. В качестве первого шага описанного алгоритма является применение фильтра высоких частот (ФВЧ) Баттерворта. Эта необходимость была вызвана в связи с присутствием в сигнале постоянной сину-сойды [16] вследствие непосредственной близости регистрационного оборудования к Атлантическому океану (Рис. 14а). Тем не менее, для большинства подобных временных рядов такая аномалия не является характерной, и как правило сигнал при этом выглядит аналогично примененной фильтрации (Рис. 14б).

Основным шагом в процессе обработки данных является анализ каждой секунды сигнала (массив размерностью 100 элементов) и выявление всех шумовых составляющих с помощью среднестатистической оценки числовых значений вектора записи [55-56].

На начальном этапе исходный сигнал преобразуется в матрицу, размерностью 100120, для фиксированного отрезка временного ряда, состовляющего 2 минуты (числовой массив, состоящий из 1200 элементов). Каждый столбец матрицы сформирован данными окон длительностью одна секунда в амплитудно-временной плоскости (рис. 15). Для подобных операций в различных языках программирования часто используется команда “reshape”. Такое представление сигнала позволяет выбрать локальные минимумы из кажого столбца матрицы. Из этих данных в последующем формируется модель шумовых значений сигнала. Эта модель является по сути эталонной моделью, аналог которой существует в классической задаче распознавания образов на временных рядах [6]. Кроме того, модель формируется таким образом, чтобы сформированные значения матрицы не превышали значений общего шумового фона, тем самым обеспечивая некоторую гарантию отсутствия в модели значений полезного сигнала. Эти действия необходимы для последующего сравнения значений каждой секунды исследуемого сигнала с моделью шумовых значений для определения принадлежности соответствующей части сигнала к шумам.

Одной из ключевых особенностей алгоритма является то, что каждая секунда данных сопоставляется с моделью шумовых значений одновременно с каждой предыдущей и последующей секундами данных. Такой подход позволяет достаточно точно определить принадлежность той или иной части сигнала к шумовым значениям. В результата работы алгоритма мы имеем временной ряд сейсмического сигнала, в котором достаточно точно определена полезная часть (рис. 16).

Полезная часть сигнала была сформирована программным образом. Сравнение результата с исходным сигналом демонстрирует высокую эффективность применения разработанного алгоритма.

Сопоставляя предлагаемый алгоритм с наиболее известным методом обработки временных рядов, преобразованием Фурье, можно отметить следующее. Существует некоторое сходство алгоритма с оконным преобразованием Фурье, которое предполагает последовательный сдвиг окна по всей временной реализации тем самым учитывая изменение частоты колебаний во времени, что преодолевает недостаток обычного преобразования Фурье [3]. Однако, применение оконного преобразования Фурье зависимо от размера окна. Уменьшение окна способствует улучшению временного разрешения, но ухудшению частотного [17]. Вычислительные трудности могут возникать здесь из-за множества математических операций. Оконное преобразование Фурье имеет плавную базисную функцию (синусоиду) [19], которая не может выявлять перепады сигналов с бесконечной крутизной, такие как прямоугольные импульсы, часто встречающиеся в работе электроники [20]. Чтобы преодолеть перечисленные сложности и выделить сигнал, разрабатывается улучшенный алгоритм путём введения дополнительных параметров анализа, основываясь на некогерентной интеграции выходных отсчетов дискретного преобразования Фурье в пределах выбранного окна [18]. Однако, как отмечают авторы алгоритма А.В. Коротков и A.И. Мухин, увеличение длины интеграции требует привлечения дополнительного анализа спектрограмм. Совсем недавно появилось новое направление в использовании ПФ для обработки сигналов, которое получило название «Разреженное преобразование Фурье, РПФ» [116]. В РПФ сначала делаются выборки с ненулевыми частотными коэффициентами, которые соответствуют определённым энергиям, затем используются фильтры для подавления и обнуления нехарактерных частотных коэффициентов. Таким образом, так называемые большие частотные коэффициенты используются для приближения сигнала. При обработке разреженных сигналов и работе с большими данными РПФ превосходит по быстродействию БПФ. В то же время, последние исследования сигналов радара показали необходимость использования окон также и для случая РПФ [105]. В отличие от оконного преобразования Фурье алгоритм, разработанный автором данной диссертационной работы, не использует какое либо преобразование исходного сигнала, что дает как уменьшенное количество математических операций, так и некоторую возможность для поиска сигналов любого типа.

Наиболее эффективным в задачах анализа временных рядов в последнее время является вейвлет-преобразование (анализ). Оно представляет собой некоторое обобщение спектрального анализа, которым является классическое преобразование Фурье. Однако, основную роль в вейвлет-анализе играет возможность использования базисных функций (вейвлет-компонентов) для аппроксимации исследуемого сигнала в частотной и временной области. Посредством сдвигов и масштабирования с помощью вейвлет-анализа возможно различать как крупные, так и мелкие детали сигналов, одновременно локализуя их на временной шкале [35]. Таким образом, применение вейвлет-анализа, использующего вейвлет функции (например, функция Хаара, вейвлет Добеши, вейвлет Морле) и возможные масштабируюшие функции, имеет ряд преимуществ в сравнении с оконным преобразованием Фурье, позволяя обнаружить различные мелкие детали сигналов. Использование технологии вейвлетов зачастую происходит не только при анализе временных рядов, но так же при решении задач сжатия и кодирования информации, идентификации систем, обработки изображений с применением во множестве различных областей [43]. Применение вейвлет анализа для обработки данных сейсмического сигнала было сделано в ряде работ А.А. Любушина [85-86]. Так как сейсмический сигнал характеризуется чередованием всевозможных периодов во времени, для его обработки использовалась схема С. Малла [87]. В качестве базисных функций использовались вейвлет-функции Добеши [72]. Разработанный алгоритм позволил определить нестабильные участки временного ряда и оценить полезную часть сигнала, соответствующую вступлениям сейсмических волн. В отличие от данного алгоритма предлагаемый в диссертационной работе подход направлен на определение стабильного временного ряда, характеризующего шумовой фон. Вступления волн могут быть определены либо непосредственным поиском нестабильных мест, связанных с проявлением энтропии (рассеивания энергии), как это сделано в работах А.А. Любушина с помощью вейвлет-анализа, либо поиском стабильной шумовой составляющей с помощью предложенного оригинального варианта метода ветвей и границ, после вычитания которой полезная часть сигнала может быть надёжнее определена. Таким образом, разработанный подход может быть эффективным дополнением вейвлет-анализа при решении задач нахождения полезной части любого сигнала.

Анализ и повышение качества восстановления стохастических моделей, построенных по экспериментальным данным

С целью проверки влияния обработки совокупности сигналов на качество адекватности имитационных моделей 1-3 стохастические модели для моделей 1-3 были определены дважды; для цифровых данных одного случайного сигнала, взятого из найденной базы данных, и для данных одного сигнала, который является усреднением данных для 10 сигналов. В этом случае в формулах (27), (28) параметр к принимает значение 10.

Результаты проверки стохастических моделей для физической модели 1 показали, что для получения адекватной оценки недостаточно обрабатывать данные одного случайного сигнала. Неоднородное включение было представлено пустотой, канавой, имеющей размеры 0,2 х 0,2 х 0,5 м, помещенной в однородную среду. С помощью построения амплитудных спектров в среде пакета прикладных программ Lab View, а также, используя формулы стохастического моделирования, были проведены расчеты численных значений стохастического параметра S(f)J, представляющего собой вариацию отношения интенсивности одиночного сигнала, для различных точек регистрации j, положения которых определяется значениями горизонтальной оси на рис. 20 и для ряда характерных частот/ Затем численные значения этого же параметра были вычислены для совокупности десяти сигналов, используя усредненные значения энергетических спектров (или математические ожидания, определенные формулами (27)-(28)). Для ряда характерных частот/, используя формулу (12), определен вектор значения глубин распространения упругих колебаний (сейсмической волны). Значения глубин соответствуют значениям вертикальной оси на рис. 23. Завышенные (заниженные) значения параметра5 (/) обозначены синим (красным) цветом. Положение объёма пустоты обозначено прямоугольником. Рисунок 23 показывает, что взаимодействие сейсмических волн с пустотой не определяется в случае одного сейсмического сигнала и определяется при расширении объёма данных посредством увеличения числа случайных сейсмических сигналов

Результаты проверки стохастических моделей для физической модели 2 подтвердили улучшение качества моделей, если их строить по совокупности сейсмических сигналов. Неоднородное включение представлено емкостью с водой, имеющей размеры 0,2 x 0,1 x 0,1 м, помещенной в однородную среду на глубину 0,5 м. Рисунок 24 иллюстрирует, что расположение неоднородности (проекция выделена прямоугольным контуром) находится в соответствии с найденной зоной положительных значений стохастического параметра. Однако фоновая часть этой зоны достаточно велика и превышает размеры неоднородности почти в 2 раза. Более того, зона завышенных положительных значений присутствует за пределами неоднородности. Использование статистической оценки характеристик для десяти случайных сигналов позволяет улучшить этот результат. Однако погрешность стохастической модели остаётся.

Результаты проверки стохастической модели на физической модели 3 подтвердили предыдущие выводы по модели 2. Неоднородное включение представлено емкостью с водой, имеющей размеры 0,4 x 0,2 x 0,2 м, помещенной в однородную среду на глубину 0,4 м. Рисунок 25 демонстрирует, что восстановление модели значительно улучшается в случае, когда используется основной компонент 10 случайных сигналов. Однако погрешность стохастической модели не исчезает.

Для того чтобы исследовать, как статистические оценки, полученные от нескольких испытаний, представленных количеством точек измерений и количеством случайных сигналов, влияют на достоверность восстановления модели 3, был проделан еще один расширенный эксперимент. Шаг перемещения датчиков был уменьшен с 20 см до 12,5 см. Таким образом, над неоднородностью возникает не 1 точка прохождения датчика, а 3 точки. Следующим дополнением по сравнению с прежним экспериментом было увеличение количества ударов кувалдой, имитирующих точечный источник.

Для каждой физической модели были построены таблицы и проанализировано поведение численных значений стохастического параметра по отношению к расположению физических моделей. Можно утверждать, что скопления максимальных по модулю значений основной компоненты вариаций отношения интенсивности соответствуют с некоторой погрешностью месторасположению оригинала – неоднородности. Проведенные эксперименты показали, что разрешение улучшается, если шаг датчиков при проведении измерений меньше, чем предполагаемый вертикальный размер искомой неоднородности (Рис. 27). В таком случае площадь, соответствующая максимальным по модулю численным значениям параметра, практически совпадает с проекцией месторасположения оригинала (Рис. 28). Ошибка решения практически отсутствует, а именно максимальные по модулю численные значения параметра точно соответствуют месторасположение оригинала, если используются наблюдения, полученные с двух сторон исследуемого профиля.

Заметим, что при использовании реальных данных повышение надежности результатов сейсмического просвечивания возможно путем использования достаточно плотной сети наблюдений, позволяющей делать просвечивание исследуемой ячейки среды с различных направлений [112].

Алгоритм модификации метода Гаусса для сейсморазведки и других задач математической физики

Тестирование структурного алгоритма на синтетических данных, имитирующих систему углеводородной залежи, является своеобразным пособием для его применения к реальным данным слабой сейсмичности. В первой главе диссертационной работы было показано, что при математическом моделировании сейсмических данных достаточно точно может быть определён газовый слой залежи, а также вмещающая порода, расположенная ближе к земной поверхности. Даже при достаточно ограниченной системе сейсмоприёмников, рассмотренных в работе, восстановление газового слоя представляется возможным при пассивном наблюдении землетрясений с малыми магнитудами, которые часто возникают в местах нефтедобычи, как результат нарушения геодинамического равновесия среды путём бурения или путём закачки воды [73, 98]. Было найдено, что из-за накопления ошибок решения существуют трудности при определении водного слоя, расположенного глубже газового слоя. Автор полагает, что повышение точности решения для данного слоя возможно при использовании дополнительного множества данных, создаваемых путём увеличения числа станций – приёмников сейсмической информации, а также путём использования систем регистрации с широким диапазоном частот, обладающих достаточно высокой точностью регистрации данных различных типов сейсмических волн.

Как было показано в разделе 1.3, при исследовании залежи множество рассматриваемых сейсмических наблюдений создаёт конструкцию многоленточной матрицы. При применении предлагаемого алгоритма к одному и тому же набору численных данных было установлено, что алгоритм имеет большую эффективность по сравнению с наиболее часто используемым методом сингулярного разложения матрицы системы. Таким образом, практическое использование алгоритма может быть в любой другой области прикладной математики, где возникает необходимость решения систем с подобной матрицей. Дальнейшая развитие алгоритма может быть расширено для решения вырожденных систем с трёхдиаго-нальной матрицей, которые возникают при аппроксимации краевых задач на разностной сетке, используемой для широкого класса уравнений математической физики [21].

В центры по сбору сейсмической информации данные, как правило, поступают от различных сейсмостанций. Оборудование на стациях отличается и, соответственно, отличается программное обеспечение для него. Отсюда появляется проблема представления данных в различном формате. Информация из центров запрашивается исследователями для решения широкого спектра задач по определению внутреннего строения Земли. Предоставляемые базы данных соответствуют определённым временным интервалам. Для того, чтобы обеспечить эффективную научно-исследовательскую работу, данные должны храниться в едином строгом формате для установленной структуры. Алгоритм структуризации данных имел практическое применение для реальных данных сейсмических событий, зарегистрированных сетью сейсмических станций метеорологического офиса Исландии. Разработанный алгоритм включает в себя ряд задач, таких как объединение всех сейсмических данных в хронологическом порядке, парсинг полученного файла, анализ и поиск значений всех необходимых переменных с помощью алгоритма поиска сигнатуры, хранение данных с использованием массива структур и вывод данных в любом заданном формате. Рисунок 34 иллюстрирует пример системной ошибки (бага), обнаруженной в реальных данных исландских землетрясений.

Другим примером проблемного формата является формат для ввода данных в одну из наиболее популярных компьютерных программ [81], которая используется для определения координат источников локальных землетрясений во многих центрах мира по сбору сейсмической информации, в том числе и в Единой геофизической службе РАН, созданной на базе Центральной Сейсмологической Обсерватории «Обнинск» Института физики Земли им. Шмидта АН СССР. Каждая линия формата содержит необходимую числовую информацию о регистрации некоторого землетрясения определённой станцией. Однако последняя строка является разделительной и имеющаяся там информация не носит смысловой нагрузки. Если центр будет использовать другую компьютерную программу, имеющую компактный общепринятый формат ввода, тогда потребуется редакция предыдущего формата данных HYP071. Разработанный в данной работе алгоритм структуризации данных может иметь практическое значение для повторного форматирования данных.

Как было показано во второй главе, алгоритм распознавания пар сходных строк, предложенный и разработанный лично автором, был взят за основу для варианта метода ветвей и границ, применённого с целью нахождения стабильной информации, необходимой для улучшения качества сейсмического зондирования, а также с целью определения шумовой составляющей в данных временного ряда сейсмического сигнала. Последнее имеет практическую значимость для улучшения качества сейсмической информации, получаемой на сейсмических станциях, регистрирующих колебания Земли. Результаты показали, что алгоритм может быть полезен при обработке любого временного ряда, возникающего в теории информации и связи и быть дополнением к существующим методам вейвлет-анализа. Другим не менее важным приложением может быть применение алгоритма для задачи распознавания эталонных образов на участках временных рядов.

Из теории линейной алгебры известно, что расстояние между двумя векторами оценивается часто через Евклидову норму [5]. В качестве альтернативной нормы для оценки расстояния между двумя векторами могут быть использованы диагональные элементы матрицы разработанного алгоритма (см. пример – таблица 12). Это открывает широкие возможности для применения алгоритма с целью определения ранга произвольной матрицы, что имеет исключительно важное значение как для матриц, возникающих в задачах сейсморазведки, размерность которых может быть достаточно большой (более миллиона строк ) и неудобной для применения стандартных пакетов программ, так и для матриц, формирующихся в любых других областях естественных наук, изучающих динамику поведения объектов во времени, что способствует накоплению информационных массивов. Понятие ранга матрицы неразрывно связано с вырожденностью или невырожденностью её миноров. По определению известно, что собственные значения матрицы это значения скаляра , для которых матрица - (здесь - единичная матрица) является вырожденной. Таким образом, проверка вырожденности матрицы - может алгоритмически осуществляться через поиск зависимых (схожих) строк матриц, то есть с помощью применения алгоритма распознавания пар сходных строк. И, следовательно, алгоритм может быть полезным при оценке собственных значений матрицы.

Знание собственных значений имеет широкий спектр приложений. Одно из них – целевое состояние управляемых роботов-манипуляторов [120]. Роботы-манипуляторы широко используются в промышленности, в том числе в листопрокатном производстве. Задачи манипуляторов достаточно просты: перенос груза, укладка его на транспортёр. Энергосбережение достигается за счёт высокой скорости работы нескольких роботов. Кинематика движения достаточно проста, так как движение происходит в ограниченной плоскости. Компании стран, где хорошо развита робототехника (Япония, Италия, Германия и др.) продают её для оснащения производства в другие страны. Вместе с робототехникой поступают управляющие программы. Самым актуальным вопросом является безопасность, так как сбои программ могут привести к неустойчивому положению манипуляторов. Теория, которая используется для алгоритмов программ, по сути основана на теории Ляпунова [27], которая разрабатывалась в нашей стране. Модель кинематики робота может быть описана дифференциальным уравнением, которое при линеаризации приведёт к системе линейных уравнений [39]. Для линейной системы устойчивость строго определяется собственными значениями матрицы.