Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математические модели и методы анализа рядов с дальней корреляцией в стохастических системах различной физической природы Богачев Михаил Игоревич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Богачев Михаил Игоревич. Математические модели и методы анализа рядов с дальней корреляцией в стохастических системах различной физической природы: диссертация ... доктора Технических наук: 05.13.18 / Богачев Михаил Игоревич;[Место защиты: ФГАОУ ВО «Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина)»], 2018

Введение к работе

Актуальность темы. Установление закономерностей, характеризующих особенности структурной организации и флуктуационного поведения стохастических систем различной физической природы, неразрывно связано с построением адекватных математических моделей таких систем. Типичными примерами такого поведения являются нерегулярные флуктуации геофизических, гидрологических, климатических и метеорологических показателей, ре-гуляторные колебания физиологических процессов, нерегулярные флуктуации показателей, характеризующих поведение информационных, экономических и других сложных систем со стохастической динамикой, а также неоднородности структуры биополимеров. Спецификой таких систем является глубоко нелинейный характер закономерностей, описывающих поведение системы, обуславливающий появление аномальных по отношению к типичным состояниям системы. Построение адекватных динамических моделей таких систем зачастую ограничено сложностью и/или неполным пониманием внутренних механизмов их функционирования, а также неполнотой данных, необходимых для их параметризации применительно к каждому исследуемому объекту с учетом его индивидуальных характеристик. В этих условиях одним из возможных альтернативных подходов является приближенное описание обширного класса систем с использованием обобщенных феноменологических моделей.

Характерной особенностью многих стохастических систем различной физической природы является неограниченный рост оценки интервала корреляции s = Ns= 0 C(s) с ростом окна его оценивания N. В качестве инструмента непротиворечивого феноменологического описания таких систем, при котором модель не зависит от размера окна наблюдения, был предложен класс математических моделей с дальней корреляцией. Математические модели систем, проявляющих свойства дальней корреляции, рассматривались в работах А.Н. Колмогорова, А.М. Обухова, А.М. Яглома, Г.Э. Хёрста, Дж. Ламперти, Б.Б. Мандельброта, Е. Стэнли, Ш. Хавлина, Д. Сорнэ, А. Арнеодо, А. Бунде, С.В. Булдырева, Р.М. Юльметьева, Р.Р. Нигматуллина и многих других исследователей и получили широкое распостранение при описании стохастического поведения геофизических (Hurst, 1951, 1957, 1965; Mandelbrot, 1968), информационных (Leland, 1994; Paxson, 1995; Feldmann, 1998; Riedi, 1999), физиологических (Ivanov, 1996, 1999; Bunde, 2000; Yulmetyev, 2002), экономических (Ding, 1993; Mandelbrot, 1998; Lux, 2004) и многих других систем, а также особенностей структурной организации биополимеров (Li, 1992; Peng, 1992, 1994; Buldyrev, 1995; Arneodo, 1995). Наряду с линейными статистическими связями, для многих сложных стохастических систем характерны эффекты нелинейной дальней корреляции, характеризуемые расходимостью автокорреляцион-

ных моментов высших порядков, которые оказывают дополнительное влияние на возникновение аномальных состояний.

В присутствии дальней корреляции характерны длительные отклонения от типичных состояний, проявляющиеся протяженными и значительными эволюциями порождаемых системой случайных процессов. Подобное поведение приводит к выраженной кластеризации аномальных состояний системы и, как следствие, к временной группировке выбросов порождаемых ей случайных процессов (динамических рядов) и пространственной локализации однородных структурных элементов. Упрощенного представления на основе линейных моделей часто оказывается достаточно для характеристики среднестатистического или типичного поведения таких систем, однако не позволяет в полной мере охарактеризовать возникновение и развитие аномальных состояний системы, характеризующихся выбросами порождаемых ей случайных процессов. Косвенная характеристика аномальных флуктуаций может быть получена за счет их доминирования их вклада при вычислении корреляционных моментов высших порядков, однако интерпретация таких оценок затруднена и не может использоваться непосредственно для динамической оценки вероятности возникновения выбросов.

В этих условиях для характеристики динамики аномальных состояний системы представляется целесообразным перейти от рассмотрения структурной или динамической модели системы в целом непосредственно к модели потока событий, заданных выбросами порождаемых системой динамических рядов х > Q, единственной характеристикой которого являются интервалы г между их положениями. Широко применяемое при отсутствии априорной информации о флуктуационном поведении системы описание потоков классическими пуассоновскими моделями, полагающими события статистически независимыми, приводит к плотности распределения вероятностей (ПРВ) интервалов вида P(r) = (1/Rq)(1 — I/RqY'1, которое при уменьшении шага дискретизации в пределе приводит к известному выражению для непрерывных систем P(r) = (1/Rq) exp(—г/Rq), где средний интервал Rq взаимно однозначно связан с порогом Q для заданного вида ПРВ Р(х) исходного ряда данных Х{. В системах с конечным интервалом корреляции sx данное приближение справедливо при RQ > sx. При анализе рядов с дальней корреляцией данное приближение приводит к значительной недооценке эффектов кластеризации выбросов, что многократно отмечалось при исследовании динамики информационных (Feldmann, 1998), климатических (Pfister, 1999; Glaser, 2001), гидрологических (Mudelsee, 2003), геофизических (Corral, 2004; Livina, 2005) и экономических (Yamasaki, 2005) систем.

Рассмотренные явления характерны не только для временной эволюции динамических систем, но также для первичной структуры биологических поли-

меров (ДНК и белков), где проявления дальней корреляции связаны с формированием последовательных кластеров, содержащих идентичные или близкие по физико-химических свойствам мономеры (нуклеотиды и аминокислоты), и участвующих в формировании сложной пространственной структуры и иерархической упаковки биополимеров (Grosberg, 1993; Arneodo, 2011).

В общем виде задача отыскания статистических характеристик временных положений выбросов случайных процессов рассматривалась в работах П.И. Кузнецова, Р.Л. Стратоновича и В.И. Тихонова, впоследствии обобщенных и развитых В.И. Тихоновым и В.И. Хименко (1970, 1987), в которых статистики пересечения уровней представляются аналитически через совместные распределения случайного процесса и его производной в каждый момент времени. Полученные в указанных работах точные решения общего вида для процессов с памятью хорошо подходят для анализа марковских случайных рядов, в то время как попытки их обобщения на случай немарковских моделей приводят к аналитически сложным и вычислительно трудным выражениям, которые для моделей с дальней корреляцией становятся бесконенчномерными, что ограничивает возможности их практического применения для данного класса математических моделей.

Несмотря на широкое распространение математических моделей с дальней корреляцией, большинство известных аналитических работ в области интервалов между нерегулярными событиями либо не рассматривают указанные классы моделей (Galambos, 1977; Leadbetter, 1991; Тихонов, 1987, 1998; Хименко, 2000), либо содержат выводы граничных условий для конкретных примеров (Newell, 1962), не составляющие общей картины. Полученное сравнительно недавно масштабно-инвариантное описание асимптотического вида ПРВ и АКФ интервалов для рядов данных с линейной дальней корреляцией (Bunde, 2004; Altmann, 2005) не учитывает нелинейные эффекты, хотя и позволяет воспроизвести эмпирические характеристики некоторых климатических (Bunde2005) и экономических (Yamasaki2005) показателей в силу эффектов линеаризации. Таким образом, актуальность исследований обусловлена необходимостью создания математических моделей потоков событий в системах с нелинейной дальней корреляцией, адекватно характеризующих эффекты временной и пространственной кластеризации в стохастических системах с дальней корреляцией различной физической природы.

Объектом исследования являются ряды данных с дальней корреляцией, отражающие длительную динамику или структурную организацию сложных стохастических систем различной физической природы.

Предметом исследования являются математические модели и методы численного анализа рядов данных, составляющих объект исследования.

Целью настоящего исследования стало выявление статистических закономерностей, характеризующих эффекты временной и структурной кластеризации в рядах с дальней корреляцией, порождаемых сложными стохастическими системами различной физической природы, в интересах создания адекватных математических моделей потоков событий, отражающих возникновение аномальных состояний таких систем, а также разработки на их основе численных методов и комплекса программ для оценки динамических и структурных характеристик указанных систем.

Для достижения поставленной цели необходимо было решить следующие задачи.

  1. Проанализировать основные подходы к математическому моделированию биофизических, геофизических, информационных и иных сложных стохастических систем с учетом эффектов дальней корреляции, установить возможности и ограничения численных методов флуктуационного анализа, используемых для параметризации математических моделей указанных классов систем, а также исследовать возможности обобщения моделей и преодоления ограничений методов.

  2. Разработать метод математического моделирования флуктуационного поведения и структурной организации сложных стохастических систем с дальней корреляцией на основе совокупности потоков событий, характеризующихся выбросами порождаемых указанными системами рядов свыше заданных уровней, для чего установить асимптотический вид распределений интервалов между событиями и корреляционные свойства последовательных рядов указанных интервалов.

  3. Для разработанной модели потоков событий получить аналитические оценки вероятностей возникновения указанных событий на интервале прогнозирования, с учетом предыстории аналогичных событий, исследовать возможность и эффективность прогнозирования событий на основе предложенных оценок, в том числе в присутствии шумовых искажений наблюдений исходного ряда.

  4. На основе полученных оценок разработать численный метод динамической оценки уровней, превышение которых анализируемым рядом ожидается с заданной вероятностью на заданном интервале прогнозирования, и на основе данного метода предложить алгоритмы управления рисками, связанными с возникновением выбросов анализируемого ряда.

  5. Реализовать рассмотренные и предложенные численные методы и алгоритмы в виде проблемно-ориентированного комплекса программ для проведения вычислительного эксперимента с модельными и эмпирическими рядами данных, характеризующими флуктуационное поведениеи структурные неоднородности в сложных стохастических системах различной физической природы.

  1. Выполнить комплексные исследования флуктуационного поведения геофизических, информационных, экономических, физиологических и иных стохастических систем различной физической природы на основе численного анализа статистических характеристик потоков событий, характеризующих аномальные состояния указанных систем, представленных выбросами порождаемых ими временных рядов по данным длительных эмпирических наблюдений.

  2. Исследовать возможность математического моделирования взаимного положения мономеров в первичной структуре биополимеров на основе предложенного подхода, для чего проанализировать статистические характеристики интервалов между положениями отдельных мономеров в ДНК и белках, установить их взаимосвязь со структурными особенностями указанных биомолекул и параметрами математической модели потока.

  3. Разработать вычислительные методы и алгоритмы предсказания структурных особенностей биополимеров и адаптации генетических конструкций к особенностям генетического аппарата организма-хозяина на основе анализа взаимного положения мономеров в их первичной структуре на основе предложенных математических моделей.

Методы исследования.Вработе были использованы аналитические методы исследования, методы математического моделирования, методы численного анализа данных и методы математической статистики.

Научная новизна.

  1. Предложен метод математического моделирования флуктуационного поведения и структурной организации сложных стохастических систем на основе семейства потоков событий, характеризующихся выбросами порождаемых ими рядов с дальней корреляцией свыше заданных уровней, для которых получены выражения, характеризующие асимптотический вид распределений интервалов между событиями и корреляционные свойства последовательных рядов указанных интервалов.

  2. Получены аналитические оценки вероятностей возникновения событий, связанных с выбросами рядов с дальней корреляцией на интервале прогнозирования, с учетом предыстории аналогичных событий для рассмотренных математических моделей, исследованы их эффективность и помехоустойчивость.

  3. Разработан численный метод динамической оценки уровней, превышаемых анализируемым рядом с заданной вероятностью на заданном интервале прогнозирования, вычислительная сложность которого не зависит от интервала прогнозирования, получены оценки вычислительной эффективности метода для разработанных моделей потоков событий.

  4. Впервые выполнены комплексные исследования флуктуационного поведения широкого спектра геофизических, информационных, экономических,

физиологических и иных стохастических систем различной физической природы на основе численного анализа статистических характеристик потоков событий, характеризующих аномальные состояния указанных систем, представленных выбросами порождаемыхими временных рядовподанным длительных эмпирических наблюдений.

  1. Показана адекватность предложенной математической модели потока для описания взаимного положения мономеров в первичной структуре биополимеров на основе анализа статистических характеристик интервалов между положениями отдельных мономеров в ДНК и белках, установлена их взаимосвязь со структурными особенностями указанных биомолекул и параметрами математической модели потока.

  2. Разработан вычислительный метод и алгоритм предсказания структурных и структурно-обусловленных свойств биополимеров на основе анализа данных масс-спектрометрии остатков их множественного протеолитического расщепления без реконструкции состава и/или последовательности аминокислот в их первичной структуре на основе предложенных математических моделей.

Научно-практическая значимость. Предложенные в диссертации математические модели и методы вносят существенный вклад в обоснование и развитие представлений о флуктуационном поведении широкого спектра систем с дальней корреляцией различной физической природы, включая геофизические, информационные, экономические, физиологические и иные сложные системы со стохастической динамикой в широком диапазоне временных масштабов. Установленные по результатам исследований статистические закономерности характеризуют эффекты кластеризации аномальных выбросов временных рядов, порождаемых такими системами, а также позволяют получить оценки вероятности возникновения таких выбросов с учетом предыстории их возникновения, что может быть использовано в прикладных геофизических, гидрологических, климатических и метеорологических исследованиях при оценке рисков стихийных бедствий с учетом уровней защитных гидротехнических сооружений, разработке алгоритмов управления гидротехническими сооружениями с целью оптимизации накопления воды в водохранилищах и резервуарах гидроузлов, страховой аналитике, связанной со стихийными бедствиями, вызванными аномальными геофизическими, климатическими и метеорологическими явлениями, а также для оптимизации пространственно-временного представления данныхвсистемах геофизического мониторинга. На основе предложенных в работе математических моделей первичной структуры биополимеров, учитывающих эффекты дальней корреляции во флуктуациях локальных концентраций отдельных мономеров, разработан новый метод направленной обратной трансляции полипептидов с учетом особенностей орга-

низации ДНК организма-хозяина, востребованный в прикладных задачах генетической инженерии, а также оригинальный метод предсказания ряда структурных и структурно-обусловленных свойств полипептидов на основе анализа формы распределения масс остатков их множественного протеолитическо-го расщепления без реконструкции состава и/или последовательности аминокислот в их первичной структуре, востребованный при автоматизации анализа больших объемов протеомных данных в области прикладной молекулярной биологии, вирусологии и фармакологии.

Реализация и внедрение были выполнены в рамках международных проектов FP6 EC DAPHNET (Dynamic Analysis of Physiological Networks) и DYSONET (Dynamic Analysis of Sociological Networks) в 2007-2009 гг., проектов при поддержке Deutsche Forschungsgemeinschaft (BU-534/23-1, BU-534/24-1) в 2011-2015 гг., а также ряда НИР, выполенных в СПбГЭТУ “ЛЭТИ” в рамках ФЦП “Научные и научно-педагогические кадры инновационной России на 2009-2013 гг.” (ГК №№ П480, П521, П702, П1114, П1200, П2342, 14.В37.21.0180, 14.В37.21.2080) и Госзадания Минобрнауки РФ (2014/187, 8.324.2014/К, 2.5475.2017/6.7), 2014 г.-н.в. Исследования были поддержаны грантом Германской службы Академических обменов (DAAD) 2006 г., совместными грантами Минобрнауки РФ и DAAD 2010 и 2012 гг., грантами Российского фонда фундаментальных исследований (12-08-33156, 14-34-50054, 15-34-51252) и Российского научного фонда (16-19-00172), грантами Администрации Санкт-Петербурга в сфере научной и научно-технической деятельности 2010 и 2011 гг., персональным грантом Президента РФ для поддержки молодых российских ученых - кандидатов наук 2011-2012 гг. (МК-556.2011.8) и персональными грантами Администрации Санкт-Петербурга для молодых ученых - кандидатов наук 2009-2011 гг.

Разработанные математические модели и численные методы предсказания структурных и структурно-обусловленных свойств полипептидов и оптимизации искусственных генетических конструкций к особенностям генетического аппарата организма-хозяина были успешно использованы в прикладных исследованиях в области молекулярной биологии и фармакологии, выполненных на базе Института фундаментальной биологии и медицины Казанского (Приволжского) федерального университета и на базе Лаборатории структурной организации генома ФГБУН “Институт цитологии Российской академии наук”, что подтверждается актами о внедрении результатов диссертационной работы.

Личный вклад автора. Основные положения и результаты диссертационной работы получены автором лично. В опубликованных работах по теме диссертации, выполненных в соавторстве, основные теоретические исследования, включая исходную формализацию, математическое моделирование,

статистический анализ данных и интерпретацию его результатов, выполнены автором лично. При этом в работах, относящихся к анализу конкретных биологических, геофизических и экономических систем, вклад соавторов в основном сводится к формулировкам особенностей организации и функционирования данных систем, на этапах постановки задачи и интепретации результатов исследований.

Основные положения, выносимые на защиту.

  1. Математическое моделирование потоков выбросов свыше произвольных уровней Q рядов с дальней корреляцией основано на универсальном характере асимптотического поведения плотности распределения интервалов Pq(v) и условных средних интервалов Rq(to), зависящих только от среднего интервала повторения выбросов Rq.

  2. Аналитические оценки вероятности WQ(t; t) возникновения хотя бы одного выброса случайного ряда с дальней корреляцией свыше заданного уровня Q на интервале наблюдения t убывают асимптотически по степенному закону с ростом времени t, истекшего с момента последнего выброса свыше того же уровня Q.

  3. Количественная динамическая оценка пороговых уровней Q, превышаемых анализируемым рядом с заданной вероятностью р на заданном интервале прогнозирования t, реализуется на основе итерационного численного решения уравнений видар = WQ(t; t) для семейства оценок WQ(t; t), вычислительная сложность которого не зависит от параметров t; t.

  4. Прогнозирование нерегулярных климатических аномалий Эль-Ниньо с упреждением в один год реализовано на основе анализа превышений уровня средней взаимной нормированной ковариацией рядов приповерхностных температур в экваториальной зоне и в остальной части тихоокеанского бассейна.

  5. Взаимное расположение мономеров в первичной структуре ДНК описывается математической моделью, в рамках которой в пределах локальных фрагментах размером 150 п.о. они расположены случайным образом, а относительная доля различных мономеров в последовательных фрагментах характеризуется рядом с дальней корреляцией.

  6. Неоднородность структуры полипептидов проявляется в форме отклонения распределений масс остатков их множественного протеолитического расщепления от экспоненциального, что позволяет предсказывать их структурные и структурно-обусловленные свойства без реконструкции состава и/или последовательности аминокислот в первичной структуре.

Обоснованность и достоверность полученных результатов подтверждается согласованностью аналитических расчетов, математического моделирования и численного исследования больших объемов эмпирических данных, характеризующих структурную организацию и динамическое поведение раз-

личных биофизических, геофизических, информационных и иных сложных стохастических систем.Достоверность полученных результатов также подтверждается успешным прогнозированием эпизода Эль-Ниньо 2014-2016 года, одного из наиболее выраженных за всю историю непрерывных климатических наблюдений, осуществленным за один год до наступления события и подтвердившимся в ходе последующих наблюдений.

Апробация работы. Основные результаты работы представлялись на ежегодных конференциях American Geophysical Union (AGU) 2008-2012 гг. (San Francisco, USA); European Geophysical Union (EGU) 2009-2011 гг. (Vienna, Austria); конференции “Econophysics Approaches to Large-Scale Business Data and Financial Crisis” (Tokyo, Japan, 2009); научном семинаре “Physiological Networks: Theory, Implementation and Application” (Rauischholzhausen, Germany, 2009); конференциях “Bioinformatics of Genome Regulation and Structure / Systems Biology” (BGRS/SB) (Новосибирск, 2010, 2012, 2016); II-IV международных научно-практических конференциях “Постгеномные методы анализа в биологии, лабораторной и клинической медицине” (Новосибирск, 2011; Казань, 2012, 2014); VIII Российско-баварской конференции по биомедицинской инженерии (С.-Петербург, 2011); XIV и XV Санкт-Петербургских Ассамблеях молодых ученых и специалистов (2009-2010 гг.); Всероссийской конференции «Материалы и технологии XXI века» (Казань, 2014, 2016); IV научно-практическом семинаре “Вычислительная физика, суперкомпьютерные и информационные технологии” (Омская область, Чернолучье, 2014 г); конференциях Северо-Западной секции IEEE ElConRusNW (С.-Петербург, 2015-2017 гг.) и конференциях по мягким вычислениям и измерениям SCM (С.-Петербург, 2015-2017 гг.).

Публикации. Основные результаты по теме диссертации опубликованы в 61 печатной работе, из которых 20 статей в международных рецензируемых журналах, индексируемых Web of Science и Scopus [1–]; 3 главы в зарубежных монографиях, индексируемых Web of Science [21–]; 16 статей в журналах, рекомендованных ВАК [–]; 2 монографии [; ] и ряд материалов международных конференций и симпозиумов [–]; 2 патента РФ [; ] и 9 зарегистрированных программ для ЭВМ [–].

Объем и структура работы. Диссертация состоит из введения, шести глав и заключения. Полный объём диссертации составляет 331 страницу с 110 рисунками и 2 таблицами. Список литературы содержит 375 наименований.