Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Новые подходы к исследованию временных рядов Истомин Илья Александрович

Новые подходы к исследованию временных рядов
<
Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов Новые подходы к исследованию временных рядов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Истомин Илья Александрович. Новые подходы к исследованию временных рядов : дис. ... канд. физ.-мат. наук : 01.04.02 Москва, 2006 123 с. РГБ ОД, 61:07-1/40

Содержание к диссертации

Введение

1 Временные ряды 14

1.1 Математические основы анализа временных рядов ... 14

1.1.1 Реальные динамические системы 14

1.1.2 Размерность аттрактора 17

1.1.3 Шаг запаздывания 19

1.1.4 Восстановление динамической системы 21

1.2 Математические основы прогнозирования

временных рядов 23

2 Алгоритмы методов прогнозирования 35

2.1 Метод сингулярного спектрального анализа 35

2.1.1 Шаг первый: построение матрицы запаздываний 37

2.1.2 Шаг второй: переход к главным компонентам . . 39

2.1.3 Шаг третий: прогнозирование 46

2.1.4 Замечания 49

2.2 Метод локальной аппроксимации 51

2.2.1 Шаг первый: построение матрицы запаздываний 52

2.2.2 Шаг второй: выбор локального представления . 52

2.2.3 Шаг третий: поиск ближайших соседей 54

2.2.4 Шаг четвертый: определение параметров 56

2.2.5 Выбор порядка аппроксимации 57

2.2.6 Прогноз на несколько шагов вперед 59

3 Анализ временных рядов естественного происхождения [57, 58, 59] 63

3.1 Исследование магнитной активности Солнца 63

3.1.1 Числа Вольфа 64

3.1.2 Использование метода ССА для анализа и прогнозирования магнитной активности Солнца 66

3.1.3 Использование метода Л А для прогнозирования магнитной активности Солнца 76

3.2 Дополнительные замечания 80

3.3 Глобальная температура и активность Солнца 843.3.1 Объект исследования 84

3.3.2 Корреляция по параметрам прогнозирования . . 87

3.3.3 Заключительные замечания о корреляции .... 92

4 Обобщенная теория локальной аппроксимации [89] 94

4.1 Общая модель локальной аппроксимации 94

4.1.1 Обобщенное выражение Л А 94

4.1.2 Система уравнений ЛА 97

4.1.3 Аналитическое решение задачи прогноза 98

4.1.4 Решения задачи прогноза на несколько шагов вперед 100

4.2 Ошибка прогноза 104

4.2.1 Частный случай нулевого порядка 105

4.2.2 Случай старших порядков 106

4.2.3 Предварительные выводы 108

4.2.4 Влияние точности вычислений на итеративный и прямой прогноз 109

Заключение 113

Литература

Введение к работе

Актуальность темы

Принято считать, что основной задачей естественных наук является описание некоторого явления на основе наблюдений. При этом под описанием подразумевается построение более или менее адекватной модели на основе некоторых допущений. Такая модель должна по возможности более полно описывать наблюдаемое явление, а если получится, то и его дальнейшее развитие. Следовательно, построение модели подразумевает в том числе и решение задачи прогнозирования явления. Последнее, однако, получается далеко не всегда, в основном в силу того, что допущения, положенные в основу построения любой достаточно сложной модели, сильно снижают точность описания явления. Таким образом, в вышеизложенной постановке задачи описания некоторого явления, акцент делается на существующее положение вещей, а не на прогнозирование.

Тем не менее, такой подход к проблеме не является единственным. Уже в средние века, например, главной задачей тогдашних мыслителей было не описание настоящего, а предсказание будущего. Считалось, что настоящие может видеть каждый и понять настоящее могут многие, другое дело будущее... Причем при попытке предсказать

будущее не считали обязательным построить исчерпывающую модель, хорошо объясняющую не только поведение прогнозируемого явления, но и какие-нибудь более общие сущности, на прямую к прогнозу не относящиеся. В последующем стали считать, что такая задача прогнозирования ради самого же прогнозирования не может быть решена без построения точной модели.

В настоящее время задача прогноза сложных явлений вновь выходит на первый план. Это связано в том числе и с быстрым развитием как новых математических методов, так и вычислительной техники. Как можно представить явление для целей анализа и прогнозирования? Вполне достаточным здесь оказывается использование понятия временного ряда. Временным рядом можно назвать любую последовательность чисел, полученную в результате измерения через равные промежутки времени какой-либо величины, характеризующей рассматриваемый процесс. Более того, можно даже утверждать, что большинство наших наблюдений можно представить именно как временные ряды. Вместе с тем следует помнить, что такой одномерный временной ряд является всего лишь срезом прогнозируемого явления.

Задача прогнозирования сводится, в рамках нелинейной динамики, к продолжению временного ряда на основе уже имеющейся его части. Отличительной особенностью некоторых методов прогнозирования временных рядов, основанных на теории динамических систем, является то, что эти методы не требуют явным образом строить модель

системы, породившей временной ряд. Тем не менее, задача построения модели явления по временному ряду является одной из основных и имеет непосредственную связь с проблемой предсказания.

Конечно же, задача прогнозирования в своей классической постановке уже давно и достаточно детально рассмотрена в рамках математической статистики и не только. Давно известны алгоритмы типа авторегрессии, которые с успехом используются как для целей различных исследований так и в практическом плане, например в финансовом анализе или в метерологии. Однако, во-первых, полученные там результаты относятся чаще к линейным моделям, а в настоящее же время основной интерес для исследования представляют модели сложных нелинейных процессов. Во-вторых, и авторегрессионные методы прогнозирования, и развившиеся в последние время нейросете-вые способы не имели достаточно строгого теоретического обоснования до появления теории динамических систем. Но самое главное заключается не в обосновании, а в том, что нелинейная динамика указала пути совершенствования старых и развития новых способов прогнозирования временных рядов, наложив определенные, хотя и минимальные, ограничения на функцию связи прогнозируемого и предыдущих значений ряда. В рамках теории динамических систем, в качестве таких моделей-кандидатов используется наиболее широкий класс всевозможных дифференцируемых динамических систем, так что свойства будущей модели ограничены минимальным образом.

В каждой области науки при построении модели явления при-

меняются свои допущения и упрощения. Несмотря на то, что нелинейная динамика не накладывает на модели-кандидаты жестких условий, роль упрощений очень важна и здесь. Более того, эти упрощения весьма своеобразны, являясь вместе с тем довольно общими, выходящими за рамки отдельных исследований, и чаще всего связаны с предположением о масштабной инвариантности, наиболее наглядным примером которой являются фракталы. На основе фрактального упрощения, например, возникли алгоритмы обработки и сжатия (в сотни и тысячи раз!) графической информации. Фракталы являются красивым образом динамических систем. Они часто используются в машинной графике для построения изображений. Красивое и, что куда важнее, достоверно имитирующее природный объект изображение могло быть задано всего несколькими коэффициентами. Фрактальное сжатие изображений можно рассматривать как описание объекта, очень сложного в графическом представлении, небольшим числом параметров. Такие параметры в нелинейной динамике называются управляющими.

Одна из основных идей теории сложных систем состоит в том, что их асимптотическое поведение зачастую требует для своего описания сравнительно немного переменных, которые Г.Хакен назвал "параметрами порядка". Его известный принцип подчинения мод заключается в том, что на асимптотической стадии большую часть переменных системы можно приближённо считать алгебраическими функциями параметров порядка. Поэтому при исследовании нелиней-

ных явлений часто используют гипотезу о том, что эти явления можно описать динамической системой сравнительно небольшой размерности ("инерциальной формой"), несмотря на то, что строгие результаты и оценки размерности получены лишь для небольшого класса систем, например, для обобщенного уравнения Гинзбурга-Ландау.

Универсального способа найти эти немногие параметры до сих пор не предложено. В распределённых системах ими часто бывают наиболее длинноволновые и слабее всего затухающие моды. Однако так бывает не всегда. Поэтому при анализе системы всегда возникают вопросы. Сколько в системе параметров порядка? Можно ли их выделить и, если да, то как? Как построить модель, исходя только из данных эксперимента?

Знание параметров порядка важно не только для моделирования, но и для организации и планирования экспериментов, с тем чтобы измерять наиболее информативные величины. После того, как временной ряд получен (измерен), перед исследователем встаёт следующий круг проблем: необходимо определить, являются ли данные детерминированными или случайными (в случае, если данные получены в ходе натурных экспериментов). Каковы свойства породившей их динамической системы, как можно охарактеризовать её на основе только имеющегося ряда? Как выбрать оптимальные методы их обработки. Иногда временной ряд является уникальным и повторить измерения невозможно, как, например, в случае палеомагнитных данных. В других ситуациях, когда схему измерений можно менять,

могут представлять интерес и вопросы её выбора.

В основе большинства подходов, связанных с обработкой временных рядов лежит построение множества т.н. запаздывающих векторов. Новым результатом нелинейной динамики явилось установление того факта, что не всё пространство состояний, а некоторое его подмножество, в определённом смысле эквивалентно фазовому пространству нелинейной динамической системы, породившей временной ряд (теорема Такенса и её обобщения [1]). Это, помимо правильного решения задачи прогноза, позволило предложить новый класс методов, связанных с определением по временному ряду не только параметров статистических моделей, но и инвариантов динамической системы — фрактальных и прочих размерностей, энтропии и ляпуновских показателей. Фрактальная размерность может служить оценкой снизу для числа параметров порядка, остальные характеристики позволяют делать выводы о характере возникающих режимов и их предсказуемости. Кроме того, данные инварианты динамических систем можно использовать при решении задач идентификации в диагностических целях. Например, для некоторых физиологических систем (сердце, мозг) наличие хаоса отвечает норме, упрощение же режима или исчезновение хаотичности свидетельствует о серьёзных нарушениях в организме (внезапная сердечная смерть, эпилепсия, черепно-мозговые травмы).

При этом построение моделей авторегрессионого типа приобрело иной характер: они стали восприниматься не просто как технический

приём или модели, построенные по аналогии с линейными системами, а как аппроксимация уравнений движения изучаемого объекта в координатах специального вида. Исследования в области нелинейной динамики стимулировали интерес к задаче прогноза и построения моделей. В ряде случаев удалось даже построить аналитические модели по данным эксперимента.

Таким образом, в 80-х годах возникло новое направление в анализе временных рядов, связанное с использованием идей нелинейной динамики. Эти подходы применялись с тех пор и по настоящее время к широкому спектру проблем, однако в большом числе случаев результаты их использования были неоднозначны. Причина затруднений заключается в том, что рассчитанный результат прогноза зависит не только от свойств динамической системы, но также от размерности использованного пространства состояний, способа построения векторов, длины выборки и т.п.. Поэтому в последние годы стали появляться работы, в которых отмечались ограничения методов прогнозирования. Таким образом, возникло противоречие между сравнительно простыми, ясными и привлекательными идеями, лежащими в основе подхода нелинейной динамики к прогнозированию временных рядов, и трудностями, связанными с получением конкретных численных результатов прогноза, особенно для систем естественного происхождения. Иными словами, осталось большое количество открытых вопросов. Решить некоторых из них и явилось целью данной диссертационной работы.

В диссертации рассматриваются два принципиально различных метода анализа и прогнозирования временных рядов, объединенных общими принципами нелинейной динамики: метод сингулярного спектрального анализа и группа методов под названием локальная аппроксимация. Большинство удовлетворительных результатов применения методов нелинейной динамики, к сожалению, относится к модельным временным рядам, порожденными системами небольшой размерности. Поэтому в качестве объекта исследования были выбраны временные ряды естественного происхождения, характеризующие солнечную активность и ряд данных по температуре у поверхности Земли. Применение методов нелинейной динамики к этим временным рядам позволило, помимо прогноза, подтвердить некоторые известные идеи и выдвинуть новые гипотезы.

Другой важной задачей стала систематизация и обобщение большого количества вариантов метода локальной аппроксимации, для чего была построена обобщенная теория данного метода прогнозирования. На основании построенной обобщающей теоретической модели были сделаны некоторые выводы о предпочтительности использования того или иного варианта метода локальной аппроксимации.

Цели работы

Применение методов нелинейной динамики для анализа сложных систем естественного происхождения.

Построение общего решения задачи прогноза в рамках теории динамических систем.

Разработка метода, позволяющего находить как дальние корреляции, так и скрытые закономерности во временных рядах естественного происхождения.

Научная новизна

  1. В рамках теории динамических систем разработаны новые методы обработки временных рядов естественного происхождения.

  2. Предложено новое обоснование гипотезы о существовании 80-летнего цикла активности Солнца.

  3. Обоснован новый способ, позволяющий выявить скрытые взаимосвязи между различными системами естественного происхождения.

  4. Предложено новое обоснование гипотезы о связи глобального потепления с активностью Солнца.

  5. Построена обобщенная теория, позволяющая найти аналитическое решение задачи прогноза для различных вариантов метода локальной аппроксимации.

  6. На основании предложенной обобщенной теории даны оценки качества прогноза.

Структура работы

Диссертация включает введение, четыре главы, заключение и список литературы.

В первой главе изложены основы подхода к анализу и обработки временных рядов в рамках нелинейной динамики. Во второй главе описаны используемые в последующих главах конкретные методы анализа и прогнозирования временных рядов.

В третьей главе приведены результаты применения методов анализа и прогнозирования к реальным временным рядам, сделаны определенные выводы и подтверждены интересные гипотезы.

Четвертая глава полностью посвящена построению и анализу обобщенной теоретической модели метода локальной аппроксимации. На основе анализа этой модели сделаны выводы об условиях применимости и предпочтительности того или иного варианта метода локальной аппроксимации.

В заключении суммированы результаты диссертационной работы, которые опубликованы в [57, 58, 59, 89, 90], и представлены выносимые на защиту положения.

Размерность аттрактора

В 1981 году Такенс сформулировал теорему [1, 11], которая стала основополагающей в том числе и для развития методов прогнозирования в нелинейной динамике. Согласно этой теореме возможно восстановление аттрактора системы по ее одномерной реализации. Также автором был предложен метод такого восстановления, названный методом запаздывающего аргумента, при котором состояние системы в фазовом пространстве задаётся следующим образом: Здесь N - размерность вложения аттрактора, а Т - шаг запаздывания. Размерность вложения связана с размерностью D самого аттрактора условием

Наиболее интересны для исследования так называемые странные аттракторы (то есть аттракторы, не являющиеся точкой, предельным циклом или тором). Для таких аттракторов D является дробным числом и его определение составляет отдельную задачу. В работе [12] была предложена простая и наиболее универсальная разновидность способа определения размерности аттрактора путём вычисления корреляционного интеграла. В этом случае из реализации x{t) строятся rf-мерные векторы

Последний способ наиболее предпочтителен с точки зрения скорости вычисления на ЭВМ, так как получаемые значения расстояний выражены в целых числах. Подробнее о корреляционной размерности можно узнать также из работы [13]. Проблемы размерности и энтропии обсуждаются также в работах [14, 15].

Считается, что для процессов, порождаемых большинством динамических систем, существует такой диапазон расстояний, в котором для достаточно больших d выполняется Cd(l) Iй. Здесь v -размерность, знание которой позволяет утверждать, что сигнал порождается динамической системой размерности не более 2и-\-1 (в большинстве случаев размерность вложения аттрактора не превышает v + 1). Распределение вероятностей для p(Xt,Xj) рассматривается на интервале [0,/9„шж], разбитом на п = р ячеек. Если множество значений p(XuXj) - целые числа, то его элементам можно сопоставить номера ячеек. Аналогичным образом определяются номера ячеек для всех d от единицы до dmax (последнее выбирается заранее и берётся как можно больше).

Итак, в результате получается двумерный массив С[п = ртпах, dmax] , и в нём накапливается информация о числе попаданий d-мерных расстояний в единичные интервалы. Корреляционный интеграл для каждого d будет иметь вид Процесс вычисления можно организовать так, что при вычислении расстояния между векторами для d = dmax попутно вычисляются расстояния для всех остальных d dmax. Далее, для каждого d строится зависимость logCd(l) от 1од(1). На графике этой зависимости ищется линейный участок, и значение размерности для каждого d определяется как тангенс угла наклона. Если размерность аттрактора динамической системы конечна, то начиная с некоторого d размерность перестает расти, выходя на насыщение. За окончательное значение размерности аттрактора системы берётся величина D = lim v(d), а из (1.2) получатся оценка размерности вложения.

Существует множество способов восстановления фазовых координат, обзор которых приведен в работе [16]. Первым же был предложен метод запаздывания, непосредственно связанный с теоремой Такенса, в котором вектор состояния имеет вид (1.1), т.е. каждая из координат представляет собой исходный временной ряд, сдвинутый на некоторый интервал по времени. Однако, для эффективного использования этого метода необходимо правильно выбрать шаг запаздывания Т. Хотя в работе [1] показано, что в идеальном случае Т может принимать любые значения большие определенного, при использовании реальных зашумленных данных конечной длины, выбор Т играет решающее значение.

При малом Т соседние координаты точки фазового пространства мало отличимы. Это приводит к тому, что полученный аттрактор располагается вдоль главной диагонали фазового пространства. При очень большом Т полученный аттрактор из-за зашумленности качественно не соответствует динамике исследуемой системы. Критерии выбора Т в большой степени интуитивны и часто зависят от конкретной задачи. Наиболее простой способ выбора Т - использование нулей или экстремумов автокорреляционной функции

Недостатком такого подхода является рассмотрение лишь линейной части зависимости между x(t) и x(t + T), а этого не всегда может быть достаточно для правильного выбора шага запаздывания.

Шаг второй: переход к главным компонентам

На втором шаге применения алгоритма ССА проводится обработка матрицы X методом главных компонент (МГК) [51].

Целью применения этого метода является снижение размерности имеющегося пространства запаздываний и переход к новым, информативно более обоснованным переменным. Такие новые переменные называют главными компонентами (ГК).

В некоторых случаях (например, см. работу [52]) МГК используется для обработки выбранных по некоторым критериям столбцов матрицы X. Отличительной же особенностью применения МГК в алгоритме метода ССА является то, что метод главных компонент здесь используется для одновременной обработки всей матрицы X. Эта особенность выделяет метод ССА среди других методов анализа и прогнозирования временных рядов в нелинейной динамике (как локальных, так и глобальных).

В МГК переход к главным компонентам осуществляется через ортогональное линейное преобразование. При использовании метода ГК в алгоритме метода ССА производится разложение многомерного ряда X размерности г по ортогональному базису такой же размерности т, где каждый следующий базисный вектор строится вдоль (оставшегося) направления максимальной дисперсии. При последующем отборе ГК мерой информативности считается величина дисперсии: чем она больше, тем информативнее данное направление и тем больше причин оставить определённый базисный вектор.

Рассмотрим рис.2.1, поясняющий работу метода ГК в составе алгоритма ССА для случая т = 3. Представим каждый столбец матрицы X как точку в т-мерном (у нас в трёхмерном) пространстве запаздываний. Зададим первую новую координатную ось так, чтобы она шла вдоль наибольшего разброса точек, то есть вдоль направления максимальной дисперсии. Вторую ось возьмём ортогонально первой, но так, чтобы она снова шла вдоль линии максимально возможной дисперсии. Третью ось возьмём ортогонально первой и второй, но также вдоль направления максимальной дисперсии. Случай т = 3 ограничен возможностями отображения, но при г 3 построение новой системы координат можно продолжать и далее до достижения выбранного т: каждый последующий базисный вектор должен быть ортогонален предыдущим и направлен вдоль линии максимально возможной дисперсии исходных столбцов матрицы X. На нашем рисунке х \х \х - исходные оси координат, а {у \у 2\у ) - новые. Ось у расположена вдоль направления максимальной дисперсии точек, ортогональная ей ось у№ выбрана так, чтобы дисперсия точек вдоль этого направления снова была максимальна, хотя она и будет меньше той, которая была вдоль направления первой оси. В нашем случае т = 3 при заданных г/1) и г/2) третья ось задаётся единственным образом и от дисперсии точек вдоль этого направления уже не зависит. Рис. 2.1: Переход к новым координатам по методу главных компонент для случая т = 3

Для перехода к ГК рассчитывают собственные значения и собственные векторы матрицы X - Хт. Последние и выбираются в качестве нового базиса. При таком преобразовании ГК представляют собой совокупности проекций точек исходного набора на собственные вектора. Иными словами, проекции всех точек на і/1 образуют первую главную компоненту, на у - вторую и т.д. Величины собственных значений характеризуют разброс точек вдоль новых осей координат, поэтому максимальным является первое собственное значение, а следующие монотонно убывают (не возрастают).

Для перехода к главным компонентам сначала для матрицы X строится соответствующая корреляционная матрица (2.2)

Для восстановления временного ряда в алгоритме ССА используются не все главные компоненты Уі,І2, ...,УГ, а лишь их часть, существенная с точки зрения информционной содержательности (см. [37, 38, 40, 41]). Каждую вектор-строку Уг, г = 1,2,...,г, можно рассматривать как результат проекции т-мерной совокупности на направление, соответствующее собственному вектору Vі. Таким образом, ряд оказывается представленным в виде набора из г составляющих Yt, причем вес составляющей Уг в исходной последовательности (fi)?=i задаётся через соответствующее собственное значение Лг, которое, в свою очередь, отвечает собственному вектору Vі. То есть, для отбора существенных ГК, последние нужно расположить в порядке убывания сответствующих им собственных значений Лг и взять только некоторую часть начиная с первой ГК. Таким образом в ССА получающееся разложение используется для выделения наиболее значимых составляющих ряда и отбрасывания менее значимых, которые могут оказаться случайными шумами.

Использование метода ССА для анализа и прогнозирования магнитной активности Солнца

Итак, исходным рядом является последовательность чисел Вольфа, изображенная на рис.3.1.

Здесь по оси абсцисс отложено время с интервалом в один месяц, а по оси ординат — соответствующее значение числа Вольфа. Охватываемый диапазон значений — с января 1749 года по декабрь 1996, т. е. всего имеется 2976 точки.

На первом этапе применения метода ССА следует мы возьмем максимально допустимое значение параметра т. Для наших исследований было выбрано значение г = 500, что позволило покрытьпериодичности вплоть до периода в 42 года. Применение больших г существенно усложняло численный расчет. Более того, небольшое увеличение г (до 600) не приводило к сколько-нибудь значимым изменениям в результатах первого разложения по главным компонентам, но при этом значительно снижало скорость расчета.

Из-за большого т упорядоченная по убыванию последовательность корней из собственных чисел матрицы вторых моментов быстро релаксирует в экспоненциальный хвост. В сочетании с большим количеством исходных точек это приводит к тому, что уже первая главная компонента представляет собой лишь небольшое сглаживание исходного ряда, а восстановление по первым четырем-пяти компонентам почти полностью его реконструирует (сумма первых пяти собственных значений превышает 99% от их общей суммы). Более того, вид первой главной компоненты слабо изменится при малых значениях г, например, при т = 5, что связано с устойчивостью метода по данному параметру. Поэтому применение большого г оправдано лишь с точки зрения прогноза.

Для тестовой проверки возможности предсказания при помощи ССА-метода обрежем справа последовательность среднемесячных значений чисел Вольфа на 216 точек (18 лет) и попытаемся ее восстановить по следующей схеме. Определим оптимальные значения параметров алгоритма восстановления данной последовательности путем дополнительного обрезания полученного ряда и разложим его на г = 500 составляющих. При этом необходимо подбирать такое количество первых компонент, при котором совпадение прогнозируемых величин с этими дополнительно отброшенными данными будет наилучшим. Затем, используя найденные параметры, реконструируем первоначально отрезанную часть в 216 точек.

Путем прямого перебора нетрудно установить, что наилучшие результаты получаются при г = 150 (количество отобранных компонент). Снова возьмем исходный ряд урезанный лишь на 216 точек и применим выбранное г для его предсказания. Качество предсказания можно повысить еще, если прогнозируемый интервал разбить на части и после предсказания каждой из частей заново вычислять главные компоненты. В идеале такой пересчет необходимо делать после прогнозирования каждой точки, однако это увеличивает время расчета. Рис.3.2 иллюстрирует прогноз, при котором пересчет компонент производился трижды через каждые 72 точки (что почти идентично результату прогноза на 216 точек без разбиения на интервалы).

В принципе, можно было бы попытаться проанализировать компоненты ряда на наличие тех или иных периодов или на выделение известных. Однако большое их количество и связанное с этим сходство компонент Yt исходного ряда делает эту задачу весьма трудоемкой (хотя и вполне разрешимой), т.е. информация, содержащаяся в ряде из ежемесячных чисел Вольфа, в определенном смысле избыточна. Кроме того, сказать что-либо определенное о периодичностях в несколько месяцев — даже в случае их выделения — проблематично. Поэтому проще взять ряд с большим шагом по времени.

Перейдем теперь к рассмотрению ряда из среднегодовых чисел Вольфа. Так как ряд содержит всего 248 точек, то максимально о о

Первые 50 собственных значений при разложении ряда среднегодовых чисел Вольфа на 123 компоненты возможная величина параметра запаздывания г = 123. Выберем его в качестве начального. Данные первых 50-и собственных значений приведены на рис.3.3. Первое число дает главную компоненту, отвечающую за тренд, ступеньки образуют компоненты с номерами 2-3, 4-5, 6-7, 8-9 и 11-12, а начиная с 14-го номера зависимость переходит в экспоненциальный хвост.

Собственные векторы для пар 2-3, 4-5, 8-9,11-12 (некоторые из них приведены на рис.3.4) предположительно отвечают периодичностям длительностью 11 лет (соответствующий спиралеобразный двумерный график типа фигур Лиссажу для компонент 2 и 3 показан слева на рис.3.5).

Решения задачи прогноза на несколько шагов вперед

Итак, рассмотрим два ряда: ряд чисел Вольфа, характеризующих солнечную активность и ряд значений глобальной температуры поверхности Земли. Наша задача — построить совместные прогнозы этих рядов методом ССА. Забегая вперед, скажем, что результаты оказались устойчивы к способу получения (усреднения) для ряда значений глобальной температуры. Что касается скважности рядов, то здесь имеется несколько возможностей: либо взять среднегодовые числа Вольфа и температуры, либо среднемесячные, либо еще более частые значения этих измеряемых величин.

Мы остановимся на данных наблюдения, усредненных за год, по следующим причинам. Во-первых, для данных двухвековой давности ожидать приемлемую точность и непрерывность среднемесячных наблюдений не приходится. В таких данных есть пробелы, а метод ССА принципиально глобален, т.е. для построения прогноза должны использоваться все значения ряда, без пропусков. Поэтому прогноз из интерполированных данных будет не вполне обоснован. Во-вторых, при построении глобальной температуры, большая часть наблюдений производится всё-таки в северном полушарии. Следовательно, наиболее корректно сезонные колебания усреднять только начиная с годичной периодичности. По этим и еще нескольким причинам (среднегодовые значения - большая наглядность), мы остановились именно на рядах с усреднением за год. В то же время полученные результаты верны и для среднемесячных усреднений, но в том случае, если после построения прогноза, производить некоторое усреднение полученных результатов с целью отсева хаотических флуктуации.

Данные наблюдений за глобальной среднегодовой температурой имеются с 1856 года. Для значений солнечной активности аналогичные данные имеются с 1700 года. Первый ряд содержит 148 точки, а второй — 304. Для корректного вычисления корреляционного интеграла типа JX\(t)x2{t - r)dr для рядов разной длины N\ и iV2 необходимо к первому ряду добавить JV2 - 1 нулей, а ко второму — N\ — 1. В нашем случае длина таких модифицированных рядов составит N = N1+N2—I каждый.

Для построения корреляционной зависимости между рядами х\ (t) и X2(t) необходимо предварительно вычислить их средние значения ь 2 и дисперсии сгі, сг2 На рис.3.11 представлена корреляция между рядами среднегодовой температуры и солнечной активности г(т) = Е« Ы0 - 6) Ы - т) - &) 1 Nam Как видно из представленного графика, при любой длине корреляции абсолютное значение коэффициента корреляции не превышает 03-02-01 00- - 01 -02-03-04 05 Н 1 1 1 1 1 —I Сравнение данных о солнечной активности и среднегодовой температуры поверхности Земли.

Более того, даже это значение, соответствующее очень умеренной корреляции, достигается на длине корреляции свыше 220 лет. То есть эти цифры трудно трудно интерпретировать как наличие корреляции, так как длина одного наших рядов существенно короче (148 лет), а другого не на много длиннее (304 года) длины корреляции.

Более уместно, для установления связи между рядами, было бы искать первые локальные экстремумы левее или правее нулевой длины корреляции. Но здесь значение коэффициента корреляции ещё меньше и колеблется в минимальных пределах ±0.15. Также нет ярко выраженного первого максимума или минимума.

Таким образом простой корреляционный анализ, не опровергая существования связи между породившими ряды системами, не даёт и однозначного утвердительно ответа на этот вопрос.

Похожие диссертации на Новые подходы к исследованию временных рядов