Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритмы прогнозирования нестационарных временных рядов Осминин Константин Павлович

Алгоритмы прогнозирования нестационарных временных рядов
<
Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов Алгоритмы прогнозирования нестационарных временных рядов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Осминин Константин Павлович. Алгоритмы прогнозирования нестационарных временных рядов : диссертация ... кандидата физико-математических наук : 05.13.18 / Осминин Константин Павлович; [Место защиты: Ин-т мат. моделирования РАН]. - Москва, 2008. - 135 с. : ил. РГБ ОД, 61:08-1/547

Содержание к диссертации

Введение

Глава I. Обзор методов статистического анализа временных рядов 14

1.1. Основные методы анализа и прогнозирования временных рядов 14

1.2. Проблемы анализа нестационарных временных рядов 24

1.3. Компьютерные программы для статистического анализа рядов 27

1.4. Постановка задачи о согласовании объема выборки с горизонтом и точностью прогноза 33

Глава П. Статистический анализ некоторых нестационарных временных рядов 39

2.1. Статистика цен на электроэнергию на ОРЭМ 39

2.2. Статистика цен на рынке ценных бумаг 44

2.3. Статистика в моделях динамического хаоса 47

2.4. Зависимость выборочной дисперсии от объема выборки 54

2.5. Примеры распределения оптимального объема выборки 62

Глава III. Теоретические основы математического моделирования нестационарных рядов с помощью квазистационарных ВФР 72

3.1. Основные понятия и определения 72

3.2. Нахождение оптимального объема выборки 76

3.3. Функция распределения стационарного горизонтного ряда 83

3.4. Квазистационарность распределения оптимального объема выборки 93

Глава IV. Прогнозирование квазистационарных временных рядов 98

4.1. Алгоритм построения распределения оптимальной выборки 98

4.2. Алгоритм прогноза ВФР на основе уравнения Лиувилля 102

4.3. Алгоритм прогноза ВФР на основе уравнения Фоккера-Планка 109

4.4. Методика построения прогноза с заданными горизонтом и точностью 114

4.5. Примеры прогнозирования нестационарных временных рядов и сравнительный анализ точности различных методов 119

Заключение 123

Приложение 125

Список литературы

Введение к работе

Разработка математических моделей, устанавливающих статистические зависимости между величинами, изменение во времени которых обусловлено факторами, скрытыми от наблюдателя, и, возможно, случайными по самой своей природе, создает научно обоснованную базу для изучения сложных явлений окружающего мира. Во многих случаях эти явления предстают перед исследователем в форме временного ряда, т.е. в виде некоторой последовательности результатов наблюдений, сделанных в упорядоченные моменты времени.

Статистические методы позволяют получить количественные оценки зависимостей между величинами, по видимости не находящимися в прямой функциональной зависимости. Поскольку результаты таких оценок часто являются основой для принятия управленческих решений, то корректная обоснованность методов анализа случайных величин имеет большое практическое значение.

В эконометрических и экономико-математических моделях, применяемых при изучении и оптимизации процессов маркетинга и менеджмента, управления предприятием и регионом, точности и стабильности технологических процессов, в задачах надежности, обеспечения технологической и экологической безопасности, функционирования технических устройств и объектов, разработки организационных схем часто применяют понятия и результаты теории вероятностей и математической статистики. При этом зачастую используют те или иные параметрические семейства распределений вероятностей. Наиболее часто используется нормальное распределение. Применяют также лог-нормальное распределение, равномерное распределение, экспоненциальное распределение, гамма-распределение, распределение Вейбулла-Гнеденко [9, 10, 34] и другие.

Чтобы применить эти распределения на практике, надо быть уверенным, что с заданной точностью, которая оценивается обычно как средний квадрат отклонения наблюдаемого значения от теоретического при большом числе наблюдений, выборочная функция распределения случайной величины будет близка к вышеуказанному теоретическому распределению. Такая уверенность основана на том, что для стационарных в узком смысле случайных процессов выборочное распределение сходится по вероятности к теоретическому. Если есть основания считать, что процесс стационарен в широком смысле (т.е. существуют независящие от времени конечные моменты теоретического распределения нескольких первых порядков), то известно, что отклонения выборочных моментов от их теоретических значений распределены асимптотически

нормально. Тем самым задача прогнозирования может быть сведена к задаче аппроксимации данных.

В настоящее время существует более тысячи статистических тестов или критериев, которые применяются для того, чтобы с некоторой точностью (или доверительной вероятностью) отнести изучаемый случайный процесс к тому или иному классу, т.е. использовать для его описания определенную математическую модель. Подавляющее число этих методов относится к стационарным (в широком или узком смысле) процессам. Это связано с тем, что для стационарных случайных процессов доказаны теоремы, позволяющие получать корректные оценки параметров соответствующих распределений по данным наблюдений, т.е. по некоторому временному ряду. Большинство применяемых методов анализа стационарных временных рядов используют следующие основополагающие утверждения (см., напр., [81]): критерий согласия Колмогорова, теорема Валь да, теорема Гофдинга.

Критерий согласия Колмогорова (1933) является одним из центральных результатов математической статистики. Им определяется близость интегральной выборочной функции распределения случайной величины к стационарному

распределению, если оно есть. Именно, статистика Dn = sup|F„ (х) - F(x)\ супремума

модуля разности выборочной и точной интегральных функций распределения

стационарной случайной величины %, принимающей значение х, по вероятности

стремится к нулю с ростом объема выборки п так, что случайная величина 4nDn имеет

асимптотическое распределение в виде ЛГ-функции Колмогорова. В дальнейшем на основе этого утверждения были получены различные широко применяемые асимптотические критерии о принадлежности двух выборочных распределений одной генеральной совокупности: критерий Колмогорова-Смирнова (1939), Вальда-Волфовица (1940), Вилкоксона (1945), Манна-Уитни (1947), Гнеденко-Королюка (1951) и другие, более узкие по применимости критерии (Стьюдента, Фишера, Крамера-Уэлча, «омега-квадрат» и др.).

Другим фундаментальным утверждением является теорема Вальда (1938) о разложении, согласно которой любой стационарный случайный процесс представляется в виде суперпозиции детерминированного процесса и белого шума.

Еще одним методологически важным результатом является теорема Гофдинга

(1948), утверждающая, что умноженные на 4п отклонения моментов эмпирического распределения, построенного по выборке объема п, от моментов генеральной совокупности для стационарной случайной величины распределены асимптотически нормально. Эта теорема позволяет определить скорость сходимости по вероятности

выборочных моментов и вероятность отклонения их значений от теоретических, если таковые известны. На основе этой теоремы определяются доверительные вероятности и доверительные интервалы для выборочных оценок параметров распределений.

Перечисленные утверждения математической статистики определяют основные принципы моделирования стационарных временных рядов. Обычно ряд представляется в виде суммы некоторой детерминированной составляющей и остатка, автокорреляционная функция которого с достаточной точностью близка к нулю, что свидетельствует о близости остатка к белому шуму. После этого параметрическими или иными методами находят наиболее близкую статистику, моделирующую поведение остатка. Существуют различные модификации такого подхода. В настоящее время основными статистическими методами исследования временных рядов являются: метод выделения тренда (временного сглаживания), регрессионный, автокорреляционный, адаптивный (скользящих средних), метод гармонического анализа, сингулярного спектрального анализа, бутстрепа (численного размножения выборок) и нейросетевой.

Подчеркнем, что вышеперечисленные методы корректно обоснованы только для стационарных рядов. Однако многие временные ряды, встречающиеся на практике, обычно не являются стационарными. В этом случае все асимптотические критерии, гарантирующие увеличение точности аппроксимации с увеличением объема выборки, не состоятельны с точки зрения увеличения точности прогноза. В то же время за неимением лучшего эти критерии продолжают применяться ко всем рядам, которые возникают в случайном эксперименте. Тогда перед исследователем встает проблема оценки точности получаемых им результатов.

Если в стационарном случае есть доказательная уверенность в асимптотической состоятельности оценок той или иной статистики, то в нестационарном случае отсутствует само понятие генеральной совокупности, что делает неприменимым весь развитый аппарат современной математической статистики, кроме тех случаев, когда априори известна функциональная принадлежность модели процесса (например, броуновское блуждание). Однако на практике часто бывает не известно, к какому классу принадлежит распределение и является ли оно стационарным, причем оба этих фактора могут быть определены лишь с некоторой доверительной вероятностью — корректно определенной, однако, только для стационарных процессов. В этом последнем обстоятельстве кроется серьезный методический недостаток используемых критериев.

Предположим, например, что тест на стационарность выборки, которая, как правило, предполагается выборкой из нормально распределенных случайных величин (как для критериев Фостера-Стюарта [34], Линника-Рао [26] и др.), показал положительный

результат с вероятностью 80%. Это не вполне хорошая точность для статистических оценок, и остается не ясным, что же делать в таком случае, поскольку ряд может быть нестационарным, либо не иметь нормального распределения (как чаще всего и бывает на практике). Если ряд нестационарный, то моменты выборочного распределения в общем случае не будут стабилизироваться с ростом объема выборки, и ошибка, которую фактически получит исследователь, предполагая ряд стационарным, может быть слишком велика: прогнозирование временных рядов, например, на шаг вперед, с ошибкой 20% не представляет практического интереса, поскольку, как правило, прогнозы с ошибкой не хуже 20% дают т.н. «экспертные оценки».

Аналогичные проблемы возникают и при использовании сглаженного скользящего усреднения. Если ряд нестационарный, то средние (скользящие, «растущие» - т.е. взятые по выборке растущего объема, или любые другие) не являются состоятельными оценками моментов распределения, т.к. сходимости по вероятности в общем случае нет.

Кроме того, в адаптивных методах исследования рядов, про которые априори не известно, являются ли они (ряды) стационарными или нет, не решен вопрос, по выборке какого объема следует проводить скользящее усреднение, чтобы получить наименьшую ошибку прогноза. Решение этой проблемы в существующих критериях оставляется на усмотрение пользователя в соответствии с его жизненным опытом.

Таким образом, основной проблемой прогнозирования временного ряда (в том числе и стационарного) является оценка сверху среднеквадратичной ошибки, которую можно допустить, если применить к нему тот или иной метод анализа. Для ее решения существующие методы для стационарных рядов следует дополнить оценками временных границ их применимости.

В отличие от некоторого (впрочем, достаточно широкого) класса «естественно-физических» проблем, при решении которых гипотеза стационарности кажется разумной - таких, например, как статистика разброса данных измерений коэффициента теплопроводности конкретного тела в приблизительно одинаковых условиях и т.п., -временные ряды в иных областях человеческой деятельности в подавляющем большинстве не являются стационарными. Проблемы, возникающие при их анализе, широко обсуждаются в специальной литературе (в таких журналах, как «Теория вероятностей и ее приложения», «Заводская лаборатория», «Проблемы прогнозирования» и др.), но, как правило, на уровне «контрпримеров», когда оказывается, что та или иная априорная гипотеза несправедлива, или на уровне примеров удачных моделей в отдельных конкретных случаях.

Роль статистических методов анализа в настоящее время неуклонно растет. Следовательно, разработка целостной методики создания прогнозных моделей нестационарных случайных процессов является актуальной задачей.

В настоящей диссертации «Алгоритмы прогнозирования нестационарных временных рядов» исследуются проблемы, возникающие при анализе, моделировании и прогнозировании нестационарных временных рядов. На основе проведенного анализа в диссертации предложена математическая модель прогнозирования нестационарной выборочной функции распределения временного ряда, а также и самого ряда. Обоснованием модели является разработанная соискателем методика построения производных статистик, позволяющих определить при заданной точности прогноза оптимальный объем текущей выборки и максимальный горизонт прогнозирования. Предложенная модель реализована в виде численного алгоритма и протестирована на ряде практических примеров.

Следует подчеркнуть, что на практике статистический анализ данных всегда связан с численным алгоритмом, реализующим ту или иную методику. Поэтому создание эффективных численных алгоритмов для целей математической статистики является практически важной задачей.

Применение статистических методов в практических исследованиях с помощью универсального или специализированного программного обеспечения рассматривалось во многих работах, посвященных оптимизации вычислительных алгоритмов для целей различных задач, решаемых средствами математической статистики: [6, 21, 69, 75, 78]. Необходимость включения в более или менее стандартные пакеты новых алгоритмов, позволяющих повысить точность статистических оценок при проверке вероятностных гипотез, обсуждалась в работах [41, 42]. Перспективы развития программного обеспечения для решения задач математической статистики рассматривались в [1, 13, 57].

Отметим, что недостаточность существующих методов, как теоретических, так и численных, для прогнозирования временных рядов, встречающихся, в частности, на рынках ценных бумаг [24], обсуждается во многих публикациях. Например, как показано в работах [39, 43, 44, 56], встречающиеся на практике задачи параметрического оценивания не всегда могут быть решены с помощью асимптотики нормального распределения. Некоторые приемы изучения предельных распределений статистик содержатся в [3, 14, 31, 32, 42]. Методы корреляционного анализа данных подробно изложены в монографии [83], где рассмотрены также и ограничения их применимости на практике.

Подробный обзор статистических методов и моделей, применяемых на рынках ценных бумаг, содержится в монографии [54]. Во многих примерах, рассмотренных в [54], случайный фактор, определяющий стохастическое поведение цен, предполагается возможным описать в рамках винеровского или пуассоновского процессов. Как правило, остатки, т.е. разности между реальным и модельным поведением наблюдаемой величины, предполагаются в таких моделях распределенными нормально или с плотностью, позволяющей по эмпирическим выборкам определить параметры этих распределений.

Непараметрические критерии оценивания данных, использующие методы математического моделирования Монте-Карло [22, 23], рассматривались в работах [74, 76, 79]. Существенно, однако, что эти методы применимы только к стационарному распределению, и не могут корректно, т.е. с точностью, оцениваемой по стационарным критериям, использоваться для анализа нестационарных временных рядов.

Таким образом, обзор литературы в области математической статистики и статистического моделирования показывает, что существует проблема корректного анализа нестационарных временных рядов. В настоящей работе предложен подход к решению этой задачи на основе эмпирического оператора эволюции выборочной функции распределения. Подчеркнем, что в этом подходе не используются стационарные критерии.

Диссертация «Алгоритмы прогнозирования нестационарных временных рядов» посвящена разработке методики прогнозирования нестационарных временных рядов, математическому обоснованию этой методики, описанию прогнозной модели и построению соответствующего численного алгоритма. Ниже кратко дается постановка задачи и описываются идеи, лежащие в основе ее решения.

Конкретной целью данного исследования является минимизация ошибки прогноза выборочной функции распределения и собственно временного ряда на заданном временном горизонте. Ошибка понимается в смысле среднего квадратичного. Параметром, по которому минимизируется ошибка прогноза, является текущий объем выборки элементов ряда.

Оптимизация объема выборки возможна в силу того, что ошибка прогноза складывается из ошибок двух типов. Ошибка первого типа - это погрешность оценки статистических свойств временного ряда за счет конечности объема выборки, т.е. за счет недостаточной репрезентативности. Ошибка второго типа - это погрешность за счет нестационарности статистики. Ошибка первого типа с ростом объема выборки уменьшается, а ошибка второго типа возрастает.

Для определения оптимального объема выборки и создания адекватной прогнозной модели временного ряда в диссертации ставятся и решаются следующие задачи.

Первой задачей является создание системы необходимых понятий для корректного прогнозирования нестационарных временных рядов, когда отсутствует само понятие генеральной совокупности.

Второй задачей является разработка подходящего теоретического инструмента (аналога статистики Колмогорова-Смирнова) для определения выборки оптимального объема с точки зрения общей цели исследования, сформулированной выше. Таким инструментом стала статистика «горизонтного» ряда (терминология автора), степень нестационарности которого, как доказывается в диссертации, существенно меньше, чем исходного анализируемого ряда.

Третья задача связана с созданием математической прогнозной модели для выборочной функции распределения. Рассматривая задачу прогнозирования как задачу о построении оператора эволюции функции распределения, можно сконструировать «эмпирическое» уравнение Лиувилля и определить некоторый кинетический аналог скорости изменения плотности вероятности, т.е. построить квазидинамическую модель временного ряда.

Четвертая задача — создание численного алгоритма, реализующего предложенную методику, и проведение тестовых расчетов.

Для решения этих задач диссертантом был разработан соответствующий инструментарий, введена система понятий и доказаны свойства новых введенных им статистик, позволяющих корректно использовать оценки, получаемые на нестационарных выборках, в практической деятельности. На этой методической основе была получена конструктивная связь между объемом выборки, при котором ошибка прогноза минимальна в среднем квадратичном, горизонтом прогноза и точностью прогнозирования функции распределения, понимаемой как расстояние в пространстве суммируемых функций.

В работе предложена новая прогнозная модель для выборочной функции распределения и собственно временного ряда, использующая эмпирическое уравнение Лиувилля. Эта модель позволяет локально по времени сопоставить текущей выборке некоторую квазидинамическую систему.

Новизна результатов диссертации состоит также и в разработке численного алгоритма для построения прогноза выборочной функции распределения и самого временного ряда на основе разработанной методики. Отметим, что алгоритм построения статистик, введенных автором для повышения точности прогноза временных рядов,

отсутствует во всех широко используемых программных статистических пакетах. Также в существующем программном обеспечении нет алгоритма для прогноза функции распределения на основе эмпирического кинетического уравнения.

Метод прогнозирования, разработанный в настоящей диссертации, использует взаимосвязь между объемом выборки и горизонтом прогноза, возникающую при задании точности прогноза. В существующих прогнозных моделях стационарных временных рядов эти понятия разобщены, причем горизонт и точность прогноза зачастую вообще отсутствуют. Последнее связано с тем, что если ряд приведен к форме разложения по теореме Вальда, то прогноз белого шума, по предположению, например, гауссовского, делается с известной точностью, определяемой дисперсией шума, на произвольный промежуток времени. В то же время ясно, что такая идеализация в реальных процессах не наблюдается. Исследователь же все возникающие погрешности часто перекладывает «по привычке», выработанной применением различных стандартных критериев, на доверительную вероятность оценок нормальности и стационарности. Тем самым он лишает себя возможности понизить ошибку прогноза по некоторой используемой им стационарной модели, поскольку не рассматривает оптимальный объем выборки, определяемой величиной «приближенной стационарности» процесса.

Введенная автором «горизонтная» статистика оптимальных объемов выборки оказалась практически полезным и эффективным инструментом для конструирования более точных прогнозных моделей. Например, анализ этой статистики показал, что для многих рядов, генерируемых процессами на финансовых рынках, характерно представление в виде процесса с переменной долей хаоса. Эта статистика, таким образом, может выступать как квазистационарный индикатор состояния рынка, что является полезной информацией при принятии решений.

Итак, задача о моделировании нестационарных временных рядов на основе анализа выборочных функций распределения позволила не только получить новые результаты собственно в математической статистике, но и построить численный алгоритм прогноза временного ряда на заданный промежуток времени с заданной точностью. Алгоритм определения оптимального объема выборки может быть полезен и для анализа временных рядов существующими программными средствами, поскольку он позволяет повысить точность прогноза, который строится в предположении о стационарности ряда.

Проблемы анализа нестационарных временных рядов

Методы, описанные в параграфе 1.1, корректно применимы в основном к стационарным рядам. Если ряд нестационарный, то теоремы об эффективности, состоятельности и асимптотической нормальности выборочных оценок и их дисперсий в общем случае не выполняются. Тем не менее, перечисленные методы применяются ко всем рядам, статистический анализ которых необходимо проводить для оптимизации той или иной практической деятельности. Новыми проблемами, возникающими при таком не вполне обоснованном применении, являются: задача минимизации ошибки прогнозирования для выбранного метода статистического анализа и задача выбора наиболее адекватной модели временного ряда. Последняя задача существует и при исследовании стационарных рядов, но в этом случае выбор модели может быть проведен по известным алгоритмам спецификации моделей [37], позволяющим отобрать оптимальное число параметров в рамках дисперсионного и корреляционного анализов.

При определении ошибки прогноза нестационарного временного ряда надо учесть два фактора: конечность выборки и различие распределений для разных выборок вследствие нестационарности процесса. Разные методы имеют неодинаковую чувствительность точности аппроксимации данных к действию указанных факторов.

Кроме того, горизонт прогноза нестационарного ряда ограничен, если при этом требуется сохранить заданную точность модели. В этой связи естественным является вопрос об оптимальном объеме выборки, на основе которой можно сделать прогноз с заданной точностью в интервале времени до указанного горизонта. Можно поставить и обратную задачу об определении допустимого горизонта прогноза, основанного на выборке фиксированного объема, а также задачу об определении точности прогноза на заданный промежуток времени по выборке заданного объема.

Таким образом, модели и методы прогнозирования стационарных рядов, такие, как регрессионные и корреляционные, нуждаются в адаптации при использовании их в нестационарном случае, поскольку тогда ошибка прогноза, получаемая этими методами, может не убывать с увеличением статистической базы. Рассмотрим в этой связи ограничения, присущие методам анализа и моделирования временных рядов, перечисленным в параграфе 1.1.

В моделях регрессионного анализа вида (1.5) средние величины (математическое ожидание, дисперсия, ковариация) постоянны. Уточнение этой модели в случае зависимости указанных величин от времени, т.е. от текущего значения t, может быть сделано посредством аналитического моделирования такой зависимости, либо переходом к первым, вторым и т.д. разностям в нестационарных временных рядах, выражающих зависимость средних величин от времени, либо тем же регрессионным анализом - но уже изучаемых величин на время. Окно усреднения становится при этом скользящим, как в формуле (1.9). Однако остается невыясненным, какой ширины должно быть это окно.

Те же проблемы возникают и при использовании AM (1.7) или их обобщений. При этом возникают дополнительные трудности с анализом корреллограмм: например, необходимо отличать эффекты назначенной периодичности, связанной с суточным, недельным или иным циклом, и внутренне обусловленной зависимости между членами ряда. Увеличение промежутка усреднения в этом случае не приводит к успеху, поскольку зависимость, наблюдавшаяся в одной выборке, может исчезнуть в другой того же объема, но отнесенной к иному моменту времени. Усреднение корреллограммы по некоторому промежутку времени и переход к средней корреллограмме за период наблюдений увеличивает неточность прогноза на короткий промежуток времени, а на большом интервале такую задачу ставить вообще не очень осмысленно. Как и в случае с регрессионными моделями, наилучший период усреднения не известен.

Адаптивные модели типа (1.12), использующие весовые коэффициенты в обобщениях AM, требуют весьма тонкой настройки сглаживающих функций в нестационарном случае, поскольку даже для стационарных процессов оптимальный выбор этих функций является отдельной достаточно сложной задачей. Например, в работе [68] изучаются адаптивные методы учета нестационарности спектрально-корреляционных свойств геолого-геофизических данных в скользящих окнах. Хотя основная задача, решаемая в этих работах, лежит в области геофизики и связана с усовершенствованием компьютерного кода для оценки параметров различных геофизических аномалий, ее решение существенно опирается на статистический анализ исходных данных. В указанных работах от этих данных требуется их принадлежность классу непрерывных функций и возможность применить линейные фильтры для статистического анализа. Затем в [68] предлагается алгоритм, позволяющий менять размер окна с целью фильтрации нестационарных компонент геополей, основанный на локальном переборе. Тем самым точность анализа геофизических данных была существенно повышена по сравнению с обычными корреляционными методами. Однако следует уточнить, что данный метод применялся для аппроксимации данных, а не для их прогноза, поэтому метод перебора для выборок ограниченного объема, естественно, может быть достаточно эффективным. При этом в стороне остаются вопросы количественной оценки точности аппроксимации, которая меняется с течением времени, т.к. длина оптимальной выборки является локально переменной величиной с неизвестной статистикой.

Что касается гармонического анализа временных рядов, то он вообще имеет ценность только для стационарных в широком смысле процессов второго порядка, когда корреляционная функция зависит от разности моментов времен. Для нестационарных рядов большое число учитываемых членов ряда приводит к достаточно высокой погрешности в оценке статистических характеристик процесса в ближайшем будущем.

Метод сингулярного спектрального анализа представляется в этом контексте наиболее устойчивым к временному тренду, поскольку его задачей и является выделение соответствующих главных компонент ряда. Изменение с течением времени размерности пространства базисных векторов матрицы задержек, описанной в параграфе 1.1, представляется маловероятным событием: размерность является своеобразным индикатором данного процесса, обусловленного определенными физическими явлениями, и ее изменение будет свидетельствовать о том, что процесс изменился по своему качеству. Тем не менее, вопрос о размерности самой матрицы и количественной зависимости от этой размерности числа базисных векторов остается в этом методе открытым. Например, в работах [29, 30] говорится, что «на первом этапе анализа, исходя из внутренних свойств системы, подбирается длина выборки и составляется матрица развертки», после чего применяется сингулярное разложение получающейся матрицы и производятся дальнейшие операции. Затем замечается, что «качество выделяемых композиций разложения определяется вариативным параметром - длиной выборки», и предлагается использовать качественный «графический критерий близости выделяемых компонент идеальному гармоническому сигналу» для определения подходящей длины выборки. В указанных работах не дается количественной меры такой близости, а также не рассматривается вопрос о случайном совпадении результата применения графического критерия с желаемым результатом. Тем самым выбор длины скользящего окна исследователь должен делать, опираясь главным образом на свою интуицию.

Статистика цен на рынке ценных бумаг

Другой важной областью приложения статистического анализа является статистика на рынке ценных бумаг. В отличие от цен на физическую продукцию, размах колебаний которых часто бывает обусловлен главным образом сезонностью спроса или иной назначенной периодичностью, рынок ценных бумаг гораздо более подвержен влиянию внешних случайных факторов. В качестве примера рассмотрим временные ряды, образованные движением среднедневных цен на акции некоторых крупных компаний по данным [96]. Рассмотрены, в частности, компании «Дженерал Моторс», «Дженерал Электрик» и «Майкрософт», обозначаемые на графиках Рис. 5 аббревиатурами GM, GE и MS соответственно.

Фрагменты динамики среднедневных цен на финансовых рынках по данным [96]

Все представленные ряды показывают высокую корреляционную зависимость данных: автокорреляционная функция достаточно медленно - в течение приблизительно 90 шагов (три месяца) - и плавно спадает до уровня 0,25, после чего еще медленнее спадает до уровня 0,1 примерно в течение 300 шагов. Однако явные линейные трендовые тенденции на отдельных участках графиков Рис. 5 показывают, что переход к первым разностям может существенно улучшить качество аппроксимации. Типичная корреллограмма ряда и его первых разностей (на примере MS) представлена на Рис. 6.

Среднеквадратичные относительные отклонения этих рядов по выборке в 1200 точек составили: для GE - 25,4%, GM - 20,3%, MS - 12,5%. Из графиков Рис. 5-6 видно, что каждый из рядов можно определенным образом пред-подготовить для дальнейшего анализа с целью уменьшения дисперсии данных. В частности, использование корреляционной модели второго порядка для MS и скользящих сглаживающих моделей для GM и GE в первых разностях привело к тому, что среднеквадратичные отклонения остатков этих рядов составили уже приблизительно 9%. Дальнейшее применение регрессионных и автокорреляционных моделей к остаткам не привело к уменьшению дисперсий. Однако анализ того, как именно должна осуществляться пред-подготовка, не является предметом исследования в настоящей работе. Основная задача, как следует из фа 1.4, состоит в улучшении прогноза уже подготовленного ряда. 50 100 150 200 2 Рис. 6. Автокорреляционная функция ряда MS и его первых разностей Рис. 7. ВФР среднедневных цен акций компании GM

Таким образом, ряд остатков можно с точностью порядка 10% прогнозировать на достаточно большой промежуток времени, во всяком случае, больший, чем один шаг, более-менее традиционными методами. Желательно при этом уточнить, по какому объему выборки и на какой срок такой прогноз будет иметь минимальную ошибку. Прогнозировать можно и выборочную функцию распределения, типичный вид которой представлен на Рис. 7.

Итак, в параграфах 2.1 и 2.2 были рассмотрены некоторые примеры временных рядов, прогноз которых, хотя и с не очень высокой точностью, может быть осуществлен после некоторой пред-подготовки стандартными методами, но сами прогнозируемые ряды при этом остаются все же нестационарными. Следовательно, требуется определить границы применимости стандартных методов и указать диапазон их наилучшего применения с точки зрения минимизации ошибки прогноза.

Статистика в моделях динамического хаоса

Рассматриваемые в настоящей работе методы определения оптимального объема выборки для прогнозирования временных рядов полезно протестировать на примерах стационарных рядов, для которых существуют строгие асимптотические результаты.

Интересным объектом для приложений являются динамические системы в моделях с дискретным временем. Эти системы задаются рекуррентными соотношениями вида x(t+l) = g(x(t),x(t-l),...,x(t - к)) (3.1) и соответствующим количеством начальных условий. Во многих практически важных случаях правая часть представляет собой скорость изменения параметра х, определяемую только ближайшим по времени значением, т.е. рекурсию первого порядка. В этом параграфе для удобства параметр t будет заменен на индекс последовательности п, так что, например, рекурсия первого порядка запишется в виде и+1 =( „) С3-2)

Аналогично записываются рекуррентные соотношения и в случае, когда хп есть многомерный вектор. Важно подчеркнуть, что непрерывный аналог уравнения (3.2) представляет в dx одномерном случае интегрируемую в квадратурах систему вида — = g(x) — х, для dt которой справедливо утверждение о непрерывной зависимости решения от начальных данных. В дискретном же случае это, вообще говоря, не так, и потому численное решение задач динамики может привести к результатам, имеющим принципиально другие свойства, чем априорные свойства решений дифференциальных уравнений. В то же время дифференциальные уравнения представляют собой не точный закон природы, а всего лишь его главную асимптотику по малости временного или пространственного шага, тогда как реальные процессы по существу своему дискретны. Это означает, что нетривиальное поведение решений разностных уравнений может представлять самостоятельную ценность и практическую важность. С другой стороны, хаотическое поведение решения, получаемого численно, может являться и артефактом численной схемы. В обоих случаях статистическое описание таких систем имеет значение для понимания сложного характера динамики даже в одномерном случае (3.2).

Совокупность траекторий динамической системы (3.2), получаемых при реализации различных начальных условий, образует статистический ансамбль. Пусть Ро(х) представляет начальную плотность распределения величины х, заданную на конечном измеримом множестве. Тогда эволюция плотности распределения определяется уравнением Перрона-Фробениуса (см., напр., [28, 38]): PiH-i( )=Xk "V«tefc), (3-3) к где суммирование ведется по всем корням уравнения х = g().

Стационарные точки отображения (3.2) определяются решениями уравнения (если таковые есть) х = g(x). Динамически-инвариантные меры (не обязательно единственные) в пространстве координаты х определяются стационарными точками отображения (3.3). Согласно теореме Боголюбова-Крылова [8], динамически-инвариантная мера р(х) при движении в метрическом компактном пространстве существует, если g(x) ограниченная функция, удовлетворяющая условию Липшица.

Нахождение оптимального объема выборки

В этом параграфе вводится новая статистика — горизонтный ряд [61, 62-64], на основе которой определяется оптимальный объем выборки для прогнозирования исходного временного ряда в текущий момент времени. Основным утверждением для обоснования предлагаемой прогнозной модели нестационарных рядов является следующая Т Теорема 2. Для функционала (1.5) близости двух ВФР имеет место оценка 0 Г(Г,-г,0 шіп(2г/Г;2). (2.1)

Доказательство. Из неотрицательности произвольной ВФР (в том числе и нестационарной) и ее нормированности на единицу в любой момент времени следует тривиальная оценка неравенства треугольника, примененного к норме (1.5): 0 р(/,И) = \\/(хА)-Кх 2)\\ \\/\\ + \Щ\ = j(\f\ + \h\)dx = J(/4 й)Л = 2.

В случае, если 2г Т, эта оценка может быть уточнена. Рассмотрим сдвиг выборки на 1 шаг по времени, т.е. рассмотрим две ВФР, построенные в окнах Л/ЧО и Af(t + 1). Для них все значения х(к), на основе которых были определены соответствующие эмпирические вероятности pi, совпали, кроме, быть может, первого в окне Аf(t) и последнего в окне Af(t + 1). Если значения x(t + T) и x(t + T) попали в разные промежутки А/ разбиения і?дг, то изменение ВФР составит 2/Т. Если же эти значения попали в один и тот же промежуток, то ВФР не изменилась. Аналогично, при сдвиге на т шагов возможное изменение ВФР изменяется дискретно с шагом 2/Т от нуля до 2т/Т в зависимости от количества совпадений между наборами x(t+T),.., x(t+r) и х(/+1),.., x(t+r). Функционал V(T, т, і) и является интегральной мерой изменения ВФР. Таким образом, в этом случае V(T, т, і) не превосходит 2г / Т. Теорема 2 доказана.

Неравенство (2.1) дает возможность сделать важный вывод о том, что при фиксированном т функционал (1.7) равномерно ограничен по /. Поэтому Ve, 0 всегда можно подобрать такой объем выборки Т 2г / є, что ВФР будет є -стационарной. Таким образом, если нельзя сравнить выборочную функцию распределения со стационарным распределением, то можно добиться близости двух нестационарных выборочных распределений. Это позволит прогнозировать временной ряд с некоторой заданной точностью.

При увеличении точности в определении є -стационарности, т.е. при уменьшении є, объем выборки, при которой достигается условие V(T,r;t) c, растет (для краткости аргумент х у функционала нормы опущен). В силу равномерной ограниченности для каждого момента времени / и для каждого значения т существует такое минимальное значение h(t,r;s), что при всех Т h(t,r;s) значения функционала V(T,r;t) не превосходят є. Подчеркнем, что пока еще нет гарантии выполнения условия V(T,r;t) s для всех т г. Т Определение 4. Горизонтным рядом для ряда x(t) при сдвиге на промежуток т называется такой объем выборки Ь[і,т;є), что при всех Т h(t,r;e) выполнено условие V(T,r;t) 8.L

Рассмотрим величину Н(т; є) = max h(t, г; є) . (2.2) Из (2.1) следует, что верхней оценкой минимально допустимого объема выборки Н(т;є) является 2г / є. Из доказательства теоремы 2 также следует, что если взять Н(т;є) -2т І є , то для всех Т Н(т,є) и для всех г т выполняется V(T,t;t) є, т.е. такая выборка гарантированно будет т-є-стационарной, в соответствии с определением 3 в параграфе 3.1.

Эта оценка для Н(т;є) может быть затем уточнена путем исследования статистических свойств конкретного ряда x(t). В частности, может оказаться, что распределение величин h{t,r;s), представляющих при заданных т и є самостоятельный временной ряд, имеет выборочное среднее по времени t значение (hit, г;е)), значимо меньшее равномерной по t оценки (2.1). Тогда можно провести минимизацию ошибки в оценке статистических свойств исследуемого ряда в том смысле, как это было описано в параграфе 1.4. Для этой цели желательно иметь как можно более низкую оценку для Н(т; ) с тем, чтобы иметь больший диапазон вариации объема выборки для достижения минимума суммы выборочной дисперсии и квадрата нормы ВФР, согласно (1.4.7).

Введем плотность распределения Ц/ГЄ(Т) значений горизонтного ряда h{t,r;s), т.е. определим вероятность того, что расстояние между двумя ВФР, построенных по выборке объема Т и сдвинутых по времени на фиксированный промежуток т, не превосходит є для всех Т" Т. Для краткости зависимость от момента времени / в аргументах ц/т Е (Т) опущена.

Эта плотность ц/х s (Т) строится по имеющимся данным к текущему моменту времени следующим образом. Для каждого момента времени / : 1 / /- г, строятся ВФР по выборкам объемов Т =1,2,...,/ , после чего для каждой из этих ВФР вычисляется функционал V(T,r;t ). Промежуток значений [0;2], принимаемых функционалом V(T,z;t ), разбивается при этом на некоторое количество N отрезков, например, равномерно, так что правый конец к-го отрезка есть v =2k/N, к = 1,2,...,N. Номер отрезка, фиксирующий заданную точность є, есть ks = [Ne/2]. Промежуток [1;/-г] возможных значений объемов выборок содержит /-г целочисленных точек, так что плоскость {ГхУ} покрыта 1х сетью. Отдельную ячейку сети нумеруем индексами ik.

Если значение У(Т,т;Ґ) соответствует номерам ik некоторой ячейки, помещаем в нее индикатор «1». Ячейки, номерам которых не отвечают значения функционала V(T,r;t ), заполняем нулями. Совокупность ячеек для данного / или к образует полосу. В каждый момент времени / к-ая полоса состоит, таким образом, из нулей и единиц. Значением hfr (/ ) горизонтного ряда в &-ой полосе называется индекс / ячейки, следующей за ячейкой с наибольшим индексом, содержащей ноль. Если нулевая ячейка - последняя, то значение горизонтного ряда в этой полосе отсутствует. Плотность і//т є (Т) представляет собой выборочную функцию распределения временного ряда hk (/ ), построенную по выборке объема / — г, доставляющей исходному ряду условие ограниченной т-є-стационарности (1.6).

Алгоритм прогноза ВФР на основе уравнения Лиувилля

Исследуем вопрос о том, какими уравнениями имеет смысл описывать эволюцию эмпирической ВФР. С одной стороны, поскольку ВФР строится по конечной выборке данных, то такое уравнение по своему существу должно быть дискретным. С другой стороны, качественные черты модели более заметны в непрерывном описании, дискретная форма которого будет представлять собой численную схему расчетов в каждом конкретном случае. Поэтому сначала рассмотрим модели эволюции ВФР в дифференциальной форме. Такая модель должна основываться на некотором аналоге уравнения Лиувилля, выражающего закон сохранения вероятности со временем, и содержать алгоритм его решения с заданной точностью. Тем самым выборочной функции распределения будет локально по времени сопоставлена некоторая динамическая система. Отметим здесь, что некоторые динамические системы могут обладать особенностями в фазовом пространстве не только в смысле классических особых (т.е. стационарных) точек поля скоростей [4, 5, 25, 28, 35], но и в смысле локальной неразрешимости уравнений динамики относительно фазовой скорости [58]. В последнем случае уравнение Лиувилля должно быть дополнено правилом прохождения через особенность. Здесь проявляется связь теории динамических систем со случайными процессами, состоящая в том, что некоторые временные ряды, не сводящиеся методом ССА [46] (см. параграф 1.1) к исследованию невырожденных динамических систем, могут быть смоделированы вырожденными системами, вероятностный закон рассеяния для которых в окрестности особых точек соответствует рассматриваемому случайному процессу. Если нет специального указания на поведение системы в особой точке, то она может с некоторой вероятностью продолжить движение по любой из доступных ей траекторий. Статистические свойства таких систем изучались в [58, 67]. Численное исследование таких систем в окрестности особых точек приводит к хаотическому поведению траектории, рассматриваемой в дискретные моменты времени.

В литературе весьма подробно исследованы вопросы возникновения хаоса в динамических системах (см., напр., монографии [37, 40]), а также изучены и классифицированы особенности динамических систем в виде дифференцируемых отображений [46, 47, 87]. В первых системах хаос возникает при определенных параметрах дискретизации дифференциальных уравнений движения, в которых не было каких-либо особенностей. Во вторых системах особенности присущи именно дифференциальному уравнению, а при дискретизации они проявляются лишь приближенно и при достаточно мелком шаге разбиения: тогда в силу неоднозначности продолжения траектории (если не было указано правило продолжения через особую точку) при численном моделировании возможно возникновение хаотического поведения. В последнем случае уравнение Лиувилля имеет некоторые черты «эмпирического», т.к. оно дополняется некоторыми внешними условиями, обеспечивающими проход через особое решение, возможно, в виде вероятностного выбора каждой из траекторий. Тем самым статистическая механика динамических систем с особенностями образует связь с теорией случайных процессов и, в частности, временных рядов.

Итак, в диссертации предлагается прогнозная модель нестационарных временных рядов на основе уравнения эмпирической эволюции выборочной функции распределения, т.е. на основе эмпирического уравнения Лиувилля. Использование этого эволюционного уравнения является не вполне законным с той точки зрения, что формально у нас нет динамической системы, в силу которой эволюционирует распределение начальных условий, т.е. распределение ансамбля таких динамических систем. В качестве псевдоскоростей, псевдо-ускорений и т.п. рассматриваются выборочные эмпирические зависимости средних значений разностных производных временного ряда по текущему совместному распределению этих величин. В результате указанного усреднения получается некоторая формальная аналогия с величинами, входящими в уравнение Лиувилля в статистической механике. В действительности механической системы у нас, вообще говоря, нет, поскольку нет уверенности в том, что рассматриваемый временной ряд генерируется некоторой динамической системой с дискретным временем. Термин «уравнение Лиувилля» используется здесь в том смысле, что это уравнение эволюционного типа, которое по состоянию системы в предыдущий момент времени позволяет найти состояние в следующий момент. В силу вероятностного характера динамики, порождаемой случайным временным рядом, эта эволюция должна пониматься в некотором усредненном аспекте. Далее в работе предполагается, что динамика системы, которая соответствует эмпирическому уравнению Лиувилля, не имеет особых точек, т.е. фазовая скорость корректно определена.

Тогда все области фазового пространства Г такой системы регулярны, т.е. фазовый поток однозначно определяет эволюцию функции распределения. Геометрия фазового пространства динамической системы детально описана в [19]. Пусть задана некоторая плотность распределения начальных состояний р0 ( ()) Рассмотрим также некоторую функцию В(х) фазовых переменных. Значение динамической величины В(х) в момент времени / с учетом того, что x(t) = Gtt„x(to), символически записывается в виде Bt (х) B{x(t)) = B\ptt ,0 ( 0 )J= Gtt tQ (В(х0 )). (2.1)

Таким образом, уравнение Лиувилля (2.4) для динамических систем записывается в виде закона сохранения для фазового объема. Рассмотрим теперь уравнение, являющееся аналогом (2.4), полученным на основе статистической обработки эмпирических данных.

Введем двумерную ВФР Ff\x,x,t) совместного распределения случайных величин х и JC исходного ряда и ряда его производной, полученного взятием разностей x(t) — x(t -1) в соседние моменты времени. Можно рассмотреть ВФР, зависящую и от

большего числа производных, т.е. функцию вида F(x,x,x,.,.,t), но надо помнить об ограниченности объема выборки заданной величиной Т. В силу конечности объема выборки невозможно эмпирически определить производную более высокого порядка, чем Г-1. Более того, чтобы оперировать одинаковыми массивами данных по каждой из г производных, необходимо иметь исходный ряд в количестве Т+г элементов.

Следовательно, чтобы можно было содержательно обсуждать задачу об эволюции, например, двумерной ВФР Ff{x,x,i), число доступных для анализа элементов ряда должно быть на 1 больше, чем в выборке. Такое включение естественным образом содержится в отрезке [t — T,t]: крайний левый элемент x(t-Т) окна A(t) будем считать виртуальным, т.е. не принадлежащим анализируемой выборке, а сами выборочные средние будем определять по данным x(t +1), x(t + 2), ..., x(t). Тем самым мы будем считать, что в окне А(/) содержится не Т+\, а ровно Г элементов.

Похожие диссертации на Алгоритмы прогнозирования нестационарных временных рядов