Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Многомерные статистические модели в анализе, контроле и прогнозе метеорологических рядов Пичугин Юрий Александрович

Многомерные статистические модели в анализе, контроле и прогнозе метеорологических рядов
<
Многомерные статистические модели в анализе, контроле и прогнозе метеорологических рядов Многомерные статистические модели в анализе, контроле и прогнозе метеорологических рядов Многомерные статистические модели в анализе, контроле и прогнозе метеорологических рядов Многомерные статистические модели в анализе, контроле и прогнозе метеорологических рядов Многомерные статистические модели в анализе, контроле и прогнозе метеорологических рядов
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Пичугин Юрий Александрович. Многомерные статистические модели в анализе, контроле и прогнозе метеорологических рядов : диссертация ... доктора физико-математических наук : 25.00.30.- Санкт-Петербург, 2002.- 327 с.: ил. РГБ ОД, 71 03-1/129-2

Содержание к диссертации

Введение

Глава 1. Выборочные главные компоненты в анализе временных рядов данныхметеорологических измерений 15

1.1. Основные методы анализа одномерных временных рядов данных наблюдений, применяемые в метеорологии 16

1.2. Методы многомерного статистического анализа, применяемые в метеорологии и гидрологии 26

1.3. Основные известные подходы к использованию ВГК в анализе временных рядов

1.3.1. Описание базового алгоритма метода "гусеницы" 38

1.3.2. Численный пример применения метода "гусеницы" 42

1.3.3. Обсуждение метода и модификация "гусеницы" 48

1.3.4. Общее описание метода анализа сингулярного спектра (АСС) 52

1.3.5. Особенности вычислительной процедуры АСС 54

1.3.6. Численный пример применения АСС

1.3.7. Замечания к применению АСС 64

1.4. Выводы к главе 1 65

Глава 2. Статистическая модель данных приземной температуры воздуха 67

2.1. Переход от аддитивной модели к смешанной (аддитивно-мультипликативной) в векторной форме... 68

2.2. Статистические тесты, подтверждающие целеособразность использования смешанной модели 73

2.2.1. Автокорреляционный тест 74

2.2.2. Численный пример к автокорреляционному тесту 78

2.2.3. Тест на основе однофакторного дисперсионного анализа 88

2.3. Схема формулирования проблемы внутригодовой нестационарности и выбора статистической модели 93

2.4. Выводы к главе 2 95

Глава 3. Использование ВГК в задачах анализа и классификации приземной температуры воздуха 97

3.1. Анализ данных на основе геометрии и сходимости базисов ВГК 99

3.2. Использование ВГК в задаче классификации 106

3.2.1. Оценка количества классов и построение начального разбиения 107

Метод классификации и выбор размерности 116

Интерпретация классификации на основе теории марковских процессов 123

Вероятностный подход к оценке числа классов 126

Эффект "45" и замечание о климатических аттракторах 128

Выводы к главе 3 147

Задача статистического контроля данных измерений на отдаленной станции 149

Оценка дисперсии погрешности регрессии наВГК 151

Быстрый метод вычисления базиса ВГК и его связь с задачей получения базиса растущих возмущений гидродинамической

модели общей циркуляции атмосферы 159

Статистические методы контроля данных наблюдений / правила построения доверительных интервалов 166

Численный пример статистического контроля 176

Проблема настройки модели статистического контроля и восстановление пропущенных данных 187

Выводы к главе 4 190

Глава 5. Обобщенные инерционные прогнозы хода приземной температуры воздуха 193

5.1. Концепция обобщенного инерционного прогноза 194

5.2. Прогноз по методу статистического восстановления со смещенными оценками коэффициентов разложения по базису естественных составляющих 196

5.3. Результаты численных экспериментов 201

5.4. Задача статистической коррекции гидродинамических прогнозов 223

5.5. Выводы к главе 5 225

Глава 6. Проблема оптимального отбора данных наблюдений в задачах, связанных с линейной множественной регрессией 227

6.1. Двойственный характер проблемы отбора данных наблюдений 230

6.2. Отбор предикторов 232

6.3. Шенноновский подход к отбору данных 238

6.4. Выводы к главе 6 246

Заключение 249

Литература

Методы многомерного статистического анализа, применяемые в метеорологии и гидрологии

В настоящее время в научной общественности имеет место повышенный интерес к трендам метеорологических данных и, прежде всего, к трендам температуры воздуха. Последнее связано с проблемой исследования изменений климата под влиянием антропогенных факторов (см. Борисенков Е.П., Пичугин Ю.А.[32], Мелешко В.П. и др.[143] и отчет IPCC [306]). В этих целях вполне достаточно использовать простой аппарат оценки линейных трендов. Действительно, как показывают большинство исследований, ряды приземной температуры воздуха нередко содержат тренды. Так, например, по оценкам вышеупомянутой работы Мещерской А.В. и Белянкиной И.Г. [147] приземная температура СПб в период с 1922 по 1980 годы содержит положительный тренд с коэффициентом прироста /?=0.015С/ге д. По нашим оценкам [176], ряд среднегодовых значений приземной температуры СПб за 1881-2000 гг. имеет среднее выборочное значение 4.73С, стандартное отклонение 1.11 С и содержит линейный тренд /?=0.011С/год с уровнем значимости а=0.001 (значение статистики Стьюдента t=4.41). На долю тренда приходится 11.5% дисперсии среднегодовой температуры СПб. Однако, по отношению к внутригодовой изменчивости (в особенности в пределах сезона), этот тренд представляет собой нечто вполне пренебрежимое, в связи с чем в дальнейшем мы больше не будем возвращаться к оценкам линейных трендов в ряду значений приземной температуры воздуха СПб.

Исследования на предмет наличия непрерывных циклических трендов в метеорологии нередки [31,33,52,64,81,84,100,225,236]. Часто эти работы связаны с аппроксимацией среднего годового хода, при этом используется, как правило, укороченный ряд Фурье [168,205]. Подробнее к вопросу об аппроксимации годового хода мы вернемся в следующей главе.

Работы, посвященые проблемам связности временных рядов и оценкам автокорреляционных функций в метеорологии, как другие методы прикладной статистики ориентированы на чисто исследовательские и на прикладные задачи (Брагинская Л.Л. [34], Гройсман П.Я. [69], Журавлева Е.Б., Каган Р.Л., Поляк И.И. [94], Казначеева В.Д. Хвостова Р.Н. [102], Клещенко Л.К. [111], Тюребаева СИ. [240]). Так, например, в работе Чувашиной И.Е. [256] на основе анализа автокорреляционных матриц двух первых коэффициентов разложения по ЭОФ (см. п. 1.3) полей приземной температуры воздуха решается вопрос об определении естественных границ климатических сезонов. В этой работе главные компоненты, о которых речь пойдет в следующем разделе настоящей главы, использованы как средство снижения размерности.

Хорошо известно, что анализ автокорреляций теснейшим образом примыкает к спектральному анализу. Действительно, оценка выборочного спектра С(со ) для ряда длины А с исключенным средним имеет вид СО)= —Дю)= -о2 (1 + 2 rkcos{kco)) = 2л л к=\ \ Я N-A I #- = -((ТгХ x2i)+2j] ("дгХ XjXi+k)cos(ka))), где 1(й))- обозначает выборочную периодограмму.

В связи с этим можно отметить широко известную в метеорологических научных кругах монографию Дроздова О.А. и Григорьевой А.С. [84], где показано, что в некоторых случаях анализа цикличностеи последние лучше выделяются при построении коррелограмм, чем периодограмм. Это замечание, на первый взгляд, выглядит не вполне понятно с точки зрения математического формализма, утверждающего эквивалентность спектра и автокорреляционной функции. Однако, как нетрудно убедиться, автор понимает цикличность в достаточно широком смысле [79,81] (см. п. 1.3.6 настоящей главы), по крайней мере, его определение цикличности заметно отличается от понятия периодичности; с другой стороны, эта работа [84] очень показательна в плане приложений в целом, т.к. напоминает о том, что между реальными данными и описывающими их моделями всегда существует некоторое, а иногда и очень заметное различие, которое приводит к разного рода расхождениям и которое всегда следует принимать во внимание.

Методы спектрального анализа применяются в метеорологии главным образом в работах, посвященных климатическим исследованиям, например, для оценки межгодовой изменчивости общего содержания озона (Гриб Н.К., Поляк И.И.[67]), электропроводности воздуха (Янушанец Ю.Б. [287]), вариаций интенсивности центров действия (Гирская Э.И., Сазонов Б.И. [64], Цветков А.В.[253]). Тем не менее можно отметить, что в целом в геофизике интерес к спектральному анализу заметно смещен от метеорологии к гидрологии.

Такое положение, по-видимому, обусловлено тем, что в целом ситуация с данными в гидрологии существенно хуже, чем в метеорологии и возможностей исследовать векторные величины в гидрологии по сравнению с метеорологией существенно меньше. Поэтому гидрологические работы по спектральному анализу нередко выходят за рамки чисто прикладного характера и зачастую посвящены развитию самого аппарата спектрального анализа (Полников В.Г., Тимченко И.Е. [202,203], Драган Я.П., Рожков В.А., Яворский И.Н. [78], Рожков В.А. [219]).

Модель авторегрессии, которая, на первый взгляд, как нельзя лучше приспособлена для задач прогноза (см. работы Алехина Ю.М. [2], Багрова Н.А.[12], Маргасовой В.Г. [134]), была модифицирована Боксом Дж. и Дженкинсом Т. [29] в модель авторегрессии скользящего среднего (АРСС). Однако эта модель не получила большого распространения в исследовательской и практической (прогностической) отечественной метеорологии. Хотя, в принципе, примеры применения модели АРСС обнаруживаются как в отечественной (Полхов А.П.[204]), так и в зарубежной литературе (Wenjic Н.С. и др.[327]).

Общее описание метода анализа сингулярного спектра (АСС)

Работая с временными рядами многолетних данных измерений, исследователь нередко оказывается перед вопросом о том, какую статистическую модель данных следует принять [4,16,108]. Исключив из данных линейный тренд (если таковой имеет место, см. п. 1.1, гл.1) и средний годовой ход, исследователь, на первый взгляд, может принять предположение, что оставшаяся составляющая не имеет сезонных особенностей и ее автокорреляция остается в пределах синоптического временного масштаба.

Такие представления формирует у исследователя широко известная в метеорологии монография Пановского Г.А. и Брайера Г.В. [168]. Кроме этого, можно отметить, что в большинстве известных монографий, посвященных анализу временных рядов, с теми или иными оговорками предлагается так называемая аддитивная модель (Андерсон Т.[4], Груза Г.В., Рейтенбах Р.Г. [72], Кендал М.Дж. и Стьюарт А. [108], Поляк И.И.[205,206], Лойд Э. И Ледерман У. [236], Хеннан Э. [252]) xt = aTf(t) + h(t,w) , (2.1) где f(t) - вектор гармоник Фурье, а = (с с аз---) _ вектор постоянных коэффициентов, а значения стохастического члена - h считаются стационарным [4,24,29,35,227,245,252] рядом. Например, в [108], как и в [168], предлагается использовать (2.1) (игнорировать сезонные эффекты), и в случае крайней необходимости использовать мультипликативную модель, оценивая саму необходимость с позиций дисперсионного анализа.

В [29] Бокс Дж. и Дженкинс Г. предлагают при наличии сезоного фактора использовать мультипликативную модель, то есть модель не с постоянными, а "подстраивающимися" амплитудами, а также предлагается использование мультипликативной модели в сезонных прогнозах.

Очевидно, что вопрос о том, какого типа модель [16] следует принять, требует отдельного исследования в каждом конкретном случае.

Наиболее существенным моментом, подвергающим сомнению адекватность [235] аддитивной модели метеорологическим данным наблюдений является то, что, как показано в ряде работ, после исключения среднего годового хода в рядах метеорологических наблюдений, таких, например, как температура воды в Атлантике или приземное давление, в остаточном члене - h(t, со) можно обнаружить годовую волну (Борисенков Е.П., Семенов В.Г. [33], Гирская Э.И., Сазонов Б.И. [64]). С другой стороны, в вышеупомянутой работе Клюевой М.В. [112] показано, что такая хорошо известная календарная особенность многих регионов России, как "бабье лето", никак не проявляется в среднем годовом ходе приземной температуры. Это означает, что классическая аддитивная модель (2.1) данных какой-либо метеорологической величины х, даже с исключенным трендом, зачастую далеко не адекватно отражает реальность и в значениях h обнаруживается локальная внутригодовая нестационарность или календарные особенности, которые в зарубежной статистической литературе именуются сезонными эффектами [4,108,236]. Стационарные свойства стохастического члена h могут быть существенно улучшены, если считать коэффициенты 2Г/ переменными величинами CZJ(T,6)T), меняющимися от грда к году (см. ниже), то есть перейти к мультипликативной или, точнее, к смешанной модели.

По-видимому, проблему внутригодовой нестационарности можно объяснить модуляцией годового хода, если исходить из принципа, что физическая интерпретация должна опираться на гармонический спектральный анализ [5,74,118,135,137,165,207,213,219,253]. При этом возможно, что с физической точки зрения будет более правильным говорить, о модуляции в годовой ход. Однако, если не вдаваться в физическую сущность этого явления (не интерпретировать), рассматривая его с точностью до знака, то подобные нюансы терминологии теряют смысл и в настоящей главе мы используем этот термин исключительно для краткости и будем говорить просто о модуляции.

Следует отметить, что внимание к проблеме модуляции скорее можно обнаружить в работах по гидрологии, так, например, способ параметризации годового хода рассматривается в монографии [78], откуда, собственно, и заимствован термин модуляция (см. также [219]). Таким образом, мы переходим к модели [172] xt = a(r,coT)Tf(t) + h(t,cot), (2.2) где 60Т - случайное событие, реализующееся с временным шагом переменной т (в нашем случае метеорологических данных дискретное время т имеет шаг, равный году). Очевидно, что (2.2) представляет собой смешанную модель (не чисто аддитивную и не чисто мультипликативную).

Схема формулирования проблемы внутригодовой нестационарности и выбора статистической модели

В задачах классификации и типизации атмосферных процессов широко используются методы многомерного статистического анализа. Так, например, в свое время большой популярностью пользовалась типизация на основе эмпирических ортогональных функций (ЭОФ). Интерес к анализу ЭОФ и к факторному анализу особенно сильно проявился в связи с задачей изучения низкочастотных флуктуации атмосферы (см. вышеупомянутые работы автора [192,194], Barnston A., Livezey R. [291], Blackmon М.О, Lee,Y. Н., Wallace J. [292], Branstator G., Mai A., Baumhefner D. [293], Horel J.D. [303,304], Molteni F., Sutera A., Tronci N. [311], Molteni F., Tibaldi S., Palmer,T. [312], Preisendorfer R.W., [315], Preisendorfer R.W., Mobly CD. [317], Wallace J.M., Dickinson R.E. [324], Wallece J.M., Gutzler D.S [325]). Что же касается методов кластерного анализа (КА), которые уже к тому времени вошли в арсенал метеорологических методов (Батырева О.В., Вильфанд P.M., Рудичева Н.И. [20], Лопатухин Л.И., Рожков В.А., Румянцева С.А. [129], Мещерская А.В., Потапова Н.Д., Николаев Ю.В. [154], Репинская Р.П., Еникеева В.Д. [216]), то констатировать особую активность их использования в то же самое время несколько затруднительно, хотя сама идея (если не собственно природа) повторяющихся типов (paterns, [291]) содержит в себе намек на группирование, то есть полимодальность распределения, а следовательно, и расщепление смеси распределений, которое, собственно, и составляет задачу кластерного анализа.

Такая ситуация может быть объяснена тем, что при использовании КА возникают затруднения, связанные с преодолением каких-либо субъективных моментов. Субъективность имеет место, например, в выборе количества классов, расстояния между объектами или самого алгоритма классификации. Кроме того, результаты применения многих алгоритмов классификации, которые представляют собой последовательность итераций, улучшающих первоначальное произвольное начальное разбиение, как отмечено в [209], существенно зависят от качества последнего, что создает дополнительную проблему. Относительно остальных, на первый взгляд объективных методов, можно заметить, что их объективность, как правило, основывается на использовании какой-либо априорной информации об анализируемых данных.

В настоящей главе мы уделим основное внимание вышеперечисленным вопросам, связанным с классификацией, но вначале рассмотрим некоторые методы анализа данных на основе геометрических характеристик базисов ВГК и характеристик сходимости. 3.1. Анлиз данных на основе геометрии и сходимости базисов ВГК

В следующих разделах мы будем использовать календарные ВГК для снижения размерности в задаче кластерного анализа данных наблюдений. Если анализировать сами базисы временных ВГК (их формы), то в случае использования внутриинтервальных сдвигов при большой величине интервала, как было отмечено выше (гл.1, п. 1.3), мы можем получить базисные функции, близкие к гармоникам, или к так называемому сингулярному спектру стационарного приближения к нашему исходному ряду (гл.1, nl.3.4). Придерживаясь календарных принципов мы, естественно, можем получить формы базисных функций существенно отличные от гармоник Фурье и нам останется только рассмотреть формы получившихся векторов. Для того, чтобы наполнить такой анализ некоторым формальным (численным) содержанием, введем критерий сравнения форм базисных функций или просто базисов ВГК [172].

Статистические методы контроля данных наблюдений / правила построения доверительных интервалов

Здесь, как и ранее, / — единичная матрица, a R — некоторая корреляционная матрица,отличная от единичной, то есть при отвергнутой Н0 ошибки считаем взаимно коррелированными.

Для пояснения этих правил, в отличие от п.4.1, вместо алгебраических формул рассмотрим рис.4.1, где схематически изображен спектр собственных значений. В случае, когда Н0 отвергается, остаточная часть спектра (рис.4.1а) распределяется (реализуется) в качестве ошибки восстановления по всему вектору у, но эта ошибка не влияет на оценку коэффициентов разложения (ВГК) по ЭОФ. В этом случае "истинный " спектр {Я-/} соответствует оцененному.

В случае же принятия Н0 (предположения, что Хп+-[=Хп+2=...—Хт = 5 , рис.4.16), коэффициенты разложения по ЭОФ вычисляются с заведомой ошибкой, поэтому nun і і нтіііііііііііііііііііііііііііінііііііііііііііиіц Рис.4.1. Пояснительная схема к общему правилу построения доверительных интервалов: а) Н0 отвергнута; б) Н0 принята "истинный" спектр оказывается меньше на величину, равную а . Именно этим объясняется то, что в числителе оценки а имеем т—п, а не т, что увеличивает оценку т . Этим же объясняется и неравенство нулю кт, которое есть непосредственная доля ошибки за счет неверного оценивания коэффициентов разложения. Если проявить определенную скрупулезность относительно величины Кт, то последняя, в принципе, никогда не равна нулю, так как существует стандарт ошибки измерений а0. Поэтому к величине кт, указанной общим правилом, следует добавлять величину G0 / т,- (/=1,2) или а0 /( 7/ Gyi ), где 5ут - стандартное отклонение элемента ут, если производится обычное нормирование данных и ЭОФ вычисляются по корреляционной матрице. Однако эта добавка, особенно в последнем случае, оказывается настолько мала, что ею можно пренебречь, но величиной РтРт (в случае принятия Н0), по-видимому, пренебрегать не следует.

Отметим некоторые вычислительные нюансы. В п. 4.1 мы предлагали вычислять базис ВГК (или ЭОФ), используя вместо метода вращений итерации по фон Мизесу, описанные в п.4.2. Этот метод позволяет быстро и последовательно вычислить несколько первых базисных векторов и их собственные значения. Тогда сумма так называемого "хвоста" в формулах (4.7), (4.8) равна в случае нормированных данных п п m-Lu і , а в случае ненормированных данных D - Zu і , где У=1 7=1 D - суммарная дисперсия или сумма элементов главной диагонали ковариационной матрицы.

Последнее не подразумевает непосредственной проверки Н0, а предполагает принятие или отрицание этой гипотезы, что называется, "на веру", и может даже при соответствующей настройке и тестировании данной модели статистического контроля вызывать определенного рода сомнения. Однако, здесь существует момент, не подлежащий сомнению, состоящий в том, что отвергая или принимая Н0, мы выбираем либо минимальную, либо максимальную оценку погрешности регрессии на ВГК и, соответственно, минимальный или максимальный доверительный интервал. Поэтому, если использовать обе схемы одновременно, то измеренным значениям, входящим в минимальный доверительный интервал, можно с соответствующей вероятностью доверять, а значения, лежащие за пределами максимального интервала - с соответствующей вероятностью считать ошибочными.

Для исследователей, склонных к предельной скрупулезности в проверке гипотез, можно рекомендовать формулу оценки дисперсии погрешности на ВГК (4.10), которая дает соответствующую оценку для случая, когда используется к ЭОФ (базисных векторов), а гипотеза Н0 принята для п к. При этом следует учесть, что у величины Кт, вычисленной согласно общему правилу, в этом случае появится множитель а„ /С4 5 гДе Ъп есть оценка, вычисленная по формуле (4.7) для п ЭОФ (базисных векторов), (?4 - оценка, вычисленная по формуле (4.10).

Использование данной схемы в пространственном контроле отличается только тем, что может контролироваться произвольная компонента, не обязательно замыкающая (т-ая).

В случае отсутствия большого архива данных наблюдений подобного рода процедуру контроля данных можно сконструировать на основе метода "гусеницы" (см.гл.1), то есть используя базисные функции (соответственно, регрессию), полученные методом "гусеницы" . При этом, как уже отмечалось в гл.1, в алгоритме восстановления рекомендуем не производить диагональных осреднений в матрице восстановленных значений, как это предлагается в [65], а взять в качестве восстановленного ряда значения первой строки матрицы от начала до середины, далее -значения срединного столбца (сверху вниз) и значения нижней строки от середины до конца. В этом случае мы останемся в условиях нормальной регрессии и, следовательно, будем иметь минимальную дисперсию ошибки восстановления и можем применить оценку (4.7) (или (4.8)). При этом следует учесть, что число степений свободы у /-статистики (при построении доверительных интервалов) не будет равно делителю в формуле оценки дисперсии ((4.7) или (4.8)) (см. гл.1 и [65] ). В этом случае в роли размерности т будет длина "гусеницы", а в роли размера выборки JV-количество сдвигов. Поэтому число степеней свободы при принятой Н0 (оценка (4.7)) будет равно v=max(N—l,m—n), а при отвергнутой Н0 (оценка (4.8)) v=max(N—l,m).

При оценке восстановленного значения можно не использовать само измеренное значение (считая его неизвестным), а лишь остальные данные (за прошлые дни) в пределах выбранного интервала. Тогда вектор коэффициентов разложения по базису календарных ВГК z оценивается методом наименьших квадратов [3,128,211,212,228] и восстановленное значение получаем как (см. также гл.5)

Похожие диссертации на Многомерные статистические модели в анализе, контроле и прогнозе метеорологических рядов