Содержание к диссертации
Введение
ГЛАВА 1. Аналитический обзор математических моделей и методов прогнозирования
1.1 Анализ математических основ прогнозирования 22
1.2 Анализ временных рядов 28
1.3 Анализ моделей стационарных временных рядов 30
1.4 Модели нестационарных временных рядов 34
1.5 Прогнозирование экономических показателей на основе моделей временных рядов 36
1.6 Анализ метода группового учета аргументов 40
1.7 Анализ методов теории распознавания образов 42
1.8 Прогнозирование с использованием нейронных сетей и искусственного интеллекта и генетических алгоритмов 43
1.9 Постановка задачи исследования 48
ГЛАВА 2. Модели хаоса для процессов изменения курса акций
2.1 Методика нелинейно-динамического анализа данных 52
2.2 Вычисление стохастических характеристик аттрактора 54
2.3 Практические исследования стохастических характеристик динамики курса акции «РАО ЕЭС» 61
2.4 Построение фазового портрета. Восстановление аттрактора по временному ряду 67
2.5 Вычисление корреляционного интеграла. Вычисление корреляционной (фрактальной) размерности аттрактора 68
2.6 Вычисление корреляционной энтропии и старшего показателя Ляпунова 70
2.7 Исследование основных нелинейных показателей для курсов акций «Ростелеком», «Лукойл», «Сбербанк» 72
Выводы по второй главе 83
ГЛАВА 3. Применение нейронных сетей для задач прогнозирования и проблемы идентификации моделей прогнозирования на нейронных сетях
3.1 Сравнительный анализ радиально базисной нейронной сети (RBF) и сети типа - многослойный персептрон (MLP) на примере прогнозирования курсов акций фондовой биржи 89
3.2 Об отрицательном влиянии процедуры перемешивания данных (Shuffle) при обучении нейронных сетей, применяемых для прогнозирования 94
3.3 Исследование неиросетевых структур для курсов акций «Ростелеком», «Лукойл», «Сбербанк» 97
3.4 Многофакторные нейронные сети 103
3.5 Разработка математических моделей непозиционного кодирования для решения задач прогнозирования на нейронных сетях 105
3.6 Анализ методов повышения качества предсказаний 114
Выводы по третьей главе 119
ГЛАВА 4. Сравнительная оценка классических и неиросетевых методов прогнозирования. Оценка точности и погрешности вычислений в нейронных сетях ..
4.1 Сравнительная оценка качества прогнозирования классических методов и основанных на нейронных сетях 121
4.2 Оценка погрешности нейронных сетях 128
Выводы по четвертой главе 134
Заключение 136
Список использованных источников 139
- Прогнозирование экономических показателей на основе моделей временных рядов
- Практические исследования стохастических характеристик динамики курса акции «РАО ЕЭС»
- Об отрицательном влиянии процедуры перемешивания данных (Shuffle) при обучении нейронных сетей, применяемых для прогнозирования
- Сравнительная оценка качества прогнозирования классических методов и основанных на нейронных сетях
Введение к работе
Современное развитие человека, общества и экономики имеет направленность в будущее, что нашло отражение в возникновении таких понятий, как «предвидение», «предсказание», «прогноз», «план», «программа». Научное предвидение - это та часть, сторона, этап познавательной деятельности субъекта, результатом которого является получение знаний о будущих событиях. Определенное таким образом понятие «предвидение» может служить родовым для понятия «предсказание» и «прогноз». Под «предсказанием» понимается искусство суждения о будущем состоянии объекта, основанное на субъективном «взвешивании» большого количества качественных и количественных факторов [28, 70]. Существует и другое суждение: «предсказание» подразумевает описание возможных или желательных перспектив, состояний, решений проблем будущего [32, 85].
В настоящее время в литературе используется два понятия, связанных с прогнозированием: прогнозирование (forecasting) и предсказание (prediction), толкуемые не совсем однозначно. Дословный перевод глагола to predict, имеющего латинское происхождение, означает «сказать заранее», а глагола to forecast - «бросать вперед» [72, 78, 193].
Д. М. Гвишиани и В. А. Лисичкин [28] определяют понятия «предсказание» и «прогноз» следующим образом: «предсказание» - предвидение таких событий, количественная характеристика которых либо невозможна (на данном уровне познания), либо затруднена; «прогноз» - высказывание, фиксирующее в терминах какой, либо языковой системы ненаблюдаемое событие и удовлетворяющее следующим условиям:
в момент высказывания нельзя однозначно определить его истинность или ложность;
это высказывание содержит указание на пространственный или временной интервал (конечный), внутри которого произойдет прогнозируемое событие;
3. в момент высказывания необходимо располагать способами: проверки метода прогнозирования; априорной оценки вероятности появления прогнозируемого события; в) проверки осуществления прогнозируемого события.
Э. Янч [6] определяет понятия так: прогноз (forecast) - вероятное утверждение о будущем с относительно высокой степенью достоверности; предсказание (prediction) - аподиктическое (невероятностное) утверждение о будущем, основанное на абсолютной достоверности.
В работе [126] используется понятие «предсказание» (prediction) для обозначения субъективных оценок будущего и понятие «прогноз» (forecast) для обозначения результатов объективных вычислений.
В работе [193] «прогноз» определяется как комплекс аргументированных предположений относительно будущих параметров экономической системы.
Как следует из анализа методов и приемов прогнозирования, прогноз может быть, как качественным, так и количественным [2]. В прогнозировании большое значение имеет выбранный метод или прием. «Прием прогнозирования» — это одна или несколько математических или логических операций, направленных на получение конкретного результата. «Метод прогнозирования» -это способ исследования объекта прогнозирования, направленный на разработку прогноза [36, 61, 193].
Развитие прогностики как науки в последние десятилетия привело к созданию множества методов, процедур, приемов прогнозирования, не равноценных по своему значению. Отсутствие их четкой систематизации приводит к дальнейшему расширению инструментария прогностики зачастую малоценными и компилятивными методами.
По оценкам зарубежных и отечественных систематиков прогностики, уже насчитывается свыше 100 методов прогнозирования [70]. Число базовых методов прогностики, которые в тех или иных вариациях повторяются в других методах, гораздо меньше. Многие из этих «методов» относятся скорее к отдельным приемам или процедурам прогнозирования, другие представляют набор
отдельных приемов, отличающихся от базовых или друг от друга количеством частных приемов и последовательностью их применения.
В литературе имеется большое количество классификационных схем методов прогнозирования [25, 85, 126]. Однако большинство из них или неприемлемы, или обладают недостаточной познавательной ценностью. Некоторые авторы, например Э. Яныч, X. Тейль, А. Апполов и другие пытались классифицировать известные прогнозы. Но, из-за того, что для классификации выбирались три-четыре признака, они получались очень узкие и не охватывали многие типы прогнозов. Основной погрешностью существующих классификационных схем является нарушение принципов классификации. К числу основных таких принципов, относятся: достаточная полнота охвата прогностических методов, единство классификационного признака на каждом уровне членения (при многоуровневой классификации),, непересекаемость разделов классификации, открытость классификационной схемы (возможность дополнения новыми методами).
Предлагаемая трехуровневая классификация методов прогнозирования вполне удовлетворяет требованиям поставленным в работе рисунок 1 [19]. Каждый уровень детализации (членения) определяется своим классификационным признаком: степенью формализации, общим принципом действия, способом получения прогнозной информации.
Представленный перечень методов и их групп не является исчерпывающим. Так как некоторые не называемые здесь методы являются или разновидностью включенных в схему методов, или дальнейшей их конкретизацией. Нижние уровни классификации открыты дл.я внесения новых элементов, которые могут появиться в процессе дальнейшего развития инструментария прогностики [13].
Как известно, модели сложных систем, таких как финансовые рынки, не всегда могут давать однозначные рекомендации или прогноз. Эти модели всегда должны указывать, при достижении каких значений параметров, описывающих систему, или какого определенного момента времени может произойти
нечто непредвиденное (непредсказуемое - «катастрофа» [55, 65, 77, 92, 106]). Порой они должны указывать и область непредсказуемости (т. е. область параметров, в которой поведение системы неконтролируемо и/или непредсказуемо). Среди факторов, характеризующих динамику рынка и влияющих на нее, есть изрядное количество данных нечисловой природы, значения которых известны только с определенной долей уверенности. Можно выделить различные типы неопределенностей, из которых для финансового анализа важны следующие:
связанные с незнанием или неточным знанием некоторых факторов и/или процессов, влияющих на развитие ситуации;
связанные с математической несоизмеримостью численных оценок величин, характеризующих динамику системы;
связанные с нелинейностью и наличием у системы нескольких состояний равновесия и/или аттракторов;
связанные с недостатком или неадекватностью понятийного аппарата и невозможностью отождествления фактов.
Для понимания того, какие же преимущества дают предлагаемые далее новые методы анализа данных и прогнозирования, необходимо указать на три принципиальные проблемы, возникающие при создании систем поддержки принятия решений и анализа на финансовых рынках.
Первая - это определение необходимых и достаточных параметров для оценки состояния рынка, а также выбор критериев эффективности действий. Формализация поведения систем, включающих разнородные компоненты, требует единой метрики описания ситуации.
Вторая проблема заключается в так называемом проклятье размерности. Желание учесть в модели как можно больше показателей и критериев оценки может привести к тому, что требуемая для ее решения компьютерная система вплотную приблизится к "пределу Тьюринга" (ограничению на быстродействие и размеры вычислительного комплекса в зависимости от количества информации, обрабатываемого в единицу времени).
Третья проблема - наличие феномена надсистемности. Взаимодействующие системы образуют надсистему - систему более высокого уровня, обладающую собственными (надсистемными) свойствами, которых не имеет ни одна из составляющих систем. Феномен заключается в принципиальной недостижимости надсистемного отображения и целевых функций с точки зрения систем, входящих в состав надсистемы.
Для преодоления некоторых из перечисленных проблем, с которыми приходится сталкиваться при анализе финансовой ситуации делаются попытки применения таких разделов современной фундаментальной и вычислительной математики, как нейрокомпьютеры, теория стохастического моделирования (теория хаоса) и теория рисков, теория катастроф, синергетика и теория самоорганизующихся систем (включая генетические алгоритмы), теория фракталов, нечеткие логики и даже виртуальная реальность. Считается, что эти методы позволят увеличить глубину прогноза на финансовых рынках за счет выявления скрытых закономерностей и взаимосвязей среди плохо формализуемых обычными методами макроэкономических, политических и глобальных финансовых показателей.
Существуют уже разработанные системы и методики. Например использующие аппарат нечетких логик. Оболочки экспертных систем, поддерживающие работу с нечеткими знаниями, такие, например, как Gold Works, Guru, Nexpert Object with Nextra, Flex, IstClass HT. Практически все они используют для генерации правил (после заполнения базы знаний) алгоритм Куинлена ID3. Созданы первые в мире электронные таблицы FuziCalc, способные работать с нечеткими данными. Существуют и достаточно мощные средства разработки приложений, использующих аппарат нечетких логик, - пакеты CubiCalc RTS и CubiCalc 2.0 для Windows фирмы HyperLogic.
Завоевали признание и нейросетевые технологии. Практика использования нейросетей показала их эффективность в таких областях, как прогнозирование, выявление зависимостей, ситуационное управление. Все это применимо и на финансовых рынках. Используя информацию о динамике стоимости ценных
бумаг, об изменениях показателей экономической активности и о колебаниях курса, например, государственных облигаций, можно выявить существующие между этими характеристиками взаимозависимости. Это позволяет выявить, как тот или иной показатель либо их комбинация с учетом динамики развития влияют на изменение курса ценных бумаг. На сегодняшний день используются такие системы как: Fujitsu (используется в Японии фирмой Nikko Securities); "Прогноз макроэкономических индикаторов" фирмы Data Market (нейроплата); S&PCBRS для прогнозирования индекса S&P500 и курсов акций, созданная в Chase Manhattan Bank; система биржевых прогнозов HNC, работающая в Citibank; а также такие коммерческие продукты для работы на финансовых рынках, как Nestor DLS фирмы Nestor, пакет Nexpert Object фирмы Neuron Data, программы NeuroShell 2 v.3, NeuroWindows v.4.6 и один из наиболее популярных в мире пакетов на основе генетических алгоритмов GeneHunrer v. 1.0 и пакет Brain Maker Pro.
Еще одним методом, находящим все большее применение при анализе финансовых рынков, и особенно быстротекущих процессов на них, является теория хаоса, или теория коллективной (хаотической) динамики. Истоки этого направления лежат в работах по синергетике и теории катастроф [55, 65, 77, 92, 106].
Применительно к области финансов на основе теории хаоса впервые был разработан принципиально новый подход к анализу рынка, отличный от "портфельной теории" Этот подход базируется на положении о том, что рынок представляет собой сложную нелинейную систему с обратной связью, а характер группового взаимодействия участников рынка порождает хаотическую динамику цен вследствие спорадического использования инвесторами информационного потока и, как следствие, возникновение квазистохастических временных интервалов их действия на рынках.
Актуальность темы. В условиях резкого увеличения требований к масштабам и темпам развития науки и техники для получения эффективных прибылей на российском рынке (в частности на рынке ценных бумаг) становятся
актуальными вопросы планирования и принятия решений на основе прогнозирования.
Исследования обусловлены необходимостью внедрения в практику работы профессиональных участников рынка методов научного управления, основанного на строгой формализации процедур принятия инвестиционных решений и необходимостью использования на практике новых инвестиционных технологий. Существенными составными частями таких технологий являются нейронные сети, генетические алгоритмы, теория динамических систем, или теория хаоса, позволяющая в явлениях, на первый взгляд случайных, обнаружить порядок и некоторую структуру. Тот факт, что хаотические модели дают хорошее приближение для финансовых временных рядов, говорит о важности изучения поведения финансовых рынков как нелинейных динамических систем и является дополнительным аргументом в пользу применения в задачах прогноза различных нелинейных методов, в том числе - нейронных сетей (НС).
Использование нейронных сетей в прогнозировании требует большого объема математических расчетов, выполнение которых невозможно без эффективных способов организации и проведения вычислений. Анализ известных подходов, используемых при разработке высокоскоростных вычислительных средств показал, что все они построены на применении тех или иных форм параллельной обработки данных. Поэтому для решения проблемы быстродействия и точности вычислений в НС предлагается использование аппарата модулярной арифметики. Сочетание достоинств системы остаточных классов (СОК) с возможностями массового параллелизма нейросетевых вычислений определило целесообразность разработки математических методов прогнозирования использующих преимущества НС и СОК.
Таким образом, в связи с тем, что в рамках классического подхода не удается получить существенного улучшения качества прогнозирования курсов акций на фондовом рынке, то актуальным является совершенствование методик прогноза сочетая достоинства теории хаоса, нейронных сетей и модулярной арифметики.
Методы прогнозирования
Интуитивные методы прогнозирования
Формализованные методы прогнозирования
Индивидуальные экспертные оценки
Ко ллективны с
экспертные
оценки
Экстраполя-ционные методы
Системно-структурные методы
Ассоциативные методы
Методы опережаю шей информации
Метод «интервью »
Метод анкетирования
Метод МНК
Функцно л алыю-иерархнческогл
мод е. ш ров an кя
Метод ими-
тац-го- модс-
лир.
Анализ потока публикаций
Аналитич-с
докладные записки
Метод «КОМИССИЙ»
Экспоненциальное сглаживание
Метод морфологического анализа
Историко-
логический
анализ
Оценка значимости изобретений
Метод сценариев
Метод
«МОЗГОВЫХ
атак»
Вер-ное моделирование и адап.ное сг.-е
Матричный метод
Методы тсор.
распознавания
образов
Анализ патентной информации
Метод программного прогнозирования
Метод эвристического прогн тирован ня
Сетевое моделир-е
Методы
структурной
аналогии
Граф и дерево целей
Нейросетевое прогнозирование
Интеллектуальный анализ данных
Коллективная генерация идей
Прогнозный сценарий
Математические методы
Кор. -ный и per- ный анализ
МГУА
Факторный анализ
Распознавание образов
Вариационные методы
Спектральный анализ
Цепи Маркова
Математическая логика
Моделир-е стационарных
СП.
Моделир-е нестац-ых с.п.
Рисунок 1 - Классификационная схема методов прогнозирования
Объектом исследования являются нейронные сети для задач прогнозирования.
Цель диссертационных исследований заключается в повышении эффективности, надежности и практичности методов прогнозирования в результате использования теории хаоса, нейронных сетей и системы остаточных классов.
Научная задача исследований состоит в разработке эффективных методов анализа модельных и экспериментальных данных, выработки новых подходов к вычислению стохастических характеристик сигналов в нелинейных динамических системах;, а также в разработке усовершенствованной методики прогнозирования и алгоритмов анализа временных рядов, используя преимущества методов прогнозирования на базе нейронных сетей, модулярной арифметики и теории хаоса.
Основные задачи исследования.
Обзор по методам прогнозирования (критический анализ) и идентификация недостатков. Сформулировать потребность в совершенствовании методик.
Разработка методики анализа финансовых рынков с использованием теории хаоса: разработка методики выбора временной задержки для восстановления аттрактора по временному ряду; построение фазового портрета исследуемой системы; восстановление аттрактора по временному ряду; вычисление корреляционного интеграла; вычисление корреляционной (фрактальной) размерности аттрактора; вычисление корреляционной энтропии; вычисление характеристических показателей Ляпунова; разработка программных алгоритмов и комплекса программ для численного моделирования.
Определить типы и структуры нейронных сетей, используемых для прогнозирования динамики курсов акций. Оценить точность и качество прогнозов.
Показать возможность использования системы остаточных классов в прогнозировании. Показать преимущества, которые дает использование СОК в прогнозировании. Показать возможность реализации основных методов прогнозирования на базе системы остаточных классов. Показать возможность pea-
лизации методов прогнозирования на базе нейронных сетей с использованием СОК.
5. Сделать сравнительную оценку качества прогнозирования классических методов и основанных на нейронных сетях.
6 Предложить методику исследования ошибок, возникающих при технической реализации нейронных сетей, а также при шумах и повреждениях. Определить максимально допустимые погрешности, возможные для сигналов и параметров каждого элемента сети, исходя из условия, что вектор выходных сигналов сети должен вычисляться с заданной точностью.
Информационная база исследования включает данные динамики курсов акций российских компаний на ММВБ (Московской межбанковской валютной бирже).
Методологической и теоретической основой исследования послужило использование гипотетико-дедуктивного и индуктивного методов научного познания. Достоверность научных выводов и практических рекомендаций основывается на теоретических и методологических положениях, сформулированных в исследованиях зарубежных ученых, а также на результатах тестирования разработанных методов и моделей и их сравнительного анализа с существую-щими аналогами. При решении конкретных проблем использовались методы математического анализа, прикладной статистики, эконометрики, теории хаоса, теории нейронных сетей, теории чисел, модулярной арифметики.
Наиболее существенные результаты и Научная новизна
Разработана комплексная методика анализа временных рядов с использованием теории хаоса и определены ее основные этапы. Показана целесообразность использования показателя Херста в методике восстановления аттрактора по временному ряду.
На основе математических моделей разработан пакет программ для определения стохастических характеристик временных рядов и имитационного моделирования.
Проведен анализ типов и структур нейронных сетей для прогнозирования динами курсов акций российских компаний. Показана нецелесообразность применения процедуры перемешивания данных при обучении нейронных сетей.
Доказана возможность использования системы остаточных классов в прогнозировании. Доказана целесообразность переноса алгоритмов нейросете-вых моделей прогнозирования в СОК.
Сделана сравнительная опенка качества прогнозирования классических методов и основанных на нейронных сетях.
Разработана методика для определения максимально допустимых погрешностей, возможных для сигналов и параметров каждого элемента сети, исходя из условия, что вектор выходных сигналов сети должен вычисляться с заданной точностью.
Теоретическая значимость исследования состоит в демонстрации необходимости пересмотра некоторых допущений, используемых в стандартных моделях зарубежной финансовой экономики при разработке моделей поддержки принятия решений по управлению портфелем ценных бумаг на нестабильных развивающихся финансовых рынках. Основные положения и выводы, содержащиеся в диссертации, могут быть использованы для дальнейшего развития методологии прогнозирования в условиях резких изменений основных параметров внешней среды.
Практическая значимость исследования состоит в том, что полученные результаты могут быть применены в процессе управления фондовыми портфелями операторов российского рынка. Целесообразность практического использования полученных решений подтверждена при помощи тестов, доказавших их эффективность, а в ряде случаев - превосходство над имеющимися аналогами.
Структура диссертационной работы. Работа состоит из введения, четырех разделов, списка используемых источников, заключения и приложений.
Во ведении обоснована актуальность темы диссертации, сформулирована цель и задачи работы, научная новизна, практическая значимость, указаны основные положения выносимые на защиту. Даны определения основных понятий прогностики. Предложена обобщенная классификация методов прогнозирования.
В первой главе на основе критического анализа формализованных методов прогноза определены основные их недостатки. Дается обоснование целесообразности применения нейронных сетей и модулярной арифметики в прогнозировании. Результатом этого обоснования является постановка задачи исследования.
Критически рассмотрены методы позволяющие классифицировать временные ряды на стационарные относительно детерминированного тренда (TS trend stationary ряды) и имеющие стохастический тренд (DS difference stationary ряды). Доказано что, определение принадлежности рядов классам TS или DS весьма важно для правильного построения регрессионных моделей. Критически рассмотрены процедуры используемые для различения TS и DS рядов такие как: критерий Дики-Фуллера; критерий Лейбурна; критерий Шмидта-Филлипса; критерий DF-GLS; критерий Квятковского-Филлипса-Шмидта-Шина (KPSS).
Рассмотрены методы сглаживания временного ряда (выделение неслучайной составляющей); аналитические методы выделения (оценки) неслучайной составляющей временного ряда; алгоритмические методы выделения неслучайной составляющей временного ряда (методы скользящего среднего). Критически оценен метод экспоненциально взвешенного скользящего среднего (метод Брауна). Рассмотрены модели стационарных временных рядов и проблемы их идентификации такие как модели авторегрессии порядка р (AR(p)-M одели); авторегрессионные модели со скользящими средними в остатках (ARMA(p, q)-модели); модели нестационарных временных рядов и проблемы их идентификации (модель авторегрессии-проинтегрированного скользящего среднего (ARIMA(p, к, q)-мoдeль) - модель Бокса Дженкинса. Рассмотрены метод груп-
пового учета аргументов, теория распознавания образов. Прогнозирование с использованием нейронных сетей и генетических алгоритмов.
В ходе исследований сделаны выводы о качестве возможностей классических методов прогнозирования и раскрыты причины их низкой эффективности для прогнозирования экономических показателей. Показана целесообразность использования теории хаоса для анализа экономических временных рядов и нейронных сетей для эффективного прогнозирования.
Вторая глава посвящена разработке процедурной модели исследования временных рядов теорией хаоса. Показано, что в задачах экономического прогнозирования основной интерес представляет поведение параметров, определяющих характер изучаемых явлений. Ввиду сложности нелинейных взаимодействий этих параметров, не все типы экономико-математических методов и моделей в состоянии формировать достоверный прогноз, поэтому целесообразно использовать нелиней но-динамически и подход, основой которого является учет внутренних особенностей системы, а не статистические методы, в которых все факторы полагаются случайными или неопределенными.
На основе теории хаоса разработан принципиально новый подход к анализу рынка, отличный от "портфельной теории". Этот подход базируется на положении о том, что рынок представляет собой сложную нелинейную систему с обратной связью, а характер группового взаимодействия участников рынка порождает хаотическую динамику цен вследствие спорадического использования инвесторами информационного потока и, как следствие, возникновение квазистохастических временных интервалов их действия на рынках.
В качестве исследуемого экономического процесса рассмотрена динамика курсов акций «РАО ЕЭС», «Ростелеком», «Лукойл», «Сбербанк». Использованы данные биржи «ММВБ» (Московская межбанковская валютная биржа) в период с 29.05.1997 по 24.06.2003. При этом рассматривались изменения цены на начало торговой сессии.
Исследования проводились по следующему алгоритму для каждого из эмитентов: построение фазового портрета; восстановление аттрактора по вре-
менному ряду; вычисление корреляционного интеграла; вычисление корреляционной (фрактальной) размерности аттрактора; вычисление корреляционной энтропии; вычисление характеристических показателей Ляпунова; обобщенные выводы. При этом решались промежуточные задачи: разработка вычислительных и программных алгоритмов для определения каждой из перечисленных величин; выбор временной задержки для восстановления аттрактора по временному ряду; выбор метода для определения характеристических показателей Ляпунова.
Теория хаоса использовалась для разработки стратегии инвестирования, учитывающей величину риска и характер его распределения, а адекватным аппаратом для решения задач прогнозирования стали специальные искусственные нейронные сети (НС). Поэтому в третьей главе решалась задача определения структуры и выбора типа НС для задач прогнозирования фондового рынка.
В третьей главе показаны результаты применения нейронных сетей для задач прогнозирования курсов акций. Предложены методы решения проблем идентификации моделей прогнозирования на нейронных сетях. Доказано, что НС более эффективны, чем классические методы прогнозирования.
Как убедились, несмотря на то, что предсказания, казалось бы, являются экстраполяцией данных, нейронные сети, на самом деле, решают задачу интерполяции, что существенно повышает надежность решения. Предсказание временного ряда сводится к типовой задаче нейроанализа - аппроксимации функции многих переменных по заданному набору примеров - с помощью процедуры погружения ряда в многомерное пространство. Для динамических систем доказана следующая теорема Такенса.
Теорема. Если временной ряд порождается динамической системой, т.е. значения Х{ есть произвольная функция состояния такой системы, существует такая глубина погружения т, которая обеспечивает однозначное предсказание следующего значения временного ряда.
Таким образом, выбрав достаточно большое т можно гарантировать однозначную зависимость будущего значения ряда от его т предыдущих значений:
Xt = /(xf J, т.е. предсказание временного ряда сводится к задаче интерполяции
функции многих переменных. Нейросеть далее можно использовать для восстановления этой неизвестной функции по набору примеров, заданных историей данного временного ряда.
Большинство из известных программных продуктов ориентированы на зарубежный рынок, очень дороги и самое главное, построены без учета специфики рынка России, поэтому использоваться на российском рынке в достаточной степени не могут. В этой связи решалась особо важная задача определения структуры и обоснованный выбор типа прогнозирующей нейронной сети для прогнозирования экономических показателей на российском рынке.
Проведен сравнительный анализ радиально базисной нейронной сети (RBF) и сети типа - многослойный персептрон (MLP) на примере прогнозирования курсов акций фондовой биржи. Доказано отрицательное влияние процедуры перемешивания данных (Shuffle) при обучении нейронных сетей, применяемых для прогнозирования. Получены оптимальные нейросетевые структуры для исследуемых временных рядов. Проведена оценка точности и качества ней-росетевых предсказаний.
Рассмотрены вопросы совершенствования методов прогнозирования на базе нейронных сетей с использованием непозиционной системы остаточных классов (СОК). Доказано, что в рамках обычной позиционной системы значительного ускорения выполнения операций и надежности добиться почти невозможно. Для организации высокоскоростных параллельных вычислений вполне естественным является выбор системы счисления с параллельной структурой, т.е. системы, для которой межразрядные связи при выполнении арифметических операций отсутствуют. Именно СОК, основываясь на «Китайской теореме об остатках», является такой системой счисления.
СОК обеспечивает возможность выполнения операций сложения и умножения с высокой скоростью. Образование остатков от числа в СОК производится независимо друг от друга, вследствие чего, каждый разряд содержит в себе информацию обо всем числе. При выполнении сложения,
вычитания и умножения каждая цифра результата зависит от соответствующих цифр операндов.
Таким образом, выполнение арифметических операций в модулярном коде производится независимо по каждому из модулей, что и указывает на параллелизм данной системы. Это обстоятельство определяет возможность независимой их обработки, то есть поразрядного выполнения операций, что избавляет от необходимости "занимать" или "переносить" единицу старшего разряда, и приводит к появлению кодов с параллельной структурой, которые позволяют распараллелить основные арифметические операции, выполняемые в нейронной сети (сложение и умножение).
Изложены основные преимущества перехода к системе остаточных классов. На примерах показана реализация основных арифметических операций в СОК. Одной из трудностей использования СОК являлась ограниченность действия системы сферой целых положительных чисел. Эту трудность предложено решить, используя алгоритм представления и работы с дробными числами. Используя алгоритм представления и работы с дробными числами в СОК, удалось снизить относительную ошибку округления вычислений. Рассмотрен подход реализации модульных вычислений для задач прогнозирования на нейронных сетях, который позволил получить ряд существенных преимуществ: повышенная надежность работы системы; сокращение разрядности обрабатываемых данных, представленных в модулярном коде в системе взаимно простых модулей. В связи с этим, становится возможным упростить структуру нейронной сети и избежать проблем связанных с масштабированием входных данных.
Для реализации алгоритмов обучения НС в СОК: введены правила работы с отрицательными числами; рассмотрены варианты введения отрицательных чисел, через введение искусственных форм; показаны алгоритмы перевода чисел из ПСС в СОК и обратно; рассмотрены правила определения ранга чисел в СОК и его свойства; определены правила и алгоритмы определения знака числа в СОК.
В четвертой главе сделана сравнительная оценка классических методов прогнозирования и основанных на нейронных сетях. Доказано преимущество использования нейронных сетей в прогнозировании.
Проведена оценка точности и погрешности вычислений в нейронных сетях. Оценка погрешностей сигналов сети необходима при решении задачи упрощения нейронной сети. Зная допустимую погрешность выходного сигнала какого-либо элемента сети, мы можем заменять его более простыми, но менее точными элементами так, чтобы в итоге ошибка не превышала заданную.
Исследованы ошибки, возникающие при технической реализации сетей, а также при шумах и повреждениях. Определены максимально допустимые погрешности, возможные для сигналов и параметров каждого элемента сети. Показано, что оценки допустимых погрешностей можно получить в ходе специального процесса "обратного распространения точности". С помощью полученных результатов удалось объяснить наблюдаемую высокую устойчивость нейронных сетей к шумам и разрушениям.
В заключении обобщены итоги и результаты проведенных исследований.
В приложении приведены листинги программных модулей для методов описанных во второй главе, блок схемы алгоритмов работы в системе остаточных классов, рассмотрены математические основы метода box-counting и математические основы метода оценки погрешностей в нейронных сетях.
На защиту выносятся следующие основные положения.
Математические методы и модели нелинейно-динамического анализа временных рядов на примере исследования динамики курсов акций российских компаний.
Методика определения показателя Херста в приложении к нелинейному анализу данных.
Методика определения типов и структур нейронных сетей (НС) для прогнозир ования.
Целесообразность переноса алгоритмов нейросетевых моделей прогнозирования в СОК.
5. Математические модели прогнозирования курсов акций, основанные на нейронных сетях.
Апробация результатов исследования. Некоторые разработки обсуждались на: XXX научно-технической конференции по результатам работы профессорско-преподавательского состава, аспирантов и студентов СевКавГТУ за 1999, на Межрегиональной конференции "Студенческая наука - экономике научно-технического прогресса" в СевКав ГТУ, на Региональной научной конференции «Теоретические и прикладные проблемы современной физики», Ставрополь, СГУ, на НТК «Компьютерная техники и технологии», Ставрополь: СевКав ГТУ.
Публикации. Полученные автором результаты изложены в 7 научных статьях и в 7 работах опубликованных в сборнике материалов межрегиональной конференции "Студенческая наука - экономике научно-технического прогресса". Ставрополь: СевКав ГТУ, 2000, 2001, 2002. В сборнике материалов XXX и XXXII НТК профессорко-преподавательского состава. Ставрополь: СевКав ГТУ, 2000, 2003. В сборнике трудов регион. НТК. «Компьютерная техника и технологии»: Ставрополь: СевКав ГТУ, 2003.
Реализация результатов исследования. Теоретические и практические результаты диссертационной работы внедрены для практического использования на: заводе бытовой химии ОАО «АРНЕСТ» в отделе маркетинга (акт о внедрении от 4 сентября 2003г.); в «РАО ЕЭС» ОАО «Ставропольпромэнергоремонт» (акт о внедрении от 8 сентября 2003г.).
Автор выражает искреннюю благодарность научному руководителю -заслуженному деятелю науки и техники РФ, доктору технических наук, профессору, академику МАИ Н.И. Червякову, а также заведующему кафедры «Информатики» СевКав ГТУ профессору В.И. Лебедеву, оказывавшему помощь в работе над второй главой диссертации и членам кафедры «Информационные системы в экономике» за помощь, оказанную при написании диссертации, и критические замечания, высказанные при ее обсуждении.
Прогнозирование экономических показателей на основе моделей временных рядов
В последние годы в эконометрической литературе большое внимание уделяется исследованию рядов динамики экономических показателей. В практике построения эконометрических (как правило, регрессионных) моделей основное внимание уделяется проблемам идентификации моделей, отбору эндогенных и экзогенных показателей, но почти не обращается внимания на формальный анализ структуры исходных статистических временных рядов.
Однако при построении моделей связей в долгосрочной перспективе необходимо учитывать факт наличия или отсутствия у анализируемых экономических рядов стохастического (недетерминированного) тренда. Нужно решать вопрос об отнесении каждого из рассматриваемых рядов к классу рядов стационарных относительно детерминированного тренда (или просто стационарных) S (trend stationary) ряды или к классу рядов, имеющих стохастический тренд (возможно, наряду с детерминированным трендом) и приводящихся к стационарному (или стационарному относительно детерминированного тренда) ряду только путем однократного или -кратного дифференцирования ряда — DS (difference stationary) ряды.
Определение принадлежности рядов классам TS или DS весьма важно для правильного построения долгосрочных регрессионных моделей, в которых объясняемыми и объясняющими переменными являются макроэкономические временные ряды (модели коинтеграции, модели коррекции ошибок, векторные авторегрессии).
В течение довольно долгого времени было принято при анализе рядов с выраженным трендом производить оценивание и выделение детерминированного тренда, после чего производить подбор динамической модели (например, ARMA) к ряду, "очищенному от тренда", т.е. к ряду остатков от соответствующей оцененной регрессионной модели. После введения Боксом и Дженкинсом [15] в обиход моделей ARIMA стало возможным приведение рядов к стационарному виду с выраженным трендом и медленным убыванием (оцененной) автокорреляционной функции путем перехода к рядам первых или вторых разностей. Однако, как показали дальнейшие исследования, произвольный выбор одного из этих двух способов приведение ряда к стационарному вовсе не так безобиден, как это казалось поначалу.
В работах [136], [170] было показано, что приведение к стационарному DS рядов путем перехода к очищенному ряду (детрендирование) изменяет спектр ряда, приводя к появлению ложной периодичности (ложные длиннопер йодные циклы), которая может быть ошибочно истолкована как проявление некоторого экономического цикла. С другой стороны, дифференцирование TS ряда приводит к "передифференцированному ряду", который хотя и является стационарным, но обладает некоторыми нежелательными свойствами, связанными с необратимостью его МА-составляющей; при этом возникает паразитная автокор-релированность соседних значений продифференцированного ряда (в спектре доминируют короткие циклы). Более того, в случае необратимости МА-составляющей продифференцированного ряда становится невозможным использование обычных алгоритмов оценивания параметров и прогнозирования ряда [156].
Как показывает большинство работ, подробный обзор которых можно найти, например, в книге [168], проблема отнесения ряда к одному из указанных двух классов на основании наблюдения реализации ряда на некотором интервале времени оказалась весьма сложной. Было предложено множество процедур такой классификации, но и по настоящее время предлагаются все новые и новые процедуры, которые либо несколько превосходят старые в статистической эффективности (по крайней мере, теоретически) либо могут составить конкуренцию старым процедурам и служить дополнительным средством подтверждения классификации, произведенной другими методами. Описание многих таких процедур и ссылки на статьи с подробным описанием и теоретическим обоснованием этих процедур можно найти, например, в упоминавшихся выше книгах [168, 145, 156, 157]. Анализ процедур рассмотрен далее.
Критерий Дики-Фуллера. Под критерием Дики-Фуллера в действительности понимается группа критериев, объединенных одной идеей, предложенных и изученных в работах [138], [149], [139], [140]. В критериях Дики-Фуллера проверяемой (нулевой) является гипотеза о том, что исследуемый ряд xt принадлежит классу DS (DS-гипотеза); альтернативная гипотеза - исследуемый ряд принадлежит классу TS (TS-гипотеза). Критерий Дики-Фуллера фактически предполагает, что наблюдаемый ряд описывается моделью авторегрессии первого порядка (возможно, с поправкой на линейный тренд). Критические значения зависят от того, какая статистическая модель оценивается и какая вероятностная модель в действительности порождает наблюдаемые значения. При этом рассматриваются следующие три пары моделей (SM - статистическая модель, statistical model; DGP - модель порождения данных, data generating process).
Если ряд xt имеет детерминированный линейный тренд (наряду с которым может иметь место и стохастический тренд), то в такой ситуации берется пара В обоих случаях et — независимые случайные величины, имеющие одинаковое нормальное распределение с нулевым математическим ожиданием.. Методом наименьших квадратов оцениваются параметры данной SM и вычисляется значение /-статистики t9 для проверки гипотезы Но : р = 0. Полученное значение сравнивается с критическим уровнем tcril, рассчитанным в предположении, что наблюдаемый ряд в действительности порождается данной моделью DGP (случайное блуждание со сносом). DS-гипотеза отвергается, если t9 tcrif Критические уровни, соответствующие выбранным уровням значимости, можно взять из таблиц, приведенных в книгах [149], [150], если ряд наблюдается на интервалах длины Т= 25, 50, 100, 250, 500. Если количество наблю дений Г другое, то тогда можно вычислить приближенные критические значения статистики tcril, используя формулы, приведенные в работе [167]. Замечание. Использование процедуры оценки, основанной на методе наименьших квадратов, предполагает обязательное удовлетворение целого ряда предпосылок, невыполнение которых может привести к значительным ошибкам. 1. Случайные ошибки имеют нулевую среднюю, конечные дисперсии и кова-риации. 2. Каждое измерение случайной ошибки характеризуется нулевым средним, не зависящим от значений наблюдаемых переменных. 3. Дисперсии каждой случайной ошибки одинаковы, их величины независимы от значений наблюдаемых переменных (гомоскедастичность). 4. Отсутствие автокорреляции ошибок, т. е. значения ошибок различных на блюдений независимы друг от друга. 5. Нормальность. Случайные ошибки имеют нормальное распределение. 6. Значения эндогенной переменной х свободны от ошибок измерения и име ют конечные средние значения и дисперсии.
Практические исследования стохастических характеристик динамики курса акции «РАО ЕЭС»
Жесткие статистические предложения о свойствах временных рядов ограничивают возможности методов математической статистики, теории распознавания образов» теории случайных процессов и т.п. Дело в том, что многие реальные процессы не могут адекватно быть описаны с помощью традиционных статистических моделей, поскольку по сути являются существенно нелинейными и имеют либо хаотическую, либо квазипериодическую, либо смешанную (стохастика + хаос-динамикаН-детерминизм) основу [14].
В данной ситуации адекватньш аппаратом для решения задач диагностики и прогнозирования могут служить специальные искусственные сети [27, 34, 97, 102, 129] реализующие идеи предсказания и классификации при наличии обучающих последовательностей, причем, как весьма перспективные, следует отметить радиально-базисные структуры, отличающиеся высокой скоростью обучения и универсальными аппроксимирующими возможностями [173].
В его основе нейроинтеллекта лежит нейронная организация искусственных систем, которая имеет биологические предпосылки. Способность биологических систем к обучению, самоорганизации и адаптации обладает большим преимуществом по сравнению с современными вычислительными системами. Первые шаги в области искусственных нейронных сетей сделали в 1943 г. В.Мак-Калох и В.Питс. Они показали, что при помощи пороговых нейронных элементов можно реализовать исчисление любых логических функций [34]. В 1949 г. Хебб предложил правило обучения, которое стало математической основой для обучения ряда нейронных сетей [27]. В 1957-1962 гг. Ф. Розенблатт предложил и исследовал модель нейронной сети, которую он назвал персеп-троном [97]. В 1959 г. В. Видроу и М. Хофф предложили процедуру обучения для линейного адаптивного элемента - ADALTNE. Процедура обучения получила название "дельта правило11 [34]. В 1969 г. М Минский и С. Пайперт опубликовали монографию "Персептроны", в которой был дан математический анализ персептрона, и показаны ограничения, присущие ему. В 80-е годы значительно расширяются исследования в области нейронных сетей. Д. Хопфилд в 1982 г. дал анализ устойчивости нейронных сетей с обратными связями и предложил использовать их для решений задач оптимизации. Т.Кохонен разработал и исследовал самоорганизующиеся нейронные сети. Ряд авторов предложил алгоритм обратного распространение ошибки, который стал мощным средством для обучения многослойных нейронных сетей [27, 34, 97]. В настоящее время разработано большое число нейросистем, применяемых в разработано большое число нейросистем, применяемых в различных областях: прогнозировании, управлении, диагностике в медицине и технике, распознавании образов и т.д [1, 4,26, 43, 47,48].
Нейронная сеть - совокупность нейронных элементов и связей между ними. Основной элемент нейронной сети - это формальный нейрон, осуществляющий операцию нелинейного преобразования суммы произведений входных сигналов на весовые коэффициенты где X = (xltx27...7x„)T вектор входного сигнала; fF = (w, ,...,11 ) весовой вектор; F - оператор нелинейного преобразования.
Для обучения сети используются различные алгоритмы обучения и их модификации [9, 11, 20, 40, 66, 123]. Очень трудно определить, какой обучающий алгоритм будет самым быстрым при решении той или иной задачи. Наибольший интерес для нас представляет алгоритм обратного распространения ошибки, так как является эффективным средством для обучения многослойных нейронных сетей прямого распространения [805 109]. Алгоритм минимизирует среднеквадратичную ошибку нейронной сети. Для этого с целью настройки синаптических связей используется метод градиентного спуска в пространстве весовых коэффициентов и порогов нейронной сети. Следует отметить, что настройки синаптических связей сети используется не только метод градиентного спуска, но и методы сопряженных градиентов, Ньютона, квазиньютоновский метод [89]. Для ускорения процедуры обучения вместо постоянного шага обучения предложено использовать адаптивный шаг обучения a(t). Алгоритм с адиптивным шагом обучения работает в 4 раза быстрее. На каждом этапе обучения сети он выбирается таким, чтобы минимизировать среднеквадратическую ошибку сети [27, 34].
В [34] показано, что для прогнозирующих систем на базе НС наилучшие качества показывает гетерогенная сеть, состоящую из скрытых слоев с нелинейной функцией активации нейронных элементов и выходного линейного нейрона- Недостатком большинства рассмотренных нелинейных функций активации является то, что область выходных значений их ограничена отрезком [0,1] или [-1Д]- Это приводит к необходимости масштабирования данных, если они не принадлежат указанным выше диапазонам значений, В работе предложено использовать логарифмическую функцию активации для решения задач прогнозирования, которая позволяет получить прогноз значительно точнее, чем при использовании сигмоидной функции.
Анализ различных типов НС показал, что НС может решать задачи сложения, вычитания десятичных чисел, задачи линейного анторегрессионного анализа и прогнозирования временных рядов с использованием метода «скользящего окна» [66]. Проведенный анализ многослойных нейронных сетей и алгоритмов их обучения позволил выявить ряд недостатков и возникающих проблем: Ь неопределенность в выборе числа слоев и количества нейронных элементов в слое; 2. медленная сходимость градиентного метода с постоянным шагом обучения; 3. сложность выбора подходящей скорости обучения а. Так как маленькая скорость обучения приводит к скатыванию НС в локальный минимум, а большая скорость обучения может привести к пропуску глобального минимума и сделать процесс обучения расходящимся; 4. невозможность определения точек локального и глобального минимума, так как градиентный метод их не различает; 5. влияние случайной инициализации весовых коэффициентов НС на поиск минимума функции среднеквадратической ошибки. Большую роль для эффективности обучения сети играет архитектура НС. Так в [14, 103] показано, что при помощи трехслойной НС можно аппроксимировать любую функцию со сколь угодно заданной точностью. Точность определяется числом нейронов в скрытом слое, но при слишком большой размерности скрытого слоя может наступить явление, называемое перетренировкой сети. Для устранения этого недостатка необходимо, чтобы число нейронов в промежуточном слое было значительно меньше, чем число тренировочных образов. С другой стороны, при слишком маленькой размерности скрытого слоя можно попасть в нежелательный локальный минимум. Для нейтрализации этого недостатка можно использовать метод тяжелого шарика или ряд других методов [34, 89, 109],
Прогнозирование с использованием теории генетических алгоритмов. Впервые идея использования генетических алгоритмов для обучения (machine learning) была предложена в 1970-е годы [158, 187, 191, 190, 192]. Во второй половине 1980-х к этой идее вернулись в связи с обучением нейронных сетей. Они позволяют решать задачи прогнозирования (в последнее время наиболее широко генетические алгоритмы обучения используются для банковских прогнозов), классификации, поиска оптимальных вариантов, и совершенно незаменимы в тех случаях, когда в обычных условиях решение задачи основано на интуиции или опыте, а не на строгом (в математическом смысле) ее описании. Использование механизмов генетической эволюции для обучения нейронных сетей кажется естественным, поскольку модели нейронных сетей разрабатываются по аналогии с мозгом и реализуют некоторые его особенности, появившиеся в результате биологической эволюции [10, 263 94, 160, 161].
Об отрицательном влиянии процедуры перемешивания данных (Shuffle) при обучении нейронных сетей, применяемых для прогнозирования
Предшественником конструктивных алгоритмов можно считать методику обучения многослойных сетей, включающую в себя следующие шаги: 1. Выбор начального числа нейронов в скрытых слоях. 2. Инициализация сети, то есть присваивание синаптическим весами смещениям сети случайных значений из заданного диапазона. 3. Обучение сети по заданной выборке. 4. Завершение в случае успешного обучения; если сеть обучить не удалось, то число нейронов увеличивается и повторяются шаги со второго по четвертый. В конструктивных алгоритмах число нейронов в скрытых слоях также изначально мало и постепенно увеличивается, В отличие от описанной методики, в конструктивных алгоритмах сохраняются навыки, приобретенные сетью до увеличения числа нейронов. Конструктивные алгоритмы различаются правилами задания значений параметров в новых - добавленных в сеть - нейронах: J. значения параметров - случайные числа из заданного диапазона; 2. значения синаптических весов нового нейрона определяются путем расщепления (splitting) одного из старых нейронов. Первое правило не требует значительных вычислений, однако его использование приводит к некоторому увеличению значения функции ошибки после каждого добавления нового нейрона, В результате случайного задания значений параметров новых нейронов может появиться избыточность в числе нейронов скрытого слоя. Расщепление нейронов лишено двух указанных недостатков. Полное описание алгоритма расщепления представлено в [186].
Самым большим недостатком алгоритма является экспоненциальный рост времени вычислений при увеличении размерности сети. Для преодоления указанного недостатка предлагается упрощенный алгоритм расщепления, который не требует значительных вычислений [186].
Кроме описанных способов выбора нейронов для расщепления, может быть использован анализ чувствительности [35, 186], в процессе которого строятся матрицы Гессе - матрицы вторых производных функции ошибки по параметрам сети. По величине модуля второй производной судят о важности значения данного параметра для решения задачи. Параметры с малыми значениями вторых производных обнуляют. Анализ чувствительности имеет большую вычислительную сложность и требует много дополнительной памяти,
В исследовании рассмотрены два типа нейронных сетей: многослойный персептрон и сеть типа радиально-базисная функция.
Сравнительный анализ радиально базисной нейронной сети (RBF) и сети типа - многослойный нерсептрон (MLP) на примере прогнозирования курсов акций фондовой биржи
Актуальность данной тематики продиктована поиском адекватных моделей нейронных сетей (НС), определяемые типом и структурой НС, для задач прогнозирования. В ходе исследования установлено, что радиальные базисные сети (RBF) обладают рядом преимуществ перед сетями типа многослойных персептрон (MLP). Во-первых, они моделируют произвольную нелинейную функцию с помощью одного промежуточного слоя. Тем самым отпадает вопрос о числе слоев. Во-вторых, параметры линейной комбинации в выходном слое можно полностью оптимизировать с помощью известных методов моделирования, которые не испытывают трудностей с локальными минимумами, мешающими при обучении MLP. Поэтому сеть RBF обучается очень быстро (на порядок быстрее MLP) [80,100].
С другой стороны, до того как применять линейную оптимизацию в выходном слое сети RBF, необходимо определить число радиальных элементов, положение их центров и величины отклонений. Для устранения этой проблемы предлагается использовать автоматизированный конструктор сети, который выполняет за пользователя основные эксперименты с сетью.
Другие отличия работы RBF от MLP связаны с различным представлением пространства модели: «групповым» в RBF и «плоскостным» в MLP. Опыт показывает, что для правильного моделирования типичной функции сеть RBF, с ее более эксцентричной поверхностью отклика, требует несколько большего числа элементов. Следовательно, модель, основанная на RBF, будет работать медленнее и потребует больше памяти, чем соответствующий MLP (однако она гораздо быстрее обучается, а в некоторых случаях это важнее) [87].
С «групповым» подходом связано и неумение сетей RBF экстраполировать свои выводы за область известных данных. При удалении от обучающего множества значение функции отклика быстро спадает до нуля. Напротив, сеть MLP выдает более определенные решения при обработке сильно отклоняющихся данных, однако, в целом, склонность MLP к некритическому экстраполированию результата считается его слабостью. Сети RBF более чувствительны к «проклятию размерности» и испытывают значительные трудности, когда число входов велико.
Для оценки точности и адекватности результатов прогнозирования, а также структуры нейронной сети использовались следующие статистические показатели: 1. Data Mean. - среднее значение целевой выходной переменной; 2. Data S.D. - среднеквадратическое отклонение целевой выходной переменной; 3- Error Mean - средняя ошибка выходной переменной (остаток между целевой и реальной переменной); 4. Abs. Е. Mean - средняя абсолютная ошибка (разница между целевой и реальной выходной переменной); 5. Error S.D. - стандартное отклонение ошибки выходной переменной; 6. S.D. Ratio - среднеквадратическое отклонение ошибок выходной переменной; 7. Correlation - коэффициент корреляции Спирмена вычисленный между целевым вектором и реальным выходным вектором. Исследования проводились в пакете STATISTICA Neural Networks 4.0.В для курса акций «РАО ЕЭС» [87]. Каждая таблица показывает найденные типы нейронных структур для исследуемого временного ряда. В первом столбце таблиц стоит значение лага, с которым данные подаются на вход НС. Во втором столбце указано количество проведенных испытаний, следствием которых стал выбор наилучшей, по всем характеристикам, НС1.
Сравнительная оценка качества прогнозирования классических методов и основанных на нейронных сетях
Существует подход, получающий все большее распространение при котором сначала конструируется и обучается нейроимитатор, а затем создается техническая реализация полученной нейросети с уже вычисленными весами синапсов.
При аналоговых реализациях, различных упрощениях архитектуры (в том числе - бинаризации) технически сложно получить результат работы сети той же точности, что и результат работы нейроимитатора [3-5]- Поэтому следует ограничится некоторой точностью, с которой может работать сеть, то есть выбрать интервал, в котором могут изменяться значения вектора выходных сигналов СЄТИ Оценка погрешностей сигналов сети необходима при решении задачи упрощения нейронной сети. Зная допустимую погрешность выходного сигнала какого-либо элемента сети, мы можем заменять его более простыми, но менее точными элементами так, чтобы в итоге ошибка не превышала заданную.
Хорошо известно, что нейронные сети могут проявлять исключительную устойчивость к помехам и разрушениям. Как будет показано ниже, при прямом прохождении сигналов по достаточно большой сети погрешности гасятся: при больших погрешностях входных сигналов выходные сигналы сети могут иметь сравнительно малые погрешности. Это объясняет устойчивость нейронных сетей к шумам и повреждениям.
Два базовых подхода к оценкам погрешности. Предложены два подхода к решению задачи вычисления погрешностей сигналов сети. При первом подходе (гарантированные интервальные огіенки) вычислялись допустимые интервалы для погрешностей сигналов сети такие, что погрешность вектора выходных сигналов гарантированно (с вероятностью 0,999) не превышает заданную. При втором подходе (среднеквадратические оценки погрешностей) вычислялись среднеквадратические отклонения погрешностей сигналов. При этом используется предположение о том, что погрешности различных сигналов являются независимыми случайными величинами.
Существует принципиальное различие между этими двумя типами оценок. Гарантированные интервальные оценки исходят из рассмотрения наихудших возможных случаев, сколь бы малой не была их вероятность. Поэтому они, как правило, завышают реально имеющую место ошибку и слишком пессимистичны с практической точки зрения. Среднеквадратичные оценки, наоборот, стирают возможные большие уклонения и могут оказаться слишком оптимистичными.
Важное различие между двумя типами оценок демонстрируют следующие формулы сложения» Формула сложения для интервальных оценок. Пусть для двух величин х, у определены гарантированные интервалы значений х = х0 ± Дх, у - у0 + Ду . Тогда для их суммы имеем гарантированную оценку: х + у — х0н-уо ±(ЛЧ+ДЧ), то есть Лх+у = Дх+Ду Структура сети. Сеть имеет слоистую структуру со стандартными нейронами. Сигналы передаются только в одном направлении, с предыдущего слоя на следующий. Под стандартным нейроном [1,2] понимается набор элементов, состоящий из адаптивного сумматора? нелинейного преобразователя и точки ветвления (рисунок 4.8).
Выходные сигналы одного слоя являются входными сигналами другого слоя. Стандартный нейрон является типичным участком любой нейронной сети. Поэтому достаточно выяснить, как вычисляются допустимые погрешности для элементов стандартного нейрона. В результате получим возможность вычислить допустимые погрешности для любого участка сети, двигаясь по сети от нейрона к нейрону. Методика приведена в Приложении Д.
Зная, каким образом вычислять гарантированную интервальную оценку погрешности для любого элемента стандартного нейрона методом обратного распространения точности весь алгоритм (методику) можно сформулировать так: Точка ветвления. Если допустимые погрешности выходных сигналов точки ветвления равны б - ь то в качестве погрешности входного сигнала точки ветвления выбирается minf -} ] (рисунок 4.9). _ 2) Нелинейный преобразователь. Пусть при прямом функционировании входной сигнал нелинейного преобразователя равен А, его выходной сигнал равен у и нелинейный преобразователь имеет функцию активации (р. Если допустимая погрешность выходного сигнала нелинейного преобразователя равняется , то погрешность его входного сигнала не должна превышать или в линейном приближении є/\ рХА)\ (рисунок 4.10).
Адаптивный сумматор. Если при обратном распространении допусти мая погрешность выходного сигнала адаптивного сумматора равняется є, то погрешность каждого входа сумматора не должна превышать єІУ где для равномерного распределения и = е/{п-а{) для пропорционального распределения (рисунок 4.11).
Зная, как вычисляются допустимые погрешности для всех элементов стандартного нейрона, можно вычислить допустимые погрешности сигналов для всей сети. Формулы для вычисления допустимых погрешностей сигналов для любого участка сети с учетом того, что все элементы имеют собственные погрешности, которые вносят свой вклад в погрешность выходного сигнала этих элементов приведены в Приложений Д. В приложение также вынесены выводы «Метода обратного распространения точности для анализа реализуемости сетей с собственными погрешностями элементов», а также выводы для «Метода обратного распространения точности для оценки среднеквадратических отклонений» и анализ реализуемости сетей с собственными погрешностями элементов методом обратного распространения точности для оценки среднеквадратических отклонений.
Покажем на примере. Пусть дана сеть с тремя нейронами входного слоя, двумя нейронами скрытого слоя и одним выходным нейроном. На рисунке 4.6 показаны сигналы, проходящие по сети при данном векторе входных сигналов, и веса связей. В данном примере элементы сети не имеют собственных погрешностей. Характеристическая функция нелинейных преобразователей имеет вид: р(х) =х /(2+\х\) , где х - входной сигнал нелинейного преобразователя. Среднеквадратическос отклонение вектора выходных сигналов сети тоиГ равняется 0.01,