Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Родионов Павел Евгеньевич

Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей
<
Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Родионов Павел Евгеньевич. Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей : диссертация ... кандидата технических наук : 05.13.17.- Москва, 2003.- 169 с.: ил. РГБ ОД, 61 03-5/3935-3

Содержание к диссертации

Введение

Глава 1. Анализ существующих методов решения задачи прогнозирования . 17

1.1. Статистические методы 17

1.1.1.Экспоненциальное сглаживание 17

1.1.2. АРПСС (Авторегрессионное Проинтегрированное Скользящее Среднее) 18

1.1.3. Множественная линейная регрессия 20

1.1.4. Спектральный анализ 21

1.2. Технический анализ 23

1.2.1. Графический технический анализ 23

1.2.2. Метод японских подсвечников 24

1.2.3. Трендовые индикаторы 25

1.2.4. Осцилляторы 26

1.2.5. Показатели объема 27

1.3. Нейронные сети 29

1.3.1. Общие сведения 29

1.3.2. Анализ применяющихся функций активации 31

1.3.3. Сущность задачи обучения нейронной сети 35

1.4. Постановка задачи и сравнительный анализ методов ее решения 37

1.4.1. Постановка задачи прогнозирования 37

1.4.2. Сранительный анализ методов получения краткосрочного прогноза 39

Выводы по главе 1 42

Глава 2. Нейросетевое моделирование процессов обработки экспериментальных данных 44

2.1. Классификация существующих парадигм нейронных сетей 44

2.1.1. Классификация по структуре 44

2.1.2. Классификация по особенностям модели нейронной сети.. 46

2.1.3. Классификация по характеру и методам обучения сети 47

2.2. Выбор архитектуры нейронной сети 48

2.2.1. Анализ применимости нейросетей к решению различных задач 48

2.2.2. Нейронная сеть типа "многослойный перцептрон" 49

2.2.3. Нейронные сети радиального базиса 54

2.2.4. Сравнение сетей радиального базиса и многослойных перцептронов 57

2.3. Предварительная подготовка данных 59

2.3.1. Методы преобразования исходных данных 59

2.3.2. Нормировка входных переменных 61

2.3.3. Нормировка выходных переменных 63

Выводы по главе 2 65

Глава 3. Методика моделирования и формирования эмпирического знания . 66

3.1. Описание разработанной методики 66

3.1.1. Этапы методики 66

3.1.2. Разработанный способ нормировки данных 68

3.1.3. Определение глубины ретроспективной выборки для обучающего примера 73

3.1.4. Корректировка состава входных факторов 75

3.1.5. Определение структуры нейронной сети 76

3.1.6. Определение параметров обучения 78

3.1.7. Формирование подмножеств обучающих примеров 79

3.1.8. Критерии оценки эффективности и ограничения методики 80

3.2. Разработанные функция ошибки и алгоритм обучения 82

3.2.1. Функция ошибки нейрона 82

3.2.2. Функция суммарной ошибки и критерий останова 83

3.2.3. Алгоритм обучения нейросети 84

3.3. Описание разработанного программного комплекса 89

3.3.1. Программные средства моделирования нейронной сети 89

3.3.2. Программные средства формирования файла входных данных 91

3.3.3. Программные средства расчета автокорреляционных функций 93

Выводы по главе 3 95

Глава 4. Экспериментальные исследования методики 97

4.1. Прогнозирование котировок облигаций государственного внутреннего валютного займа (ОГВВЗ) 97

4.1.1. Описание решаемой задачи 97

4.1.2. Описание ряда проведенных экспериментов и результаты. 98

4.2. Уточнение прогноза аналитической модели движения искусственного спутника Земли (ИСЗ) 106

4.2.1. Общие сведения об эксперименте 106

4.2.2. Описание и постановка решаемой задачи 109

4.2.3. Описание эксперимента и результаты 111

4.3. Оценка влияния случайных возмущений на характеристики насоса авиационного двигателя 116

4.3.1. Общие сведения об эксперименте 116

4.3.2. Описание и постановка решаемой задачи 118

4.3.3. Описание эксперимента и результаты 120

Выводы по главе 4 124

Заключение 126

Литература 128

Введение к работе

Данная диссертационная работа посвящена вопросу разработки методики извлечения знаний из эмпирических данных с использованием теории нейронных сетей. Цель состоит в выявлении скрытых, нетривиальных и неформализуемых закономерностей в наборах данных. Получение практически полезных и доступных интерпретации знаний необходимо для принятия решений в различных сферах человеческой деятельности. Подобные задачи актуальны в областях, где присутствуют большие информационные массивы неоднородных, меняющихся во времени данных высокой размерности[133]. Например, методы извлечения знаний могут применяться для предприятий торговли[79] (анализ структуры клиентов и покупок, характера и моделей поведения), банков и страховых компаний [96] (выявление мошенничества, создание новых целевых программ и услуг), медицинских учреждений [54] [70] (выбор способа лечения, прогнозирование осложнений).

Существует пять различных типов закономерностей[78]: ассоциация, последовательность, прогнозирование, классификация, кластеризация. Ассоциация представляет собой определение связи между событиями. Если события связаны друг с другом по времени, то говорят о последовательности. Прогнозирование осуществляет предсказание поведения системы в будущем на основе ретроспективной информации, хранящейся в виде временных рядов. Классификация - выявление признаков, характеризующих группу, к которой принадлежит тот или иной объект. Более общим случаем является кластеризация, которая отличается от классификации тем, что сами группы заранее не заданы.

Ввиду широты проблематики, связанной с извлечением знаний из массивов данных, область исследований была сужена и в диссертационной работе рассматриваются задачи прогнозирования. Важной особенностью является то, что прогноз основывывается не только на предшествующих значениях прогнозируемой величины, но также учитывает влияние различных дополнительных факторов, также представленных временными рядами. Таким образом, данном случае прогнозирование осуществляетсчя на основе совместной обработки нескольких временных рядов.

Рассматриваемая задача актуальна в различных областях. В частности, в представляемой диссертационной работе приведены результаты решения задачи уточнения траєкторного прогноза движения искусственного спутника земли (ИСЗ), а также задачи оценки влияния случайных возмущений на параметры авиационного насоса. Характерной предметной областью, в которой необходимо решение задачи нахождения прогноза с учетом выявляемых скрытых закономерностей в массивах данных, являются финансовые рынки. Прогнозирование финансовых временных рядов рассматривается в [42][62][81][119], и является актуальной научно-технической задачей. Так, в настоящее время существует несколько сот организаций-участников финансового рынка (национальная ассоциация участников фондового рынка (НАУФОР) по состоянию на 01.04.02 включала 507 членов. Существуют также и организации - не члены НАУФОР. [109]), результаты деятельности каждой из которых напрямую зависят от успешности решения подобной задачи. При этом данные организации оперируют значительными суммами. Например, совокупный оборот только московской межбанковской валютной биржи (ММВБ) в 2001г. составил 107 млрд. долларов США[105], при этом в Российской Федерации имеются и другие торговые площадки [106] [122] [123]. В целом, рассматриваемая задача актуальна в областях, где требуется решение задачи прогнозирования, на основе анализа данных за предшествующие моменты времени в целью учета зависимости между значениями некоторого набора факторов и поведением исследуемого объекта или процесса, представленного временным рядом. При этом задача имеет следующие особенности[118]: на прогнозируемую величину влияют нескольких различных факторов (также являющихся временными рядами). Нахождение и аналитическое описание данных зависимостей затруднено. рассматриваемые временные ряды являются нелинейными и нестационарными вид нелинейности временного ряда априорно не известен и не описан аналитически в результате решения задачи требуется нахождение не сглаженного краткосрочного прогноза.

Математически рассматриваемая задача может быть описана следующим образом:

Пусть имеется объект прогноза Y, представленный временным рядом своих значений в предшествующие моменты времени Yt_k,Y,_k+\ Y, , где t- текущий момент времени, А:-глубина ретроспективной выборки. На поведение Y влияет совокупность факторов (характеристик): VuVn, где п- количество факторов. Каждая r'-ая характеристика (i=l..n) также представлена совокупностью своих предыдущих значений V^l,V^l+x,...,V}'\ Исходя из физического смысла задачи Y принадлежит V, так как предыдущие значения Y влияют на его будущее значение и, следовательно, должны входить в К В общем случае глубина ретроспективной выборки для различных V(l) может быть различной. Требуется найти значение Y в будущий момент времени на основе известных предыдущих значений V. В зависимости от физического смысла задачи может одновременно прогнозироваться несколько величин, то есть значение Y в каждый момент времени может быть вектором.

Традиционно для решения подобных задач используются методы математической статистики, изложенные в работах [53][63][73][90][107][59]. Однако описанные выше особенности ограничивают возможности применения статистических методов. Так, применение различных процедур сглаживания не отвечает поставленной задаче, так как при прогнозировании нас интересует не сглаженное значение, а именно отклонение от него в будущий момент времени. Кроме того, прогнозируемый временной ряд характерен тем, что он не является стационарным и не преобразуем к стационарному. Поэтому методы, разработанные для стационарных рядов, использованы быть не могут. Применение линейных регрессионных моделей ограничено ввиду явной нелинейности процесса, а нелинейных - из-за необходимости явного задания характера нелинейности.

Для прогнозирования на финансовых рынках де-факто используется технический анализ, под которым понимается исследование динамики рынка, чаще всего посредством графиков, с целью прогнозирования будущего направления движения цен [100]. Методы и индикаторы технического анализа описаны в [92][99][100][44][115]. Основным постулатом является предположение о том, что в существующие рыночные цены сделок уже заложено направление динамики цен, в виде ожиданий игроков[43][100]. То есть в самом характере изменения цены отражены все влияющие на нее факторы и текущая цена - результирующая всех этих факторов. Средства технического анализа являются распространенным способом прогнозирования временных рядов. Основными их достоинствами является простота использования и наглядность. Современный технический анализ включает в себя большое количество прикладных методов. Всего в настоящий момент насчитывается более 160 различных индикаторов и методик[98]. Положительные черты технического анализа заключаются в свойственных ему гибкости и адаптационных способностях. Также сильной стороной технического анализа является возможность его применения на любом отрезке времени. В целом средства технического анализа позволяют получать неплохие результаты, однако его большими минусами были и остаются субъективизм эксперта (особенно в графическом анализе), обилие ложных сигналов, противоречивость различных индикаторов. Другим принципиальным недостатком является то, что анализ основывается лишь на прогнозируемом ряде, не используя в явной форме информацию по другим факторам, влияющим на прогнозируемую величину. Таким образом, возможности аппарата технического анализа заведомо сужены по сравнению с методами, использующими для прогноза несколько различных факторов (например, нейронными сетями, применение которых обсуждается в данной работе).

По сравнению со средствами математической статистики и технического анализа, традиционно использовавшихся для прогнозирования, нейронные сети имеют ряд преимуществ[98].

Нейросетевой анализ не предполагает никаких ограничений на характер входной информации. Это могут быть как индикаторы данного временного ряда, так и сведения о динамике других факторов, в то время как другие методы рассматривают только значения прогнозируемого ряда.

Применение нейронных сетей не накладывает никаких ограничений на характер исследуемых рядов, поэтому нестационарность рассматриваемых процессов не представляет проблемы. Наиболее ценным свойством нейронных сетей является их способность успешно решать задачи, в которых затруднено или невозможно нахождение аналитических зависимостей между входными и выходными данными. Нейросети способны находить оптимальные для данной задачи индикаторы и строить по ним оптимальную для данного ряда стратегию предсказания. Кроме того, эта стратегия может быть адаптивна, меняясь вместе с ситуацией.

Для многослойных нейронных сетей строго математически доказано, что они могут представлять любую вещественную непрерывную векторную функцию любого вещественного непрерывного векторного аргумента [17]. То есть многослойные сети могут быть использованы для решения любой задачи, которая может быть сведена к построению функций, в том числе для прогнозирования.

Все вышеперечисленные факторы определяют возможность эффективного использования аппарата нейронных сетей в рассматриваемом классе задач.

Основным недостатком нейронных сетей является отсутствие формализованных алгоритмов настройки сети, а, как следствие, необходимость привлечения высококлассных специалистов ввиду высокой сложности такой настройки, отсутствие гарантий успешного решения поставленной задачи. Кроме того, произведенный анализ показал, что существующие программные средства не имеют конкретной проблемной ориентации и не адаптированы к решению рассматриваемого класса задач[75][111]. Поэтому большую практическую значимость приобретает разработка формальной методики настройки и обучения сети и выработка практических рекомендаций, которые позволят более успешно применять аппарат нейронных к решению задач прогнозирования временных рядов широкому кругу пользователей.

Таким образом, целью настоящей диссертационной работы является разработка и апробация методики извлечения знаний из совокупности эмпирических данных и учета неформализуемых информационных зависимостей для предсказания будущего состояния нестационарного временного ряда с помощью аппарата нейронных сетей, позволяющей решать рассматриваемый класс задач прогнозирования с обеспечением практически значимой устойчивой точности выдаваемых нейронной сетью прогнозов.

Для выбора типа используемой нейронной сети в диссертационной работе была выполнена классификация существующих архитектур нейронных сетей, а также выполнен анализ применимости конкретных видов нейросетей к решению различных классов задач. Результатом данного анализа явилось определение архитектур нейронных сетей, которые могут быть применены для решения задачи прогнозирования: это сети радиального базиса (RBF-сети) и сети типа «многослойный перцептрон» (MLP), и их сравнение. Сеть MLP характеризуется более высокой сложностью обучения. В то же время существует некоторая неэффективность сети RBF, которая связана с тем, что при работе сети в каждом конкретном случае используется лишь часть нейронов. Следствием этого является экспоненциальный рост размерности сети RBF при увеличении размерности входных данных [81]. При решении одной и той же задачи в большинстве случаев размер сети RBF будет превышать размер MLP. Кроме того, сеть RBF не обладает способностью к экстраполяции данных при увеличении ширины диапазона значений входных данных[113]. С учетом вышеизложенного, в данной диссертационной работе для построения моделей использовалась сеть типа «многослойный перцептрон».

Разработанная методика краткосрочного прогнозирования основана на учете неформализуемых зависимостей между различными факторами в массиве эмпирической информации. При этом предлагаемая методика позволяет решать задачу прогнозирования на основе совместной обработки нескольких влияющих друг на друга временных рядов, не накладывая никаких ограничений на их характер. В рамках методики предложены способы предварительной обработки данных для повышения экономичности нейросетевой модели, процедура определения параметров модели, определены параметры обучения (в т.ч. разработана и исследована новая функция ошибки обучения), предложены критерии оценки качества получаемой модели, разработан алгоритм обучения с учетом специфики решаемой задачи.

Правильная предварительная подготовка данных является ключевым фактором успешного решения задачи[81], и в работе предложен новый способ такой подготовки. Основная цель данного этапа - повышение информативности исходных данных.

Для этого в рамках методики предложен ряд процедур. Во-первых, отказ от использования абсолютных значений временных рядов и переход к относительным изменениям, взятым с лагом 1, что позволяет повысить чувствительность сети к ее входам. Во-вторых, нормировка данных -линейная, либо на основе статистических характеристик ряда, позволяющая повысить информативность обучающих примеров. В-третьих, нелинейная нормировка с помощью функции активации нейронной сети, усиливающая эффект предыдущей нормировки. Новизна данного подхода заключается в изменяемом виде функции активации, что позволяет повысить эффективность нормировки путем лучшего приближения распределения данных к равномерному. Для возможности изменения вида функции активации в ее состав введен специальный коэффициент.

В работе предложен способ определения состава входных факторов, глубины ретроспективной выборки (то есть числа предыдущих значений, участвующих в нахождении прогноза) по каждому из них, а также иных параметров модели. Для этого предлагается использовать следующую процедуру: к уже существующей модели добавляется следующий фактор из числа неиспользованных, дающий наибольшее улучшение точности модели. Первоначальная модель строится только на основе прогнозируемого ряда. Глубина ретроспективной выборки по каждому фактору устанавливается при его добавлении путем варьирования найденного раньше ее начального приближения, которое определяется на основе анализа графиков автокорреляционных функций. Добавление дополнительных факторов прекращается, если оно перестанет улучшать точность модели. Описанная процедура позволяет находить приемлемые субоптимальные комбинации входных факторов и параметров модели.

Одним из результатов диссертационной работы является разработка новой функции расчета ошибки обучения сети. Идея ее применения заключается в том, что при прогнозировании экономических рядов важнее правильное определение знака будущего изменения, нежели его абсолютного значения, поэтому традиционно применяющаяся среднеквадратичная ошибка в силу специфики предметной области не является наилучшим критерием. В состав функции введены специальные коэффициенты, позволяющие изменять ее вид и использовать не только в экономической сфере, но и других областях в рамках рассматриваемого в диссертационной работе класса задач.

В качестве алгоритма обучения использовался модифицированный для учета специфики задачи алгоритм обратного распространения ошибки, отличающийся высокой надежностью и обеспечивающий удовлетворительную скорость сходимости.

В рамках данной работы была создана программная реализация разработанной методики, обеспечивающая автоматизированную обработку эмпирических данных. С этой целью были разработаны программные средства выполняющие расчет необходимых статистических характеристик, формирование обучающих примеров, а также реализующие обучение и работу нейронной сети с учетом предложенной в данной работе новизны.

В ходе экспериментальных исследований были рассмотрены три задачи из различных областей. В качестве предметной области в для первой задачи использовалась финансовая сфера, а именно прогнозирование котировок пятого транша облигаций государственного внутреннего валютного займа (ОГВВЗ). В качестве второй задачи было рассмотрено построение нейросетевой модели, выполняющей прогноз ошибки определения координат ИСЗ с помощью аналитической модели на основе анализа ретроспективной эмпирической информации. Третья задача заключалась в оценке влияния случайных возмущений на характеристики авиационного насоса.

Практическая ценность данной работы заключается в разработке методики применения аппарата нейронных сетей к решению задачи прогнозирования нестационарных временных рядов, выработку рекомендаций по ее применению, разработке программных средств, реализующих данную методику. Результаты данной диссертационной работы (конкретные алгоритмы, методика и программные средства) могут быть успешно использованы на практике, что подтверждается результатами численных экспериментов, проводившихся на реальных данных и показавших практически значимые результаты, а документально подтвержденными результатами внедрения.

В представляемой диссертационной работе решен комплекс научно-технических, прикладных и экспериментальных задач, а именно:

В результате анализа предметной области произведено выделение класса рассматриваемых в диссертационной работе задач

Произведен анализ математических методов и программных средств, использующихся для решения подобных задач, и исследована применимость аппарата нейронных сетей. Выполнена классификация нейросетевых архитектур.

Выполнена формальная постановка задачи, предложена методика решения, основанная на нейронных сетях. Определены ограничения.

Выполнена разработка комплекса обработок, методов и алгоритмов для настройки, обучения и функционирования нейросетевой модели.

В рамках методики сформулированы конкретные практические рекомендации по решению рассматриваемого класса задач

Определены критерии оценки эффективности разработанной методики.

Выполнена разработка программного комплекса для реализации предложенной методики

Осуществлены экспериментальные исследования и апробация методики.

Автор имеет четыре печатные работы по теме диссертации, три подготовленных к публикации, а также ряд выступлений на научных конференциях.

Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Общий объем основного текста диссертации 138 страниц, включая 27 рисунков, 17 таблиц, список использованной литературы из 134 источников.

Постановка задачи и сравнительный анализ методов ее решения

В данной работе рассматривается задача краткосрочного (одношагового) прогнозирования, что подразумевает предсказание значения прогнозируемой величины в следующий момент времени. Задача прогнозирования заключается в нахождении величины изменения ее значения, которое произойдет на следующий день, на основе анализа прошлых значений, а также истории изменения других факторов, влияющих на динамику прогнозируемой величины. При этом наиболее важным является правильное определение характера дальнейшего изменения значения прогнозируемой величины (увеличение или уменьшение). Математически это может быть сформулировано следующим V(T) образом: требуется обучить д I "?Y(t+1) нейронную сеть, формирующую выходной сигнал Y(t+1) на основе входного сигнала X Y=g(X), который обеспечивал бы заданную точность прогноза.

При этом входной сигнал содержит несколько факторов, представленных совокупностью своих значений, начиная с момента времени t-k до момента времени / (рис. 10): X=X(Yt.k: vlt.k... vlt; v2t.k ... v2t; ... ; vnt.k ... vnj, (1.33) где Vi i=l...p - факторы, значимо влияющие на изменение прогнозируемой величины t - текущий момент времени к - глубина ретроспективной выборки. В общем случае к различно для разных факторов.

Решение данной задачи предполагает проведение предварительной обработки данных, определение архитектуры и строения нейронной сети, вида функции активации, вида функции ошибки, алгоритма ее обучения и параметров обучения, а также собственно обучение сети.

При прогнозировании в качестве входных сигналов используются временные ряды, представляющие значения контролируемых переменных на некотором временном отрезке. Выходной сигнал представляет собой подмножество переменных входного сигнала. Понятие одношагового прогнозирования, рассматриваемого в данной работе, подразумевает предсказание значения в следующий момент времени.

Рассматриваемый тип задач имеет ряд особенностей, к которым можно отнести нестационарность прогнозируемого процесса, неадекватность линейных регрессионных моделей (ввиду нелинейного характера процесса), затрудненность построения аналитических зависимостей, описывающих временной ряд, необходимость нахождения несглаженных значений. Эти факторы ограничивают возможности применения статистических методов для получения прогнозов.

Так, краткосрочность прогноза делает неэффективным использование широкого спектра методов, основанных на анализе тренда и периодических зависимостей. Действительно выявление характера тренда и вычленение периодической (сезонной) составляющей практически мало чем может помочь при одношаговом прогнозировании, когда определяющее влияние на прогнозируемую величину имеют несколько последних состояний рассматриваемого процесса. Применение различных процедур сглаживания не отвечает поставленной задаче, так как при прогнозировании нас интересует не сглаженное значение, а именно отклонение от него в будущий момент времени.

Прогнозируемый временной ряд характерен тем, что он не является стационарным и не может быть преобразован к стационарному. Поэтому методы, разработанные для стационарных рядов (например, АРПСС), использованы быть не могут. Учитывая характер ряда, спектральный анализ также не дает приемлемых результатов.

Часто для решения задачи прогнозирования применяется аппарат множественной линейной регрессии. Это хорошо работает, если рассматриваемый процесс может быть описан линейной моделью. В то же время применение нелинейных регрессионных моделей проблематично. Для этого требуется явное задание характера нелинейности еще до проведения анализа, что является серьезным ограничением.

Рассмотрение методов технического анализа позволило его положительные черты, заключающиеся в свойственных ему гибкости и адаптационных способностях. Также сильной стороной технического анализа является возможность его применения на любом отрезке времени. В целом методы технического анализа достаточно широко применяются и являются традиционно используемыми для решения задач финансового прогнозирования. Недостатками являются общеизвестность методов и получаемых с их помощью результатов, что не дает пользователю конкурентного преимущества перез другими участниками рынка. Также к недостаткам следует отнести обилие ложных сигналов, а в ряде случаев -затрудненную интерпретацию результатов, что повышает влияние субъективизма эксперта и требует его высокой квалификации для получения положительного результата.

Анализ применимости нейросетей к решению различных задач

Для определения типов архитектур нейронных сетей, применимых к решению рассматриваемой проблемы прогнозирования, был проведен анализ возможности использования различных типов сетей в различных классах задач. При этом описания исследуемых архитектур были получены из следующих источников: сеть Хопфилда - [ 1 ][20][ 19][27][29][69][ 128][ 128], сеть встречного распространения - [16][83][17][38][128], сеть радиального базиса - [69][113][124][127][2], карта Кохонена - [2][22][23][24][54][110], многослойный перцептрон - [45][32][47][50][81], двунаправленная ассоциативная память [13][25][26][128], сеть Хэмминга [51][81][27]. Строение многослойного перцептрона приведено на рис. 2.2. Также существует масса других названий данной сети: сеть обратного распространения, back propagation network, backprop, обобщенное дельта-правило и т.п. Сведения о строении и принципе функционирования многослойного перцептрона изложены в [45][27][36][48][69] Многослойный перцептрон относится к классу сетей с последовательными связями. В таких сетях нейроны делятся на группы с общим входным сигналом - слои. При этом на вход каждого нейрона подаются выходы всех нейронов предыдущего уровня, а на нейроны входного уровня подается внешний входной сигнал. Уровни, расположенные между входным и выходным уровнями, называются скрытыми. При этом общее число уровней в сети считается равным числу слоев нейронов, учитывая также и входной слой. Число нейронов на входном уровне равно числу компонент входного вектора (то есть каждому нейрону должно соответствовать одно значение).

Вычисление выхода сети осуществляется следующим образом: 1. На каждый нейрон входного уровня подается соответствующий ему сигнал, представляющий собой вещественное число - компоненту входного вектора 2. Нейроны входного уровня, не изменяя сигналы, передают их на первый скрытый уровень. 3. Каждый скрытый нейрон получает выходы всех нейронов предыдущего уровня и корректирует их в соответствии с весовыми коэффициентами соответствующих линий связи (Каждая линия связи имеет собственный весовой коэффициент. Первоначально он представляет собой случайное число) 4. Скорректированные значения суммируются и на основании полученного значения генерируется выход нейрона в соответствии с видом функций активации 5. Сгенерированные выходы нейронов передаются на следующий уровень 6. Выходы нейронов последнего уровня представляют собой выход сети Таким образом, функционирование многослойной сети выполняется в соответствии с формулами: Описанная процедура называется прямым ходом и служит для вычисления выхода сети (как в процессе обучения, так и в процессе функционирования обученной сети). Однако при обучении сети требуется проведение процедуры обратного хода, нужной для модификации весовых коэффициентов линий связи на основе вычисленной ошибки выхода сети. Изменение весов линий связи проводится в соответствии со специальным алгоритмом обучения и имеет целью уменьшить ошибку выхода сети. Алгоритм обучения многослойного перцептрона был предложен в [35], а также в [49].Обучение многослойного перцептрона заключается в циклической подаче на вход сети обучающих примеров, для каждого из которых известен требуемый выход сети. Обучение сети разбивается на следующие этапы: 1) Инициализация сети.Весовым коэффициентам и смещениям сети присваиваются малые случайные значения. 2) Определение элемента обучающей выборки: текущий вход желаемый выход 3) Вычисление текущего выходного сигнала в соответствии с традиционной схемой функционирования сети

Определение глубины ретроспективной выборки для обучающего примера

Для определения глубины ретроспективной выборки предлагается применить средства корреляционного анализа. Глубина ретроспективной выборки представляет собой число значений по каждому входному фактору, которые входят в состав одного обучающего примера (в общем случае для различных факторов оно может быть различным). Речь в данном случае идет об экономичности модели, то есть данное число должно быть выбрано так, чтобы обеспечить подачу на вход сети предыдущих значений входных факторов в количестве, достаточном для построения прогноза с заданной точностью, избежав при этом избыточности. Точное математическое решение данной задачи затруднено, однако возможно приближенное оценивание значения глубины ретроспективной выборки путем анализа графиков автокорреляционных функций входных факторов.

Автокорреляционная функция характеризует связь между сечениями случайного процесса и записывается как Kx(tl),x(t2) = Kx(tl,t2) = Kx(tl2) = Kx(At). Значение корреляционной функции представляет собой коэффициент корреляции между сечениями случайного процесса, отстоящими друг от друга на время At. Значения автокорреляционной функции рассчитываются по формуле:

Значения автокорреляционной функции при At=0 равны дисперсии случайного процесса. График автокорреляционной функции всегда представляет собой затухающую кривую с максимальным значением при At=0, равным значению дисперсии. Затухающий характер кривой объясняется тем естественным обстоятельством, что взаимосвязь между сечениями случайного процесса уменьшается с увеличением временного интервала между сечениями.

Определение глубины ретроспективной выборки осуществляется путем визуального анализа характера автокорреляционной функции. При этом в качестве наиболее подходящих могут быть рассмотрены следующие характерные точки:

Точки пересечения графика с осью абсцисс Точка, найденная по критерию «каменистой осыпи». Критерий «каменистой осыпи» впервые был предложен Кэттеллем в 1966г. для применения в факторном анализе и представляет собой метод визуального анализа графика с целью нахождения точки, после которой убывание графика замедляется наиболее сильно (по аналогии с геологией - место, в котором образуется осыпь из мелких камешков в конце каменистого склона).

Если график идет слишком полого и ни один из вышеизложенных способов не применим или дает плохой результат, то, по экспертной оценке, следует выбирать число в диапазоне от 5 до 20. Для выбора наиболее подходящего варианта можно провести несколько экспериментов, варьируя значение глубины ретроспективной выборки для анализируемого фактора. Определенная по данному фактору глубина ретроспективной выборки в дальнейшем, при экспериментах с другими факторами, не изменяется.

Корректировка состава входных факторов представляет собой процедуру отбора факторов, влияющих на объект прогноза, из заранее определенного на основе экспертной оценки избыточного множества V. Факторы, отобранные в результате, должны отвечать условиям экономичности модели и обеспечивать заданную точность прогноза.

В рамках методики для корректировки состава входных факторов предлагается использовать следующую процедуру: к уже существующей модели добавляется следующий фактор из числа неиспользованных, дающий наибольшее улучшение предсказательной способности модели. Первоначальная модель строится только на основе прогнозируемого ряда. Глубина ретроспективной выборки по каждому фактору определяется при его добавлении путем варьирования найденного раньше ее начального приближения, и в дальнейшем не изменяется. Таким образом, осуществляется постепенный подбор наиболее значимых входов. Каждый следующий фактор обеспечивает наибольшее увеличение точности прогноза в совокупности с уже выбранными факторами. Добавление дополнительных факторов прекращается, если оно перестанет улучшать точность модели.

Возможно также продолжать добавление до конца, пока не будут использованы все факторы, а затем выбрать наилучшую комбинацию факторов из полученных вариантов. Вышеописанная процедура добавления факторов не гарантирует нахождения наилучшей комбинации входов, так как рассматривается лишь малая доля от числа полных комбинаций входов и их параметров, и значимость каждого нового признака зависит от сделанного ранее выбора. Однако, учитывая, что полный перебор практически неосуществим, описанная процедура является приемлемой, так как позволяет находить удовлетворительные субоптимальные комбинации входных факторов и параметров модели.

Уточнение прогноза аналитической модели движения искусственного спутника Земли (ИСЗ)

В ходе эксперимента решалась задача построения нейросетевой модели, выполняющей прогноз ошибки определения координат ИСЗ с помощью аналитической модели на основе анализа ретроспективной эмпирической информации. Целью эксперимента является демонстрация возможности учета влияния случайных возмущающих факторов, формальный аналитический учет которых затруднен или невозможен. В качестве примера можно привести изменение характеристик атмосферы из-за активности Солнца. Результатом применения данного подхода является уточнение прогноза положения ИСЗ на орбите в будущий момент времени, получаемого с помощью аналитической модели.

Для проведения эксперимента был выбран диапазон высот, равный 500-700 километров. Подобный выбор обусловлен тем, что на данных высотах наблюдаются существенные колебания плотности атмосферы. Данные колебания вызываются как изменением времени суток, так и солнечной активностью. Кроме того, на этих высотах на космический аппарат действует максимальное число возмущающих факторов, в том числе совместно действуют возмущения от сопротивления атмосферы и светового давления.

Нейросетевая модель применялась для прогнозирования величины ошибки по одной из координат ИСЗ на основе совместной обработки нескольких случайных и нестационарных временных рядов: ряд предыдущих значений ошибки по данной координате, ряд предыдущих значений опытного баллистического коэффициента и ряд индекса солнечной активности. Ряд ошибок содержит величины расхождений прогноза, полученного с помощью аналитической модели, и фактическим значением данной координаты. Ряд опытных баллистических коэффициентов позволяет по выполнить учет неформализуемых атмосферных и прочих возмущений. Баллистический коэффициент Ъ рассчитывается по формуле [114]: - коэффициент аэродинамического сопротивления; - площадь миделевого сечения (проекция ИСЗ на плоскость, перпендикулярную направлению скорости полета) т- масса ИСЗ. Опытное значение баллистического коэффициента определяется из расхождений опытного времени полета по отношению к расчетному по формуле [114]: где п - число витков, соответствующее рассмотренному времени полета; Т - период обращения на первом витке; tm - опытное время полета; 1расч - расчетное время полета при значении баллистического коэффициента равном Ьрасч. Последний ряд содержит значения индекса солнечной активности (числа Вольфа) и позволяет учесть возмущения, связанные с активностью Солнца. Таким образом, рассматриваемая задача формулируется следующим образом: требуется обучить нейронную сеть, формирующую выходной сигнал Y(t+dt) на основе входного сигнала X Y=g(X). Выходной сигнал Y представляет собой ошибку прогноза определенной координаты ИСЗ через время dt. Входной сигнал X содержит три фактора (ряда), представленных совокупностью своих значений, начиная с момента времени t-k до момента времени t (в качестве шага дискретизации удобно принять сидерический виток). где Y - ряд значений ошибки прогноза, получаемой на аналитической модели для определенной координаты ИСЗ В - ряд опытных значений баллистического коэффициента W- ряд индекса солнечной активности (числа Вольфа) / - текущий момент времени к - глубина ретроспективной выборки. В общем случае к различно для разных факторов. В ходе эксперимента рассматривался ИСЗ со следующими элементами орбиты: - Большая полуось 7036.5023127496212 км - Эксцентриситет 0.000318811328958279 - Наклонение орбиты 0.994455176113661 рад. - Долгота восходящего узла от точки весеннего равноденствия 1.85932728416992 рад. - Аргумент перигея орбиты 5.47418455316074 рад. Сидерический виток осуществляется за 5881.214 с. Применяемая система координат - экваториальная геоцентрическая прямоугольная система XYZ. Горизонт прогнозирования dt был принят равным 100 сидерическим виткам (около недели). Шаг дискретизации по времени для рядов Y и В был установлен равным 100 виткам, а для ряда W - одной неделе. Значения используемых рядов данных приведены в Приложении Г. Ряд Y ошибок аналитической модели представляет собой значения ошибки в метрах, получаемые при прогнозе координаты Y на 100 витков вперед с помощью аналитической модели. Динамика изменения данной ошибки во времени приведена на рис. 4.3.

Похожие диссертации на Методика извлечения знаний в задачах анализа рядов динамики с использованием нейронных сетей