Адаптивный критик с использованием фильтра Калмана Ботин, Валерий Александрович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ботин, Валерий Александрович. Адаптивный критик с использованием фильтра Калмана : диссертация ... кандидата технических наук : 05.13.01 / Ботин Валерий Александрович; [Место защиты: Кубан. гос. технол. ун-т].- Краснодар, 2012.- 123 с.: ил. РГБ ОД, 61 12-5/2222

Содержание к диссертации

Введение

Глава 1. Топологии с подкреплением, фильтр Калмана и нейронные сети .

Обзор и анализ современного состояния 11

Обучение с подкреплением 12

Адаптивные критики 12

Алгоритм SARSA 16

Обобщенная схема адаптивных критиков 19

Варианты расчета подкрепления 21

Достоинства и недостатки сетей адаптивной критики 23

Нейронные сети 24

Нейронные сети для прогнозирования 26

Общий принцип решения задач прогнозирования с помощью нейронных сетей 28

Фильтр Калмана 30

Фильтр Калмана для прогнозирования 32

Фильтр Калмана для цветного шума помех 35

Некоторые замечания к теории фильтров Калмана 36

Ансамбль фильтров Калмана 37

Скользящая средняя 37

Метод МГУА 38

Выводы к главе 1 40

Глава 2. Модифицированный адаптивный критик с фильтром Калмана 41

Объект управления 43

Модуль прогнозирования рабочего параметра (Решатель) 43

Блок переобучения прогнозирующей нейронной сети 46

Одномерная, простая система с подкреплением на базе фильтра Калмана 49

Модуль критика на базе фильтра Калмана (вариант Q-критика) 54

Модуль критики на базе фильтра Калмана (вариант V-критика)

Выводы к главе 2 60

Глава 3. Модельные задачи с разработанной топологией 61

Введение 61

Построение механической торговой системы 61

Особенности финансовых рынков 61

Основные принципы построения МТС 63

Модель МТС финансового рынка на базе АКФК 68

Модель ITIL + адаптивный критик на базе ФК 71

Выводы к главе 3 92

Глава 4. Экспериментальная часть 94

Исследование МТС на базе АКФК 94

Исследование системы управления ИТ - отделом 103

Выводы к главе 4 110

Заключение 112

Приложение А (программные продукты) 113

Приложение Б (справочное) 1135

Список литературы:

Адаптивные критики
Общий принцип решения задач прогнозирования с помощью нейронных сетей
Одномерная, простая система с подкреплением на базе фильтра Калмана
Модель ITIL + адаптивный критик на базе ФК

Введение к работе

Актуальность исследования. Рациональное управление во многих прикладных задачах, например, ведение хозяйств, использование ресурсов, организация деловой активности, является многошаговой задачей, часто с бесконечным горизонтом. В данных задачах необходимо на каждой итерации выбирать некоторое управление, возможно неоптимальное на данном шаге, но оптимальное с точки зрения конечной цели. Другими словами, оптимальным должен быть весь многоэтапный процесс смены состояний системы. Однако зачастую построить такое управление классическими способами не представляется возможным в силу сложности решаемой задачи, и для решения таких задач в последнее время все чаще стали применять нейронные сети и топологии с подкреплением, в частности сети адаптивной критики и системы на базе Q – обучения. В то же время такие системы обладают недостатками, такими как необходимость переобучения, длительное пошаговое исследование среды, негарантированное поступление подкрепления и др.

Целью работы является разработка топологии модифицированного адаптивного критика с использованием фильтра Калмана, построение механической торговой системы на базе новой топологии и её программная реализация, разработка системы поддержки принятия решений ИТ – отдела крупного предприятия на базе новой топологии.

Задачи исследования:

провести анализ топологий, использующих принцип обучения с подкреплением;

провести сравнительный анализ методов прогнозирования;

разработать топологию, обучающуюся с подкреплением, отличающуюся высокими скоростными характеристиками работы;

разработать модель механической торговой системы на базе предлагаемой топологии, реализовать и протестировать её;

разработать модель управления ИТ – отделом крупной организации с использованием методологии ITIL и предлагаемой топологии, реализовать и протестировать её.

Методы исследования. Задачи исследования решены с использованием методов системного анализа, искусственного интеллекта, математической статистики, теории операций и теории фильтрации.

Научная новизна:

разработана топология модифицированного адаптивного критика с фильтром Калмана;
разработана топология модифицированного адаптивного критика с каскадом фильтров Калмана;
разработана и программно реализована механическая торговая система на базе модифицированного адаптивного критика с фильтром Калмана;
разработана и программно реализована система поддержки принятия решений ИТ – отдела с использованием модифицированного адаптивного критика с фильтром Калмана.

Практическая ценность работы заключается в разработке и апробации топологии модифицированного адаптивного критика с фильтром Калмана (далее АКФК), реализации программной библиотеки NNFilterTool для создания, исследования и применения разработанной топологии, программной реализации механической торговой системы (далее МТС) на базе АКФК, программной реализации системы поддержки принятия решений (далее СППР) ИТ – отдела крупной компании с использованием АКФК.

Реализация и внедрение результатов работы. Разработанная система поддержки принятия решений внедрена в ООО «Кубнет».

Основные положения, выносимые на защиту:

- топология АКФК;

- модель МТС на базе АКФК;

- модель СППР ИТ – подразделения крупного предприятия с использованием АКФК и методологии ITIL;

- результаты экспериментов с разработанными моделями.

Публикации. По материалам выполненных исследований опубликовано 5 научных работ, в том числе 3 статьи в журналах, рекомендованных ВАК РФ и 2 тезиса докладов, получено решение о выдаче патента на изобретение «Модифицированный интеллектуальный контроллер».

Структура и объем диссертации. Диссертация состоит из введения, четырёх разделов, заключения, списка использованной литературы и приложения. Её общий объем составляет 123 страниц текста, содержащего 39 рисунков и 8 таблиц.

Адаптивные критики

В данной главе приводятся основные топологии с подкреплением, при этом упор делается на те, которые можно использовать в качестве ядра различных систем управления. В качестве основного решающего механизма топологий с подкреплением используются различные математические модели, но наибольших успехов исследователи и разработчики достигли с помощью нейронных сетей, на которых строятся основные компоненты таких топологий. Однако нейронные сети, несмотря на свои несомненные достоинства, обладают и существенными недостатками, в частности их необходимо переобучать под новые данные и этот процесс может быть достаточно долгим, что неприемлемо для систем управления работающих в режиме реального времени. Также существуют выборки на которых невозможно обучить нейронную сеть с достаточной точностью в приемлемое время [79]. Существующие скоростные методы обучения нейронных сетей обычно проигрывают в точности стандартному методу обратного распространения ошибки и имеют существенные ограничения [61]. Существующие методы, использующие априорную информацию о процессе, требуют собственно наличие как можно большей информации о протекающих в системе процессах, как внутренних, так и внешних [24,79].

В качестве инструмента прогнозирующего будущее подкрепление в сетях адаптивной критики также можно выбрать, например, простую скользящую среднюю (SMA) - простой и быстрый способ расчета, можно использовать различные ARCH и GARCH фильтры [12,30]. Но в обучении с подкреплением и в адаптивных критиках в частности необходим дополнительный вход, который означает предпринимаемое действие, а такому условию удовлетворяют далеко не все алгоритмы прогнозирования. Поэтому логичным выглядит использование проверенного временем фильтра Калмана в режиме прогнозирования [29,64].

Обучение с подкреплением является отдельной ветвью искусственного интеллекта и ведет свое начало с работы [102]. Данный принцип обучения применяется в следующих областях: нейрофизиология, биология, психология, инженерные науки и т.д.. Рассмотрим передовое направление обучения с подкреплением - адаптивных критиков, которые обычно используют нейронные сети в качестве основных компонент.

Адаптивные критики (англ. adaptive critic design) являются, пожалуй, самой распространенной реализацией обучения с подкреплением в текущее время. Они ведут свое начало с работы [98]. Отметим весомый вклад американского ученого советского происхождения Д. Прохорова. В настоящее время разработано целое семейство различных конструкций адаптивных критиков Adaptive Critic Designs [43,55,87,88,97,98].

Адаптивные критики - это схемы управления, которые содержат специальный блок - Критик, который оценивает качество работы всей системы [55]. Топология также содержит Агента (модельный организм), который выполняет определенные действия в окружающей среде, тем самым взаимодействуя с внешней средой, при этом и внешняя среда может воздействовать на Агента. Схема работы следующая: Агент в текущей ситуации S(t) выполняет действие a(t), получает подкрепление r(t) и переходит в следующую ситуацию S(t +1). Введем понятие подкрепления - это оценка действия агента независимой компонентой за определенное время. Подкрепление обычно безразмерная величина.

Адаптивные критики используют в своей работе ошибку временной разности2 (далее ОВР) [102]. Коротко остановимся на ОВР. Постановка задачи, обычно следующая - допустим, что есть некая многошаговая задача, в которой имеется последовательность состояний. Реальное значение прогноза z становится известным только после того, как система достигнет конечного состояния. Системе необходимо научиться давать прогноз на основе текущего состояния. При использовании традиционных методов прогнозирования, система дает прогноз для каждого состояния системы и запоминает их. После достижения конечного состояния, считаются ошибки прогноза на каждом шаге и после этого, каким - либо способом проводятся меры по повышению качества прогноза. Таким образом, система может повысить качество прогноза только после прохода всех состояний и достижения конечной точки [61].

При использовании метода временной разности в качестве ошибки вычисляется разность между двумя последовательными прогнозами. То есть система может производить коррекцию после каждого перехода.

В задачах с подкреплением, и в адаптивных критиках в частности, необходимо обучить систему последовательному прогнозу функции ценности: соответственно скорости обучения нейросетей Критика и Агента. Смысл изменения весов - уменьшить ошибку в оценке ожидаемой награды (обучение Критика) и увеличить значение самой награды при попадании Агента в сходные ситуации (обучение Агента) [61]. Таким образом, Q - критик «содержит» в себе таблицу, где столбцы и строки это состояния - действия, а в ячейках лежит уже накопленная история «успехов и неудач», какое подкрепление агент получил, выполняя в і - м состоянии j -е действие. При этом возможны различные реализации, вплоть до модуля прогнозирования на основе истории поступления подкрепления в в і - м состоянии выполнения j - е действие [56]. Отметим, что количество возможных действий в различных состояниях в общем случае не равны. Впрочем, данный момент можно разрешить с помощью специальных обозначений и ограничений.

Общий принцип решения задач прогнозирования с помощью нейронных сетей

В задачах прогнозирования принято, что на входы прогнозирующей нейронной сети подается «скользящее окно» прогнозируемого параметра за несколько предыдущих итераций, плюс дополнительные параметры. Выход у прогнозирующей нейронной сети обычно один [79], который показывает чему равно значение параметра на следующей итерации.

Выбор многослойного персептрона в качестве прогнозирующего элемента обусловлен тем, что он хорошо зарекомендовал себя во многих задачах прогнозирования, как на основании исследованной литературы [16,17,23,24,35,61,71,79,83], так и на основании опыта автора. К достоинствам многослойного персептрона можно отнести следующее: возможность использования неограниченного числа входов и выходов; относительная простота программной реализации; большое количество разработанных библиотек, практически на всех языках программирования;

Модуль прогнозирования может работать вне общей схемы устройства. В общем случае, нейронная сеть, являющаяся ядром модуля, работает по первоначальному обучению, но в случае, если прогнозирующая нейронная сеть на нескольких итерациях давала неудовлетворяющий прогноз, то в систему заложена возможность переобучения прогнозирующей нейронной сети в режиме он - лайн. За переобучение нейронной сети отвечает блок переобучения прогнозирующей нейронной сети (БППНС).

Блок переобучения прогнозирующей нейронной сети Данный блок весьма важен, учитывая особенности работы в режиме реального времени в условиях стохастической среды. Блок использует историю основного временного ряда, а также историю влияющих факторов.

Вообще говоря, процесс обучения нейронной сети и поиск оптимальных параметров самой нейронной сети - это очень и очень трудный процесс [61,79]. Достаточно сказать, что нейронную сеть с одними и теми же параметрами нельзя дважды одинаково обучить, если используется качественный генератор случайных чисел. Даже если ошибка на валидационной выборке будет одинаковая, веса нейронной сети все равно будут различаться.

В процессе поиска адекватной модели нейронной сети для прогнозирования (а мы рассматриваем в данном случае только такую задачу) можно варьировать следующие параметры (в скобках указаны номера соответствующих блоков на Рисунке 11):

В зависимости от топологии нейронной сети и алгоритма обучения могут добавляться параметры для подстройки. Таким образом, БГПТНС, который можно применять, изменив целевую функцию, для подстройки не только прогнозирующих нейронных сетей, но и для других задач, выглядит как показано на Рисунке 11.

БПГШС можно реализовать несколькими способами. Самый простой -обычным перебором, самый перспективный - с помощью генетических алгоритмов [56].

Алгоритм работы БППНС в случае обычного перебора параметров показан на Рисунке 12. При этом, как показывает практика, лучше стартовать с минимального количества входов/ выходов, слоев и нейронов в них. Старт

Сначала рассмотрим простую систему с подкреплением на базе фильтра Калмана (см. Рисунок ). Предлагаемая система состоит из Решателя, который выдает на выходе наблюдаемый (рассчитываемый) сигнал Z,,

данный сигнал наблюдаем, и мы можем получить его численное значение (в общем случае с шумом). Далее сигнал Z, идет на прогнозирующий фильтр Калмана (в стандартном исполнении прогнозирование идет на один шаг). При этом фильтр Калмана прогнозирует подкрепление (или, другими словами, качество работы) системы Rt+i. Принцип работы дискретного фильтра Калмана в данном случае стандартный (в оценке подкрепления). Принципиальная схема представлена Рисунке 13. Оагиятапи \JU ЬсМ YllfJcjQ J icni-i л 2

Простая топология с подкреплением на базе фильтра Калмана Блок расчета подкрепления 3, реализует математическую формулу рассчитывающую реальное значение подкрепления, после того, как сигнал действия (управления) 17.2 отработан объектом управления 1. Блок действий 4 хранит таблицу возможных действий в конкретных ситуациях. Фильтр Калмана 5 предназначен для вычисления ненаблюдаемой величины. Фильтр Калмана выполняется в стандартном исполнении, например, по патенту.

Память фильтра Калмана 6 предназначена для временного хранения параметров блока фильтра Калмана 5. Блок хранит столько наборов - параметров фильтра Калмана, сколько выбрано возможных действий в блоке действий 4.

Блок выбора действий 7 предназначен для выбора действия из возможных в данной ситуации на базе "жадного правила".

Принцип работы интеллектуального контроллера следующий. Объект управления 1 выполняет действие и образует на выходе сигнал состояния 8. Далее сигнал состояния поступает на блок действий 4, блок расчета подкрепления 3 и решатель 2. Блок расчета подкрепления 3 рассчитывает реальное получившееся подкрепление 9 и подает его на блок действий 4 и фильтр Калмана 5. Решатель 2 в свою очередь обрабатывает сигнал с объекта управления и на выходе формирует наблюдаемый сигнал 11. Получив сигнал состояния, блок действий 4 выбирает возможные действия в данной ситуации с учетом реального подкрепления на последней итерации и выдает их последовательно на фильтр Калмана 5, при этом он подает синхронизирующий сигнал 10 на решатель 2, чтобы он одновременно с блоком действий выдавал значение наблюдаемой величины 11 на фильтр Калмана 5. Фильтр Калмана 5 последовательно получает пары значений {наблюдаемый сигнал 11; возможное действие 12.2} и рассчитывает возможное подкрепление 15 для каждого возможного действия. После расчета подкрепления фильтр Калмана выдает значение подкрепления 15 на блок выбора действий 7, на который также идет действие 12.1 от блока действий 4, которое учитывалось при расчете ненаблюдаемого сигнала (подкрепления) фильтром Калмана 5. Также в памяти фильтра Калмана 6 сохраняются текущие параметры фильтра Калмана 5. Блок выбора действий 7 выбирает действие на основе "жадного" правила, которое можно записать как: с вероятностью (l-є) выбирается то действие, которому соответствует максимальное значение подкрепления R (t +1), при этом 0 є «1. После выбора действия сигнал 17 идет на объект управления 1 и записывается в блок действий 4, а также на память фильтра Калмана 6, которая восстанавливает параметры фильтра Калмана 5 для выбранного действия.

Одномерная, простая система с подкреплением на базе фильтра Калмана

Работа ФК в реализованном ПО заключается в анализе имеющихся данных и последующем прогнозировании количества обращений на группах, срок решения которых превышает трех рабочих дней. Сотрудник ИТ - отдела по средствам программного перемещения специалистов по группам может оптимизировать работу всего отдела для достижения максимально быстрого решения инцидентов.

Так же в реализованном ПО есть возможность полностью автоматически доверить управление ИТ - отделом СППР. В данном случаем сотрудникам необходимо всего лишь выкладывать недельный отчет HP Open View в специально отведенную директорию переименовывая его согласно существующим правилам обработки входящих данных ПО СППР организации. Работая в автоматическом режиме СППР анализирует имеющуюся отчетность, прогнозирует недельное количество обращений на весь отдел ИТ по группам. После в ход вступает модуль с ФК который, в свою очередь, анализирует спрогнозированные данные и продолжает их обработку в поисках оптимального решения для перемещения специалистов по группам.

Стоит уделить особое внимание тому моменту, что даже по окончанию работ с инцидентом, пользователь имеет право вернуть в его обратно в работу отделу ИТ. В данном случае качество сервиса заметно снижается и учитывается в последующих отчетах, необходимых для контроля работы сотрудников ИТ отдела и последующем расчете премиальной части каждого из них. СППР никаким образом не влияет на эти показатели, но стоит отметить, что прогнозируемые данные и реально существующие показатели за июнь месяц 2011 года достигли минимальной существующей разницы: 1,43%! Выводы

Как видно из рисунка 30 основным центром обработки данных является серверный комплекс HP Open View Service Desk. Основный запросы, история, база данных, отчетность и вспомогательные данные хранятся именно на этом сервере. Запросы пользователей имеют двустороннюю связь в которой осуществляется как передача данных на обслуживание, так и ответная реакция о статусе инцидента: рабочий статус, назначенный исполнитель для данного обращения, запросы от ИТ -специалиста к пользователю (запрос дополнительной информации при отсутствии необходимого минимума для решения сложившейся проблемы).

С другой стороны большую информативность от центра обработки данных получают сотрудники отдела ИТ. Каждая группа и специалист имеют свои ровни доступа клиентской части к данным сервера. Специалист способен обрабатывать одновременно неограниченное число обращений на различных группах в зависимости от предоставленного ранее доступа. То есть СППР может указать для конкретного специалиста приоритетность выполнения обращений конкретной группы ИТ - сервиса для достижения максимально возможного качества работы всего отдела целиком.

Клиентская часть, используемая специалистами ИТ, предоставляет большие возможности и для переназначения обращений пользователей с исчерпывающими комментариями на других специалистов, и доступ к собственной, наработанной со временем, базой данных решения тех или иных проблем. Известны случаи, когда сотрудник группы технической поддержки одновременно средствами удаленного управления ПК решал проблемы трех пользователей не обращаясь к базе знаний, что существенно повлияло на коэффициент качества в лучшую сторону, но никак не отразилось на работу фильтра Калмана реализованного ПО, так как все инциденты были устранены в срок менее трех рабочих дней организации. В подобных случаях при ошибочных действиях ИТ -специалиста или же при возникновении ситуации, когда пользователь возвращает обращение в работу, еженедельная отчетность ЦОД ухудшается, что влечет за собой некорректные прогнозируемые данные на следующую рабочую неделю. П офакту получается, что из-за самоуверенности сотрудника отдела ИТ СППР способна прогнозировать чуть большее количество обращений, на решение которых уйдет более трех дней и, тем самым (при условии, что СППР работает в автоматическом режиме), повлечет за собой некорректное переназначение специалистов по группам.

После введения программного комплекса СППР на серверах организации и уточнения технических тонкостей, для быстрого и удобного пользование ПО, было принято решение работать по недельным данных и составлять прогнозы сроком на неделю. По типовому описанию процесс выгрузки отчетности проводится вручную вечером в конце рабочей недели дежурным сотрудником ИТ отдела. В свою очередь СППР автоматически импортировала заранее переименованный csv файл для последующего переобучения нейронной сети и прогнозирования количества обращений на следующую рабочую неделю.

В штатном режиме ПО работает полностью в автоматическом режиме и самостоятельно выставляет количество сотрудников и их приоритетность для той или иной группы, что отображается в истории изменений (LOG -фале) программы. В случае того, если начальник отдела либо руководители групп не согласны с данным решением, они могут перенаправить сотрудников из одного отдела в другой в ручном режиме пользуясь графическим клиентом СППР. При такой ситуации без потери данных, основываясь на прогнозе нейронной сети фильтр Калмана заново обрабатывает поступившие данные и проводит анализ в результате которого сотрудники видят прогнозируемые величины качества выполняемого сервиса.

Основным источником данных являются две однотабличных базы данных реализованных в среде MS ACCESS и BDE. Первая необходима для долгосрочного хранения данных отчетности HP Open View Service Desk с возможным доступом при необходимости. Вторая БД, реализованная по средствам Borland Database Engine используется для оперативного доступа и работы с данными фильтра Калмана, увеличивая эффективность и скорость всего комплекса, при ручном «подгоне» сотрудников по группам.

При реализации программного обеспечения были учтены факторы емкости базы данных и скорости обработки запросов. Основным хранилищем выбрана БД MS ACCESS только из-за простоты реализации и удобном доступе стандартными средствами пакета Microsoft Office. Скорость обработки запросов для такой базы данных не является существенным фактором, так как данная БД используется только для одноразовой записи данных и последующего одноразового их чтения в конце рабочей недели. Для реализации данного хранилище не требуется установка и настройка дополнительных программных продуктов.

В свою очередь база данных реализованная средствами Borland Database Engine отличается своей скоростью в обработке запросом и используется исключительно для низких прогнозируемых величин по средствам фильтра Калмана. Объем данного хранилища в разы меньше предыдущего и используется оно в режиме реального времени при формировании автоматического запроса либо же в ручном режите начальником отдела ИТ при перемещении сотрудников в группе. Оперативная обработка данных позволяет СППР моментально обрабатывать принятые изменения и прогнозировать последующие величины. Сам клиент СППР реализован с использованием самостоятельных модулей ADO для подключения как к локальным базам данных, так и к удаленным. Данное решение является весьма удобным в плане простоты использования клиента СППР: при соответствующих настройках серверной комплекса организации доступ к базе и файлм настройки программы можно производить удаленно средствами клиента СППР.

Модель ITIL + адаптивный критик на базе ФК

В четвертой главе приведены результаты функционирования предложенной топологии адаптивного критика с фильтром Калмана к двум разноплановым задачам.

Построенная МТС на базе адаптивного критика с фильтром Калмана показывает прибыльность в среднем на 20% выше, чем модели со стандартным адаптивным критиком. По результатам многочисленных экспериментов с МТС на базе технических индикаторов [81,82], данные МТС обычно не проходят тестирование на реальных данных и показаны в таблицах только для сравнения. Использование адаптивного критика с фильтром Калмана дает существенный выигрыш по времени анализа ситуации и принятия решений на торговую операцию в сравнении со стандартным адаптивным критиком. Значительное снижение времени анализа ситуации и выработки решения существенно при построении высокочастотных МТС, то есть МТС работающих на тиковом графике. Также выигрыш во времени существенен при построении многоконтурных механических систем работающих с множеством финансовых активов.

Построенная система управления ИТ - отделом позволяет корректировать работу каждой группы по ИТ-отраслям для достижения максимального качества выполняемых ИТ запросов пользователей. В свою очередь еженедельная выгрузка данных о состоянии количества обращений позволяет переобучать нейронную сеть для прогнозирования наиболее точных данных о возможных инцидентах и их количестве на следующую рабочую неделю, что также позволяет эффективно распределить нагрузку специалистов как в самой группе, так и в отделе целиком.

В процессе практической эксплуатации выяснилось, что данная система способна подсказывать начальнику отдела либо же работодателю о необходимости расширения штата сотрудников отдела ИТ, что в свою очередь является весьма положительным эффектом всего программного комплекса.

Также основным показателем является и тот момент, что после прогнозирования данных для дальнейшего распределения нагрузок по группам, сотрудники получают больше времени для организации работы сторонних сервисов и пополнения базы знаний отдела.

Тем самым, приведенные эксперименты показывают универсальность разработанной топологии.

Проделанная в рамках диссертации работа позволила ответить на поставленные вопросы, цели и задачи исследования. Основными задачами исследования являлись: создание новой топологии адаптивного критика и алгоритма его обучения, создание обоснованной методики и ее апробация в важных прикладных проблемах.

Разработанную топологию АКФК рекомендуется использовать в тех случаях, когда известна математическая модель рабочей системы, либо когда по историческим данным (по предыдущим результатам работы системы) можно построить априорную модель среды. Данная модель разработана на двух хорошо зарекомендовавших себя моделях - фильтре Калмана и адаптивных критиках и в целом она наследует, как положительные так и отрицательные качества своих «прародителей». В то же время, в ряде задач, там, где необходимо быстрое время реакции решателя, то есть когда на тактическом уровне система работает в режиме реального времени, у данной модели неоспоримое преимущество перед стандартными адаптивными критиками. При этом компонента стратегического управления - критик, остается такой же, как у стандартного адаптивного критика. Разработанная топология, как наследник адаптивных критиков, несет в себе большой потенциал развития, в частности на разных уровнях топологии можно использовать различные модели и алгоритмы прогнозирования и выбора действий.

Созданная топология является инвариантной от моделируемой задачи и может применяться для построения различных систем управления, в том числе и для недетерминированных сред.

Приложение А (программные продукты) В данном приложении перечислим основные программные продукты, реализующие или в которых можно реализовать: нейронные сети, фильтр Калмана и сети адаптивной критики. Существует, пожалуй, единственный программный продукт, в котором можно из готовых блоков (или функций) реализовать все три вышеперечисленных модели - это система "Matlab" от "MathWorks Inc". Отметим дополнительные модули под "Matlab" разработанные сторонними разработчиками - это "IRIS" с довольно удобной реализацией фильтра Калмана.

Программные продукты, реализующие фильтр Калмана: JKalman, PyKF и т.д. А также различные Add - In к "Matlab", в частности IRIS. В основном программное обеспечение, которое можно найти в сети Интернет, с фильтром Калмана разрабатывают различные университеты.

Программные продукты, реализующие сети адаптивной критики и обучение с подкреплением вообще: PIQLE, Elsy, SkyAI, Maya Machine, RL++. При этом отметим, что большинство данных программных продуктов реализуют конкретные модельные задачи, то есть для решения других задач необходимо серьезное изменение кода (большинство из продуктов с открытым кодом).

Адаптивный критик с использованием фильтра Калмана Ботин, Валерий Александрович

Адаптивные критики

Общий принцип решения задач прогнозирования с помощью нейронных сетей

Одномерная, простая система с подкреплением на базе фильтра Калмана

Модель ITIL + адаптивный критик на базе ФК

Похожие диссертации на Адаптивный критик с использованием фильтра Калмана