Содержание к диссертации
Введение
CLASS 1 Метод подкрепляемого обучения 1 CLASS 1
1.1 Постановка задачи подкрепляемого обучения 12
1.2 Суммарная величина подкрепления 14
1.3 Стратегия управления 15
1.4 Исследование среды и использование знаний 16
1.5 Свойства сигналов состояния внешней среды и подкрепления 17
1.6 Функции оценки 18
1.7 Оптимальная стратегия управления 20
1.8 Оптимальные функции оценки 21
1.9 Алгоритмы обучения 23
1.9.1 Алгоритм временных разностей 23
1.9.2 Алгоритм Q-обучения 24
1.9.3 Алгоритм SARSА 25
1.9.4 Алгоритм TD(X) 26
1.9.5 Анализ алгоритмов обучения 27
Основные результаты и выводы по главе 1 28
2 Способ построения RL-Сау 30
2.1 Структурная схема системы экстремального управления 30
2.2 Обобщенная структурная схема RL-САУ 31
2.2.1 Импульсный элемент 32
2.2.2 Квантователь 33
2.2.3 Анализирующее устройство 34
2.2.4 Блок «Агент» 35
2.2.5 Экстраполятор 39
2.3 Программное средство «Исследование RL-САУ» 40
2.3.1 Пользовательский интерфейс 41
2.3.2 Модуль «Математическая модель объекта управления» 43
2.3.3 Модуль «Задающее устройство» 46
2.3.4 Модуль «Управляющее устройство» 47
2.3.5 Модуль визуализации и протоколирования 48
2.4 Экспериментальные исследования RL-САУ 50
2.4.1 Исследование системы управления объектом первого порядка «Апериодическое звено» 51
2.4.2 Исследование системы управления объектом второго порядка «Колебательное звено» 61
2.4.3 Исследование системы управления объектом «Маятник» 71
2.5 Результаты исследований RL-САУ 75
Основные результаты и выводы по главе 2 76
3 Неиросетевои метод управления на основе подкрепляемого обучения 77
3.1 Классификация ИНС 77
3.1.1 Однослойный перцептрон 78
3.1.2 Многослойный перцептрон 80
3.1.2.1 Алгоритм обратного распространения ошибки 81
3.1.3 Радиально-базисная нейронная сеть 84
3.1.3.1 Градиентный алгоритм обучения радиальыо-базисной нейронной сети 85
3.1.3.2 Модифицированный градиентный алгоритм обучения радиально-базисной нейронной сети 97
3.2 Обобщенная структурная схема нейросетевой RL-САУ 109
3.2.1 Блок нормализации J10
3.2.2 Формирование сигнала выходного воздействия 110 -
3.2.3 Блок «Агент» 112
3.3 Программное средство «Исследование NRL-САУ» 115
3.4 Экспериментальные исследования NRL-САУ 118
3.4.1 Исследование системы управления объектом второго порядка 118
3.4.2 Исследование системы управления объектом «Акробот» г. 123
3.5 Результаты исследования нейросетевой RL-САУ 125
Основные результаты и выводы по главе 3 127
Заключение 129
Список использованных источников 131
Приложение а. Реализация модифицированного градиентного алгоритма обучения рбнс на языке object pascal 141
Приложение б. Акт внедрения результатов диссертационной работы
- Постановка задачи подкрепляемого обучения
- Исследование среды и использование знаний
- Структурная схема системы экстремального управления
- Однослойный перцептрон
Введение к работе
Постоянное усложнение технических объектов управления (ОУ) и расширение областей их применения приводит к необходимости развития средств и методов интеллектуального управления в условиях неопределенности и при изменяющихся условиях функционирования. Применение методов классической теории автоматического управления для управления сложными динамическими ОУ затруднено рядом факторов. Прежде всего, это сложность получения достаточно точного формализованного описания ОУ. Кроме того, параметры ОУ могут изменяться в широких пределах в процессе функционирования системы, либо иметь большой разброс значений от образца к образцу. В таких случаях регуляторы с постоянными настройками не всегда могут обеспечить требуемое качество работы системы. Также следует учесть, что практически все реальные ОУ являются нелинейными, и их представление в виде линейных математических моделей является лишь приблизительным. Многообразие видов нелинейностей, несмотря на большое количество публикаций по этой теме, не позволяет создать единую теорию идентификации нелинейных ОУ. Чаще всего применяется классический подход, основанный на аппроксимации нелинейностей рядами Гаммерштейна, Винера, Вольтера, полиномами Колмогорова-Габора и др. [25]. Однако область применения таких моделей ограничена. Кроме того, наличие в реальных сигналах помех вносит дополнительные трудности в процесс получения адекватного математического описания ОУ. Преодоление указанных трудностей связывают с развитием интеллектуальных систем управления, основанных, в частности, на применении аппарата искусственных нейронных сетей.
Начиная с 1990-х гг. активно развивается метод подкрепляемого обучения (англ. reinforcement learning), относящийся к группе методов машинного обучения [81]. В основе этого метода лежат те основополагающие принципы адаптивного поведения, которые позволяют живым организмам приспосабливаться к изменяющимся или неизвестным условиям обитания. В этом методе рассматривается система, которая в процессе взаимодействия с
внешней средой получает сигнал подкрепления, характеризующий, насколько хорошо функционирует система в текущий момент времени. Алгоритмы, относящиеся к методу подкрепляемого обучения, определяют порядок изменения состояния системы таким образом, чтобы формируемые воздействия системы на внешнюю среду обеспечивали максимальное значение суммарного сигнала подкрепления, накопленного за длительный период времени. Одной из отличительных особенностей метода подкрепляемого обучения является тот факт, что в начале функционирования система не обладает практически никакой информацией о внешней среде, и обучение системы происходит в процессе взаимодействия с ней. Второй особенностью метода подкрепляемого обучения является формирование воздействий с учетом сигналов подкрепления, которые будут получены в отдаленном будущем.
В исходном виде метод подкрепляемого обучения предполагает конечное количество возможных состояний внешней среды и сигналов воздействия, что затрудняет его применение в задачах управления, в которых сигналы обычно являются непрерывными. Тем не менее, в зарубежной литературе рассматривается несколько успешных применений метода подкрепляемого обучения для управления моделями таких объектов, как тележка с шестом [65], перевернутый маятник и «Акробот» [53], а также для управления движением роботов [52, 55, 60, 67, 71]. Однако, указанные системы управления были разработаны под конкретные задачи, что не позволяет говорить о едином методе управления, основанном на подкрепляемом обучении.
Цель работы и задачи исследования. Целью работы является разработка нейросетевого метода адаптивного управления, основанного на принципах подкрепляемого обучения и обеспечивающего формирование управляющих воздействий на основе взаимодействия с объектом управления.
Для достижения поставленной цели были решены следующие задачи:
Разработка модифицированного градиентного алгоритма обучения радиально-бизисных нейронных сетей (РБНС), обеспечивающего динамическое изменение структуры нейронной сети в процессе обучения.
Разработка обобщенной структурной схемы нейросетевой RL-САУ и алгоритмов работы структурных блоков.
Разработка программного средства для моделирования нейросетевой RL-САУ.
Определение рекомендаций по настройке параметров УУ в процессе работы RL-САУ.
Апробация разработанного метода управления в задачах управления линейными и нелинейными ОУ.
Методы исследований. В работе использованы методы теории управления, теории оптимизации, системного анализа, математического моделирования, прикладной математики и теории нейронных сетей.
Апробация работы. Основные положения и результаты диссертационной работы докладывались, обсуждались и вошли в сборники трудов IX Русско-Корейского международного симпозиума по науке и технологии KORUS-2005 (г. Новосибирск, 2005 г.), V и VI Всероссийских научно-практических конференций студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (г. Томск, 2007 и 2008 гг.), XI, XII и XIII Международных научно-практических конференций студентов, аспирантов и молодых ученых «Современная техника и технологии» (г. Томск, 2005-2007 гг.), IX Всероссийской научно-технической конференции «Нейроинформатика-2007» (г. Москва, 2007 г.), Международных научно-технических конференций «Интеллектуальные системы» (IEEE AIS-06) и «Интеллектуальные САПР» (CAD-2006) (г. Дивноморское, 2006 г.), IV международной научно-практической конференции «Исследование, разработка и применение высоких технологий в промышленности» (г. Санкт-Петербург, 2007 г.), III Всероссийской научно-практической конференции «Имитационное моделирование. Теория и практика» (ИММОД-2007) (г. Санкт-Петербург,
8 2007 г.), II Российско-Коррейского научно-технического семинара «Мехатроника: устройства и управление» (г. Томск, 2008 г.).
Публикации. По результатам исследований опубликовано 14 работ, из них одна работа в издании, рекомендуемом списком ВАК.
Научную новизну работы определяют:
Модифицированный градиентный алгоритм обучения РБНС, отличающийся от классического градиентного алгоритма возможностью динамического изменения структуры РБНС.
Нейросетевой метод адаптивного управления, основанный на разработанной обобщенной структурной схеме нейросетевой RL-САУ и алгоритмах функционирования структурных блоков и обеспечивающий формирование управляющих воздействий на основе взаимодействия с ОУ.
Алгоритм адаптивного изменения значения параметра обучения в процессе функционирования нейросетевой RL-САУ, обеспечивающий устойчивость процесса обучения при использовании РБНС для представления функции оценки воздействия.
Практическая значимость и реализация результатов работы.
Разработанный метод управления может быть использован при разработке адаптивных систем управления, когда отсутствует априорная - - --информация--о- математической модели ОУ. Разработанное программное средство моделирования нейросетевой RL-САУ может быть использовано для определения последовательности управляющих воздействий, переводящих ОУ из начального состояния в требуемое.
Разработанное программное средство моделирования нейросетевой RL-САУ используется в ОАО «Информационные спутниковые системы» имени академика М.Ф. Решетнева». Результат внедрения подтвержден соответствующим актом.
Результаты диссертационной работы используются в учебном процессе при приведении лекционных занятий по курсу «Современные проблемы автоматизации и управления».
9 Основные положения, выносимые на защиту:
Разработанный модифицированный градиентный алгоритм обучения РБНС обеспечивает автоматическое формирование структуры нейронной сети в процессе обучения.
Нейросетевая RL-САУ позволяет формировать управляющие воздействия на ОУ в соответствии с выбранным критерием функционирования системы при неизвестных или изменяющихся свойствах ОУ.
Разработанный алгоритм адаптивного изменения значения параметра обучения позволяет обеспечить устойчивость процесса обучения при использовании РБНС для представления функции оценки воздействия.
Личный вклад автора. Автором непосредственно получены все основные результаты работы: разработан модифицированный алгоритм обучения РБНС, разработана обобщенная структурная схема нейросетевой RL-САУ и алгоритмы работы структурных блоков, разработаны и написаны программы «Исследование RL-САУ» и «Исследование NRL-САУ».
Структура и объем работы. Диссертационная работа состоит из введения, трех глав, заключения, двух приложений. Основной текст изложен на 140 страницах, общий объем работы - 148 страниц. Диссертация включает 64 рисунка, 5 таблиц. Список использованных источников содержит 92 наименования.
В первой главе рассмотрены основные положения метода подкрепляемого обучения: постановка задачи, основные понятия, цель функционирования агента. Проведен анализ различных алгоритмов обучения.
Вторая глава содержит описание разработанной обобщенной структурной схемы RL-САУ, в которой функция оценки воздействия представлена матрицей вещественных чисел. Приведены алгоритмы функционирования структурных блоков, описание разработанного программного средства и результаты экспериментальных исследований систем управления различными ОУ.
В третьей главе представлен метод управления, основанный на обобщенной структурной схеме нейросетевой RL-САУ, в которой функция оценки воздействия представлена с помощью РБНС, и алгоритмах функционирования структурных блоков. Представлен обзор основных типов ИНС и алгоритмов обучения. Приведено описание модифицированного градиентного алгоритма обучения РБНС. Приведены результаты экспериментальных исследований систем управления различными ОУ.
В заключении изложены основные научные и практические результаты, достигнутые в ходе диссертационного исследования и решения поставленных задач.
В приложения вынесены листинг программы с реализацией модифицированного градиентного алгоритма обучения РБНС на языке Object Pascal и акты внедрения результатов диссертационной работы.
Постановка задачи подкрепляемого обучения
В методе подкрепляемого обучения рассматривается агент, взаимодействующий с внешней средой. В данной работе сохранена терминология, которую использовали авторы метода подкрепляемого обучения [81]. Под агентом понимается некоторая автономная система, которая имеет возможность получать информацию о состоянии внешней среды и формировать воздействия, которые приводят к изменению состояния внешней среды. Внешней средой называется все, что находится вне агента и с чем он взаимодействует. Схема взаимодействия агента и среды показана- на рисунке 1.1.
Схема взаимодействия агента со средой
Агент и среда взаимодействуют в дискретные моменты времени /,-, называемые тактами. В каждый такт t\ агент получает информацию о состоянии внешней среды SteS, где S - конечное множество возможных состояний внешней среды, и на основе этой информации вырабатывает некоторое воздействие на внешнюю среду Я,-ЄУ4(.У,-), где A(st) - конечное множество воздействий, которые агент может выработать при состоянии внешней среды s{. На следующем такте воздействие щ переводит внешнюю среду в новое состояние si+\. Агент получает информацию о состоянии внешней среды si+\ и вырабатывает воздействие ai+\. Такое взаимодействие агента с внешней средой продолжается и в последующие такты. На каждом такте агент получает сигнал подкрепления / ,, который является скалярной величиной и характеризует, насколько хорошо агент функционирует во внешней среде. Чем лучше функционирование агента, тем больше значение сигнала подкрепления. Цель агента заключается в том, чтобы вырабатывать такие воздействия на внешнюю среду, которые приведут к сигналам подкрепления с максимальной величиной. Такое взаимодействие между агентом и внешней средой может быть рассмотрено как марковский процесс принятия решения [46, 47, 48, 74].
Сигнал подкрепления характеризует не только последние воздействия, сформированные агентом, но также и все воздействия агента, которые привели к текущему состоянию внешней среды. Наличие сигнала подкрепления, определяющего цель функционирования агента, является отличительной чертой метода подкрепляемого обучения.
Граница между агентом и средой не обязательно соответствует физической границе в реальной системе. Например, для робототехнической системы двигатели и датчики являются частью внешней среды, а не частью агента. Сигнал подкрепления вычисляется внутри робототехнической системы, но для агента этот сигнал будет являться внешним. При определении границы между агентом и внешней средой следует руководствоваться следующим правилом: все, что агент не может непосредственно изменить, является частью внешней среды, а все, что агент может непосредственно изменить, является частью агента. В соответствии с этим правилом, сигнал подкрепления не может быть частью агента, а должен являться частью внешней среды, иначе все действия агента заключались бы в непосредственном изменении сигнала подкрепления [30 - 32].
Задача обучения с подкреплением считается поставленной, если определены множество состояний внешней среды S, множество воздействий А и правило определения значения сигнала подкрепления г.
Существует два типа задач обучения с подкреплением: эпизодические задачи и непрерывные задачи [65]. В эпизодической задаче весь процесс взаимодействия агента со средой разбивается на последовательности взаимодействий, называемые эпизодами. Каждый эпизод заканчивается специальным состоянием внешней среды, называемым «конечное состояние», за которым происходит установление исходного состояния внешней среды. В непрерывной задаче взаимодействие агента со средой не прерывается. Примером эпизодической задачи является игра в шахматы. Каждый эпизод в данном случае будет заканчиваться в одном, из трех конечных состояний: победа, поражение или ничья. За конечным состоянием следует установление начального состояния, когда все фигуры находятся на своих исходных позициях.
Целью функционирования агента является максимизация суммарной величины подкрепления R [81]. Для эпизодической задачи суммарная величина подкрепления R на z -ом такте определяется как сумма всех величин— подкреплений, которые получит агент со следующего такта и до последнего такта текущего эпизода: где / - номер текущего такта, N— номер последнего такта в эпизоде.
Так как каждый эпизод состоит из конечного количества тактов, то и суммарная величина подкрепления является ограниченной величиной. Для непрерывной задачи выражение (1.1) неприменимо, так как количество тактов в эпизоде равно бесконечности, и суммарная величина подкрепления R также может стремиться к бесконечности. В случае непрерывной задачи используется выражение Я,- =гм + угм + у2 т;+3 +... = Zyk -rM+k , (1.2) к=0 где у є [О, 1] - параметр дисконтирования сигнала подкрепления, который обеспечивает сходимость суммарной величины подкрепления.
Параметр дисконтирования сигнала подкрепления определяет текущие значения тех сигналов подкрепления, которые агент получит в будущем. Если у 1 и все величины сигнала подкрепления являются ограниченными величинами, то суммарная величина подкрепления, вычисленная по выражению (1.2), является ограниченной величиной. Если у=0, то суммарная величина подкрепления будет равна величине подкрепления, полученной на следующем такте, а все последующие величины подкреплений не будут учитываться. Чем ближе параметр дисконтирования к единице, тем больше принимаются во внимание те величины подкреплений, которые агент получит в отдаленном будущем. На практике наиболее часто используют значение параметра дисконтирования у=0,9 [6].
Исследование среды и использование знаний
Когда агент начинает функционировать во внешней среде, ему необходимо определить какие воздействия в каких состояниях внешней среды приводят к наибольшему значению сигнала подкрепления. Для этого агент должен вырабатывать случайные воздействия и анализировать полученные результаты. С другой стороны, для достижения цели функционирования агент должен использовать накопленные знания и вырабатывать такие воздействия, которые приводят к наибольшей суммарной величине подкрепления. Для успешного функционирования агент должен комбинировать процессы исследования среды и использования накопленных знаний. Существует две основных стратегии управления, которые комбинируют эти процессы: «жадная» стратегия управления и «є-жадная» стратегия управления [65].
«Жадная» стратегия управления предполагает, что агент всегда выбирает воздействие, приводящее к состоянию внешней среды, которое в соответствии с накопленными знаниями характеризуется наибольшей суммарной величиной подкрепления. Если знания агента являются неполными или неточными, то воздействия, вырабатываемые агентом, не будут наилучшими. Но когда знания агента о внешней среде соответствуют действительности, такая стратегия управления приведет к наилучшим результатам.
В «s-жадной» стратегии управления определяется значение параметра є из интервала (0; 1), и агент на каждом такте с вероятностью с исследует внешнюю среду, т.е. случайно выбирает одно из возможных воздействий, и с вероятностью (l-є) выбирает «жадное» воздействие, т.е. воздействие, приводящее к состоянию внешней среды, которое в соответствии с накопленными знаниями характеризуется наибольшей суммарной величиной подкрепления. Так как «жадное» воздействие может быть выбрано как одно из возможных воздействий при исследовании внешней среды, то вероятность выбора «жадного» воздействия равна (l-e+8/Wa), где Na - количество возможных воздействий. Если знания о внешней среде являются неполными или неточными, то агент, который использует данную стратегию управления, достигнет лучших результатов, чем агент, использующий «жадную» стратегию управления. Но если знания о внешней среде являются точными, то «жадная» стратегия управления приведет к лучшему результату.
В начале функционирования агента, когда знания о внешней среде отсутствуют, наиболее предпочтительной стратегией является «є-жадная» стратегия. Когда внешняя среда будет достаточно исследована, то наиболее предпочтительной стратегией управления будет являться «жадная» стратегия [5].
В задаче обучения с подкреплением агент формирует воздействие в результате обработки сигналов, полученных от внешней среды. Необходимо, чтобы эти сигналы содержали достаточно информации для того, чтобы агент мог сформировать воздействие, переводящее внешнюю среду в состояние, которое характеризуется наибольшим значением суммарной величины подкрепления.
В общем случае вероятность того, что на следующем такте состоянием внешней среды будет сигнал s, а сигналом подкрепления будет г, зависит от всех предшествующих взаимодействий агента со средой и обозначается P{sM =s,rM = ,0,, , ,,0,.,, .,,...,5,,0,, 0,0,,), где / - номер текущего такта.
Если вероятность того, что на следующем такте состоянием внешней среды будет сигнал s, а сигналом подкрепления будет г, зависит только от состояния внешней среды на текущем такте и от воздействия на внешнюю среду на текущем такте, то такие сигналы называются марковскими, обладающими марковским свойством или свойством марковости [20, 4], а такая вероятность обозначается P(sM =s,rj+l =r\si,aj).
Для того чтобы агент смог достичь цели функционирования, необходимо, чтобы сигнал состояния внешней среды и сигнал подкрепления обладали свойством марковости, т.е. чтобы сигнал состояния внешней среды и сигнал подкрепления на следующем такте полностью определялись через состояние внешней среды и воздействие агента на внешнюю среду на текущем такте.
Рассмотрим прямолинейное равномерное движение объекта с постоянной скоростью. Если сигнал состояния внешней среды будет включать в себя только информацию о текущем положении объекта, то такой сигнал не будет являться марковским, так как для определения положения объекта на следующем такте недостаточно знать только его текущее положение. Сигнал состояния внешней среды, включающий в себя информацию о положении и о скорости объекта, в данном случае будет обладать свойством марковости, так как этой информации достаточно для определения положения и скорости объекта в следующий такт. Если рассмотреть прямолинейное равноускоренное движение объекта, то для того, чтобы сигнал состояния внешней среды обладал свойством марковости, он должен содержать информацию о положении объекта, его скорости и ускорении. Если в дополнение к этой информации сигнал состояния внешней среды будет включать какую-либо другую информацию, то он будет избыточным, но все равно будет обладать свойством марковости.
Несмотря на то, что метод обучения с подкреплением был разработан для марковских сигналов, он может быть успешно применен и для задач, в которых сигнал состояния внешней среды не является марковским [53].
Структурная схема системы экстремального управления
СЭУ относятся к самонастраивающимся адаптивным системам управления и осуществляют автоматический поиск оптимального управления, обеспечивающего экстремум некоторого показателя качества, представляющего функцию переменных состояния системы [1, 2]. Величина и направление отклонений предварительно не измеряются и должны быть определены системой в процессе функционирования. Система выполняет две функции - поиск экстремума и слежение за ним. Структурная схема СЭУ показана на рисунке 2.1.
На вход СЭУ подается задающий сигнал g, который сравнивается с выходной величиной у. Сигнал рассогласования е поступает на вход устройства управления объектом (УУО). На выходе УУО формируется управляющее воздействие и, под действием которого в ОУ осуществляется некоторый процесс, вызывающий изменение выходной величины у. Анализирующее устройство (АУ) осуществляет анализ изменения выходной величины у и определяет значение показателя качества процесса J. Значение J поступает в устройство управления адаптацией (УУА), которое вырабатывает воздействие ип, изменяющее настройку УУО. Наличие замкнутого контура самонастройки приводит, в конечном счете, к тому, что система автоматически осуществляет наилучшие процессы, характеризуемые экстремумом показателя качества На основе метода подкрепляемого обучения и структурной схемы СЭУ была разработана обобщенная структурная схема RL-САУ, изображенная на рисунке 2.2, и алгоритмы функционирования системы.
Управляющее устройство Входящий в состав RL-САУ ОУ должен удовлетворять следующим условиям: 1. ОУ является одномерным. 2. В любой момент времени можно измерить вектор переменных состояния ОУ. Под переменными состояния ОУ в данной работе подразумевается набор сигналов, который вместе с управляющим воздействием и однозначно определяет значение выходной величины у в будущие моменты времени.
Вектор входных сигналов УУ состоит из задающего воздействия g, скорости изменения задающего воздействия g\ выходной величины у и вектора переменных состояния ОУ X. В результате обработки вектора входных сигналов УУ формирует управляющее воздействие и, значение которого является одним из элементов заранее определенного множества возможных воздействий А. Под действием управляющего воздействия и ОУ изменяет свое состояние.
Вектор входных сигналов поступает на вход импульсного элемента (ИЭ), который осуществляет дискретизацию по- времени входных сигналов. Дискретизация по времени необходима в связи с тем, что метод подкрепляемого обучения предполагает взаимодействие агента с внешней средой в дискретные моменты времени. На выходе ИЭ формируется вектор дискретных сигналов Р[к], который поступает на анализирующее устройство (АУ) и на квантователь Q. АУ определяет значение сигнала подкрепления r[k], а квантователь определяет значение сигнала состояния внешней- среды [Аг], которое является одним из элементов заранее определенного множества возможных состояний внешней среды S.
Наличие в векторе входных сигналов производной входного воздействия gy и вектора переменных состояния ОУ X обусловлено тем, что в соответствии с методом обучения с подкреплением сигналы подкрепления и состояния внешней среды должны обладать свойством марковости. Несмотря на это требование, в работе [53] подтверждено, что метод может быть успешно применен и в том случае, когда сигналы подкрепления и состояния внешней среды не обладают свойством марковости.
Рассмотрим более подробно отдельные блоки УУ.
На вход импульсного элемента поступает вектор входных сигналов УУ. ИЭ осуществляет дискретизацию по времени входных сигналов с периодом дискретизации туу, который является параметром настройки УУ. На выходе импульсного элемента формируется вектор дискретных сигналов Р[к], состоящий из iVoy+З элементов, где А оу — количество переменных состояния
Квантователь осуществляет квантование по уровню вектора дискретных сигналов Р[к] и формирование сигнала состояния внешней среды s[k] для блока «Агент». Все возможные значения входных сигналов отображаются на конечное множество состояний внешней среды S. В качестве параметров квантователя указываются минимальные и максимальные значения сигналов для каждого сигнала, / = 1, NP . Если некоторый входной сигнал не должен учитываться при определении текущего состояния внешней среды, то соответствующее этому сигналу количество уровней квантования должно быть равно нулю. Для определения количества элементов во множестве возможных состояний внешней среды необходимо перемножить количества уровней квантования всех входных сигналов, увеличенные на единицу:
Однослойный перцептрон
ИНС - это сеть с конечным числом слоев из однотипных элементов — аналогов нейронов с различными типами связи [37]. Первоначально работы в области ИНС вдохновлялись исследованиями структуры человеческого мозга [68], но со временем в теорию ИНС были внесены существенные допущения, которые расходятся с данными биологии. Например, в теории ИНС не учитываются временные задержки, которые воздействуют на динамику системы, а также не учитывается воздействие синхронизирующей функции биологического нейрона, которую ряд исследователей считает решающей. Тем не менее, в настоящее время ИНС успешно применяются в задачах распознавания образов, классификации, прогнозирования и адаптивного управления [16, 23, 29, 35, 38, 66].
Классификация ИНС приведена на рисунке 3.1. ИНС делятся на два типа: сети прямого распространения и сети с обратной связью [18, 22]. В связи с тем, что функция оценки воздействия, которую необходимо аппроксимировать с помощью ИНС, является статической, то целесообразно использовать для этой цели сеть прямого распространения, так как рекуррентные сети являются динамическими и не всегда достигают устойчивого состояния.
При выборе типа ИНС важным условием является возможность сохранения нейронной сетью обученного состояния в одних участках рабочей области при обучении ИНС в других участках этой области. Данное условие связано с тем, что в процессе работы RL-САУ изменение значений оценок воздействия происходит на каждом такте работы системы [90].
Самым простым видом ИНС является однослойный перцептрон [33, 69]. Структурной единицей однослойных и многослойных перцептронов является искусственный нейрон, показанный на рисунке 3.2.
Искусственный нейрон имитирует некоторые свойства биологического нейрона и представляет собою нелинейную функцию от линейной комбинации входных сигналов. Входные связи нейрона, называемые синапсами, соединены с выходами других нейронов. Входные сигналы обозначены х,. Каждой входной связи соответствует вес этой связи, который обозначается w,. Суммирующий блок, который соответствует телу биологического элемента, складывает взвешенные входы нейрона: п 1=1 где S - взвешенная сумма входов нейрона; дополнительный вход х0 и соответствующий ему весовой коэффициент w0 используются для инициализации нейрона; обычно лг0=+1 [35]. где а - коэффициент, характеризующий наклон функции.
Преимуществом сигмоидной функции перед другими активационными функциями является ее дифференцируемость на всей области определения, а также простое выражение для производной этой функции, которая используется в алгоритме обучения нейронной сети. Так как сигмоидная функция имеет максимальный изгиб в окрестности точки х=0, то входные значения обычно масштабируют к диапазону [-1; 1], иначе изменения входных значений практически не будут влиять на выходные значения [17, 26].
Самой простой сетью прямого распространения является однослойный перцептрон, показанный на рисунке 3.4. Для данного вида нейронной сети количество выходов соответствует количеству элементов сети. Для аппроксимации функции оценки воздействия необходимо, чтобы у нейронной сети был только один выход, что в данной случае соответствует однослойному перцептрону с одним элементом, но такая сеть с одним элементом не может быть использована для аппроксимации сложной нелинейной функции оценки воздействия.
При обучении ИНС на входные элементы подают сигналы, для которых известно требуемое значение выхода сети, а затем величину ошибки, найденную как разница между текущим значением выхода и идеальным, используют в алгоритме настройки весовых коэффициентов сети. Наиболее распространенным алгоритмом обучения многослойных перцептронов является алгоритм обратного распространения ошибки (back-propagation algorithm) [24, 70, 72]. В том случае, когда требуемые выходные значения ИНС неизвестны, для настройки весовых коэффициентов сети применяют генетические алгоритмы [11-15].
В алгоритме обратного распространения ошибки в соответствии с методом наименьших квадратов минимизируется целевая функция ошибки ИНС, которая определяется формулой