Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Анализ и адаптивное управление в недетерминированных средах на основе самообучения Стасевич Владимир Павлович

Анализ и адаптивное управление в недетерминированных средах на основе самообучения
<
Анализ и адаптивное управление в недетерминированных средах на основе самообучения Анализ и адаптивное управление в недетерминированных средах на основе самообучения Анализ и адаптивное управление в недетерминированных средах на основе самообучения Анализ и адаптивное управление в недетерминированных средах на основе самообучения Анализ и адаптивное управление в недетерминированных средах на основе самообучения Анализ и адаптивное управление в недетерминированных средах на основе самообучения Анализ и адаптивное управление в недетерминированных средах на основе самообучения Анализ и адаптивное управление в недетерминированных средах на основе самообучения Анализ и адаптивное управление в недетерминированных средах на основе самообучения Анализ и адаптивное управление в недетерминированных средах на основе самообучения
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Стасевич Владимир Павлович. Анализ и адаптивное управление в недетерминированных средах на основе самообучения : диссертация... кандидата технических наук : 05.13.01 Краснодар, 2007 174 с. РГБ ОД, 61:07-5/3478

Содержание к диссертации

Введение

Глава I Способы построения самообучающихся систем управления объектами в недетерминированной среде 16

1.1 Постановка задачи синтеза адаптивной системы управления 17

1,1.1 Принятие решений об управляющих воздействиях 20

1.2 Классификация адаптивных систем управления 21

1.3 Системы управления объемами в недетерминированной среде 22

1.3.1 Обучение с подкреплением. Основные положения 23

1.3.2 Q- обучение 27

1.3.3 Сети адаптивной критики 29

1.3.4 Достоинства и недостатки существующих алгоритмов обучения с подкреплением 33

L4 Самообучаемые системы с самомодифицирующимися правилами 33

1.4.1 Методика самомодифицирующихся правил 34

1.4.2 Базовый алгоритм самомодифицирующихся правил 35

1.4.3 Применение «Внутреннего учителя» ШумковымЕ. А 39

1.5 Выводы 40

Глава 2 Метод построения самонастраивающейся системы управления на основе топологии «внутренний учитель» 41

2 Л Исходные условия 41

2.2 Пример задачи 42

2.3 Принцип обучение самообучению 43

2.3.1 Структура 44

23,2 Решатель 48

2.3.3 Компонента обратной связи 51

2.3.4 Учитель 52

2.3.5 Реактивные правила самообучения 56

2.3.6 Про-активные правила самообучения 58

2.3.7 Взаимодействие компонент 60

2.4 Способы реализации метода в прикладных задачах 62

2.4.1 Алгоритм разработки правил самообучения 62

2.4.2 Приоритетность адаптационных параметров 64

2.4.3 Коэффициент степени уверенности 64

2.5 Топология «внутренний учитель» с использованием нечеткого вывода 65

2.5.1 Начальные данные 65

2.5.2 Использование нечеткого вывода Мамдани 68

2.6 Топология «внутреннего учителя» в сравнении с известными методиками 70

2 J Выводы 72

Глава 3 Самообучающиеся системы управления на основе топологии «внутренний учитель» 74

ЗЛ Система управления комплексом лифтов 74

3.1.1 Комплекс лифтов 74

3.1.2 Алгоритм управления лифтами по расписанию 75

ЗЛ .3 Адаптивная система управления комплексом лифтов 80

ЗЛ .4 Результаты функционирования адаптивной системы управления комплекса лифтов 89

3.2 Система управления мобильным роботом 94

3.2.1 Разработка СУ 94

3.2.2 Адаптивная система управления мобильным роботом 95

3.2.3 Результаты функционирования адаптивной системы управления мобильным роботом 99

3.3 Адаптивные автоматизированные банковские системы 101

3.3.1 Предпосылки построения автотрейдера 101

3.3.2 Адаптивный автотрейдер 104

3.4 Выводы 106

Глава 4 Исследование результатов функционирования систем управления 108

4.1 Анализ результатов, преимушества и недостатки методики 108

4.1.1 Методологические преимущества 109

4.1.2 Недостатки методики 111

4.2 Пути дальнейшего совершенствования 111

43 Выводы 113

Заключение 115

Приложение А 117

Приложение Б 119

Приложение В 121

Приложение Г 152

Приложение Д 155

Список используемой литературы 157

Введение к работе

В последнее время одними из актуальных становятся задачи связанные с объектами или комплексами объектов, действующих в недетерминированных средах. Актуальность обуславливается развитием технологий, усложнением объектов, а также стремлением автоматизировать процессы, ранее производимые с помощью человека. Разработка автоматизированных систем позволяет снизить риски, связанные с непосредственным участием человека в процессах (когда речь идет об опасных средах), удешевить эти процессы, а также уменьшить ошибки, связанные с участием человека. Существует большой класс задач, при решении которых недетерминированным характером среды пренебрегали, - среды рассматривались как детерминированные. При рассмотрении среды как недетерминированной открывается потенциал для улучшения решения задач за счет ранее неиспользуемых возможностей (подстройка к среде и т.д.)» Участие человека в указанных выше процессах возможно как в непосредственном виде (например, выполнение каких-либо погрузочных операций, задачи сборочных операций и т.д.), так и в виде оператора объектом управления (например, оператор мобильного робота, оператор манипулятора и т.д.). Таким образом, возникают две задачи: роботизация процессов и автоматизация управления. Задачи роботизации успешно решаются внедрением мехатронных систем в производства, технологические процессы и непроизводственные установки. Задачи автоматизации приобретают актуальность по следующим причинам. В большинстве случаев, управление объектами в недетерминированных средах выполняется людьми-операторами. Однако существуют задачи, при которых человек-оператор справляется с управлением недостаточно хорошо. Один из примеров таких задач являются задачи, в которых оператор не имеет право на ошибку (операции спасения людей, боевые роботы, медицинские роботы). Второй пример, - задачи, в которых невозможно обеспечить достаточную

пропускную способность канапа связи управления (некоторые мобильные роботы, боевые роботы, автономные роботы). Третий пример, - задачи, в которых невозможно обеспечить достаточное количество людей-операторов или использование людей-операторов будет неоправданно дорогим (системы распределения ресурсов, программные агенты), Таким образом, задача создания систем автоматического управления (СУ) объектами в недетерминированных средах является актуальной.

Приведем примеры задач, в которых прослеживаются вышеназванные нами черты.

Мобильные автономные роботы (рисунок В. 1).

Рисунок ВЛ - Мобильный автономный робот

Мобильные автономные роботы, действующие в опасных средах без

предварительного их исследования, сталкиваются в процессе работы с заранее непредсказуемыми обстоятельствами. Примерами являются роботы, действующие в зараженных областях, роботы-саперы и т.д. Полная автономность робота может быть достигнута лишь в случае применения автономной СУ. Задачи построения автоматизированных СУ мобильными автономными роботами решались ранее [29,35].

Мобильные роботы-грузчики (рисунок В.2).

Рисунок В.2 - Мобильные роботы-грузчики

СУ мобильными роботами-грузчиками должна отрабатывать несколько одновременных запросов потребителей склада, с возможностью ограничения различных потребителей по приоритетам. Непредсказуемость порядка и моментов поступления запросов потребителей относят эту задачу к разряду рассматриваемых в данной работе. Автоматизация управления роботами-грузчиками необходима для удешевления процесса обслуживания потребителей. Подобные задачи решались ранее в работах [14,29],

Комплекс лифтов в многоэтажном здании (рисунок В.З).

Рисунок В.З - Комплекс лифтов в многоэтажном здании

СУ комплексом лифтов в больших зданиях, перевозящих множество пассажиров, должна иметь способность адаптироваться к изменению

пассажиропотока в течение дня, затрачивать минимальное время на перевозку каждого пассажира. Пассажиропоток является недетерминированной величиной. Применение автоматизированная СУ необходимо для удешевления поддержки системы. Задачи подобного рода решались в работах [70].

Программные роботы-агенты, собирающие необходимую информацию в сети Internet (рисунок В.4),

Рисунок В.4 - Программные роботы-агенты

Агенты, собирающие информацию в глобальных информационных сетях должны адаптироваться к заранее неизвестным структурам сетей и предоставлять сервис оптимального поиска информации. Применение неавтоматизированной СУ в данном классе задач невозможно. Недетерминированность глобальных сетей относит эту задачу в класс задач, находящихся в рассмотрении данной работы. Подобные задачи решались в работах [32,55], однако адаптируемых агентов, рассматривающих среду как недетерминированную, предложено не было.

Комплекс светофоров на сложных перекрестках (рисунок В.5).

ф І ф

I

Рисунок В.5 - Комплекс светофоров

Сложные перекрестки регулируются комплексом светофоров. Поток автотранспорта в принципе непредсказуем, следовательно СУ должна действовать в недетерминированной среде. Применение неавтоматизированной СУ (милиционер-постовой) не всегда оправданно с точки зрения эффективности управления, а также дорого.

Система распределения ограниченных ресурсов (рисунок В,6).

Рисунок В.6 - Система распределения ограниченных ресурсов

Распределение ограниченных ресурсов между заранее неизвестным количеством клиентов накладывает ограничение на СУ компонентом распределения ресурсов. Проблемой при управлении подобными системами является дороговизна применения человека-оператора. Задачи подобного класса решались в работах [22,52,125,127,151].

Таким образом, основная проблема при создании автоматизированной СУ для рассматриваемого класса задач заключается в невозможности построить математическую модель среды.

Однако, недетерминированные среды, не обладая свойствами

предсказуемости, обладают, тем не менее, некоторыми закономерностями. В выявлении этих закономерностей в процессе работы системы заключен потенциал адаптации СУ к среде. СУ будет адаптироваться к среде (рисунок В. 7), накапливая опыт управления и анализируя влияния управляющих воздействий на объект и на реакции среды. Таким образом, данная работа рассматривает недетерминированные среды, обладающими выявляемыми закономерностями (среды, воздействие которых нельзя предсказать заранее, но характер воздействия которых определен). В связи с тем, что подстройка СУ занимает определенное время, необходимо, чтобы закономерности среды менялись медленнее, чем система успевает подстраиваться под эти изменения.

Процесс управления в подобных средах может быть оценен при помощи критериев эффективности. Максимизация критерия эффективности является задачей СУ. При этом СУ должна выполнять конкретную задачу управления. Данная работа ставит перед собой цель разработать метод построения таких адаптивных СУ, которые выполняют задачу управления и максимизируют критерий качества управления, выявляя закономерности недетерминированной среды в процессе работы-

Блок анализа

Блок накопления опыта

Блок тактического управления

Сенсорика

Объект управления

Среда

Рисунок В.7 - СУ - среда Задачами данной работы являются:

а) Исследование существующих методик построения адаптивных СУ
объектами в недетерминированных средах;

б) Разработка метода адаптивного управления объектами в
недетерминированных средах с такими свойствами:

1) гарантированным выполнением задачи управления (отсутствие

права на ошибку, метод проб и ошибок не применим);

  1. автономность (отсутствие дообучения экспертом в процессе работы);

  2. режим работы в реальном времени.

  3. Провести экспериментальные исследования результатов работы СУ; выявить достоинства и недостатки метода; оценить эффективность предложенных метода обучения и топологии.

В качестве модельной задачи будет рассмотрен мобильный робот, с составным гусеничным движителем.

Актуальность этой диссертационной работы заключается в следующем:

- Метод построения СУ позволит строить адаптируемые системы

управления в недетерминированных средах;

- Результаты проведенного в работе исследования позволяют отработать
подходы к созданию адаптивных СУ.

Содержание диссертационной работы отражает реализацию поставленных задач. В первой главе проведено исследование существующих СУ. Показана целесообразность использования метода обучения обучения с подкреплением и проведен анализ существующих методов этого типа (Q-обучение, сети адаптивной критики и других), методов, основанных на использовании нейронных сетей, рассмотрена методика построения самомодифицирующихся правил - СМП. Выявлены достоинства и недостатки существующих методов. Предложено в качестве реализации использовать аппарат нечеткой логики, построенный на нейронных сетях.

Во второй главе обоснован и описан метод создания топологии «внутренний учитель». Разработанный метод обучения самообучения позволяет обучить нейросеть на небольшом количестве примеров, а также дообучать (переобучать) в режиме реального времени по мере поступления новой информации, без участия эксперта (впрочем, последний может корректировать процесс обучения). Это позволяет использовать данный метод для моделирования динамических процессов, в которых наибольшую достоверность имеют наиболее актуальные данные, или процессов, для которых, на начальном этапе, не представляется возможным создать обучающее множество необходимого размера. За счет использования принципов обучения с подкреплением система выполняет задачу с заданным показателем качества. Использование метода обучения самообучению

предоставляет системе уникальную возможность изменения стратегии и тактики поведения в зависимости от совокупного влияния среды и объекта друг на друга, основываясь на информации о подкреплении,

В третьей главе разработана система управления мобильным роботом в недетерминированной среде. Спроектирована топология системы. Исследована проблематика управления мобильным роботом, сформулированы правила управления объектом и их адаптационные параметры. Разработаны правила самообучения системы. Сформулированы описания правил управления и самообучения в терминах нечеткой логики. Спроектирована топология нейросетей, реализующая эти правила. Выбран алгоритм обучения нейросетей. Спроектирован макет СУ и описана ее реализация. Спроектирована СУ комплексом лифтов. Разработаны правила управления и самообучения. Спроектированы топологии нейросетей, выбран алгоритм обучения нейросетей. Спроектирована СУ автотрейдером фондового рынка.

В четвертой главе проведено сравнение результатов анализа функционирования СУ, построенной при помощи топологии «внутренний учитель», классической нейронной сети с алгоритмом СМП и традиционных методов управления. Также рассмотрены возможные пути дальнейшего развития метода. Показано, что использование топологии «внутренний учитель» позволит поднять средний уровень подкрепления СУ на 15-20%, что повышает качество работы СУ в целом.

В заключении описаны выводы и результаты проделанной работы.

Задачи исследования решены с использованием методов теории искусственных нейронных сетей, системного анализа, нечеткой логики.

Научная новизна исследования заключается в следующем:

- разработано решение по применению метода обучения самообучению в системах управления в недетерминированных средах;

нейросетевая топология «внутренний учитель» адаптирована к использованию в управлении в недетерминированных средах;

предложена модель топологии «внутренний учитель» на основе нечеткой логики;

разработана схема управления комплексом лифтов многоэтажного здания с применением «внутреннего учителя»;

разработан адаптивный автотрейдер фондового рынка с применением метода обучение самообучению и «внутреннего учителя».

Практическая значимость работы заключается в создании практического метода построения адаптивных СУ в недетерминированных средах. Разработан адаптивный автотрейдер фондового рынка.

Эффективность метода подтверждена при разработке СУ мобильным роботом и СУ комплексом лифтов.

Основной материал работы опубликован в 6 научных статьях и 3 тезисах докладов. Имеется патент на изобретение.

Диссертация состоит из введения, четырех разделов, заключения, списка использованной литературы и приложений. Ее общий объем составляет 170 страниц текста, содержащего 3 таблицы и 38 рисунков.

Системы управления объемами в недетерминированной среде

Стандартные методы построения обучающихся систем делятся натри категории [29,149]:

- обучение с учителем;

- обучение без учителя;

- обучение с подкреплением. Существует большое количество публикаций подробно освящающих первые два метода [25,26,27,28,98,115,128,129,131,132,135,137]. Остановимся более подробно на методе обучения с подкреплением.

Следует отметить, что данному направлению ИИ в России уделялось недостаточное внимание, таким образом, большинство известных работ по тематике - зарубежные.

Метод обучения с подкреплением - это самостоятельное серьезное направление кибернетических исследований. Обучение с подкреплением используется в различных областях науки - искусственном интеллеюе, психологии, искусственных нейронных сетях, теории управления, исследовании операций и т. д. [17,112,113,119,120,135,138,145,81]. Достоинство этого метода - его сравнительная простота: наблюдаются действия обучаемого объекта и, в зависимости от результата, поощряют, либо наказывают данный объект. Подчеркнем, что здесь роль учителя может играть внешняя среда - при этом в агент входит подсистема, которая поощряет или наказывает самого агента (рисунок 1.4). В этом методе, как и в классифицирующих системах, большое внимание уделяется поощрению/наказанию не только текущих действий, которые непосредственно привели к положительному/отрицательному результату, но и тех действий, которые предшествовали текущим. Основные принципы обучения с подкреплением [17,81,112,113,119,135,138,145]:

- обучение через взаимодействие;

- целенаправленное обучение;

- обучение через взаимодействие с окружающей средой,

Функция подкрепления - определяет цель в процессе обучения с подкреплением. Это соответствие между воспринимаемыми состояниями среды и числом, подкреплением, показывающим присущую желательность состояния. Ьдтісшєття даль СУ состоит в мшст&ттщіч итогового подкрепления которое можно жыучтъ & будущем в тячшш Д;ШГІІЬМОГО периода времени. Фупшцш отражает ш определяет существо проблемы управлешя для СУ. Она может быть использована км fmm для юметения правил.

Фужшш опенки показывает суммарную всляадну яодкрмлеїшя з продолжитеяшш период, тогда шк функция шдкршдешш показывает иодярешашж в текущим шшент, Оценка шетемшш ;/m игашше подкреплен ж СУ, которое пршшл&%йт:іьт можеі быть мжоттю щи последующих стартам ж этого состояния ІІодкревдоше определяет прямую потребность Б доннам состоянии теружешн. ощтт ГОІШЬШЖТ долгосрочную потребность в состоя шш, после принятия ш вітшит ШСГОЯЯЙЙ яотрьш іюоледуют :т хекушш, и подкреплений, гоотастсгвушпшх ІТИМ соетшшшш. Например, %жтжж может повлечь жжт шпоср&дствскнос подкрепление, но іш ет ішш&ую оценку; мотору кіж ЇЙ ним регулярно следуют другие состояние, которые приносят высокие подкрепления.

При обучений є подкрйгиашш фиксируется соответствия между тгутштт и дейетшдаш, которые ОУ должен вытжшъ в той или ИНОЙ ситуации При обучении на основу подкреплеяия используют ряд хорошо разработанных методов и алгоритмов; классифицирующие системы [35], обучение в нейронных сетях [2,8,12,15,91,147,149,150,151 ] и другие.

При обучении с учителем необходима выборка для обучения, в случае обучения с подкреплением начальная выборка зачастую не нужна - она появляется в ходе работы СУ, В результате проб п ошибок накапливается база знаний СУ об окружающей среде. Обучающая выборка генерируются автоматически в фазе, называемой «исследование» (разведка). Обычно - это случайный поиск в пространстве состояний. В случае большого пространства состояний используется универсальный аппроксиматор - нейронная сеть. Обычно генерация обучающей выборки идет параллельно исследованию, поэтому обучение - возрастающее. Общая схема обучения с подкреплением показана на рисунке 1.5.

СУ и среда взаимодействуют на каждом из последовательности дискретных временных шагов, t = 0, 1, 2, 3, ..., п. На каждом временном шаге, t, СУ получает состояние среды, srsS9 где S это множество всех возможных состояний. На основе состояния СУ выбирает управляющее воздействие, ЬЕА(ЗГ), где A(st) это множество воздействий, возможных в состоянии St. Во время следующего шага, как часть ответа на воздействие, СУ получает числовое подкрепление, гм є R, и переводит себя в состояние sf+[.

Способы реализации метода в прикладных задачах

Разработка прикладной реализации заключается в анализе проблематики и формулировке правил самообучения [38,39,59,60,63,64,65,66].

Эффективно управляя АП при любых воздействиях среды, можно говорить о том, что управление эффективно в целом. Но управление такого рода, в общем случае, невозможно. Таким образом» необходимо выделить такие АГТ объекта, которыми необходимо управлять, для эффективного управления в таких классах воздействия среды, о которых мы говорили ранее.

Система должна адаптироваться к изменениям среды. Среда ведет себя недетерминировано. Но, хотя присутствует недетерминированность, нужно выделить такие классы воздействий среды, которые система будет отрабатывать.

Таким образом, первоначальная задача: - выделение критичных для системы классов воздействия недетерминированной среды на объект;

- выделение АП объекта, которыми СУ будет адаптивно управлять, реализуя задачу и отрабатывая воздействия среды,

Далее, необходимо сформулировать правила управления объектом (необходимыми АП объекта) без адаптащш. Правила (предикаты, нечеткие правила и т.д.) будут описывать управление объектом Решателем без адаптации. Следующим шагом будет доработка правил управления (политики управления):

- необходимо выделить компоненты правил управления, которые будут адаптивно подстраиваться под среду;

- необходимо предусмотреть такое поведение Решателя и предложенного набора правил, когда некоторые правила добавляются или удаляются (т.е. при адаптации некоторые правила могут появиться, а также исчезнуть).

Вышеперечисленное необходимо для того, что сформулировать политику самообучения. Политика должна заключаться в том, что недетерминированное воздействие среды влияет на сами правила управления. При этом:

- воздействие среды, не носящее характер кардинальной новизны, должно отрабатываться правилами управления без изменения их самих;

- воздействие среды, являющееся новым, неизвестным для системы управления, должно приводить к корректировке набора правил управления (изменению, добавлению и удалению правил).

Далее необходимо разработать правила самообучения. Уже выделенные ранее хараісгерьт изменения среды, а также разработанные для их отработки способы изменения правил требуют правил самообучения. На выходе правил самообучения мы должны иметь параметры (все необходимые) изменения правил управления» На входе - динамика изменения подкрепления (коэффициента эффективности). Таким образом, получим два набора правил -модифицируемые правила управления и правила самообучения.

Для того чтобы идеология самообучения реализации была законченной, необходимо сформулировать коэффициент эффективности. Как говорилось в 1ой главе, подкрепление (коэффициент эффективности) должно отражать основную цель (задачу) системы в целом, а также количественные характеристики процесса деятельности системы. Таким образом, становится очевидно, что подкрепления должно прямо пропорционально зависеть от показателя выполненности задачи, а обратно пропорционально от энергетических затрат объекта управления на достижение цели.

Один из подходов построения самообучения заключается в выделении и расстановке приоритетов параметров адаптации системы [38,39,59,60,63,64,65,66]. Подход заключается в том, что, адаптируясь, система будет подстраивать сначала работу с одним АП, а уже затем со следующим и т,д. по порядку. Таким образом, процесс самообучения будет выглядеть следующим образом:

- адаптируем управление одним АП, остальными управляем по изначально заложенным правилам;

- после того, как подкрепление перестает расти, начинаем адаптировать следующий по приоритету АП.

Такой подход будет логично отображать процесс самообучения для реальных объектов управления, действующих в недетерминированной среде.

Опишем один из возможных типовых способов построения политики управления и самообучения. Этот типовой способ построения политики заключает в том, что по АП объекта, для возможности адаптации системы к изменяемой внешней среде, вводится коэффициент степени уверенности (КСУ). КСУ - это абстрактная величина показывающая, насколько нам нужно придерживаться текущей линии поведения по данному АП объекта. Коэффициент может изменяться от 0 - не нужно вообще, до 1 - нужно с уверенностью на 100%. Промежуточные значения коэффициента говорят о том, насколько нужно изменить политику управления данным АП. Типовое правило самообучения будет заключаться в том, чтобы изменять КСУ;

- Если упало значение КЭ, то изменяем КСУ в противоположном направлении от предыдущих изменений;

- Если значение выросло, то продолжаем изменять КСУ в направлении от предыдущих изменений;

- Если значение на протяжении нескольких шагов не меняется, то хаотически изменяем КСУ.

Шаг изменения коэффициента нужно уменьшать в зависимости от относительной величины изменения КЭ, дабы не перешагнуть оптимум. Т.е. если коэффициент изменился сильно, то и КСУ изменять сильно, если слабо, то и коэффициент слабо. При этом неважно вырос коэффициент или снизился.

Система управления мобильным роботом

Применим описанный подход для управления моделью мобильного робота, преодолевающим препятствие типа «барьер». Исполнительный механизм робота состоит из двух расположенных друг за другом сочлененных гусениц (рисунок 3.9). На вход системы управления поступают значения угловых положений гусениц и нагрузок на их привода (определяемые через величины тока в тяговых электродвигателях). Задача заключается в преодолении барьера с минимальными энергетическими затратами и за минимальное время.

Рисунок 3.9 - Мобильный робот

В качестве КЭ возьмем величину обратно пропорциональную энергетическим затратам на цикле управления (вычисляется по показателям приводов). Цикл управления включает все фазы преодоления барьера, и КЭ вычисляется для всего цикла. При управлении роботом сформируем «шагающий» алгоритм преодоления барьера вида [32]:

- Поднять переднюю гусеницу;

- Заехать передней гусеницей на барьер;

- Опустить переднюю гусеницу;

- Продвинуться передней гусеницей по барьеру;

- Опустить переднюю гусеницу;

- Продвинуться к краю барьера; - Опустить переднюю гусеницу;

- Продвинуться с края барьера до касания основания;

- Продвинуться с барьера;

- Поднять заднюю гусеницу.

В правилах управления должны быть заложена политика поведения в исключительных ситуациях. Например, «если токи в приводе передней гусеницы превысили определенные величины, то необходимо поднять ее выше». Политика изменения правил заключается в изменении степени углового перемещения гусениц относительно друг друга. Правила управления в исключительных ситуациях необходимы для разрешения ситуаций, когда величина углового перемещения вышла за допустимые значения.

Потенциал адаптации заключается в том, что переднюю гусеницу мобильный робот может поднимать заранее, на определенную величину, например на основе данных СТЗ. Приведем пример - робот едет по лестнице. При этом выгоднее было бы заранее поднимать переднюю гусеницу, и не опускать ее до проезда лестницы. В то же время, после проезда лестницы, робот должен опустить переднюю гусеницу. Разработаем адаптивную СУ мобильным роботом (рисунок 3.10).

За АП правил управления примем нечеткую величину, характеризующую степень перемещения степени свободы на каждом из шагов алгоритма. Эта величина может изменяться от «совсем не перемещаться» до «перемещаться до ограничителя» (0 - 1). Параметр меняется правилами изменения политики управления, т.е, блоком аудита. Тогда процедуру самообучения представим в виде последовательности следующих шагов:

- Если значение \ на і-ом шаге уменьшилось, то изменяем степень перемещения привода в противоположную предыдущим изменениям сторону,

- Если значение X на і-ом шаге возросло, то варьируем степени перемещения привода в сторону предыдущих изменений.

- Если значение X на протяжении последних к шагов не изменяется, то случайным образом изменяем степень перемещения привода.

В качестве уточненных правил самообучения применим эти правила. Система хранит историю изменений КЭ А реализуя, тем самым, алгоритм «истории успеха». Описанная выше процедура детализируется, и сформированные правила предъявляются нейросети блока аудита для обучения. Таким образом, алгоритм «истории успеха» заключается в том, что адаптационные параметры изменяются в той степени и в том направлении, которое принесло успех, т.е. в сторону роста Л. Метод проб и ошибок реализуется путем сохранения истории КЭ, полученных на каждой итерации, В истории выделяются два временных периода (с текущего момента времени в прошлое) на которых вычисляются средние значения КЭ (рисунок 3.11).

Анализ результатов, преимушества и недостатки методики

Как было сказано в первой главе, ни один существующий метод обучения с подкреплением не гарантирует строгого роста подкрепления в течение жизни системы. В связи с этим, рассмотрим результаты работы системы с точки зрения преимуществ над методикой СМП и сетями адаптивной критики, описанной в первой главе,

К методологическим преимуществам метода «внутреннего учителя» можно отнести следующие: метод «внутреннего учителя», по сравнению с СМП, не нуждается в постоянных рекурсивных возвратах к предыдущим изменениям. Т.е. система управления не должна «вспоминать» о прошлых изменениях, и о том, к чему они привели. Система управления оперирует лишь последними поступлениями подкрепления. Такое поведение системы влечет за собой меньшие требования к вычислительным ресурсам.

Для СМП-систем существует вероятность зацикливания системы по наилучшей, с точки зрения самой системы, контрольной точке. Система может быть не в состоянии выйти из локального минимума функции подкрепления. Для топологии Внутреннего учителя эта проблема обходится тем, что среди правил самообучения есть такие (в частности правила 2.хх, 2ххх), которые произвольно изменяют адаптационные параметры правил управления при достаточно долгом относительном не изменении поступающего подкрепления.

Методика Внутреннего учителя органично реализуется для таких систем управления и сред, в которых время бесконечно. Т.е. нет конечной цели, к которой стремится система. СМП-системы же строятся преимущественно для систем с конечным временем. Блок аудита и блок управления строятся на

Как одна из возможностей усовершенствования методики - построение правил самообучения таким образом, чтобы адаптационные параметры модифицировались по очереди согласно приоритетам. Т.е., сначала модифицируется самый приоритетный параметр правил управления, затем, когда подкрепление перестает расти, модифицируется следующий, менее приоритетный параметр, и т.д. Предложенная методика работает хорошо только в случаях, когда возможные изменения характера среды заранее просчитаны и внесены в систему в виде правил самообучения. Для случаев непредсказуемого изменения среды, система будет вести себя согласно неадаптированным правилам самообучения. При этом система будет максимально адаптироваться согласно этим правилам. Но изменение среды может быть настолько радикальным, что правила самообучения не покроют этот случай. Методика пока не дает ответ на вопрос, как поступать с такими событиями.

Как перспективный способ решения видится применение генетических алгоритмов. Т.е. идея заключается в том, что после постоянного низкого поступающего подкрепления от среды, система попытается за счет кроссовера и мутации изменять свои правила самообучения, до тех пор, пока не будет найден адекватный ответ совершенно новым, изменениям среды.

Еще одним интересным путем развития видится возможность изменять не только адаптационные параметры заранее сформулированных правил управления, но, также, и сам набор правил управления. Т.е., вводить в действие новые правила управления, и исключать не нужные. Такой подход может быть реализован следующим образом. Заранее формулируется избыточное множество правил управления. Над ними вводится «окно» (правила в окно могут попадать как согласно законам самообучения, так и случайно, согласно методу проб и ошибок). В окно попадает подмножество всех правил. Именно правила из окна работают в данный момент. В зависимости от поступающего подкрепления окно может менять свою форму. Согласно методу проб и вычислительными затратами в динамическом программировании). Также нет прямой аналогии блоку аудита, который дает базовые знания нейросети и вырабатывает новые правила обучения.

Необходимо отметить также то, что топология внутреннего учителя строится изначально для систем, действующих в недетерминированной среде. Невозможно построить адекватную модель среды. И, следовательно, невозможно предсказать подкрепление, которое поступит, как результат того или иного управляющего воздействия. Большинство систем, обучаемых с подкреплением, могут действовать только в детерминированной среде с имеющейся моделью этой среды (например сети адаптивной критики).

К недостаткам методики можно отнести следующие (по большей мере все эти недостатки свойственны системам, обучающимся с подкреплением): отсутствие гарантированного роста подкрепления. Методика не дает гарантии на то, что подкрепление будет постоянно расти. Возможно, дойдя до какого-то максимального уровня, подкрепление перестанет изменяться. Возможно, при изменении характера среды, подкрепление будет падать, до того момента пока система не адаптируется.

Достаточно большой объем действий, требующийся от разработчика, при внедрении методики в конкретной реализации. Вся методика говорит об обобщенном подходе к построению системы управления. Разработчик же конкретной реализации должен сформулировать частный критерий эффективности, правила управления, выделить адаптационные параметры и сформулировать правила самообучения.

Согласно результатам анализа определим приоритетные направления дальнейшего развития методики. ошибок» окно будет передвигаться к оптимальному положению в пространстве правил решения.

Также существует еще один серьезный потенциал улучшения методики -усовершенствование нейросетевой части. Компоненту обратной связи можно реализовать на базе нейросети. Подобные системы, называющимися сетями адаптивной критики, подробно описаны в литературе [7,87,133,134].

Нейросети Решателя и Учителя можно усовершенствовать, используя более современные топологии искусственных нейронных сетей, более совершенные модели нейронов и более современные алгоритмы обучения.

Еще один потенциал улучшения методики скрыт в усовершенствовании способов подсчета подкрепления. Использование самообучающихся сетей адаптивной критики, позволит более адекватно вычислять подкрепление, - по сути, главный сигнал обратной связи от среды. Если при фиксированном законе вычисления подкрепления, разработанном при разработке всей системы учтены не все факторы, влияющие на оценку эффективности работы системы, то изменить такой закон уже нельзя. Сеть адаптивной критики может позволить учитывать такие факторы при дообучении сети.

Похожие диссертации на Анализ и адаптивное управление в недетерминированных средах на основе самообучения