Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Оптимальное управление при функциональных ограничениях на помеху Серков Дмитрий Александрович

Оптимальное управление при функциональных ограничениях на помеху
<
Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху Оптимальное управление при функциональных ограничениях на помеху
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Серков Дмитрий Александрович. Оптимальное управление при функциональных ограничениях: диссертация ... доктора физико-математических наук: 01.01.09 / Серков Дмитрий Александрович;[Место защиты: Институт математики и механики УрО РАН].- Екатеринбург, 2014.- 209 с.

Содержание к диссертации

Введение

Глава 1. Оптимальный гарантированный результат при компактных множествах помех 17

1. Динамика системы 18

2. Стратегии и движения 19

3. Пример: изменение пучка конструктивных движений при изменении класса помех 30

4. Показатель качества и оценка стратегий 36

5. Непосредственные соотношения для гарантии при различных классах помех 39

6. Пример: изменение оптимальной гарантии при изменении класса помех 42

7. Неулучшаемость стратегий с полной памятью 48

7.1. Доказательство теоремы 7.1 52

Глава 2. Оптимальное управление в случае Lp–компактных ограничений на помеху з

8. Построение оптимальной стратегии при компактных множествах помех 70

8.1. Стратегия UL 70

8.2. Доказательство теоремы 8.1 75

8.3. Случай конечного набора «тестовых» управлений 87

9. Конструктивные варианты: регулярный программный максимин 89

10. Пример оптимальной минимаксной стратегии при программных помехах 93

11. О разрешимости в классе позиционных стратегий 97

Глава 3. Оптимальный риск в задаче управления при функциональных ограничениях на помеху 102

12. Критерий Ниханса–Сэвиджа в стационарном случае 103

13. Формализация задачи управления на основе критерия Нихан-са–Сэвиджа 105

14. Непосредственные соотношения для риска при различных классах помех 108

15. Пример оптимальной по риску стратегии 109

16. Сравнение оптимальной гарантии и минимального риска 121

17. Достаточное условие неулучшаемости по риску стратегий с полной памятью 134

17.1. Доказательство теоремы 17.1 137

Глава 4. STRONG Управление оптимальное по риску и отдельные свойства функции минимального риска 144

STRONG 18. Программные итерации функции сожаления 145

19. Построение оптимальных по риску стратегий 154

19.1. Оптимальная по риску стратегия USL 155

19.2. Доказательство теоремы 19.1 156

19.3. Случай конечного набора «тестовых» управлений в задаче минимизации риска 159

20. Случай регулярности программного максимина функционала сожаления 160

21. Отдельные результаты для случая терминального показателя качества 168

Заключение 176

Список обозначений 178

Приложения 185

22. Измеримые функции и множества 185

23. Представление предела программных движений 188

24. Двойные и повторные пределы 191

Литература 1

Введение к работе

Актуальность темы. В теории дифференциальных игр [1-5] рассматривается ситуация активного противодействия помехи намерениям управляющей стороны. В этих условиях естественным образом возникают предположения о наличии стороны, осуществляющей формирование помехи исходя из целей, противоположных целям управления, а также об осведомленности этой стороны о состояния управляемой системы и/или о действиях управляющей стороны. Такая характеристика помехи с необходимостью влечет конструкцию оценки действий управляющей стороны на основе минимаксного критерия. Этот тип задач управления хорошо изучен в рамках указанной теории, для него построены эффективные решения.

Вместе с тем, известны многочисленные задачи управления, в которых помеха заведомо не имеет антагонистического характера, иначе говоря

(а) поведение помехи не связано со значениями рассматриваемого показателя
качества и

(б) не зависит от состояния управляемой системы или действий управляющей
стороны.

К таким задачам относятся, например,

управление материальными системами при наличии природных воздействий (управление транспортными средствами, управление ирригационными, гид-ро-энергетическими системами, локализация пожаров, наводнений, техногенных загрязнений и т. п.);

управление малыми (не имеющими доминирующего положения) экономическими объектами в изменяющихся макроэкономических условиях.

В этих задачах, также можно строить оптимальный гарантированный результат управления, но приписывание помехе возможности противодействовать управляющей стороне, реагируя на состояние объекта управления и/или на управляющие воздействия, может существенно изменить (ухудшить) результат, отвечающий содержанию исходной задачи управления.

Таким образом, задачи управления при неантагонистической помехе имеют самостоятельное значение и содержательные предпосылки.

В качестве формального описания «нейтрального» поведения помехи можно рассматривать те или иные ограничения на ее изменение в зависимости от изменения фазового состояния системы или управления. Эти ограничения, как правило, носят функциональный характер. Простейшим ограничением такого рода является предположение о программном поведении помехи, то есть предположение о том, что помеха описывается некоторой заранее неизвестной, но фиксированной функцией времени. Другой естественный с точки зрения приложений вариант дают помехи, порождаемые некоторой неизвестной функцией Каратеодориевского типа, то есть функцией непрерывной по пространственной переменной и измеримой по временной.

Задачи управления с функционально ограниченной помехой исследовались как вспомогательный инструмент (см. [2,3] и библиографию в этих книгах) для решения задачи в случае помехи общего вида, а также в качестве самостоятельной проблемы [6-8].

Так в конструкции программного максимина Н.Н. Красовского [2-4] программные помехи используются для нахождения оптимального гарантированного результата и оптимальных позиционных стратегий в задаче с «произвольными» помехами. Для широкого круга задач управления стохастический программный максимин [5], в котором действуют неупреждающие стохастические программные помехи, дает цену соответствующей дифференциальной игры.

В работах Н.Н. Барабановой и А.И. Субботина [6,7] в рамках изучения дифференциальных игр для линейных управляемых систем исследовались множества программного поглощения [9,10] для случаев, когда помеха формируется непрерывной позиционной стратегией, либо посредством полунепрерывного сверху многозначного отображения, определенного на расширенном фазовом пространстве управляемой системы. Было установлено, что указанные множества поглощения совпадают с исходным множеством, формируемым программной помехой.

Другой вид задачи управления с функциональным ограничением на помеху предложен и рассмотрен в работе А.В. Кряжимского [8] в связи с изучением свойств стратегий с полной памятью. Предполагалось, что реализации помехи содержатся в некотором неизвестном Lp-компактном подмножестве заранее заданного множества допустимых помех. Для этого вида ограничений в указанной работе при весьма общих предположениях об управляемой системе и показателе качества было установлено, в частности, равенство оптимальных результатов, достигаемых в классе стратегий с полной памятью [3, 95] и в классе квазистратегий. Для классов стратегий, обладающих таким свойством, был введен термин «неулучшаемые».

Еще одним направлением в исследовании задач управления с неантагонистической помехой является переход от классического — минимаксного — критерия оценки управления к другой конструкции этой оценки, возможно, в большей степени отвечающим сути рассматриваемой задачи. Минимаксный критерий качества отражает эффективность управления при наиболее неблагоприятных помехах, практически не реагируя на качество управления в случаях, когда действия помехи нейтральны или благоприятны по отношению к целям управления. В этих случаях — случаях нейтрального поведения помехи — управление, оптимальное в смысле минимаксного критерия, может, вообще говоря, «упускать возможности» улучшения результата. В 1948 г. в работе Ю. Ниханса [11] и в 1951 г. — у Л.Дж. Сэвиджа [12] введено новое понятие оптимального решения в игре двух лиц, которое по своей конструкции существенно отличается от минимаксного решения. В литературе этот подход, обычно, именуется критерием Сэвиджа.

Поясним конструкцию этого критерия применительно задаче управления при

наличии динамической помехи: пусть имеется управляемая система, выделено мно-

жество допустимых помех, выбраны класс стратегий управления и некоторый показатель качества. Для допустимой (реализации) помехи найдем результат в задаче оптимального управления при этой фиксированной помехе. Затем вычислим значение показателя качества для этой же помехи и стратегии управления из выбранного класса стратегий. Превышение второй величины над первой характеризует наш риск при (сожаление о) выборе данной стратегии в случае реализации данной помехи. Стратегия, у которой верхняя граница риска (сожаления) по всем помехам минимальна, называется оптимальной в смысле критерия Сэвиджа.

Оптимальное решение в смысле Ниханса-Сэвиджа, по-существу, также выделяет группу «неблагоприятных» помех, однако делает это иным способом, не связанным непосредственно с влиянием помехи на значение показателя качества. Помехи «благоприятствующие» не менее существенны для этого критерия, чем помехи «препятствующие» достижению цели управления.

Указанные свойства критерия Ниханса-Сэвиджа делают целесообразным его применение в ситуациях, когда помеха заведомо не имеет антагонистического характера и, как следствие, изучение задач управления в формализации, основанной на этом критерии.

Цель работы. Целью работы является построение теории оптимального управления динамическими системами в условиях помех, стесненных функциональными ограничениями, в формализации на основе как (классического) минимаксного критерия, так и критерия минимаксного риска (сожаления) Сэвиджа с дальнейшим приложением к задачам оптимизации при неантагонистической помехе.

Методы исследования. Представленные в диссертации исследования опираются на подходы и методы из качественной теории дифференциальных уравнений, теории позиционных дифференциальных игр и обратных задач динамики. Используются результаты из функционального анализа, дифференциальных включений и негладкого анализа.

Научная новизна. В работе в связи с рассмотрением задач управления при не антагонистической помехе дана формализация и обоснованы методы решения задач оптимизации гарантированного результата при наличии различных видов функциональных ограничений на помеху. В частности, показано, что стратегии с полной памятью неулучшаемы и приведены условия, при которых оптимальные стратегии допускают численную реализацию; формализована и исследована задача управления на основе критерия минимального риска при наличии различных видов функциональных ограничений на помеху. В частности, для этих задач управления указан неулучша-емый класс стратегий, построено представление минимального риска в форме пре-

дела итерационных процедур и приведены условия, при которых риск-оптимальные стратегии допускают численную реализацию.

Теоретическая и практическая ценность. Работа носит теоретический характер. Развитый в ней математический аппарат и полученные результаты открывают возможности исследования новых задач управления. Эти результаты могут послужить основой анализа конкретных задач управления эволюционными системами, а также инструментом для разработки и обоснования эффективных алгоритмов построения управлений, разрешающих эти задачи.

Апробация работы. Результаты диссертации обсуждались на семинарах Отдела динамических систем Института математики и механики УрО РАН (руководитель В.Н. Ушаков), Факультета прикладной математики и процессов управления СПбГУ (руководитель Л.А. Петросян), кафедры Оптимального управления Факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова (руководитель Ю.С. Осипов), докладывались на заседаниях Ученого совета Института математики и механики УрО РАН; представлялись в докладах на всероссийских и международных конференциях по теории дифференциальных уравнений, динамической оптимизации и их приложениям к задачам механики, оптимального управления и дифференциальных игр, в том числе — на Международном семинаре «Теория управления и теория обобщенных решений уравнений Гамильтона-Якоби», посвященного 60-летию академика А.И. Субботина (Екатеринбург, 2005), международной конференции, посвященной 100-летию со дня рождения Л.С. Понтрягина (Москва, 2008), Всероссийской научной конференции «Теория управления и математическое моделирование», посвященной памяти профессора Н.В. Азбелева (Ижевск, 2008), Международной конференции «Актуальные проблемы теории устойчивости и управления» (Екатеринбург, 2009), Всероссийской конференции «Алгоритмический анализ неустойчивых задач» (Екатеринбург, 2011), Международном семинаре IF АС «Control Applications of Optimisation», (Юваскула, Финляндия, 2009), Международном семинаре IF AC «Adaptation and Learning in Control and Signal Processing» (Анта-лия, Турция, 2010), 18 Всемирном конгрессе IF АС (Милан, Италия, 2011).

Публикации. Основные результаты диссертации опубликованы в работах [13-31], из которых 17 [13,15-23,25-31] — в зарубежных и российских рецензируемых научных журналах, рекомендованных ВАК.

Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, списка обозначений и приложения. Объем диссертации составляет 209 страниц и включает 9 иллюстраций. Список цитируемой литературы содержит 167 наименований.

Пример: изменение пучка конструктивных движений при изменении класса помех

Нетрудно проверить, что мера множества Z(k, є) не превосходит величины є/2 + 2ND(Ak) и во всех точках множества) функция хл{-) отлична от нуля. Выберем К из условия: для любого к К выполнено 2N D(Ak) є/2. Тогда при всех к шах{К, К } выполнено включение Lo(xkl(-)) С Z(k, є) и мера множества Z(k, є) не превосходит є. Обозначим хк2{-) вторую координату пошагового движения порожденного из начального состояния (0, (zkl ,zk2)) обратной связью с полной памятью UAfc на разбиении Ак при помехе v(-). Из определения стратегии U и указанных свойств множества Z(k,e) следует, что на интервалах [ты ты+г) из множества [0,l]\Z(k,e) выполняются

Глава 1. Оптимальная гарантия при компактных помехах соотношения (-1, хк2(ткі) 0, [l, хк2{щ) 0. То есть, при жА2(т) D(Ak) и r Є [0, l]\Z(k, є) величина жА2(т) уменьшается с ростом т со скоростью 1. На интервалах [ткі,ткі+і] из множества Z(k, є) величина хк2{т) может расти с ростом т со скоростью не более 1. Из этого следует оценка жА2(т) тахк max{KE,K E}. Ввиду того, что последовательность начальных состояний {(zkhzk2) : к Є N} сходится к позиции (0,0), диаметры разбиений { стремятся к нулю и величина є 0 выбрана произвольно для любого 0,0),С7,О) из последней оценки получим соотношение) Из равенств (3.3), (3.11) следует, что в Х((0, 0), U) содержится элемент отстоящий от любого из множеств на расстояние не меньшее, чем 1. Таким образом, наряду с включениями (2.22) выполнено неравенство 4. Показатель качества и оценка стратегий В этом пункте формулируются задачи оптимального управления — для произвольных помех (классическая) и для помех, связанных функциональными ограничениями рассмотренных видов: ограниченных Lp-компактными подмножествами V, порожденными функциями типа Каратеодори и программными ограничениями. Во всех задачах оценка стратегии управления основывается на минимаксном критерии качества. Глава 1. Оптимальная гарантия при компактных помехах Качество движения системы (1.1) будем оценивать функционалом j(-):C(T;Rn) R (4.1) непрерывным в топологии равномерной сходимости пространства С(Т; Шп). Сторона, формирующая управление и(-) Є U, стремится минимизировать показатель качества (4.1). Гарантированным результатом Г( 0, U) для стратегии U Є S в начальной позиции ZQ Є GO при отсутствии функциональных ограничений на помеху (при произвольных помехах) назовем следующую величину (см. [27,47]): r(2b,U):= sup 7W-)) x(-)eX(z0,U) Оптимальным гарантированным результатом T(z0) в классе стратегий S для начальной позиции z0 Є G0 при отсутствии функциональных ограничений на помеху назовем величину: r(2b):=inf Г(гь,и). UGS Определим величину rp(zo,U) гарантированного результата стратегии U Є S в начальной позиции ZQ Є Go при программных ограничениях на помеху:

Оптимальная гарантия при компактных помехах Замечание 4.2. Подобно тому, как это сделано выше, можно также определить оптимальный гарантированный результат в классе квазистратегий в том или ином начальном состоянии при Ьp-компактных ограничениях на помехи; однако, эти определения приведут к одинаковым величинам: квазистратегии с точки зрения оптимального гарантированного результата нечувствительны к функциональным ограничениям на помехи.

Стратегию U, Є S назовем оптимальной в начальной позиции z0 Є G0 при отсутствии функциональных ограничений на помеху, если выполнено равенство( 0,и,) = (20).

Назовем стратегию U Є S оптимальной в начальной позиции z0 Є G0 при p –компактных ограничениях на помеху (соответственно, при ограничениях типа Каратеодори или при программных ограничениях на помеху), если выполнено равенство c(z0,U,) = c(z0) (соответственно, если верны равенства car(z0, U,) = car( 0) или p( 0,и,) = p( 0)).

Замечание 4.3. Из соотношений (2.22) сразу следует, что если, например, выполняется равенство car(z0) = c(z0), то стратегия, оптимальная в начальной позиции z0 Є G0 при Lp-компактных ограничениях на помеху, будет также оптимальной и при ограничениях типа Каратеодори на помеху в этой начальной позиции.

Оптимальная гарантия при компактных помехах Замечание 5.1. Как следует из результатов [27,47], все неравенства цепочки (5.1) при всяком ZQ Є GO обращаются в равенства, если выполнено условие седловой точки (1.5). Таким образом, при условии (1.5) любые функциональные ограничения на помеху не изменяют оптимамальный результат, который в этом случае достигается в классе чисто позиционных стратегий.

В данном рассмотрении предполагается, что это условие, вообще говоря, не выполнено. При этих обстоятельствах отдельные неравенства цепочки (5.1) могут быть строгими. Примеры ситуаций, когда различаются первый и последний элементы цепочки (5.1) хорошо известны в теории гарантирующего управления (см. [47, гл.VI, 1]).

Случай конечного набора «тестовых» управлений

Далее определяется семейство (Ue)e 0 (U Є S, є 0) стратегий, которые обеспечивают неравенства Tc(z0} U) Tq(z0) + р(є) для некоторой функции (п(.) : (0,1) (0,1) такой, что Ше) -+ 0). Эти соотношения влекут равенство оптимального гарантированного результата в классе квазистратегий и оптимального гарантированного результата в классе стратегий с полной памятью при Lp-компактных ограничениях на помеху.

Стратегии (иє)є 0 формируя управление симулируют движение вспомогательной управляемой системы — у-модели. Для выбора помехи, действующей в у-модели, на малом завершающем участке предыдущего интервала разбиения в управлении исходной системы (1.1) используется специально выбранная серия тестовых управляющих воздействий. По наблюдениям за соответствующими реакциями управляемой системы решается обратная задача динамики [67,88] — строится аппроксимация помехи, реально действующей в управляемой системе (1.1). Эта аппроксимация принимается в качестве помехи в у-модели. Управление в у-модели определяется как контруправление (см. [27]), экстремальное к некоторому множеству оптимальных траекторий системы, порожденному квазистратегиями. Выбранное таким образом управление используется и в «реальной» управляемой системе (1.1) на всем интервале разбиения, за исключением завершающего «тестового» участка. При подходящим образом согласованном уменьшении шага разбиения и меры «тестовых» участков, движения у-модели будут сходиться в С(Т;М.п) к

Глава 1. Оптимальная гарантия при компактных помехах оптимальным движениям, а движения исходной системы — к соответствующим движениям у-модели. Такая сходимость обеспечивает близкие к оптимальным значения показателя качества на движениях управляемой системы и, как следствие, искомые свойства семейства стратегий (Ue)e 0. Приведем формальные определения.

Пусть А :=(ті)г0..ПА — разбиение интервала Т. Без ограничения общности рассуждений будем считать, что для разбиения А выполняется неравенство D(A) /d(A) 3. При необходимости «прорежаем» разбиение А указанным способом и проводим пострение стратегии выбранном таким образом подмножестве А. Такое построение можно рассматривать как определение стратегии на всем разбиении А (моменты не вошедшие в выбранное подмножество не изменяют значение стратегии).

Обратная связь с полной памятью Uf на разбиении А Є Ат определена. Тем самым определена и стратегия Ue :=(U;f )дєдт. В присвоениях (7.11) первая строчка определяет действия управляющей стороны по минимизации гарантированного результата, вторая — по идентификации помехи.

Первая часть теоремы 7.1 в терминах работы [92] говорит о том, что класс стратегий S является неулучшаемым при всех рассматриваемых ограничениях на помеху. Кроме того, устанавливается формальное равенство задач управления при этих типах ограничений.

Из непрерывности правой части уравнения (1.1) в области G х V х Q, компактности этой области и соотношений (7.16), (7.17) следует, что функция Еє Э s f{s,x{s),u,v{s)) Є Шп равностепенно по и Є V, х(-) Є Х(С0)равномернонепрерывнапо5 Є Ее, то есть существует функция ірє(-) : (0, +оо) (0, +оо), зависящая от множества Ее, такая что 1ііщ_ +0 ре{6) = Ои

Оптимальная гарантия при компактных помехах Разложим последний интеграл в сумму двух, используя множество Е, и применим к первому слагаемому оценку (7.18) (продолжаем выкладки):

Выберем и зафиксируем произвольное с Є [1/2, +оо). Пусть — множество точек плотности множества Е (см. (22.5), с. 187). Из замкнутости Е следует Е є С Е. В силу теоремы Лебега о точках плотности (см. теорему 22.2, с. 187) для Е также верно неравенство \{Т\Е е) е.

Мы показали, что мера множества точек т Є Т, в которых равенство (7.15) может не выполняться, меньше любого наперед заданного числа є 0. Зна чит, это множество имеет нулевую меру Лебега. Для следующих двух лемм выберем и зафиксируем значение є 0 параметра «точности», начальное состояние ZQ Є Go и движение XQ(-) Є Xc(zo,U). По определению и в силу леммы 2.19 имеются VQ(-) Є V и последовательность

Непосредственные соотношения для риска при различных классах помех

В этом пункте приведены примеры задач управления, в которых изучаемые решения отсутствуют в классе позиционных стратегий. Эти примеры мотивировали расширение множества допустимых стратегий до S.

Известен пример (см. [165]), показывающий отсутствие в общем случае решения задачи управления при произвольных помехах в классе XJpos позиционных стратегий, то есть функций вида G Э (г, х) U(T, Х) Є V. Этот же пример показывает и отсутствие в общем случае решения в классе XJpos задачи управления при Lp-компактных ограничениях на помехи: пусть управляемая система имеет вид

Напомним (см. [64, sec. 8.5]), что стратегия называется универсальной оптимальной в области G, если она является оптимальной при всех начальных позициях из множества G. В теореме 8.1 по-существу установлено существование универсальной в G стратегии оптимальной при Ьр-компактных ограничениях на помеху. Покажем, что в задаче (6.1)–(6.2) в классе XJpos не существует универсальной в G стратегии оптимальной при Ьр-компактных ограничениях на помеху.

Если выполнено (а), то положим z k := z+ и vk{r) := 1 для всех r Є [0, т1к], то есть для всех моментов времени на первом интервале разбиения Ак. Если же (а) не выполнено, то непременно выполняется (б) и мы положим z k = zZ и ук(т) := -1 для всех т Є [0, тїк]. Ниже будет определен момент тїк Є Ак, а значения помехи vk(-) будут инвертированы на малом завершающем интервале [

Для определения моментов т[к, т\к зададим круг радиуса ек с центром в точке {ш, z k+fki - у/2єк), то есть круг, касающийся снизу прямой у (г) := z k +т, которая в свою очередь совпадает с началом движения хк{-) (см.рис). Этот круг будет целиком лежать во множестве G. В силу плотности в G множества U+ данный круг непременно содержит точку (т, ж) Є U+. Положим т\к := г, а момент т[к выберем из интервала [тк\ — л/2єкітк\] так, чтобы инвертированием значений vk{-) на интервале [т[к) т\к] было удовлетворено равенство хк{т\к) = х. Существование такого момента проверяется посредством теоремы Ролля. На всех последующих интервалах разбиения А значения помехи vk{-) полагаются равными 1 вначале и —1 на малом завершающем интервале. В результате этих построений реализация управления в пошаговых движениях на всех интервалах разбиения кроме, может быть первого, будет равняться 1. Помеха также будет принимать значение 1 всюду за исключением малых «завершающих» интервалов и, быть может, первого интервала. При этом знаки управления и помехи на первом интервале согласованы так, что

Оптимальный риск в задаче управления при функциональных ограничениях на помеху В 1948 г. в работе Ю. Ниханса [134] и в 1951 г. — у Л.Дж. Сэвиджа [135] введено новое понятие оптимального решения в игре двух лиц, которое по своей конструкции существенно отличается от минимаксного решения, лежащего в основе оптимального гарантированного результата, и подразумевающего антагонистический характер поведения помехи.

Говоря неформально, традиционный минимаксный критерий качества отражает эффективность управления при наиболее неблагоприятных помехах, практически не реагируя на качество управления в случаях, когда действия помехи нейтральны или благоприятны по отношению к целям управления. В этих случаях (нейтрального поведения помехи) управление, оптимальное в смысле минимаксного критерия, может, вообще говоря, «упускать возможности» дальнейшего улучшения результата. Простейшие модельные примеры такого рода эффектов приводятся ниже (см. п. 16).

В этой главе рассматриваются вопросы применения критерия Нихан-са–Сэвиджа к задачам управления в условиях динамических помех: — дается постановка задачи оптимизации (минимизации) риска при различных функциональных ограничениях; — приводятся непосредственные соотношения, связывающие результаты при различных ограничениях и классах разрешающих стратегий; — приводится простой пример «непосредственного» решения задачи в случае ограничений программного характера; Таким образом, в постановке Ниханса-Сэвиджа требуется найти альтернативу с минимальным (оптимальным) риском и величину этого риска.

Далее приведен ряд задач, показывающих независимость этих двух способов оценки выбора альтернативы. Под независимостью понимается отсутствие какого либо общего отношения, связывающего решения одной и той же задачи оптимального выбора при этих двух критериях оценки.

Последняя колонка в табличках указывает риск при выборе альтернативы, предпоследняя — ее гарантированный результат. В последней строке таблицы показан оптимальный результат при реализации помехи v. Остальные ячейки таблицы показывают заданные значения исхода.

Случай конечного набора «тестовых» управлений в задаче минимизации риска

Cущественной трудностью при численной реализации риск-оптимальной стратегии USe является быстрый рост размерности задачи (7.9) восстановления помехи при уменьшении параметра є. В этом параграфе даны условия на управляемую систему и конструкции стратегий, оптимальных по риску при Lp-компактных ограничениях на помеху, у которых этот недостаток отсутствует. Приводятся также примеры семейств управляемых систем и отдельных систем, удовлетворяющих этим условиям.

Конструкция стратегии USL аналогична конструкции стратегии UL (см. (8.1), с. 70): стратегия USL при построении управления симулирует движение вспомогательной управляемой системы — у-модели. Для формировании движения у-модели на очередном интервале разбиения по наблюдениям за движением управляемой системы выбирается (восстанавливается) помеха, близкая в подходящем смысле к помехе в исходной системе. Управление в у-модели определяется как контруправление, экстремальное к множеству оптимальных траекторий системы при этой восстановленной помехе. Выбранное таким образом управление затем используется в «реальной» управляемой системе (1.1) на следующем интервале разбиения. При измельчении шага разбиения, движения у-модели будут сходиться в С(Т;Шп) к оптимальным движениям, а движения исходной системы — к соответствующим движениям у-модели. Эти сходимости обеспечивают оптимальное значение критерия Ниханса-Сэвиджа и, как следствие, оптимальность по риску стратегии USL.

Перейдем к формальному определению стратегии USL. Это определение совпадает с определениями (7.2), (7.3), (8.4) - (8.7) (с. 49) за исключением выражений для «целевого множества» (7.2) и проекции движения у–модели на это множество (7.3): вместо множеств W(x(to)) теперь используются множества Wr(-) (см. (18.15), с. 147), зависящие от «восстановленной» реализации помехи v(-) и проекции на них движений у–модели: для всех т Є

Замечание 19.2. При выполнении условий теоремы ввиду равенства (17.5) стратегия USL будет также оптимальной по риску и при программных ограничениях на помеху, и при ограничениях типа Каратеодори. Замечание 19.3. Следующее семейство управляемых систем: x(t) = fi(t,x(t),u(t)) + f2(t,x(t),u(t)) h(t,v(t)), (19.3) где /2(-) — матрица-функция размерности п х т, Л(), — вектор-функция (столбец) размерности п, и /з(-) — вектор-функция размерности т удовлетворяет условию (19.2), если для всех t Є Т ядро линейного оператора f2(t,x,u) : M.m ь-» М.п не зависит от параметров х, и при их изменении в пределах х Є G\t, и Є V.

Доказательство. 1. При всех г Є Т обозначим дт Є QT класс эквивалентности, содержащий элемент г о(т). В силу условия (19.2) имеем равенства: f(r,x,u,v) = /(т,ж,«,ио(т)), (т,ж,«,и) GGxPxg, Отсюда, учитывая равенства (8.26) (с. 77), (8.13) и непрерывность правой части рассматриваемой системы (1.1) по v Є Q равномерную по всем переменным в области определения, получим сходимость lim sup \\х(-Ло,гок,и(-),щ(-))-х(-Ло,го,и(-),Уо(-))\\с(т-ж-) = 0. (19.7) - м(.)єи 1 Из (19.7) и определения множеств X(zok,U, vk(-)) (с. 20), используя теорему 24.1 (о сходимости двойных последовательностей), получим сходимость этих множеств к множеству X{ZO,U,V0{-))в метрике Хаусдорфа: lim d (T.MnJX(zok,U,vk(-)),X(zo,U,vo(-))) = 0. (19.8) Отсюда, в силу определения функции оптимального результата (см. (13.1), с. 105) и непрерывности показателя качества, следует равенство

Здесь первое неравенство выполнено в силу (19.12) и непрерывности функционала 7s по первой переменной (равностепенной по второй); второе соотношение (равенство) следует из определения множества W (zok,Vk(-)) и равенства (18.13); третье соотношение (равенство) вытекает из (19.9); четвертое соотношение (равенство) вытекает из (19.8); пятое — из непрерывности в силу соотношений (18.26) и (17.10) функционала eto(-) по первой переменной; последнее — из (18.14).

Обоснование равенства (19.12) следует обоснованию равенства (7.40) за исключением того, что при проверке неравенства (7.43), вместо свойства U-стабильности, для доказательства существования подходящих решений м (-) Є С([ткг,тк{г+1)];Шп) дифференциального включения (7.41) (см. (7.44), с. 64) следует воспользоваться свойствами (18.16) и (18.19) множеств Wt(x(-),v(-)): элементы WQ(-), построенные в ходе доказательства (18.19), как раз отвечают элементам w (-), если t = ты, f = ЩІ+1), Х(-) = гпы(-),

Замечание 20.1. В соответствии с определением минимального риска это означает, что для каждой начальной позиции в рассматриваемом классе стратегий S существует стратегия, которая гарантирует оптимальный результат P{ZQ)V{-)) какова бы ни была помеха v(-) Є V. То есть, эта стратегия действует столь же эффективно, как если бы помеха v(-) была известна ей заранее. Первоначально, именно это свойство было положено в определение стратегий, названных «сильно оптимальными» [136]. Понятно, что круг задач управления, в которых существуют такие стратегии, сравнительно узок. Тем полезнее наметить границы этого семейства задач.

Похожие диссертации на Оптимальное управление при функциональных ограничениях на помеху