Введение к работе
Актуальность темы. Реальные процессы управления протекают
шо в условиях неконтролируемых помех со стороны окружающей
№ или же под влиянием сознательного противодействия
зторого лица (противника). Целью, как правило, язляется
:ижение некоторого качества процесса управления, которое во
гих случаях удойно описывать с помощья подходящего показателя,
шкаюг задачи конфликтного управления, т.е. задачи об
авлении по принципу обратной связи, которое гарантирует
шально значение заданного показателя качества. Эти задачи
мализуются в рамках теории дифференциальных игр. Становление
\ теории относится к началу 1960-х годов. Оно было определено
витием математической теории оптимального управления и
эебностями практики. В настоящее время теория дифференциальных
сложилась в самостоятельную дисциплину, имеющую прочные связи
многими разделами механики и математики. В то же время для
гих задач конфликтного управления, в том числе для задач с
эрминальным показателем качества процесса, когда следует
тывать информацию об истории этого процесса, остаются не
сненными вопросы, прежде всего сзязанные с построением
ективных, реализуемых на ЭВМ, процедур для вычисления
имального гарантированного результата Сцены игры) и
мирования оптимальных стратегий управления.
Существенный вклад в развитие теории дифференциальных игр
ели работы Р.Айзекса, Э.Г.Альбрехта, В.Д.Батухтина, Т.Еашара,
эллмана, В.Г.Болтянского, А.Браисона, Р.Ф.Габасова,
Тамкрелидзе, В.И.Жуковского, М.И.Зеликина, Н-Калтона,
.Кирилловой, А.Ф.Клейменова, А.Н.Красовского, Н.Н.Красозского,
.Крендала, А.В.Кряжимского, А.Б.Куржанского, ДжЛейтмана,
Лина, П.Л.Лионса, М.Д.Локшина, А.А.Меликяна, Е.Ф.Мнщенко,
.Никольского, ЖЛОбена, Г.Ольсдера, Ю.С.Осипова, А.Г.Пашкова,
.Пацко, ЕНЛетрова, Л.А.Петросяна, Г.КЛожарицкого,
Лоловинкина, Л.С.Понтрягина, Б.НЛ1шеничного, Н.Ю.Сатимова,
.Субботина, ЕКСубботиной, А.М.Тарасьева, В.Е.Третьякова,
.Ушакова, У.Флеминга, А.Фридмана, Хо Ю-ши, А.Г.Ченцова, .Черноусько, А.А.Чикрия, Р.Эллиотта и многих других ученых.
В диссертации рассматривается задача конфликтного упразления
і динамической системы, описываемой обыкновенными
]ференциальными уравнениями, при показателе качества, заданном
как функционал от реализации движения. Исследуется случай, ког для формирования искомого управления надлежит использовать существу информацию об истории движения.
Цель работы. Разработка и обоснование конструкций д
эффективного вычисления цены игры и формирования оптимальн стратегий управления.
Методика исследований. Методы исследования опираются
достижения теории дифференциальных уравнений, теории устойчивое
движения, теории оптимального управления, выпуклого аналиг
теории случайных процессов, диссертация выполнена в рамк<
исследований по теории дифференциальных игр, ведущихся
Екатеринбурге. Используются идеи метода стохастическо
программного синтеза '^ и связанного с ним метода выпуклых свер: оболочек '' для вычисления цены игры; метод экстремального сдви; на сопутствующие движения * для построения оптимальных стратегий Научная новизна. Дана функциональная интерпретация процес»
управления, которая сводит исходную задачу конфликтного управлені Сс показателем качества, вообще говоря, нетерминальным) дифференциальной игре с терминальной платой, но уже в многомернс пространстве. Тем самым устанавливается естественная связь общ* теоретических положений в играх с терминальной платой и в играх нетерминальной платой. Это позволяет трансформировать должнь образом терминальные конструкции )3 в конструкции (праві многомерные) для исходной задачи и свести ее к построению выпукль сверху оболочек для вспомогательных функций в многомернь пространствах. С другой стороны, предложен метод редукции этих г сути многомерных построений к построениям в пространства значительно меньшей размерности. Это повышает эффективное! решения исходной задачи и соответствующих вычислений на практике. Теоретическая и практическая ценность. Основные общи
^Красовский А.Е, Красовский Н.Н., Третьяков BJ2.. Стохастически программный синтез для детерминированной позиционной дифференциаль ной игры// Прикл. матем. и мех.. 1981. Т.4-5, вып.4. 0.579-586.
^Красовский ЕН. Управление динамической системой. М.Шаука, 19
33Krasovskil N.N., Reshetova T.N. On the program synthesis of guarandeed control// Problem of Control and Information Theorj , no.6. P.333-343.
^Krasovskli A.N., Krasovskii N.N. Control under Lack о Information. 1995. Birkhauaer, USA.
верждения о цене игры и оптимальных стратегиях обоснованы по андартам математики. Результаты диссертации носят конструктивный .рактер и применимы к достаточно широкому кругу задач, іедлагаемьіе конструкции и процедуры могут быть положены в основу :я разработки эффективных алгоритмов и программ, реализуемых на М, для решения типичных конкретных задач управления.
Аппробация работы. Материал по теме диссертации докладывался
: следующих научных конференциях: Математическая школа
онтрягинские чтения - V" (Воронеж, 1994); III Международный минар "Многокритериальные задачи при неопределенности" рехово-Зуево, 1994); Международная конференция "Нелинейный и оретико-игровой синтез управления" (Международный математический статут Эйлера, Санкт-Петербург , 1995); III Международный минар "Негладкие и разрывные задачи управления и оптимизации" анкт-Петербург, 1995); Восьмой международный семинар "Динамика и равление" (Венгрия,Сопрон,1995).
Работа подробно обсуждалась на научных семинарах кафедры оретической механики Уральского госуниверситета, отдела намических систем Института математики и механики УрО РАН, федры системного анализа Московского государственного иверситета. Публикации. По теме диссертации опубликовано 3 статьи и 5
зисов докладов на научных конференциях.
Структура и об'єм работы. Диссертация состоит из введения и
ух глав. Нумерация параграфов сквозная. Список литературы лючает 72 наименования. Объем работы составляет 92 страницы шинописного текста.
Первая глава состоит из пяти параграфов. В первых трех даются
гтановка рассматриваемой задачи конфликтного управления и
нкциональная трактовка процесса управления, на основе которой
цача сводится к построению выпуклых сверху оболочек для
помогательных функций в многомерных пространствах. В
эдующих двух развиваемый подход иллюстрируется на материале ления конкретной задачи управления. Приводятся результаты иулирования процесса управления на ЭВМ.
1. Постановка задачи. Пусть система описывается уравнением
dx/dt = A(t)x + f(t,u.v), О < t < t ^ -в (1.1)
x Rn, u « Rr, v e R
Здесь x - фазовый вектор, u - вектор управления, v - векто] помехи; t, і) - заданные моменты времени; п, г и s - данные натуральные числа; ACt) и f(t,u,v) - кусочно-непрерывные по 1 матрица-функция и вектор-функция соответственно, f(t,u,v) н; интервалах непрерывности по t непрерывна по совокупності аргументов Сточки разрьва по t функции f(t,u,v) не зависят от и і v), в точках разрыва ode функции непрерывны справа; и и v стеснені ограничениями
где символ <-,-> означает скалярное произведение.
Допустимы измеримые по Борелю реализации uIt[-H0 = (иШ«Р t «S t < » и v[t[-]-6) = MX,] e Q, t ^ t < ». Эти реализаци] порождают согласно (1.1) абсолютно непрерывные движения xCtC - Д-б =' (xCt], t ^ t < $} (начальное состояние x[t] задано).
Показатель 7 качества процесса управления возьмем в виді функционала 7^^-3-61), который имеет следующее строение
Выбраны натуральное число N, моменты времени t « tt,*S3, t
> t , (=1,...,N-1, t = , постоянные матрицы D размерності
pCt]xn, К pCt]< n, і = 1.....N. Набор ( DC13x[tC1]],...J)[N]x[ttNl] }
образует р-мерный вектор, p = рС1]+...+р[га. Выбрана некотора норма цСО в пространстве вР таких наборов. Полагаем
7 = 7(хС1;[-Ш = ц( {Dc1]x[t[1]],...,DCN]x[tCN]]} ) С1.4
Такой показатель качества может быть задан изначально, или такої функционал вводится как аппроксимирующий для исходного показател. 7*Сх[Ъ[-]'в]), который учитывает континуум значений хШ.
Задача требует найти управление (или помеху), нацеленно минимизировать (нацеленную максимизировать) показатель 7 (1.4).
Эти задачи объединяются в антагонистическую дифференциальнуї игру двух лиц (и - действие первого игрока, v - действи второго) . Для всякой исходной истории xtt^-lt^l (Ъ ^ t,, < *6 эта игра имеет цену p(x[t[-]tJ). Игра имеет седловую точкі
оторая складывается из оптимальных стратегий {u(xCtC-]t],e), Cxtt[-]t],e)}. Здесь x[tMt) = Шт], t< х < t) - история вижения, реализовавшаяся к текущему моменту времени t; є > О екоторый параметр точности . Движения формируются в дискретной о времени схеме . Оптимальные стратегии иС-) и v(-) строятся ак экстремальные ' к функционалу рСО.
Таким образом, для формирования оптимального управления и онтроптимальной помехи достаточно уметь эффективно вычислять цену гры для каждой текущей истории x[tC-]t], как исходной.
Во многих случаях для построения оптимальных воздействий не бязательно учитьгаать всю историю движения к текущему моменту ремени t, достаточно лишь учитьгаать какую-то ее часть. Например, ели функционал 7 П-40 позиционный , то достаточно опираться олько на текущую позицию Л,хСШ.
В рассматриваемой дифференциальной игре при условии С 1.3)
едловая точка достигается на чистых стратегиях. Если условие
1.33 не выполняется, то решение переносится в класс смешанных
тратегий . При этом вспомогательные построения, которые
оставляют главное в этой работе, по существу не меняются.
2. Функциональная трактовка. Пусть к моменту t « ^,-б) еализовалась история x[tCOt]. Назовем функциональной позицией,
оторая соответствует этой истории, набор ft, z[t]}, где
zEtl = (xCtUCtD, хШ = С хтШ x[tl } С2.1)
J[fl[ rD"W]. tCtl«t
"I Dtt]XCt[t],tMt], t
Здесь XCx.t] - фундаментальная матрица решений для уравнения x/dx = АСх)х.
Теперь показатель у С 1.43 можно записать в виде 7=ц(хГіЯ).
Эволюция функциональной позиции ft, z[t)} = ft. СхШ,хШ)> писывается уравнениями C1.1D и
dxEtJ/dt = iCt,u.v), t? $ t «J tf (2.2)
*Ct,u,v) = t fC1lCt,u.v) fCMCt,u,v) } (2.3)
[lb*,,,,-, - fDCt]X[tCf3,t]Kt,u,vD, t
l]Ct,u,vD = f DC
lo,
r ^, = , -tI(1
Красовский A.H. 0 позиционном минимаксном управлении// Прикл. іатем. и мех., 1980. Т.44, Вып.4. 0.602-610.
Условие седловой точки в маленькой игре для f(t,u,v) буде'
выполняться в силу (1.3). Начальное состояние zCt]=CxCtl,xtt]) для системы С1.1 ),(2.2) однозначно определяется начальным состоянием
о л
x[t,] системы С1.1). Введем показатель качества 7 Для движениі
z[tC-H] = tettl, t ^ t ** -Ф системы (1.D.C2.2)
7 = 7CzC«) = цСхГ-еі) C2.4
где ц(-) - норма из (1.4). Значение показателя 7 (2.4) совпадает со значением 7 С1.4).
Рассмотрим дифференциальную игру (1.1),(2.2)-(2.4) :
пространстве функциональных позиций Ct.zCtl} уже с терминально]
А А- А
платой 7 (2.4). Эта игра имеет цену pu(ti((,z[t](t]) и седловуи точк; {u(t,zCt],eD, v(t,zCt],e)} . Здесь zCtj,,] - исходное состояние
системы (1.1),(2.2), z[t] - ее текущее состояние. Оптимальны'
А- А А^. А р
стратегии u (t,zCt],e) и V4t,zCt],e) строятся как экстремальные^
к функции цены р Ct.zCU).
Из (1.1)-(1.4) и C2.D-C2.4) следует, что цена pCt,zCtl игры CI. 1),(2.2)-(2.4) совпадает с ценой p(xtt[-]t]) игрі (1.1)-(1.4), а стратегии, оптимальные для игры (1.1),(2.2)-(2.4) при условии С2.1) будут определять воздействия и и v такие же, ка и оптимальные стратегии для игры (1.1 )-(1.4). Это означает, что п сути дела игры (1.1)-(1.4) и (1.1),(2.2)-(2.4) эквивалентнь
Поэтому терминальные конструкции ^ трансформируйте,
естественным образом в конструкции для исходной игры (1.1)-(1.4] При этом следует только учесть, что в отличие от стандартно: дифференциальной системы, в случае (1.1),(2.2),(2.3) в качеств
возможных состояний z[t] выступают векторы не с любым наборої
компонент { xCti, х 4t3, t=1 N }, но лишь такие векторь
компоненты которых связаны соотношениями С2.1). .
3. Вычисление цены игры. Пусть реализовалась история
x[tC-)1^, t«S t#< -й движения системы С1.1), которая согласи
С2.1) однозначно определяет функциональную позицию t
{tt.CxCtjJ.xftgl)}. Следуя методу стохастического программног
синтеза ^, введем программный экстремум. Для этого назначи; разбиение
\=\{т/ = {V W Tj+i>V tj+rtj < ak« ^1 k- Tk+i=* (3J)
отрезка времени ft^/fl], в которое включим все моменты времени t « [t^/ffl, ( = 1.....N из С 1.4) и все точки разрыва функций ACt) и fCt.u.v). С разбиением Дь C3.D свяжем независимые в совокупности случайные величины {<,...,^}, распределенные равномерно на отрезке 0 < і, ^ 1, J=1,...,k. Набор {^,...,^} трактуется как элементарное событие со из вероятностного пространства СП.В^.Р}, где П = Ссо) есть единичный куб в k-мерном пространстве, В^ -борелевская о-алгебра для этого куба, Р = РСВ) - лебегова мера на
этом кубе, В е В^. Пусть 1Ссо) = { 1С]Ссо) « R? , (=1 N }, со
есть векторная р-мерная случайная величина, определенная на {ft.Bj.PL Программный экстремум еСО определяется равенством
eCxtt^tOt^.^) = eCt^ztt,],^) =
т С3.2)
= sup Г< 1„ , x[tJ > + МС Е Г max mln < 1*Ст„оЯ , 1Ct,u,v) МтЛ
IUC-ЖН * * JHTjVeQueP J -I
IIICOI = vralmax іі*С1Ссо)), l„=MQCco)}, 1*Ст,,со)=МС КшЩ, , }, J=1 ,...Jc
со « CI J "j
Здесь ц*СО - норма, сопряженная к норме цСО из С 1.4). Символ МСО означает математическое ожидание, символ МС-|0 - условное математическое ожидание.
При учете эквивалентности игр C1.D-C1.4) и С1.1),С2.2)-С2.4) справедливо равенство '
lira eCxtt[-]tJ,uk)= Ito eCt^.zttJ^j.) = pCt)(t.zttJk])=p0Cx[tCOt]((])
k-»oo,6j.-»0 k-»to,6^-»0
Программный экстремум еСО C3.2) может быть вычислен следующим образом . Определим область
Ъ = С 1: \1*<.Ї) < 1 } СЗ.З)
где 1 = С 1 е w , (=1 N } - уже детерминированная
векторная р-мерная переменная. Обозначим
TJ+1
AiKCt4,l) = Г max mln < 1 , 1Ct,u,v) > dx, 1 e L, j=\ k C3.4).
J * 1j VeQ u«P
Построим рекуррентную последовательность функций
Ф^СЦД) = 0, ф/t^.l) = {$jCV» C3.5)
$,аж,і) = дф/цд) + ф/+1аж,і), і е l, /=к 1
Здесь символ фСІЗ = -Сі|>(-)} означает выпуклую сверху оболочку функции ф(-) в области L, т.е. минимальную вогнутую функцию, мажорирующую i|>CD, 1 Справедливо равенство eCxCt^C-tt^U^ = eCt^.tft.JA.) = max f< 1 , ittj > + ф^Д)] Таким образом, задача свелась к построению последовательности функций Ф/СО C3.5D. 4. Одна задача конфликтного управления с интегральными оценками управляющих воздействий. Проиллюстрируем подход, предлагаемый в п.п. 2 и 3, на примере следующей задачи. Пусть система теперь описывается уравнением dx/dt = ACttx + BCttu + CCttv, t«* t^ -ft C4.1) где ACtD, BCt) и CCt) - непрерывные матрицы-функции. Пусть как и выше заданы чивсло N, моменты времени t и матрицы D , І=1,...Л. Требуется найти управление СШ и помеху (v), ' которые нацелены соответственно на минимизацию и максимизацию показателя качества 7ж = | і Dc1W1]],....D[%t[N]] } | + в + 0J К иІтЗ , ttCOulTl >t - < vtTl , ffiCOvW >Ит: (4.2) "t* где | I - евклидова норма; ФСК и ЯШ - симметричные непрерывные матрицы-функции. Квадратичные формы < и , ФСШ > и < v , !Kt)v > - определенно-положительные для любого t « It^,*]. В данной задаче мгновенные значения воздействий и и v априори не стеснены ни какими ограничениями, но в показателе 7* C4-2D имеются интегральные добавки, которые играют роль штрафа, накладываемого на реализации управления и помехи. Эти штрафующие оценки обеспечивают ^ ограниченность оптимальных воздействий и0 и v. -Наряду с фазовым вектором х удобно ввести дополнительную скалярную переменную у, динамика которой описывается уравнением dy/dt = < и , ФСШ > - < v , Kttv >, ytt] - ft t < t < « (4.3) Далее, в соответствии с материалом из п.2, введем вектор функционального состояния xCtl, который связан с историей xtt[-]tJ движения системы (4.1) соотношением (2.1), и рассмотрим тройку (t.xCtl.y). Получаем вспомогательную дифференциальную игру с системой dxttl/dt = B(t)u + C(t)v (4.4) dy/dt = < u , tttDu > - < v , tDCttv >, t < t < « которая описьшает эволюцию тройки Ct.xCtl.y}, и с показателем качества 7* = \іШ\ + уШ (4.5) который оценивает движения { X[t(-]15], ytt^M-ffl } системы (4.4). Л А В (4.4) матрицы-функции B(t) и C(t) определяются через B(t) и C(t) подобно тому как в (2.3) вектор-функция I(t,u,v) определялась через f(t,u,v). В игре (4.5),(4.6) существуют цена p(t,x[t],y) и оптимальные стратегии { u(t,x(t],s), v(t,x[t],E) }. Следуя конструкциям из п.З вычислим функцию p,Ct,x(t],y). Пусть АЛ -. реализовалась позиция tt^x^y,,} = {t^xItJ.ylt^X t* $ t* < * Назначим разбиение WT/ = {TJ: T1 = V TJ+1 > zr Vl - TJ ^ ak' J^-"x Tkfl = * отрезка It^/fll, в которое включим все точки t « Ct^.^l из (4.2). Область L и функции Дф/(Ъ$Д), 1 « Ь, ,/=1,....к. здесь определяются следующим образом *М Ь - { 1: |1| «J Г}, 1 = С 1Ш т RP , =1 N } « RP (4.6) Лф/VD = х Г < 1 , NOtfl >dx N03 = -4- t С(Т)Ш~1 (т)СТОг) - В(т)Ф"1(т)ВТ(т) ] Здесь верхний индекс "Т" означает транспонирование; Ф (т) и Ф (т) - обратные матрицы для ФОЗ и Ф(т) соответственно. Опираясь на Л А функции Дф/СЬ^Д) (4.6) построим функции фД,,Б (3.5). Поскольку здесь область L - евклидов шар, а функции AtKd^.l) (4.6) суть квадратичные формы, то проведя построения получаем, что ^(t*,l) = < 1 , ?(.tj)l > - Я}|1|2 + \J. «М....Л FCO = Г ЖОсП:, X*. = max шах х Здесь действительные числа \ , q = 1,...,р суть собственны числа матрицы Кх, d=1,...,k+1. Величина программного экстремума для игры (4.4),(4.5 определяется равенством eta^,yr\) = max [< 1 . х„ > + ^Ctj.D] + у* = = max F< 1 , х\ > + < 1 , FCtJl > - kUl\2] + A.f + у. Откуда, осуществляя предельный переход при шаге б^ разбиений \ стремящемся к нулю (к-»ю), выводим р^А-у*3 -,5 [< і . і, > + < і . P^V1 > - ^tj1'2] + Ч» + у- г*е -, * (4.7: Х = тах^ ХПЭ, t# Здесь Мт] - максимальное собственное число матрицы F(x). Равенство (4.7) определяет функцию цены игры (4.4),С4.5) Оптимальные стратегии u(t,xtt],s) и v^(t,x[tJ,E) строятся эффективно как экстремальные^ к функции pj;(t,xtt],yCt]) С4.7), При условии (2.1), С4.3), величина р(0 С4.7) дает цену рС-), г стратегии и(-) и v^(-) - оптимальные стратегии и(0 и v(0, для исходной игры (4.1),(4.2). Первую главу завершают результаты симулирования на ЭВМ процесса управления для модельной задачи типа (4.1),(4.2). Итак, в первой главе рассматриваемая задача конфликтного управления (1.1 )-(1.4) сведена к построению выпуклых сверху оболочек Ф»(1) функций ф,(1) (3.5) в области L (3.3) многомерного пространства ВР, р = р +...+р . Интерес представляют задачи, в которых число N, следовательно, число р большие. Поэтому, если не удается, как например в задаче из п.4, найти какой-либо эффективный способ конструирования указанных оболочек, то вычисления становятся трудно реализуемыми, даже в случае небольшой размерности п фазового вектора х. Валено, что вычисление е(-) (3.2) через построения (3.3)-(3.5) в многомерном пространстве можно свертывать к подобным построениям в пространствах значительно меньших размерностей. Это показывается во второй главе. Вторая глава состоит из четырех параграфов. В первом параграфе дается общая схема упомянутой редукции. В последующих трех эта схема проясняется на материале задач с типичными оценивающими показателями. 5. Свертка процедуры вычисления цены игры. Равенство (3.2) можно трансформировать к равенству eGrttA-ltJAJ = sup Г Е * < її11 . D[l]xCt[l]] > + к llCOK1L t=1 k Vh t + < m„ , XC-O.tJxCtJ > + MC E Г max mln < m(x„ca) , XC-O/dfOr.u.v) хіт} где C5.1) h(t) = max (, t[1 «? t. t=1 N (если нет ни одного I С t=1 N ) такого, что t Ч t, то h(t) = 0) l[u = M{lt1Cufl}, t=1 httJ, m4 = M{ E Хт[ї[і]ДОІ11т1шСсц> } * * * t=h(t#)+1 N C5.2) т(т„ой = Ж E XTttI1.«tf0Tl[t3Gifl К......Є» ). J=1,...,k J l«hOij)+1 } J В C5.1) учтено (2.1) и (2.3). Это позволяет вместо работы с функциями ф/(13 и <р»(1) от многомерного вектора 1 = { 1,...,1 } работать с подходящими функциями от вектора m = Е X It vfilD 1 , (=h(T,)+1 m « Rn и векторов 1 , t=1,...,h(T,), которые составляют лишь часть компонент вектора 1. Именно, обозначим AiJ>/(t4,nO = Г шах mln < m , XC,*,t]1Ct>u,v) хіт, m « к, J=1,...,k (5.3) Определим области GfXj = {Cl(j). m) = ({ Iе t], t=1 h(.%j) У , m): m = EN XT[t[tWflTl[a. 1 = < 1C1] 1 ) « L), /=1 k+1 (=h(T^)+l J Здесь суммирование по убывающему индексу полагается равным нулю. Множество L определено в (3.3). Построим последовательность функций cpjCt^.l^.m), С1(п.пО « G№J> /=k+1 ,...,1. При /=k+1 полагаем ^+l"*.l(k+1D.ra3 = 0. Q(k+1Vm) е Gk+1Ct*} Далее по индукции. Пусть для 1 < J+1 ^ к+1 уже построена функция поскольку все моменты t « It^/ffl, t=1,...,N из (1.4) включены і разбиение Aj. С3.1), то при переходе от J4-1 к J возможен лишь один из двух вариантов: 1) Ь(т,+1)=Мт,), т.е. момент т,+1 не совпадаем НИ С ОДНИМ ИЗ МОМеНГОВ t , 2) h(Tj+^)=h(Tj) + 1, Т.Є. Т/^ = t , h=hCT/+1). Для текущего J определяем где в случае h(T,+j)=h(T,) полагаем а в случае hCTj+0=hCT»)+1 определяем t|>jCt^,l((p,m) = Atfytt^m) + max ф^а^а^Д},!^), h=hCTj+1) 1ш.т„ где максимум берется при условии m, + XT[t[h],i3]DCh]Tl[h] - т, С(1(>р,1ЕЫ},тр «е GJ+]ttJ Продолжая индукцию до /=1 построим функцию 9^Ct#,l^j,m), (1^-,^0 « G^Ct,p. Можно проверить, что справедливо равенство eCxttU-ttJAJ = max Г Е * < l[t3 , Dct3xCtCl]] > + * * к Clc1),m)«G1Ct^)L t=l [11 thCV3 і Таким образом дело сводится к построению оболочек ф/t ,,,,1(/) ,т), которые конструируются овыпуклением функции ф/Ct^.l,- rj,m) в областях GjCtt) по составному аргументу С1(л,т), размерность которого убывает вместе с индексом / и становится значительно меньше чем размерность р вектора 1 « L. Более того, во многих типичных случаях, когда известна структура нормы из (1.4), дело сводится к работе лишь с функциями от вектора т. Правда при этом, подчас возникает потребность в некоторых дополнительных параметрах. Это, кратко сформулированное здесь общее утверждение, поясняется в следующих параграфах на конкретном материале. 6. Позиционные функционалы. Рассмотрим дифференциальные игры (1.1)-(1.4) со следующими показателями качества (1.4): ГСП- H(i)«Dt1]xtm] DC№xttCN]]» = Е v!UCD[iWUD (6.1) 7C2D=^2)№C1]x[t[1]],...,DtN]x[tCN1]}) =max {^](Dct]xtttt]])} (6.2) 7C3)= |i(3)(ffiI11xtt"1]_D[Mx[t[HI]}) =( E (p.Ct](DCt]X[ttt]]))2)1/2 (6.3) Здесь \x "() - некоторые нормы в ЛУ ,( = 1,...Л Функционалы 7(1). 7(2)' 7(3) являются позиционными , поэтому достаточным информационным образом ^ для оптимальных стратегий в играх (1.1)-(1.3) для (6.1), (6.2), (6.3) служит текущая позиция йдСШ. Редуцированные процедуры построения функций »() и .их выпуклых оболочек Итак, рассмотрим игру (1.1)-(1.4) с показателем 7(3) (6.3). Норма Ц*з)(*Э» сопряженная к норме Ц(з)^* имеет вид р*3)(1) =( Е (ци]*аСЬ)2] , 1 = { lCtl « RP , t=1 N } где р. СО, 1=1,...Л - нормы, сопряженные к нормам ц СО. Поэтому при вьийслении верхней грани (5.1) случайные векторы т(тг,/1Й (5.2) стеснены ограничениями, которые зависят от скалярных величин іАт,,сц) =1 - Е ^СцІ0*С1І0СйіШ2. Оказывается, что здесь, как и для 7(1) и 7(2)' лалее можно перейти от случайных величин г "((їй, ш(т,,сіі) и v(-r,,bO к детерминированным Iе н, m и V. Опираясь на функции Дф/СЪ^^п) (5.3) построим последовательность областей gV34t#) в пространстве Р/1"1"1 пар (m,v), и последовательность функций (Pj^Ct^m.iO, (m.v) « Gj^Ctp, J k+1,k 1. Строить будем рекуррентно по шагам разбиения Д^т,} (3.1). При J=k+1 полагаем GJ^Ctp = [ Cm,v): 0«jv<1,m = o}-, ф3}а#,т,г0 = 0, Ст.гО є GJ^Ct Пусть для J+1 уже построены область GYj^Ct^) и функция cP7+rt*,m,v^ ^m,v^ е GJ+1^*P" Построим сначала область Gj(XJ и вспомогательную функцию ф^3] *(Ц.т,и), (m.v) е Gj tt#). При переходе от Т/+^ к т, возможны два случая. В первом случае имеем hCT/)=h(Tj+p. Тогда определяем G$3)CV = G$CV. Ф$*СЬ,,пи» = (цШ*Ш)2 < t^-v2, v^Z v, Cm,,!»,) « Gjjjctp, h=hCTj)+1 } (6.4) c$H*(t*'m,v:) = max <Pj+ict*-m*»1'*)' Ctn«v:) e Gj3)cV (3)* где максимум, определяющий вспомогательную функцию ф)+| (-), вычисляется по всем возможным парам (m^/i^), которые согласно C6.4-D отвечают заданной паре Cm.v) « Gj (t#). Далее полагаем ^(ЦжіО = AfyCt^m) + ф^*(%,тлО, (m,v) « Gj3DCt#) Ф^СЦДМ) = { 4>$%„„-,i;D }q, G=Gj3Jtt,p. O^HI где Gj yCtp - сечение области Gj (t#) гиперплоскостью v = const. Здесь символ tilKt^.-.v)}^ означает выпуклую сверху оболочку функции фСЦломО, конструируемую овьшуклением по . m в области G, при фиксированных значениях остальных аргументов. Продолжая индукцию до /=1 построим область G^ Ct^D и функцию ф' (t^m.v), Cm.v) « GJ^Ctp. Тогда величина 1/2 e(3)Cx[t^-]t#]^kD = max [[1-2) Е *(nCt]CDCi]xCtCC]]))2] + будет обладать надлежащими свойствами u-стабильности и v-стабильности . Из этих свойств выводится , что величина Є(з)С') аппроксимирует цену p^Cxtt^t-Jt^}) игры (1.1)-(1.3), (6.3). Таким образом, дело сводится к построению выпуклых оболочек 9^(1^,-.10 функций ^3}tt^,-,u)-'B областях Gy^Ctp. О ^ v sj 1, размерность которых совпадает с размерностью фазового вектора х системы (1.1) и не зависит от количества N точек t . Подчеркнем, что здесь, как и во многих других случаях, в том числе в играх с только по переменной m при фиксированных v«C0,11. Это объясняется тем, что области gS 4tp, J=k+1,...,1 обладают свойством если (m.v) «s G^.3DCt^3» то (.щщЛ « G^ap, t) ^ 0, tjv ^ 1 (6.5) Отсюда выводится, что функции ф^ (tj.m.v), /=k+1 1 будут однородными со степенью единица по совокупности (m,v). Поэтому конструирование выпуклых сверху оболочек функций tyj (t„,,n)A0 в областях Gj (tp по паре (т,т>), приводит к тем же самым функциям (V) ' Ф*> (t#tm,v), которые строились выше овыпуклением только по m в сечениях Gj y(tp при фиксированных v « [0,1]. ' (31 Итак, дано построение функции ф^ С-), которая согласно предыдущему определяет цену игры (1.1)41.4) и оптимальные стратегии для типичного показателя (6.3). Далее на конкретном материале показывается, что, вообще говоря, при построении функций ф^С-) надлежит применять операцию овыпукления уже по всем аргументам из пространства, которое пополняет пространство Rn векторов m добавлением вспомогательных параметров (таких как параметр v). Этот важный факт является одним из главных результатов в настоящей работе. 7. Непозиционный функционал. Рассмотрим дифференциальную игру (1.1)41.4) со следующим типичным показателем качества типа (1.4). Заданы два разбиения отрезка времени ttj/ffl: CtJ [(J М1 [t+1] EtJ (7.1) q = 1, 2 tlt] [t2] max -1 t1 ' , t2 j = в Показатель качества имеет вид N1 I LI [,] ttJ 7(4) = 7M)CxltH«) = Г U, '(D, ' xtt, 1 ] ) + , tlo) ttP] [U , + max j ^2 c D2 xtt2 n } c7'2) где Da ч - известные постоянные матрицы размерности pQ ч х п, 1 < р_ ч < п; (і ч СО - некоторые нормы, - = 1,...,Ng, q = 1,2. Функционал 7(4) ^-2^ есть аддитивная комбинация функционалов 7(13 (6.1) и 7(2} С6-2:)' но Б отличии от 7(]). 7(2) и 7(3) С6-з:) уже не является позиционным. Для формирования оптимальных стратегий в игре с показателем 7(4) нужно уже существенно учитьвать информацию не только о текущей позиции {t,x[tJ}, но и об истории движения xttC-]t]. Случай игры (1.1)-(1.4) с показателем (7.2) и доставляет тот конкретный материал, на котором удобно показать, что в общем случае при вычислении программного экстремума е(-) (3.2),(5.1) надлежит при построении функций Ф/О) овыпуклять по совокупности всех аргументов, которая складьшается из m и дополнительных параметров, и которая определяет соответствующие области G, Св данном случае - по парам (m,v)). Возникающие здесь области G, (tp уже не обладают свойством однородности (6.5). Процедура вычисления величины еО) (3.2), С5.1) в данном случае такова. Пусть реализовалась история xCtC-3t#] движения системы (1.1), t < Ъш < А и выбрано разбиение Дк=Дк{т^} = { ху. Tf= t#, ty+1>tj, J=1,...,k, fk+1= -ft > C7.3) отрезка ["t^.-ffl, в которое включены все точки разрыва функций Щ) . и f(t,u,v) из С1.1) и все точки tg Ч «- tt^.-ei, tg=1,...,N_, q=1,2 из '(7.1). Определим функции Дф,(1„,т) согласно (5.3). Построим функции (р^О^дпО, Cm.v) « G^tt,,), m е R?1, v « R, J GJ$(V = { (m,v): m = 0, 0 «J v < 1 }. ^ja^rn.v) = 0, (m,iD « GJ$(tp Пусть для 1 < /+1 < к+1 уже построены область G^*](t,J и функция (pj^Ct^m.v). Обозначим h Стг) = max (q, tq ч < т, і = 1 N_ СУ Сесли нет ни одного i_ такого, что tQ ч ^ т, то ha(x) = О, q = 1,2) Разбиение Д^ (7.3) выбрано так, что для любого J=1,...,k может случиться лишь один из трех вариантов: 1) hj(T#+1)=hjOc;), ^СТ/цЭ^Ст,), т-е- момент времени т#+^ (h1CTf+1)] 2) h^Mi^HI. ^Cc^ )=1^), т.е. т/+1 = t1 J+1 ; [hpCTf+1)l 3) h^^Cc,). ^1^)=^)+1. т.е. т/+1 = t2 J+1 ; Построим сначала область Gj (tp и вспомогательную функцию (pJ4}*(Vm,v), Cm.v) « Gj4)Ctp. В случае 1) полагаем Gj4)(tp = G$4jCt,J, #,m,v) = В случае 2) определяем pth] Gj4)(tt) = { CM): ra = mt + XTCt5W,«D5WTl, 1 « R 1 , ц5М*(1) ^ 1, h = h^TjJ+l, Cm„,v) m GJJjctp } (7.5) [J* CtJ q = 1,2. Функцию (р^* СО в этом случае строим следующим образом: В (7.6) максимум вычисляется по всем векторам тж, которые в согласии с (7.5) отвечают заданной паре Cm,v) « Gj (t.0. В случае 3) определяем pth] 0$4)Ct») = [ (m,v): 0 ^2M*(1) < v-v„, v^ v, h = h2(Ty)+1, (m#,vp « oJJJft») } (7.7) (<'j+i*ct*,m'v:) = max 4»j+ict*'m*'V' Cm,v) e Gj4)(t*3 c7>8) В C7.8) максимум вычисляется по всем парам (m^.f^), которые согласно С7.7) отвечают заданной паре ОтідО є Gj 4t#). Теперь полагаем cp^Ct^m.v) = { ф^а,.-.-) >q. G^J^Ct*) С7.Ш ' В C7.9) символ Щ1 ^,-,-^ означает выпуклую сверху оболочку функции tyCt^m.v), которая конструируется овыпуклением уже по совокупному аргументу (т,гО в области G. Продолжая индукцихз до J=1, получим область G}4)(t.J и функцию (f^(.tM,m,V), (m,v) « G!j4)Ct J. Обозначим n h1Ct*} \ІЛ ИЛ [ІА otxttj-lt,]) = E |J.1 С Dt 1 xtt, 1 ] ) t1=1 n , [lp] Ct9] [Ы - aeCxIt[-]tJ) = max I (x, d С D9 ax[t? z] ) } * * l2»1....Ji2Ct#)1^ 2 2 J Введем величину еС4)СхиЫЦ],Дк) = aOrft[-]ig3 + max [ aeCxi:tC-3t^3C1-vD + Cm.iOeG^Ct,) + < m , XW.t^xCt^l > + ф^сг^дмо] С7.1Ш Устанавливается, что величина е^СО С7.1Ш обладает нужными свойствами и-стабильности и v-стабильности. Так как справедливо равенство e(43(xCt[-]«,uk) = 7C4)Cxtt[-3«D то из этих свойств следует, что величина e^jCxlt^Htj,,],^} аппроксимирует цену p^-jCxCtC-3t^3) игры (1.D-C1.3), С7.2). Итак, описанная процедура вычисления величины е^-^СО на базе функций cpS Ч-), которые получаются овыпуклением функций щСО в областях Gj по паре аргументов Cm,v), приводит к цене Р4)('Э игры (1.1)-(1.4) с показателем 7(4) (7.2). Вторую главу завершает пример, который показывает, что овыпукление именно по паре Cm,v) существенно. В этом примере овыпукление только по m при каждом фиксированном v не дает цену игры. Приводятся результаты симулирования процесса управления на ЭВМ, подтверждающие теоретические выводы.
х J d=/,...,k+1 q=1 р q
* * * J=Hj v^q u^P J J
J т, VeQ u«P
+ < m , XC-e.tJxItJ > + ф^г^Л1^,...,1 },m)|
показателями 7м) и їг?)' вь,пуклые сверху оболочки конструируются
однородности по (m,v), т.е.
\% *> - < *q *: Vі > t?. tq 4 >tq 4". {q= 1 Ng-t }
k+1 Де 1. При J=k+1 полагаем
не совпадает ни с одной из точек разбиений Ajj {ta ^У (7.1), q=1,2;
Здесь ц_ ч (О - нормы, сопряженные к р~ ч СО из С7.2), t_=1 IL,