Содержание к диссертации
Введение
I Дифференциальные игры со случайной продолжительностью 30
1 Основные модели и методы 31
1.1 Дифференциальные игры с предписанной продолжительностью. Описание игры Г(жо, о,7/) 31
1.2 Программные управления 35
1.2.1 Игры с предписанной продолжительностью 35
1.2.2 Игры с бесконечной продолжительностью 40
1.3 Позиционные управления 43
1.3.1 Игры с предписанной продолжительностью 43
1.3.2 Игры с бесконечной продолжительностью
1.4 Некоторые сведения из теории вероятностей 48
1.5 Динамика и функции выигрыша в примерах
1.5.1 Динамические модели задач природопользования 52
1.5.2 Функции выигрыша 54 Оглавление З
1.5.3 Другие модели 56
2 Дифференциальные игры со случайным моментом окончания 57
2.1 Постановка задачи. Игра Гт(х0,t0,Tf) 57
2.2 Упрощение интегрального выигрыша в игре rT(x0,to,Tf) 59
2.2.1 Пример. Упрощение интегрального выигрыша в игре rT(x0,to,Tf) 64
2.2.2 Смешанный вид выигрыша в игре Г (жо, to, Tf) 66
2.2.3 Об упрощении функции выигрыша в линейно-квадратичных дифференциальных играх 68
2.2.4 Пример. Об упрощении выигрыша в линейно-квадратичных дифференциальных играх 71
2.3 Кооперативный вариант игры Г (жо,о5 7) 73
2.3.1 Уравнение Гамильтона-Якоби-Беллмана 73
2.3.2 Уравнение Гамильтона-Якоби-Беллмана. Другой способ вывода 77
2.3.3 Пример игры Гт(жо, to,Tf) (программные стратегии) 79
2.3.4 Пример игры Гт(жо, to,Tf) (позиционные стратегии) 81
3 Дифференциальные игры со случайным моментом окончания. Модификации 88
3.1 Дифференциальные игры с дисконтированием и случайным моментом окончания. Описание игры rT (x0,to,Tf) 88
3.1.1 Уравнение Гамильтона-Якоби-Беллмана для игры rT P(xo,to,Tf) 91
3.1.2 Пример игры Гт,/9(жо, to, Tj) (программные стратегии) 92
3.2 Описание игры Ґ1тіп(хо,to,Tf) 96
3.2.1 Пример игры игры TTmin(xo,to,Tf) (программные стратегии) 98
3.2.2 Пример игры игры TTmin(xo,to,Tf) (позиционные стратегии) 106
3.3 Дифференциальные игры со случайным моментом окончания и асимметричными игроками.
Игра Гт« т(ж0,t0,Tf) 109
3.3.1 Упрощение функции выигрыша в игре VTmin,T(xo,to, Tj) 110
3.3.2 Уравнение Гамильтона-Якоби-Беллмана в игре rTmin T(xo,to,Tf) Ill
3.4 Дифференциальные игры с составной функцией распределения случайного момента окончания 112
3.4.1 Описание игры Гт т(жо,о) И2
3.4.2 Два вида переключений функции F(t) в игре Гт т(жо,о) 116
3.4.3 Пример игры Гт т(жо,о) 116
3.5 Дифференциальные игры со случайным моментом начала игры 123
3.5.1 Постановка задачи. Игра ГТ(х0,t0,Tf) 123
3.5.2 Упрощение выигрыша в игре TT(xo,to, Tf) 123
Игры со случайной продолжительностью. Задача минимизации риска 125
4.1 Постановка задачи 125
4.2 Минимизация дисперсии интегрального выигрыша 127
4.3 Второй момент как функция выигрыша 131
Кооперативные дифференциальные игры со случайной про Оглавление 5
должительностью в форме характеристической функции 133
5 Кооперативные дифференциальные игры с предписанной продолжительностью 134
5.1 Устойчивая кооперация в кооперативных дифференциальных иг рах с предписанной продолжительностью 134
5.1.1 Основные понятия 134
5.1.2 Принцип динамической устойчивости в игре Гу(жоj o? 7/) 138
5.1.3 Защита от иррационального поведения участников 141
5.1.4 Условия защиты от иррационального поведения для коалиций 142
5.1.5 Пример. Динамически устойчивый вектор Шепли в игре Tv(xo,to,Tf) 144
5.2 Сильно динамически устойчивое С-ядро в игре rv(x0,to,Tf) 153
5.2.1 Алгоритм построения сильно динамически устойчивого С-ядра 161
5.2.2 Алгоритм построения опорного решения для игры 2 лиц 162
5.2.3 Пример. Сильно динамически устойчивое решение в игре двух лиц 164
5.2.4 Пример. Сильно динамически устойчивое решение в игре трех лиц 172
5.3 О построении характеристической функции в игре Г(жо5 05 7) 173
5.3.1 ск-характеристическая функция в игре Г(жо5 05 7) 175
5.3.2 5 -характеристическая функция в игре Г(жо,о? Tf) 179
5.3.3 ( - характеристическая функция в игре Г(жо,о? Tf) 182
Оглавление 6
5.3.4 Пример построения a-, S-, (- характеристической функции в игре V(xo,to,Tf) 185
5.4 Двухуровневая кооперация 189
5.4.1 Игра с заданной коалиционной структурой 189
5.4.2 Пример. Динамически устойчивый принцип оптимальности в игре с двухуровневой кооперацией 194
6 Устойчивая кооперация в играх со случайным моментом окончания 202
6.1 Игра TT(xo,to, Tf) в форме характеристической функции 202
6.2 Принцип динамической устойчивости в игре rv(x0,to,Tf) 204
6.3 Защита от иррационального поведения игроков 210
6.4 Пример. Динамически устойчивый вектор Шепли в игре Щхо, t0, Tf) 214
6.5 Регуляризация в игре Гт(хо,to,Tf) 216
6.5.1 Пример регуляризации вектора Шепли 221
6.6 Сильно динамически устойчивое С-ядро в игре Ty(xo,to, Tf) 228
6.6.1 Пример. Проверка достаточных условий для сильно динамической устойчивости С-ядра 232
7 Устойчивая кооперация в играх со случайным моментом окончания. Модификации 233
7.1 Принцип динамической устойчивости в игре ГТ Р(ХО,t0,Tf) 233
7.2 Сильно динамически устойчивое С-ядро в игре TyP(xo,to, Tf) 237
7.2.1 Пример. Динамически устойчивый вектор Шепли в игре r p(xo,to,Tf) 239
7.3 Принцип динамической и сильно динамической устойчивости в игре TTmin(xo,to,Tf) 241
7.3.1 Пример. Динамически устойчивый вектор Шепли в игре rlm"ix0,to,Tf) 242
7.4 Принцип динамической устойчивости в игре Г a(xo,to) 243
III Многошаговые игры со случайной продолжительностью 246
8 Кооперативные многошаговые игры со случайным числом шагов 247
8.1 Определение многошаговой кооперативной игрыС\/( о) в форме характеристической функции 247
8.2 Принцип динамической устойчивости в игре Gy{zo) 254
8.3 Введение новой характеристической функции 262
8.4 Регуляризованные динамически устойчивые принципы оптимальности 263
8.5 Регуляризация вектора Шепли и С-ядра в игре Gv(zo) 265
8.6 Алгоритм регуляризации вектора Шепли в игре Gy{zo) 268
8.7 Сильно динамически устойчивые принципы оптимальности 270
8.8 Регуляризованные сильно динамически устойчивые принципы оптимальности 272
8.9 Пример динамически устойчивого решения в кооперативной многошаговой игре двух лиц 273
8.10 Пример регуляризации вектора Шепли в кооперативной многошаговой игре двух лиц 286
9 Многошаговые игры на деревьях событий 294
9.1 Постановка задачи 294
Оглавление 8
9.2 Кооперативный вариант игры 297
9.3 Динамически устойчивый вектор Шепли 299
9.3.1 Пример 302
Заключение 308
Литература
- Игры с бесконечной продолжительностью
- Пример. Упрощение интегрального выигрыша в игре rT(x0,to,Tf)
- Пример игры игры TTmin(xo,to,Tf) (программные стратегии)
- Условия защиты от иррационального поведения для коалиций
Игры с бесконечной продолжительностью
Актуальность и степень разработанности темы исследования 13 замечено Л.А. Петросяном в 1977 году [110]. Позднее введенные им термины динамической и сильно динамической устойчивости в англоязычной литературе трансформировались в «состоятельность во времени» и «сильную состоятельность во времени» соответственно. В работах по кооперативным дифференциальным играм с предписанной продолжительностью Л. А. Петросяном [105, 107, 110, 111, 113] был разработан математический аппарат, названный процедурой распределения дележа, позволяющий добиться динамической устойчивости (или реализуемости во времени) выбранного игроками перед началом игры принципа оптимальности. На основе предложенного Л.А. Петросяном подхода, была изучена проблема динамической и сильно динамической устойчивости в кооперативных дифференциальных и многошаговых играх (Д.В. Кузютин, Л.А. Петросян), в том числе в стохастической постановке (см. А.В. Белицкая, Л.В. Грауэр, М. Дементьева, В.В. Захаров, Н.А. Зенкевич, А.В. Зятчин, Н.В. Козловская, Н.В. Колабутин, В. В. Мазалов, М.В. Марковкин, Е.М. Парилина, А. Н. Реттиева, Я. Б. Панкратова, О. Л. Петросян, А.Н. Реттиева, СИ. Тарашнина, А.В. Тур и др.), в сетевых играх (А.А. Седаков, М.В. Булгакова), играх с нетрансферабельной полезностью (Д. Янг) [99, 23, 45, 48, 49, 50, 51, 62, 71, 90, 91, 95, 104, 106, 123, 135].
Попытка применения классических для «однократных» кооперативных игр принципов оптимальности в динамических моделях приводит к тому, что они оказываются нереализуемыми во времени (динамически неустойчивыми). Данный факт был замечен в различных формулировках: Ф. Кидланд, Е. Прескотт [249] обнаружили динамическую неустойчивость решений в некоторых экономических задачах, А. Ори [230] заметил динамическую неустойчивость вектора Шепли в задаче о переговорах, также проблема динамической неустойчивости в повторяющихся играх была обозначена в работе И. Куриель [189], однако только в концепции, предложенной Л.А. Петросяном, предлагался спо 1. Актуальность и степень разработанности темы исследования 14 соб решения данной проблемы.
Отдельным актуальным направлением в теории игр является использование элементов случайности (или неопределенности) при моделировании конфликтных процессов. Развитие данной области непосредственно связано с развитием теории стохастических игр, введенных Шепли в 1953 году [327], а также дифференциальных игр при наличии неопределенности (см. Жуковский В.И., [37, 39], Кононенко А.Ф. [64], Петросян Л.А. и Янг Д.В. К. [354]), поскольку использование при моделировании фактора той или иной неопределенности позволяет наиболее адекватно описывать самые разнообразные процессы, происходящие в экономике, экологии, менеджменте, торговле, при принятии решений в области между народных отношений, систем безопасности и пр. (см., например, [190, 191, 225, 202, 200]). Важные результаты в области теории оптимального управления при наличии неопределенностей получены А.Б. Куржанским [74], см. также [255].
В данной работе рассматривается новый класс дифференциальных игр — кооперативные дифференциальные игрып лиц со случайной продолжительностью. Случайность времени существования любого организма, системы, процесса заложена в окружающую человека реальность, поэтому спектр приложений кооперативных дифференциальных игр со случайной продолжительностью может быть велик. Отметим, что в работе Л.А. Петросяна и Н.В. Мурзова "Теоретико-игровые задачи механики "в 1966 г. [108] впервые были исследованы дифференциальные игры преследования двух лиц со случайной продолжительностью. В рассматриваемой авторами задаче игроки получали терминальный выигрыш в случайный момент времени Т. В этой же работе впервые было выведено уравнение типа Айзекса-Беллмана для заданной таким образом антагонистической дифференциальной игры.
Стоит отметить, что управляемые процессы со случайным моментом окон 15 чания для задач с одним агентом (игроком) также были независимо рассмотрены в области оптимального управления, начиная с работы М. Яари [348], в которой формулировалась задача оптимального страхования жизни потребителя при условии, что момент окончания жизни являлся случайной величиной (см. также [187], [308]). В работе [182] задача оптимального управления со случайным моментом остановки была сформулирована в общем виде. Результаты данной работы использовались далее в прикладных задачах [ ], [291].
Продолжительность игры является важным параметром, влияющим на оптимальное поведение игроков. Отдельной областью теории игр, в которых объектом исследования также является момент окончания игры, являются так называемые игры с оптимальной остановкой (см. Е. Б. Дынкин[3 )]). В этой области следует выделить работы В.В. Мазалова, Сакагучи, К. Шайов-ски, В. К. Доманского, Э. Пресмана и др. [ 6, 267, 269, 197, 120], см. также многочисленные работы А.Н. Ширяева [335] и библиографию к ним.
В диссертационной работе Громовой Е.В. изучаются кооперативные дифференциальные и многошаговые игры, в которых динамика является детерминированной, а выигрыш рассматривается в смысле его математического ожидания на случайном интервале [о,Т]. Некоторые вспомогательные сведения и результаты из области теории оптимального управления, теории дифференциальных игр, теории вероятностей и математического моделирования, которые были использованы в исследовании, также сформулированы в 1.1 — 1.5.
Пример. Упрощение интегрального выигрыша в игре rT(x0,to,Tf)
При рассмотрении игр с бесконечной продолжительностью задача оптимального управления должна быть переформулирована для обеспечения ее корректности. Поскольку функция выигрыша представляет собой несобственный интеграл, необходимо обеспечить его существование. Для этого в подынтегральная функция, как правило, домножается на дисконтирующий множитель е , где Л 0. Кроме того, в задачах, определенных на бесконечности, правый конец траектории полагается свободным. Таким образом, можно сформулировать задачу оптимального управления, соответствующую кооперативной игре, развивающейся на бесконечном интервале: 00 maxM j e XTh(x(r),u(r))dr, to (1.2.11) х(t) удовлетворяет (1.1.1) с x(to) = XQ. В дополнение к условиям, сформулированным в предположении 1.1.1, потребуем выполнения следующего условия, гарантирующего сходимость несобственного интеграла в задаче (1.2.11): Предположение 1.2.2. Для любой допустимой пары (х,и) должны выполняться неравенства e xt max \h(x(t),u)\ /i(), t to, u(t)eU / e XT\h(x(r)}u(r))\dT u(t), t t0} t где /J,(t), uj(t) - некоторые положительные функции, такие, что выполняется lim fi(t) = +0 и lim uj{t) = +0. t—7 00 t—7 00 Сформулируем принцип максимума для задачи (1.2.11). Глава 1. Основные модели и методы 41 Теорема 1.2.6 ([272]). Пусть пара (х (t), u (t)) является решением задачи (1.2.11). Тогда существует непрерывная функция p(t) и константа ро О такие что (po,p(t)) = 0 и для всех t to выполняются следующие условия: 1. Переменные x(t) и p(t) удовлетворяют системе 2т дифференциальных уравнений дН Xi{t) = -7— ОРг Pi{t) = Xpi{t) - —, где H(x(t),u(t),p(t)) = po(t)h(x(r),u(r)) + (p(t),g(x(t),u(t))) - гамильтониан, соответствующий задаче (1.2.7); 2. Для всех t Є [to,Т/) гамильтониан H(x(t),u(t),p(t)) достигает своего максимального значения: H (x(t),p(t)) = max H(x(t),u(t),p(t)); u(t)eU 3. Функция H(x (t),и (t),po,p(t)) удовлетворяет условию H(x0,u (to),po,p(to)) = Хро / е ХтІі(х (т),и (т))оІт, to 4- Выполняется условие трансверсальности: lim e-xtH (x (t),u (t),po,p(t)) = 0. (1.2.12) t—7 00
Замечание 1.2.2. Сопряженные переменныер(), используемые в теореме 1.2.6, называются текущими значениями соответствующих сопряженных переменных и связаны с сопряженными переменными ifj(t) соотношением p(t) = exti/j(t). Результаты теоремы 1.2.6 могут быть переформулированы в терминах «обычных» сопряженных переменных ф{і).
Замечание 1.2.3. Заметим, что в отличие от случая с предписанной продолжительностью, теорема 1.2.6 включает условие трансверсальности, сформулированное для гамильтониана Н . Распространение условий трансверсальности для сопряженных переменных на случай бесконечного времени, т.е. lim e xtp{t) = lim ijj(t) = 0 (1.2.13) t—7 00 t—7 00 может в ряде случаев приводить к неверным результатам (см. детальный анализ проблемы в Щ). В то же время представляется возможным использование условий трансверсальности в виде (1.2.13) для определения возможных решений задачи (1.2.11) с последующей проверкой выполнения условия трансверсальности в виде (1.2.12).
Аналогично случаю с предписанной продолжительностью, для задач с бесконечной продолжительностью также могут быть сформулированы достаточные условия оптимальности Мангасаряна и Эрроу, которые приводятся ниже. Эти и другие результаты подробно анализируются в [320].
Теорема 1.2.7 (Мангасарян). Пусть пара (х (t), и (t)) и функция ifj(t) удовлетворяют условиям теорем 1.2.6 и 1.2.2. Пусть, кроме этого, для всех допустимых траекторий x(t) выполняется предельное условие трансверсальности lim i/j(t)(x(t) - x (t)) 0. (1.2.14) t—7 00 Тогда (x (t), и (t)) есть оптимальное решение задачи (1.2.11) либо единственное оптимальное решение задачи (1.2.11) если условия теоремы 1.2.2 выполняются в строгом смысле. Теорема 1.2.3 переформулируется для случая бесконечной продолжительности аналогичным образом, путем добавления предельного условия трансверсальности (1.2.14).
В случае, когда оптимальное управление разыскивается в классе позиционных управлений, т.е. полагается, что u = u (t,x(t)), основным инструментом является аппарат динамического программирования. Рассмотрим игру на конечном интервале времени.
Отличие метода динамического программирования заключается в том, что правый конец траектории обычно оставляется свободным. Ограничения на правый конец вводятся, если необходимо, через терминальные функции выигрыша. Ниже мы рассмотрим случай, когда правый конец свободен, а терминальные функции выигрыша равны нулю.
Пример игры игры TTmin(xo,to,Tf) (программные стратегии)
Рассмотрим специальный класс игр с линейной динамикой и линейно-квадратичными функциями выигрыша. Пусть уравнения динамики имеют вид х = Ах + Ви, (2.2.23) где А и В - матрицы соответствующих размерностей. Интегральный выигрыш г-го игрока имеет вид Мх0,іо,и)= /е- - -x QiX + (ЯІ) Ж + -и Щи + (гі) и dt, (2.2.24) to где Qi и Ri - положительно полуопределенные симметричные матрицы, qj и Г{ - вектор-столбцы соответствующих размерностей. Кроме того, выражения KU RJU + ( i) u полагаются строго выпуклыми относительно щ, а сумма по индексу і матриц Ri дает отрицательно определенную симметричную матрицу R = ЕГ=іR В кооперативном случае игроки стремятся максимизировать общий выигрыш, который принимает следующий вид: J(Xo,to,u)= e-f!oX ds -x Qx + q[x + -u Ru + r u ZJ ZJ dt, (2.2.25) гдеQ = Y=1 Qi, R = ЕГ=іRi, q = ЕГ=іq»" = ЕГ=іr Используя аффинные преобразования специального вида, функционал (2.2.25] может быть упрощен. Глава 2. Дифференциальные игры со случайным моментом окончания 69 Теорема 2.2.3. Пусть R u Q - симметричные матрицы, такие, что выполняются следующие условия: і. г Є im(R), %%. q Є im(Q). Тогда существуют аффинные преобразования и = Tv — r, х = Му — ц такие, что линейно-квадратичное выражение F( Qx + G[X + \u Ru + r u в (2.2.25) преобразуется в F(v, v) = \y Qy + \v Rv + 7, (2.2.26) где Q и R - диагональные матрицы и j - постоянное слагаемое.
Доказательство. Рассмотрим преобразование и = Tv — т, где Т - невырожденная симметричная матрица и г - вектор-столбец и перепишем соответствующие слагаемые в J: (Tv - r) R(Tv - т) + r (Tv -т) = v T RsTv + (г - T R) TV + [\r R - Л т. Если условие (г.) выполняется, возможно выбрать г так, чтобы выполня лось г — T RS = 0. Таким образом, линейное слагаемое сокращается. По стоянная константа равна — г т. Далее, поскольку матрица R симметрич ная, существует вещественное ортогональное преобразование Т, такое, что R = T RT есть диагональная матрица. Слагаемые, содержащие ж, могут быть преобразованы таким же образом с использованием соответствующего аффинного преобразования. Результирующее постоянное слагаемое имеет вид 7 = 4(rV + qV)- Замечание 2.2.2. Отметим, что использование аффинных преобразований требует множества допустимых управлений U и начального условия XQ. Уравнения динамики (2.2.23) преобразуются в у = Ay + Bv + /3, (2.2.27) Дифференциальные игры со случайным моментом окончания 70 где А = М 1АМ, В = М 1ВТ и /3 = M l(Afi + Вт). Если В невырожденная квадратная матрица, можно провести еще одну трансформацию w = v — Т 1(В 1АМ + т), таким образом преобразуя (2.2.27) к стандартному виду без постоянного слагаемого в правой части: у = Ay + Bw.
Более того, если матрица Q является вырожденной, появляется дополнительная свобода в выборе параметров соответствующего преобразования при соблюдении условия (п). Эта свобода может быть использована для упрощения результирующего выражения как будет показано ниже в 2.2.4.
Замечание 2.2.3. В то время как матрица R должна быть невырожденной для обеспечения существования оптимального решения (см. 1.2.1), матрица Q может быть вырожденной или даже нулевой. В последнем случае квадратичный член исчезает и остается только линейный.
Замечание 2.2.4. Постоянное слагаемое, которое появляется в выражении (2.2.26) может быть опущено в следующих случаях: 1. Если игра развивается на конечном интервале с предписанной продолжительностью. В этом случае слагаемое j добавляет к интегральному выигрышу константу j(tf — to), которая не влияет на результат. 2. Если момент окончания игры является случайной величиной, определенной на бесконечном полуинтервале [to, оо). В этом случае к интегрально ОО му выигрышу добавляется постоянный член 7 J е о s sd,T, который to также может быть опущен без изменения результата.
Условия защиты от иррационального поведения для коалиций
Рассмотрим следующую модификацию игры min(xo} to,Tf). Пусть в игре принимают участие два игрока (п = 2), причем временной горизонт ТІ, І = 1,2, будет различным для игроков (см. 3.2). Игра прекращается в момент времени Tmin = min{Ti,T2J, однако в отличие от предыдущей постановки задачи, асимметрия заключается в том, что оставшийся игрок і также получает терминальный выигрыш {(х(Тт{п)).
Независимые случайные величины Т\ и Т2 будем предполагать абсолютно непрерывными, а соответствующие функции и плотности распределения вероятностей обозначим как Т\(-), ТЬ(-) и /i(-), fz(;)- Пусть F{(t) определена на соответствующем отрезке [0, ]. Не ограничивая общности, будем полагать х 1 х 2- Пусть ио\ = Т/. Доопределим функцию распределения F2(t) на отрезке [а;2,Ту] следующим образом: Fx(t) 1 Vt Tf, Fi(T/) = 1; F2(t) 1 \/t uj2) F2(t) = 1 Vte[uj2,Tf]. Подробная постановка задачи приведена в работе [66].
Дифференциальные игры со случайным моментом окончания. Модификации 110 3.3.1 Упрощение функции выигрыша в игре TTmin,T(xo,to,Tf) Заметим, что математическое ожидание выигрыша игрокаі в игре rTmin,T(xo,to,Tf) имеет вид: Ki(x0,to,Tf,UuU2) = Е j К{х,и) 1щ ч + j Кіх, Цт т + Ф ШЧт ] , (3.3.52) to to где Tj - момент выхода из игры игрока j; I[.j - индикаторная функция. Выигрыш игрока і формируется следующим образом: интегральный вы Т игрыш J hi(x,u)dt в случае, если игрок і «выбыл» из игры (т.е. [Т Tj]), to Т или интегральный выигрыш J hi(x,u)dt и терминальный выигрыш Ф (ж(Т,-)) to в случае, если игрок «остался» в игре (т.е. [Т Tj]). Утверждение 3.3.1. Ожидаемый выигрыш (3.3.52) игрока і в игре rTmin,T(xo,to,Tf) может быть представлен в следующем виде: Tf Ki(xo,to,Tf,uuU2)= /,(лі(ж,и)(1- (г)) + Фі(ж(г))/:7-(г)(1- (г)) )гіг, to (3.3.53) где F(t) = 1 - (1 - F t)) - F2(t)). Доказательство. Вид функции распределения F(t) для случайной величины Tmin непосредственно следует из Утверждения 1.4.1. Доказательство Утвер ждения 3.3.1 непосредственно следует из Утверждения 2.2.22 о виде выигры ша в игре со случайным моментом окончания Т и смешанным выигрышем, Утверждения 3.2.1 о математическом ожидании выигрыша в игре с моментом окончания Tmin = min{T}. Глава 3. Дифференциальные игры со случайным моментом окончания. Модификации 111 Ожидаемый выигрыш игрока і в подыгре Г min (x(t),t,Tf) имеет вид: Tf Ki{x,t,Tf,u1,u2) = м _ FU\\M _ Fjt\\ / {Ы{х,и)[1 - F(r)]+ t + l{x{r))fAr){l-Fl{r))dT.
Рассмотрим кооперативный вариант игрьіТТтіп,т (хо, to, Tf). Пусть u = (u u ) — профиль оптимальных стратегий. Для решения задачи в классе позиционных управлений может быть использовано уравнение типа Беллмана, представленное ниже.
Теорема 3.3.1. [66] Пусть существует непрерывно дифференцируемая по своим аргументам функция W(t,x(t)), удовлетворяющая уравнению dWi(t,x) dt + Wl{t,x)[\l{t) + \J{t)] dWt(t,x) = max[hi(x,ui,U2) + ФІ(Ж())А,-() Н —g{x,u\,U2)]. (3.3.54) щ ox с краевым условием lim W(r, x) = 0 и существует допустимое управле-ниє u (t,x), доставляющее максимум выражению в квадратных скобках в (3.3.54), то управление и (t,x) является оптимальным.
Рассмотрим случай, когда вероятностное распределение момента окончания игры не может быть описано с помощью некоторого стандартного распределения. Эта ситуация имеет место, когда режим функционирования системы меняется со временем, причем каждый режим характеризуется своим распределением момента окончания игры. В этом случае можно либо использовать сложные функциональные выражения для описания изменения характера поведения системы, либо использовать составные функции распределения, как описано ниже. Будем полагать Tj = оо.
Пусть to - начальное время, і (), і = 1,... , N, - набор функций распределения, характеризующих различные режимы функционирования системы и удовлетворяющие, наряду со стандартными требованиями Al), В1), следующему условию:
D1. Функции распределения Fi(t) являются абсолютно непрерывными неубывающими функциями, такими что каждая Ф.Р. стремится к 1 асимптотически, т.е. Fi(t) 1 \/t оо.
Пусть также т = {ТІ}, to = т$ т\ тдг_і тдг = оо - упорядоченная последовательность моментов времени, в которые происходит переключение между соответствующими Ф.Р. Составная Ф.Р. Fa(t) определяется следующим образом: Fi(t), Є [то,ті), F(t) = { a,(r,)F+1 (t) + А(тг), t Є [ТІ,ТІ+І), (3-4-55) 1 г ЛГ-1, Глава 3. Дифференциальные игры со случайным моментом окончания. Модификации 113 где аг(ті) = а / -, and /Зг(п) = 1 - а / -. Здесь Fa(V ) определя ГІ+І{ТІ) - 1 Гі+і{Ті) - 1 ется как правый предел Fa(t) при t = т , т.е. Fa(r ) = lim Fa(t). t- (Ti-O) Составная плотность распределения вероятности определяется как производная Ф.Р., fa(t) = Fp(t), и имеет следующую форму: ( /lW, Є [то, Ті), W ) = \ aiM/i+iW, t Є [т,т+і), (3-4-56) 1 і N-1. Мы имеем следующий результат: Теорема 3.4.1. Пусть дан набор Ф.Р. F{(t), 1 г N, таких что условия Al; Bl; D1 выполняются для каждой F{(t). Тогда составная Ф.Р. Fa(t), определенная в (3.4-55), удовлетворяет А1; В1, D1.