Содержание к диссертации
Введение
ГЛАВА 1. Сильно динамически устойчивое прд-ядро в кооперативных дифференциальных играх с предписанной продолжительностью 15
1. Постановка задачи 15
2. О процедуре распределения дележей 17
3. Определение соответствующего множества дележей 19
4. Свойство сильной динамической устойчивости ПРД-ядра 22
5. Сильно динамически устойчивое ПРД-ядро в дифференциальной игре управления объемами вредных выбросов 24
ГЛАВА 2. Кооперативные дифференциальные игры с динамическим обновлением информации 32
1. Определение усеченной подыгры 32
2. Решение кооперативной усеченной подыгры 35
3. Концепция решения в исходной игре с динамическим обновлением информации 38
4. Построение характеристической функции в игре с динамическим обновлением информации 45
5. Связь решения в усеченных подыграх и результирующего решения 48
6. Кооперативная игра добычи ограниченного ресурса с динамическим обновлением информации 58
ГЛАВА 3. Кооперативные дифференциальные игры с предписанной продолжительностью, динамиче ским обновлением информации и стохастическим прогнозом 69
1. Определение комбинированной усеченной подыгры
2. Решение комбинированной кооперативной усеченной подыгры 71
3. Концепция решения в исходной игре с динамическим обновлением информации и стохастическим прогнозом 73
4. Кооперативная игра добычи ограниченного ресурса с динамическим обновлением информации и стохастическим прогнозом 77
ГЛАВА4. Кооперативные дифференциальные игрыспред писанной продолжительностью и со случайным обновлением информации 84
1. Определение случайной усеченной подыгры 84
2. Решение кооперативной случайной усеченной подыгры 86
3. Концепция решения в исходной игре со случайным обновлением информации 88
4. Кооперативная игра добычи ограниченного ресурса со случайным обновлением информации 91
Заключение 103
Литература
- Определение соответствующего множества дележей
- Концепция решения в исходной игре с динамическим обновлением информации
- Концепция решения в исходной игре с динамическим обновлением информации и стохастическим прогнозом
- Решение кооперативной случайной усеченной подыгры
Введение к работе
Актуальность темы и степень ее разработанности.
Теория дифференциальных игр в настоящее время является одним из наиболее бурно развивающихся разделов математической теории игр. Главным образом это связано с тем, что математический аппарат дифференциальных игр позволяет реалистично моделировать конфликтно-управляемые процессы, непрерывно развивающиеся во времени. Так динамика фазовой переменной, описывающей состояние процесса, задается системой дифференциальных уравнений на некотором временном промежутке заданной продолжительности.
Теория дифференциальных игр сформировалась как отдельный раздел математической теории игр в пятидесятых годах двадцатого века. Одними из первых интересные результаты в этой области получили Р. Айзекс, Л. Берковитц, В. Флеминг. Долгое время исследования были посвящены в основном антагонистическим дифференциальным играм. Значительные успехи в данной области связаны с представителями отечественной научной школы Н.Н. Красовским, Л.С. Понтрягиным, Б. Н. Пшеничным, Л.А. Петросяном.
Особый интерес представляют также кооперативные дифференциальные игры.
Естественным подходом к изучению кооперативных дифференциальных игр, как игр дележей,
является попытка переноса результатов классической кооперативной теории "однократных" игр
Неймана-Моргенштерна. Однако при использовании результатов классической теории
необходимо дополнительно исследовать вопрос о динамической и сильно динамической
устойчивости полученного решения. Попытки применения динамически неустойчивых
принципов оптимальности при решении прикладных задач в области экономики, экологии,
менеджмента приводят к не реализуемости таких принципов, поскольку в некоторый момент
времени возникают условия, когда соглашение о кооперации могут быть пересмотрено. Это
обстоятельство впервые было замечено Л. A. Петросяном в 1977 году, тогда он сформулировал
строгое математическое определение динамической устойчивости принципа оптимальности
(кооперативного решения), а в 1979 году он предложил способ решения проблемы
динамической неустойчивости кооперативного решения при помощи схемы выплат,
получившей название процедуры распределения дележа (ПРД). Определение сильной динамической устойчивости впервые было дано им в 1993 году.
Теория кооперативных дифференциальных игр изучает вопросы построения оптимальных (кооперативных) решений в конфликтно-управляемых процессах со многими участниками на определенном временном интервале. Но множество подобных процессов развивается во времени непрерывно, а их участники непрерывно получают обновленную информацию и адаптируются. Именно для таких процессов был предложен подход позволяющий моделировать кооперативные игры с динамическим обновлением информации. Но возникает много вопросов, например, как для таких игр построить кооперативную
траекторию, стратегии, ее порождающие, суммарный выигрыш вдоль кооперативной траектории, определить распределение суммарного выигрыша между игроками.
Цели и задачи исследования
Целью диссертационной работы является формализация и построение оптимальных решений о распределении выигрышей в конфликтно-управляемых процессах со многими участниками, когда информация о процессе обновляется динамически с течением времени. Для достижения поставленной цели в работе ставятся и решаются следующие задачи: Построение сильно динамически устойчивого ПРД-ядра.
-
Формализация поведения игроков на периодах между моментами времени, когда информация об игре обновляется, т.е. построение усеченных подыгр.
-
Исследование каждой усеченной подыгры, нахождение кооперативной траектории, построение характеристической функции вдоль кооперативных траекторий, получение оптимального решения.
-
Нахождение результирующего решения для игры, определенной на совокупности всех временных интервалов.
-
Формализация общей кооперативной игры, определенной на совокупности всех временных интервалов, определение характеристической функции для игры с динамическим обновлением информации.
-
Исследование свойства сильной динамической устойчивости (сильной временной состоятельности) результирующего решения дифференциальной кооперативной игры.
-
Построение результирующего решения, соответствующего набору классических решений в каждой усеченной подыгре, а именно пропорционального решения, вектора Шепли, C-ядра, сильно динамически устойчивого ПРД-ядра.
-
Исследование связи результирующего решения и решения в каждой усеченной подыгре, а именно пропорционального решения, вектора Шепли, C-ядра, сильно динамически устойчивого ПРД-ядра.
-
Изучение различных вариантов или моделей игр с динамическим обновлением информации, а именно: кооперативные дифференциальные игры с динамическим обновлением информации, с предписанной или бесконечной продолжительностью, кооперативные дифференциальные игры с динамическим обновлением информации и стохастическим прогнозом, кооперативные дифференциальные игры со случайным обновлением информации.
-
Апробация полученных теоретических результатов на теоретико-игровой модели добычи ограниченного ресурса, демонстрация свойства сильной динамической устойчивости полученного решения.
Научная новизна работы.
Все основные научные результаты диссертации являются новыми.
Методология и методы исследования.
В процессе проведения исследования автор опирался на научную методологию проведения исследования, общепризнанные принципы и подходы к исследовательской деятельности в области прикладной математики, методы теории оптимизации и теории игр.
Основные положения и результаты, выносимые на защиту
-
Определено новое решение для кооперативных дифференциальных игр, обладающее свойством сильной динамической устойчивости - сильно динамически устойчивое ПРД-ядро.
-
Построены и исследованы новые математические модели дифференциальной игры с динамическим обновлением информации с предписанной и бесконечной продолжительностью, дифференциальной игры с динамическим обновлением информации и стохастическим прогнозом, дифференциальной игры со случайным обновлением информации.
-
Предложены конструктивные методы нахождения результирующего кооперативного решения в дифференциальных играх с динамическим обновлением информации с предписанной и бесконечной продолжительностью, дифференциальных играх с динамическим обновлением информации и стохастическим прогнозом, дифференциальных играх со случайным обновлением информации.
-
Предложена процедура построения характеристической функции в играх с динамическим обновлением информации на основе значений характеристических функций в усеченных подыграх.
-
Доказаны теоремы о сильной t-динамической устойчивости в дифференциальных играх с динамическим обновлением информации с предписанной и бесконечной продолжительностью, дифференциальных играх с динамическим обновлением информации и стохастическим прогнозом, дифференциальных играх со случайным обновлением информации.
-
Определена связь кооперативного решения в игре с динамическим обновлением информации и кооперативных решений (пропорциональное решение, вектор Шепли, C-ядро, сильно динамически устойчивое ПРД-ядро), в каждой усеченной подыгре.
Практическая значимость.
Полученные в диссертации результаты представляют практический интерес. Кооперативные дифференциальные игры с динамическим обновлением информации, а также их различные варианты являются удобными математическими моделями для описания процессов, происходящих в экономике, экологии, менеджменте и прочих сферах человеческой деятельности.
Степень достоверности и апробация результатов исследования.
Достоверность полученных результатов основана на строгом доказательстве всех сформулированных математических утверждений. Основные результаты были представлены на
семинарах кафедры математического моделирования энергетических систем, на семинарах Центра теории игр, на международной конференции "Game Theory and Management" (Санкт-Петербург, 2015 и 2016 гг.), "Workshop on the Game Theory and Social Choice" (Будапешт, 2015 г.), на XIII международной конференции «Устойчивость и колебания нелинейных систем управления» (Москва, 2016 год).
Публикации
По теме диссертации опубликовано 5 работ, две из которых ([1], [2]) - в изданиях, рекомендуемых Высшей аттестационной комиссией (ВАК) для публикации основных научных результатов. Публикации [3-5] индексируются в базе данных Scopus. В работе [2] диссертант построил новое решение для кооперативных дифференциальных игр с предписанной продолжительностью, обладающее свойствами сильной динамической устойчивостью – ПРД-ядро. В работе [5] диссертантом была построена модель кооперативных дифференциальных игр с динамическим обновлением информации и стохастическим прогнозом, для этого класса игр было получено решение и доказано свойство сильной -динамической устойчивости. В работе [3] диссертантом была сформулирована и решена задача определения в некотором смысле оптимального информационного горизонта.
Структура и основное содержание работы
Диссертация состоит из введения, семи глав, разбитых на параграфы, заключения, списка используемой литературы, включающего 48 наименование. Объем составляет 108 страниц машинописного текста. Работа содержит 26 рисунков.
Определение соответствующего множества дележей
При переносе результатов кооперативной (статической) теории в область дифференциальных игр проблема поиска устойчивых принципов оптимальности усложняется некоторыми дополнительными аспектами, возникающими в динамике. В кооперативных дифференциальных играх для сохранения кооперации между игроками в течение всей игры одной супераддитивности характеристической функции V(S;x (t),T) вдоль кооперативной траектории x {t), t Є [to,T] недостаточно.
Данная проблема и способ ее решения для дифференциальных игр с предписанной продолжительностью была изучена в работах Л.А. Петросяна [14], [17]. Приведем некоторые определения из [17]:
Определение 1.2.1. (см. [17]) Набор функций Й(т),г Є [t0,T],i Є N} называется процедурой распределения дележа (ПРД) (х0Д 0) Є Е(х0,Т o), если 6(жо,Т- о)= / Pi(r)dT, ieN. to Таким образом, ПРД определяет правило, согласно которому компоненты дележа (хо,Т — to) распределены во времени игры [to,T].
Определение 1.2.2. (см. [17]) Принцип оптимальности С(х0,Т - t0) в игре Tv{xQ,T - to) называется динамически устойчивым, если для каждого дележа {х0,Т- h) Є С{хо,Т- t0) существует ПРД (3{t), t Є [t0,T\, такая, что if Pi(T)dT\eC(x (t),T), te[to,T\, ieN.
Ранее было показано (см. [17]), что если C(x (t),T - t) ф 0 при W Є [t0,T], и существует дифференцируемый селектор (ж ( ),Т - t) Є C(x (t),T - t) (((x (to),T - to) = С(хоД - to)), то принцип оптимальности С(х0Д - t0) является динамически устойчивым и ПРД (3(t) определяется по формуле Pi(t) = - Z(x (t),T), te[t0,T], ieN, (2.1) І(х (Ц)Д - to) = І{х0)Т - to). Тогда дележ (жо,Т — to) представим в виде i(x0,To)= / fr(T)dT + t(x (t),T), te[to,T\. Предположим, что V(S; x {t),T ), S С N непрерывно дифференцируема и не возрастает по t, t Є [t0,T\. Введем следующее обозначение: U(S;x (t),T ) = -jV(S;x (t),T ), te [ 0,T], S С N. (2.2)
Определение 1.2.3. B{t), \ft Є [t0,T\ - множество интегрированных вектор функций, каждая из которых удовлетворяет системе неравенств: B(t) = {/ЗД = (/ЗД,...,/Ш) : U(N;x (t),T)-U(N\S;x (t),T) 2Pi(t) U(S;x (t),T), VScN, 2Pi(t) = U(N;x (t),T)\ (2.3)
Если C-ядро не пусто, то оба неравенства в (2.3) выполняются одновременно (см. (1.5), 1.6). В следующем параграфе на основе определенного множества Bit) будем строить множество дележей (решение) в игре Vv(x0,T - t0). Таким образом, в следующем параграфе будет показано, что множество Bit) может интерпретироваться, как множество процедур распределения дележей для некоторого кооперативного решения в игре Vv(xo,T — to).
На основе множества векторов B(t) определим следующее множество. Определение 1.3.1. Пусть множество Bit) 0, V Є [t0,T]. ПРД-ядром C{x {t),T - t) назовем множество вектор функций ait), удовлетворяющих условию (3.1) для всех вектор функций Pit) Є Bit): a(t)= f Р(т)(1т, te [t0,T]. (3.1) Отметим, что множество C(x (t),T) было построено на основе функций /3(t). Докажем, что полученные на основе /3(t) векторы a(t) являются дележами, а функции /3(t), таким образом, могут быть интерпретированы как ПРД из определения 1.2.1.
Утверждение 1.3.1. Пусть множество В{t) ф $иПРД-ядуоС(х {Ь),Т) ф 0, W Є [t0,T\. Множество С(x (t),T ) является подмножеством множества дележей в игре Vv(x (t), T—t), т.е. C(x (t),T)QE(x (t),T), te [to,T\.
Доказательство. Пусть a{t) Є C{x {t),T). Докажем, что любой элемент a(t) из множества C(x (t),T) является элементом множества E(x (t),T — t). Покажем, что условия в (1.4) выполнены для Докажем первое равенство (условие коллективной рациональности) в (1.4). По определению 1.3.1., имеем J2 (t) = U(N;x (t),T) = - V(N;x (t),T), тогда, интегрируя обе части равенства, получаем требуемое равенство в (1.4) для Y, 5t Рг{т)(1т = ( ). Второе неравенство (условие индивидуальной iGN iGN рациональности) в (1.4) следует из определения множества B(t) (2.3). Функции /3(t) выбираются так, что выполнены неравенства (2.3), в том числе, справедливо нижнее неравенство в (2.3) для S = {і}. Тогда Pi(t) U({i}-,x (t),T ) = - V({i}-,x (t),T ). (3.2) Проинтегрируем обе части неравенства (3.2), тогда имеем: at(t)= f Pi(T)dT V({i}\x (t),T). (3.3)
По определению 1.3.1. имеем, что величина в левой части неравенства (3.3) является элементом из множества C(x (t),T), т.е. может быть обозначена как cti(t). Таким образом, для любого элемента из множества C(x (t),T), t Є [to T] справедливо (1.4), т.е. все элементы множества C(x (t),T — t) являются элементами множества дележей E(x {t),T - t). Утверждение доказано.
Отметим, что неравенство (3.2) впервые было сформулировано в работе [46] и названо условием защиты от иррационального поведения участников. Таким образом, выполнение данного условия, которое имеет место по построению множества, также гарантирует множеству C{x {t))T — і) некоторые другие полезные свойства устойчивости (см., например, [37, 2]).
Согласно доказанному Утверждению 1.3.1. множество B{t) может быть интерпретировано как множество ПРД, т.е. дележи, полученные на основе некоторых функций (3(t), удовлетворяющих условиям (2.3), могут быть распределены во времени игры согласно тем же функциям P(t) по правилу (3.1). Следовательно, множество C(x (t),T — і) является динамически устойчивым принципом оптимальности по построению (см. опред. 1.2.2.). Справедливо следующее утверждение. Утверждение 1.3.2. Пусть С-ядро mpuTv{x {t),T) и множество В (t) не пусто \/t Є [о,Т]. Тогда множество является подмноже ством С-ядра C(x (t),T- t) в игре Tv(x (t),T - t), t Є [t0,T\. Доказательство. Для доказательства этого утверждения необходимо доказать, что для любого дележа (x (t),T - t) Є C(x (t),T - t) выполняется необходимое и достаточное условие принадлежности C–ядру [1]:
Концепция решения в исходной игре с динамическим обновлением информации
В этой главе будем рассматривать два типа игр, дифференциальные игры с предписанной продолжительностью T(x0,T0) и бесконечной продолжительностью Г(жо,о). Рассуждения и доказательства для этих двух классов игр в данном случае схожи. Исходная игра Г(жо,Т — to) уже определена в главе 1. Определим игру T(x0}to) с бесконечной продолжительностью.
Рассмотрим дифференциальную игру п лиц Г(ж0,0) с бесконечной продолжительностью и начальным состоянием XQ. Динамика игры задается системой обыкновенных дифференциальных уравнений: ж =/(ж,«!,...,«„), ж Є Я", «І Є Е/І С compД , є[ 0,+оо], x(to) = жо, для которой предполагаются выполненными условия существования, единственности и продолжимости решений для любого набора измеримых управлений мі(-), ип{-) [17]. Выигрыш г-го игрока определяется следующим образом: +оо Ki(x0,to;uu...,vn)= / /i,( (r),Ml(r),...,Mn(r))e- - rfr, г = 1,...,п, to где hi(x,uu ...,ип) представляет собой непрерывную функцию, x(t) - решение задачи Коши для системы (1.1) при управлениях u(t) = (ui{t),... ,un(t)) и г 0 - это дискаунт фактор.
Предположим, что в игре Г(ж0,Т - t0) (Г(жо, о)) информация обновляется в моменты времени t = to -\- J At, j = 0,..., /, здесь I = - 1, 0 At Т задает время между моментами обновления информации. В игре Г(жо, о) с бесконечной продолжительностью в качестве Т = +оо, поэтому / = +оо. В моменты времени t = to + jAt игроки получают точную информацию об уравнениях движений и функциях выигрыша на временном интервале [to + jAt,t0+jAt+T], здесь At Т Т (At Т +оо) задает временной горизонт, на котором игрокам известна информация об игре. На интервалах [t0+jAt,t0 + jAt + Т], j = 0,... , I (j = 0,..., +оо) строится игра. С помощью уравнений Гамильтона-Якоби-Беллмана [32] можно определить кооперативное поведение (кооперативные стратегии, траекторию) в каждой подобной усеченной игре.
Рисунок 2.1. Каждый овал показывает усеченную информацию, которая известна игрокам в течение временного интервала [to + jAt,to + (j + l)At],
В течение первого временного интервала [to, to + At] игроки имеют точную информацию о структуре игры на интервале [to, to + Т]. В момент времени t = to + At информация об игре обновляется, и на втором интервале (t0 + At,t0 + 2At] игроки имеют точную информацию о структуре игры на интервале (t0 + At,t0 + At + T] и т.д. Чтобы смоделировать подобный процесс введем следующее определение (Рис.2.1.). Обозначим xj}0 = x(t0+jAt), х0,о = х0.
Определение 2.1.1. Пусть j = 0,...,1. Усеченная подыгра fj(xjfi,t0 + jAt, to + j At + T) определена на временном интервале [t0 + jAt, t0 + jAt + T] следующим образом. На временном интервале [t0+jAt,t0+jAt + T} уравнения движения, функция выигрыша в усеченной игре и исходной игре совпадают: х = /(ж, «і,.. .,Un), x(to+jAt) = xji0, (1.2) t0+jAt+T Ki(x to+jAt,to+jAt + T;u)= f ht(r,x(r),U(r))e- - dr. (1.3) t0+jAt Под исходной игрой в определении 2.1.1. будем понимать игру T(x0,T0) с предписанной продолжительностью, тогда дискаунт фактор может принимать нулевое значение г 0 и I = - 1, где Т +оо. Либо игру Г(ж0,о) с бесконечной продолжительностью, тогда I = +оо и дискаунт фактор г 0. Для игры с бесконечной продолжительностью предполагается также, что выигрыш в игре (в любой усеченной подыгре) рассчитывается от момента времени t0; в формуле (1.3) дисконтирование выигрыша начинается с момента времени to.
Рассмотрим усеченную кооперативную подыгру Vj(xjfi,to+jAt, to+jAt+T) на временном интервале [to + jAt,to + jAt + Т] с начальным условием x(to + jAt) = Xjfi. В кооперативной постановке игрокам необходимо максимизировать суммарный выигрыш Y KJ(xj}o,to + jAt,t0 + jAt + T; uJ ) = t0+jAt+T (a:(r),«(r))e- - 0)dr (2.1) N t0+jAt при условии x = /(ж, «і, ...Л), Ж( 0 + jAt) = ,0- (2.2) Это задача оптимального управления. Необходимые условия для ее решения и соответствующие управления могут быть определены с помощью уравнения Гамильтона-Якоби-Беллмана [32]. Обозначим максимальное значение суммарного выигрыша игроков (2.1) через w№\t,x) = maxlYK{(x,t-,v?)\, (2.3) ieN где х,t - начальные позиция и время подыгры усеченной игры Tj(x,t,to+jAt + Г).
Теорема 2.2.1. Предположим, что существует непрерывно дифференцируемая функция W№\t,x) : [to+jAt,t0+jAt + T] х Кт -+ R, удовлетворяющая следующей системе уравнений в частных производных: W{jAt\to+jAt + T,x) = 0. (2.5) Предположим, что максимум в (2.4) достигается при и = u (t). Тогда и = u (t) является оптимальным в задаче управления, определяемой (2.1), (2.2).
Траекторию, соответствующую и = u J(t), будем называть кооперативной и обозначать через х Лі). В соответствии с рассматриваемым подходом в каждый момент времени игрокам доступна ограниченная информация о структуре игры Г(х0,Т - t0) (Г(ж0, о)). Этой информации недостаточно, чтобы определить кооперативное поведение для игроков во всей игре Г(хо,Т — to) (V(xo,to)). Вместо кооперативной траектории в игре T(x0,T0) (T(x0,t0)) будем строить условно кооперативную траекторию:
Условно кооперативная траектория {x (t)}J=t0 ({x (t)}tJ - это комбинация кооперативных траекторий x (t) в усеченных подыграх fj(xjfi,to+jAt,to+jAt + T): x 0(t) te[to,t0 + At], { ( )}L0 = \ x j(t) t Є (t0 + jAt,t0 + (j + 1)Д ], (2.6) x\(t) te(to + lAt,t0 + (l + l)At], где для игры Г(х0, T0) с предписанной продолжительностью t0 + (l + l)At = Т иТ ос, а для игры Г(ж0,0) с бесконечной продолжительностью I = +оо и соответственно t0 + (I + l)At = +оо.
На временном интервале [to, to + At] траектория x (t) является кооперативной в усеченной подыгре Го(х0, h,to + Т). В момент времени t = t0 + At в позиции xl(to + At) информация об игре обновляется. На временном интервале (to + At,to + 2At] игроки двигаются вдоль кооперативной траектории x\(t) в усеченной подыгре ti(xl(to + At),to + At,t0 + At + T). В момент времени t = to+jAt в позиции x to+jAt) информация об игре обновляется. Условно кооперативная траектория x (t) на временном интервале (to+jAt,to + (j + l)At] определена, как комбинация частей кооперативных траекторий x (t) в усеченных подыграх Т3(х _х(іо + jAt),t0 + jAt,t0 + jAt + T) (Рис. 2.3.).
Концепция решения в исходной игре с динамическим обновлением информации и стохастическим прогнозом
Рассмотрим кооперативную дифференциальную игру Г(х0,Т - t0), определенную в первой главе. Правая часть f(x,uh ... ,ип) уравнений движения (1.1) имеет следующий вид: /o(z,ui,...,un), te [t0,t0 + At] f(x,uu...,un) = fj(x,uu...,un), te (t0+jAt}to + (j + l)At] fi(x,uh .. .л), te {t0 + I At, to + (/ + 1)Д ], Tp At где l 1, t0 At Т. Правые части уравнений движения различны на каждом временном интервале (to + jAt,t0 + (j + I)At]. Внутри каждого интервала игроки имеют информацию о правых частях уравнения движения fj(x,uu ... ,ип) на этом интервале, но они не имеют информацию об уравнениях движения на оставшемся временном интервале (to + (j + l)At,T]. Для того, чтобы компенсировать отсутствующую информацию об уравнениях движения игроки используют прогноз для уравнений движения на временном интервале (to + (j + l)At,T] основанный на знаний о правой части уравнений движения fj(x,U\,... ,ип) на текущем временном интервале. В момент времени t = t0 + (j + l)At информация о правых частях уравнений движения на интер 70 вале (to + (j + l)At,t0 + (j + 2)At] становиться известной, прогноз для уравнений движения на временном интервале обновляется. Подобные задачи часто появляются в реальных процессах, т.к. информация об игре на больших временных интервалах не всегда известна точно, поэтому целесообразно использовать прогноз. Пусть t Є (t0+jAt,t0 + (j + l)At]. На временном интервале (t0+jAt,t0 + (j + I) At] заданы следующие уравнения движения: х = j3(x,ux, .. .,ип), j = 0,..., I, te [t0+jAt,t0 + (j + I) At], а на временном интервале (to + (j + l)At,T] прогноз для уравнений движения задан следующим образом: dx = fj(x,uh .. .,un)dt + a(t,x)dz(t), j = 0,...,/, t Є [to + (j + 1)A ,T], где a(t, х)-этотхв матрица и z(t) Є Re - это Винеровский случайный процесс. В моменты времени t = to + jAt, j = 0,..., l игроки получают информацию о правой части уравнений движения на очередном At временном интервале и переопределяют свои стратегии.
В течение первого временного интервала [to, to + At] игроки имеют точную информацию об игре на интервале [to, to+At] и прогноз на временном интервале (t0 + At,T]. В момент времени t = t0 + At информация об игре обновляется и на втором интервале (t0 + At,t0 + 2At] игроки имеют точную информацию на (to + At,to + 2At] и прогноз на интервале [t0 + 2At,T]. Обозначим xjfi = x(to+jAt).
Определение 3.1.1. Пусть j = 0,...,/. Комбинированная усеченная подыгра fj(xjfi,t0 + jAt,T) определена на временном интервале [t0+jAt,T] следующим образом. На временном интервале [t0 + jAt, t0 + (j + l)At] уравнения движения, функция выигрыша в усеченной подыгре игре и исходной игре Т(хо,Тo) совпадают. Но на интервале (t0 + (j + l)At,Т] усеченная подыгра fj(xjfi,to+jAt,T) является стохастической игрой. Уравнения движения и функция выигрыша в комбинированной усеченной подыгре имеют следующий вид: dx = fj(x,uh .. .,un)dt+I(j,t)-a(t,x)dz(t), xfo+jAt) = xjfi, t Є [t0+jAt,T], (1.1) где [о, te [t0+jAt}t0 + (j + l)At]} I(j,t)= I (1.2) I 1, te (to + (j + l)At,T\, а выигрыш игрока і Є N определяется математическим ожиданием !т Л j Лі(ж(г),и(г))гіг + ф(ж(Г))1. (1.3) t0+jAt J 2. Решение комбинированной кооперативной усеченной подыгры Рассмотрим комбинированную усеченную кооперативную подыгру Tj(xjfi,to + jAt,T) на временном интервале [to + jAt,T] с начальным условием x(t0 + jAt) = Xjfi. В кооперативной постановке игрокам необходимо максимизировать суммарный выигрыш т Ї j Лі(ж(г),и(г))гіг + ф(ж(Г))1 (2.1) JjAt J при условии dx = fj{x,uu .. .,un)dt + I{j,t) a{t,x)dz{t), x{t{)+jAt) = xjfi, (2.2) где I(j,t) - это индикаторная функция определенная в (1.2). Это задача оптимального управления. Необходимые условия для ее решения и соответствующие управления могут быть определены с помощью уравнения Гамильтона-Якоби-Беллмана [47]. Доказательство следующей теоремы является частным случаем теоремы в [47], но в данном случае элементы ковариационной матрицы П(т, х]) обращаются в ноль на интервале [t0 + jAt} t0 + (j + l)At], что описывается индикаторной функцией I(j,t). Обозначим максимальное значение суммарного выигрыша игроков (2.1) через W At\t,x): W№\t,x) = max(y KUx T-y)\ , ieN где x,t - начальные позиция и время подыгры усеченной игры Tj(x,t,T).
Теорема 3.2.1. Предположим, что существует дважды непрерывно дифференцируемая функция WVAt\t,x) : [t0+jAt}T]xRm -+ R, удовлетворяющая следующей системе уравнений в частных производных
Предположим, что максимум в (2.3) достигается при и = u (t). Тогда и = u (t) является оптимальным в задаче управления, определяемой (2.1), (2.2). Траекторию, соответствующую и = u (t), будем называть кооперативной и обозначать через x {t). Определим условно кооперативную траекторию {x (t)}J=t в игре Г(жо,Т — to) также, как и в главе 2: { ( )}Ц, = ХЩ t є {to+jAt,t0 + {j + l)At], j = 0,...,/, гдеt0 + (l + l)At = T.
Решение кооперативной случайной усеченной подыгры
Это означает, что игроки в каждой случайной усеченной подыгре выбирают ПРД /3j{t,x j) из множества B3{t,x ) (3.1), j = 0,...,/. Далее строится соответствующее результирующее ПРД /3(t,x ) (3.2) и множество B(t,x ). С помощью формулы (3.3) рассчитывается результирующий вектор (x {t),T - t), множество всевозможных таких векторов образует результирующее решение W(x (t),T).
Далее на примере конкретных результирующих векторов из W(x (t), Т — і) покажем, что построенное решение является сильно динамически устойчивым в игре Г(х0,Т- t0) со случайным обновлением информации. Отличием этого раздела от подобного в главе 2 является то, что в главе 2 в качестве принципа оптимальности использовалось C-ядро, а значит исследовалось свойство сильной А -динамической устойчивости. Это означает, что исследовалось отклонение от выбранного решения (дележа) только в моменты времени t = t0 + jAt, j = 0,..., /. В этом разделе в качестве принципа оптимальности используется сильно динамически устойчивое ПРД-ядро, поэтому интерес представляет исследование свойства сильной динамической устойчивости. Т.е. будет исследовано отклонение от выбранного решения для любого момента времени t Є [to,T].
Численный пример. Рассмотрим численный пример игры заданной на временном интервале длинной Т — to = 4, в котором на интервалах времени [t0 + jAMo + (j + 1)Д ] информация об игре известна на интервале длинной Tj, где Tj - это случайная величина (4.1) с Л = 0.5. Информация об игре обновляется с периодом At = 1. Зафиксируем следующие параметры для уравнений движений а = 10, Ъ = 0.5, для функции выигрыша d = 0.15, с2 = 0.65, с3 = 0.45 и для начальных условий t0 = 0, х0 = 200.
Во время обновления информации об игре происходит реализация случайного временного горизонта для текущей усеченной подыгры: Т0 = 2.423, Ті = 3.538, Т2 = 3.871, Т3 = 4. Сгенерированное значение информационного горизонта в текущей усеченной подыгре влияет на распределение продолжительности следующей усеченной подыгры. На графике 4.1. отображены плотности распределения. Видно, каким образом происходила генерация Tj, и как менялась плотность распределения fj(t) (4.2) информационного горизонта.
На графике 4.2. изображены оптимальные стратегии (стратегии соответствующие кооперативной траектории) для первого игрока, рассчитанные в игре со случайным обновлением информации (сплошная линия) и в исходной игре трех лиц [48] (пунктирная линия).
На графике 4.3. представлено следующее сравнение: условно кооперативная траектория x (t) (толстая сплошная линия) в игре со случайным обновлением информации, условно кооперативная траектория x (t) (тонкая пунктирная линия) в игре с динамическим обновлением информации, описанной в главе 2 и в [40] (где значение временного горизонта Т = 2), и кооперативная траектория x (t) (пунктирная линия) в исходной игре трех лиц. На следующем графике 4.4. отображена условно кооперативная траектория x (t) (сплошная линия) в игре со случайным обновлением информации и траектории, которые были частью кооперативных траекторий в каждой из случайных усеченных подыграх, но не являются оптимальными во всей игре (пунктирные линии).
Далее для того, чтобы распределить суммарный выигрыш между игроками Рисунок 4.2. Оптимальные стратегии игрока 1 в игре со случайным обновлением информации (сплошная линия) и в исходной игре трех лиц [48] (пунктирная линия). необходимо рассчитать значения характеристической функции Vj(S;x (t),t), S С N для каждой случайной усеченной подыгры fi(x jfi,t0+jAt). Используя Vj{S] x j{t),t), построим множество ПРД B3{t, xf), j = 0,..., I (3.1) для каждой случайной усеченной подыгры и результирующее множество ПРД B(t,x ).
Продемонстрируем свойство сильной динамической устойчивости результирующего решения W(x0,T0). Предположим, что в начале игры T(x0,T0) игроки договорились использовать пропорциональное решение Prop(x (t),T — і) (5.1) (далее покажем, что при заданных параметрах Prop(x (t),T — і) Є W(x (t),T - t)). Теперь предположим, что в некоторый момент времени tbr Є [t0,T\ (пусть tbr ф to+jAt, j = 0,..., l) игроки решили, что пропорциональное решение больше их не устраивает, и выбрали другой вектор из результирующего решения W(x (tbr),T — tbr), например, вектор Шепли Sh(x (tbr),T — tbr), t Є [tbr,T] (5.2). Рассчитаем результирующее ПРД для пропорционального решения и вектора Шепли. Пусть tbr = 1-2, тогда ПРД для результирующего -комбинированного решения (3.2) имеет следующий вид: te [t0, tbr], P(t,x (3Prop(t}x )}