Модели устойчивой двухуровневой кооперации в дифференциальных играх Колабутин Николай Валерьевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Колабутин Николай Валерьевич. Модели устойчивой двухуровневой кооперации в дифференциальных играх: диссертация ... кандидата физико-математических наук: 01.01.09 / Колабутин Николай Валерьевич;[Место защиты: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Санкт-Петербургский государственный университет"].- Санкт-Петербург, 2015.- 122 с.

Содержание к диссертации

Введение

Глава 1. Модель некооперативной игры коалиций 17

1.1 Математическая модель 17

1.2 Равновесие по Нэшу в игре ГЛ (ж0, Т — to) 20

1.3 Распределение выигрыша внутри коалиции К \ 24

1.3.1 Вычисление значений характеристической функции в игре Тк (х{\ Т - to) 25

1.3.2 Супераддитивность характеристической функции yMto) (K,xK{t),T) 29

1.3.3 Процедура распределения выигрыша в игре Г (ж,Т — to) 33

1.4 Коалиционное решение. Построение устойчивого PMS-вектора в игре ГА (ж0, Т - to) 36

1.5 Численный пример 38

Глава 2. Двухуровневая кооперация в игре технологического альянса 44

2.1 Постановка задачи 44

2.2 Кооперация коалиций 45

2.3 Построение характеристической функции в игре технологического альянса 47

2.3.1 Вычисление значения характеристической функции для максимальной коалиции (технологического альянса коалиций) 48

2.3.2 Вычисление значений характеристической функции для произвольной коалиции К С N 51

2.3.3 Супераддитивность полученной характеристической функции.. 53 з

2.4 Процедура распределения выигрыша в технологическом альянсе коалиций 54

2.5 Построение кооперативной игры между членами коалиции К\ 58

2.6 Вектор Шепли в игре TKl(xKl,T - t0) 61

2.7 ES-вектор в игре VKl(xKl,T - t0) 64

2.8 Пропорциональное решение в игре Тк (хк , Т — to) 67

2.9 Численные примеры 70

2.9.1 Пример 1. Распределение выигрыша по вектору Шепли 71

2.9.2 Пример 2. Распределение выигрыша по вектору Шепли и ES-вектору 77

2.9.3 Пример 3. Распределение выигрыша по вектору Шепли и согласно пропорциональному решению 81

Глава 3. Двухуровневая кооперация в кооперативной игре сокращения выброса вредных веществ 85

3.1 Постановка задачи 85

3.2 Кооперация между коалициями (игра Гл (so, to)) 87

3.3 Характеристическая функция в игре ГЛ(ЙО, h) 88

3.4 Процедура распределения выигрыша в игре ГЛ (so, h) 101

3.5 Распределение выигрыша внутри коалиции К\ 104

3.6 Вычисление характеристической функции в игре Г ( о, о) 106

3.7 Процедура распределения выигрыша внутри коалиции К\ 112

Заключение 116

Литература

Распределение выигрыша внутри коалиции К
Вычисление значения характеристической функции для максимальной коалиции (технологического альянса коалиций)
Построение кооперативной игры между членами коалиции К\
Процедура распределения выигрыша в игре ГЛ (so, h)

Распределение выигрыша внутри коалиции К

Рассмотрим дифференциальную игру ГЛ (ж0, Т — to), в которой участвуют фирмы, разрабатывающие некоторую продукцию. Обозначим за N = {1, ...,п} множество фирм-участников. Главным параметром каждой фирмы і Є N является ее технологический уровень, который обозначим за ХІ Є R+. Для простоты будем называть этот параметр просто уровнем технологии фирмы или состоянием фирмы. На данный параметр наложено ограничение ХІ 0. Игра начинается из начального состояния х = (я , х\ ...,3 в момент to и продолжается период Т — to-, в течение которого фирмы получают определенный выигрыш от использования своей технологии. В момент Т - момент окончания игры, фирмы получают некоторый дополнительный выигрыш.

Целью каждой фирмы является максимизация ее собственного выигрыша. Т.к. выигрыш растет с ростом уровня технологии, то фирма постоянно стремится повысить этот уровень, для чего инвестирует в развитие своей технологии. Уровень инвестиций фирмы і Є N в технологическое развитие, являющийся ее стратегией в игре, обозначим за щ Є R+. Этот параметр будем также называть управлением фирмы.

Развитие технологического уровня фирмы і Є N для простоты будем называть технологическми развитием. Оно описывается дифференциальным уравнением: Xi(s) = аг [ul{s)xl{s)]l/2 - Sxi(s) (1.1.1) Xi{to) = хг, ге N, где Xi(s) Є R+ - переменная состояния фирмы і; щ(в) Є R+ - переменная управления фирмы г; (ii и 5 - положительные константы. Величина ot{ [ui(s)xi(s)} определяет прирост уровня технологии фирмы г, а величина dxi(s) - устаревание технологии.

Обозначим правую часть уравнения (1.1.1) за fi [xi(s),Ui(s)]. Считаем, что на правые части наложены условия, гарантирующие существование, единственность и продолжимость решений для любых кусочно-непрерывных управлений Ui(s)}s Є [to,Т], т.е. fi [xi(s),Ui(s)] непрерывна в области [to,T] х [0, оо) и удовлетворяет условию Липшица в этой области. Выигрыш фирмы і имеет вид: Величины РІ,СІ - положительные константы; Pi [xi(s)] - операционная прибыль фирмы і в момент s; CiUi(s) - затраты на технологическое развитие фирмы і в момент s; exp [—r(t — to)] -функция, определяющая величину дисконта; г - известная постоянная величина, процентная ставка; qi [ХІ{Т)\ - терминальный выигрыш фирмы і в момент окончания игры Т и в состоянии ж«(Т); qi - положительная константа.

Функции мгновенного и терминального выигрышей возрастают при возрастании уровня технологий Xi(s).

Предположим, что несколько фирм объединяются для максимизации совместного выигрыша. За счет своих партнеров фирма-участник может получить дополнительные возможности в развитии, которые она не могла бы получить в одиночку. Поэтому уравнение, описывающее технологическое развитие фирм, изменяется. Рассмотрим коалицию К: образованную некоторым подмножеством фирм К С N. Уравнение технологического развития участников коа 19 лиции принимает вид: - положительная константа, представляющая эффект передачи технологии для фирмы г, осуществляемый фирмой j. Обозначим правую часть уравнения (1.1.3) за jf [xK(s),Ui(s)}, где XK{S) = {xi(s)}ieK набор состояний участников коалиции К. Уровень технологии каждой фирмы в коалиции К оказывает положительный эффект на скорость технологического развития, т.е. выполняются условия djf [xK(s),Ui(s)} /dxj 0, j Є K,j ф і. Синергетиче-ский эффект технологического развития фирмы і может быть получен за счет передачи технологий от других фирм в коалиции К. Считаем, что на правые части (1.1.3) также наложены условия существования и единственности решения.

Будем считать, что коалиции выступают как отдельные игроки, участвуя в бескоалиционной игре ГЛ (ж,Т — to). Выигрыш каждой коалиции равен сумме выигрышей ее участников и определяется из равновесия по Нэшу в игре коалиций. Полученный выигрыш коалиции распределяется между ее участниками в соответствии с некоторым принципом оптимальности.

В данной модели образование коалиций ведет лишь к изменению динамики игры. Образованные коалиции никак не взаимодействуют между собой, следовательно, любая фирма і, не входящая в коалицию Кі: никак не влияет на ее развитие. Поэтому в данном случае поиск равновесия по Нэшу вырождается в максимизацию коалиционного выигрыша каждым игроком-коалицией. Коалиция Ki С А стремится максимизировать свой выигрыш, определяемый формулой (1.1.6). При этом, динамика состояний участников коалиции определяется из системы дифференциальных уравнений (1.1.5).

Вычисление значения характеристической функции для максимальной коалиции (технологического альянса коалиций)

Будем, считать, что участники технологического альянса коалиций делят полученный выигрыш в соответствии с динамическим вектором Шепли. Однако в данном случае формула компонент вектора Шепли будет несколько отличаться от ранее приведенной, поскольку участниками игры являются не отдельные игроки, а коалиции. Во-первых, должна быть рассчитана не доля каждой отдельной фирмы, а доля только тех коалиций if/, которые принадлежат разбиению А. Во-вторых, расчет вкладов идет не по всем подмножествам множества N: а только по тем К, которые образованы участниками игры {Ki}, принадлежа-щими разбиению А. В-третьих, для коалиции К важно не общее количество входящих в нее фирм, а количество входящих в нее участников. Формула компоненты вектора Шепли принимает следующий вид:

Чтобы максимизировать выигрыш технологического альянса, игроки на промежутке [о,Т] будут использовать набор кооперативных управлений {u N(t)}t=t в соответствии с формулой (2.3.9) и реализовывать соответствую гр щие оптимальные траектории {x N(t)}t=t в силу системы (2.3.10). Для дележа совместного дохода игроки будут использовать вектор Шепли, компоненты которого вычисляются по формуле (2.4.1)

Отметим, что вектор Шепли, определенный в (2.4.4), удовлетворяет всем свойствам дележа, т.е. обладает индивидуальной рациональностью и эффективностью. Т,Х {Т)) = \ {Т,Х {Т)), Для реализации динамического вектора Шепли необходимо определить процедуру распределения дележа, чтобы компенсировать переходные изменения. Определим процедуру распределения дележа, как функцию BA(t) = {BKl{t)}Tt=tQ, такую что:

Рассмотрим текущие подыгры Г (x N(t),T — і) вдоль условно-оптимальной кооперативной траектории x N(t). Будем полагать, что функция \ ик (to, xN) может быть выбрана как дифференцируемая по t.

Чтобы вектор Шепли поддерживался на всем протяжении игры, необходи 57 мо, чтобы в каждый момент выполнялось равенство: Последнее условие означает временную состоятельность или динамическую устойчивость решения относительно коалиций-участников К\ С А. Необходимо также показать динамическую устойчивость решения относительно каждой отдельной фирмы. Это будет сделано в последующих разделах.

Отметим, что, как и раньше, в каждый момент s Є [о,Т] происходит только перераспределение совместного выигрыша, поэтому сумма доходов игроков не меняется, т.е.

Выигрыш, полученный в игре Г {xPNlT — to), коалиция К\ делит между своими фирмами-участниками. Требуется вычислить долю каждой фирмы от полученного выигрыша. Снова будем считать, что внутри коалиции К\ фирмы действуют кооперативно. В качестве дележа снова используется динамический вектор Шепли. Это означает, что можно определить кооперативную игру Г (хк , Тo): в которой Ki - это множество игроков, а V = V 0" Kl (L,xL(t),T — t)- характеристическая функция, где L С К\.

Для вычисления доли выигрыша каждой фирмы і Є К\ необходимо построить характеристическую функцию в игре VKl(xK,T — to) и определить процедуру распределения дележа.

Характеристическую функцию будем строить следующим образом. Вначале построим характеристическую функцию для всей коалиции К затем для произвольной коалиции L С К\. При построении характеристической функции для коалиции К\ необходимо учитывать, что она участвует в игре коалиций Г (xN, Т — to) и поэтому получает больший выигрыш, чем могла бы получить, играя самостоятельно. Поскольку любая подкоалиция К С К\ не включена в разбиение А, то можно считать, что она не имеет тех бонусов, какие доступны для коалиции К и для нее характеристическая функция будет строиться без учета игры коалиций.

Значение характеристической функции V to Kl {Ki, хк , Т — to) должно равняться максимальному гарантированному выигрышу, который может получить коалиция К\. Если бы коалиция играла самостоятельно, ее максимальный гарантированный выигрыш был бы равен функции W )Kl (t0, xKl), определяемой формулой (1.2.4). Эта функция определяет выигрыш коалиции К\ в равновесии по Нэшу в игре коалиций TA(xN, Т — to). Но в игре TA(xN, Т — to) коалиции объединены в альянс, и каждая получает долю дохода, равную компоненте вектора Шепли ик (о,Ждг), которые вычисляются по формуле (2.4.3). В силу индивидуальной рациональности вектора Шепли i Ko) (to,xN) W Kl (to,xK), коалиция Ki получает больший выигрыш, чем при самостоятельной игре.

Построение кооперативной игры между членами коалиции К\

В работах Козловской H.B. [6], [7] была доказана субаддитивность характеристической функции в игре между предприятиями.

Доказательство субаддитивности характеристической функции в кооперативной игре между коалициями проводится аналогичным образом, но рассматриваются только коалиции из разбиения А и их объединения.

Теорема 3.3.4. Характеристическая функция (3.3.26) в игре ГЛ (so,to) является субаддитивной. Доказательство. Для доказательства субаддитивности достаточно показать,

Считается, что до момента времени г коалиции действуют кооперативно, и траектория загрязнения задается формулой (3.3.18). Если в момент г коопе-рация распадается, и создается коалиция К, то новая траектория загрязнения s(t) определяется подстановкой в уравнение динамики (3.1.1) формул выбросов е\ (3.3.24) для і є К и е\ 1 (3.3.5) для і Є N\K. Следовательно, формула траектории будет следующей:

Будем считать, что участники кооперации коалиций делят полученный выигрыш в соответствии с динамическим вектором Шеили. При этом, поскольку участниками игры ГЛ(ЙО,О) являются не отдельные предприятия, а их коалиции, то, как и ранее, компоненты вектора Шепли \ух1 (V)}K сА Рассчитываются по формуле (2.4.1).

На промежутке [о,оо) коалиции используют управления е\ (s(t)) в соответствии с формулой (3.3.17), соответствующая кооперативная траектория S(A)N определяется формулой (3.3.18).

В начальный момент времени to доля коалиции К\ С А будет равна: 4; м = Щ [V (K,S0,t0) - (3.4.1) KCN VA M(K\Kl,s ht0) , где К = Кіг U Кі2 U ... U Kik - объединение некоторого подмножества коалиций из разбиения А, К с A, ( = 1,...,&, к - число коалиций-участников игры, входящих в коалицию К, т- число коалиций-участников в разбиении А. Чтобы вектор Шепли поддерживался на протяжении всего времени игры, в каждый момент времени t Є [о,оо), учитывая формулу (3.3.26), должно выполняться равенство:

Будем полагать, что функции \vK (t,s N(t)) дифференцируемы no t. Для реализации динамического вектора Шепли необходимо определить процедуру распределения дележа. Определим процедуру распределения дележа, как функцию /Зд() = {Д ()}ієи , такую что в любой момент t Є [to, оо): І/} ( о, «о) = f РкМ ехр [-г{т - to)} dr (3.4.3) Функция PKI{T) представляет собой затраты, которые несет коалиция-участник К\ в момент т.

Для поддержания вектора Шепли необходимо выполнение следующего равенства: u {t,s Выигрыш, полученный в игре Г (so,to) коалицией Ki, распределяется между ее участниками. Вычислим теперь долю каждого предприятия і Є К\. Предполагается, что внутри коалиции К\ предприятия действуют кооперативно, используя в качестве дележа динамический вектор Шепли. Но необходимо учитывать, что выигрыш коалиции Кі: равный компоненте вектора Шепли ик (t, s N(t)), в общем случае не совпадает с тем выигрышем, который коалиция получила бы, играя самостоятельно. Поэтому будем полагать, что участники коалиции К\ делят совместный выигрыш пропорционально вектору Шепли. Это означает, что доли предприятий от общего выигрыша соотносятся так же, как компоненты вектора Шепли, полученного при самостоятельной игре коалиции. Вычисление выигрыша каждого предприятия будем проводить следующим образом.

Определим коалиционную игру Г (so,to), в которой участвуют коалиция Ki и коалиция N\Ki. Найдем характеристическую функцию в игре Г (so, o) для коалиции К\ и всех ее подкоалиций L С Ki: предполагая, что коалиция К\ и все ее под коалиции играют самостоятельно. При этом предполагается, что предприятия, входящие в коалицию N \ К используют в игре Г (so, o) свои кооперативные стратегии е л (s t)), вычисляемые по формуле (3.3.17), а предприятия, входящие в Ki: но не входящие в L — свои равновесные по Нэшу стратегии в игре TKl (so,to), которые будут вычислены ниже. Характеристическую функцию в игре YKl (so,to) обозначим через VKl 0" (L,s(t),t): L С К\. Вычислив характеристическую функцию, вычислим компоненты вектора Ше-пли для предприятий і Є Ki, \v\ l (t s N(t)) . Зная значение компо-ненты Щ l (t,s(A N(t)): определим долю каждого предприятия і от общего выигрыша VKl (Khs N{t)

Характеристическую функцию VKl " (L, s(t),t) в игре TKl(so to) будем вычислять в 2 этапа. Вначале построим равновесие по Нэшу в игре; затем найдем значение характеристической функции для любой подкоалиции LC .

Для построения равновесия по Нэшу в игре TKl(so,to) требуется решить следующую систему задач минимизации: функция Беллмана, определяющая минимальные издержки предприятия і Є Кі в подыгре, начинающейся в момент t Є [о,оо), а е = {еі, Є2,..., еп}- ситуация в игре. Динамика игры задается уравнением (3.1.1).

Коалиция К\ участвует в игре коалиций Г (so,o), П0ЭТ0МУ ее участники будут использовать набор оптимальных управлений е\ {s{t))-, полученных по формуле (3.3.17) на промежутке [to, 00) и реалпзовывать коперативную траекторию s N(t), полученную по формуле (3.3.18). Чтобы найти выигрыш предприятия і Є Кі: необходимо вычислить долю этого предприятия в игре Г (so,to), равную компоненте вектора Шепли в этой игре. Эту долю обозна-чим через vfo)Kl (t, s N(t)).

Процедура распределения выигрыша в игре ГЛ (so, h)

Игроками вновь являются фирмы, обладающие некоторой технологией. Уравнение технологического развития и выигрыши для отдельного игрока и для коалиции игроков берутся из предыдущей главы. Задается коалиционное разбиение множества игроков, и вводятся основные параметры коалиций. Задается уравнение динамики развития каждой коалиции из разбиения, и определяется выигрыш коалиции, как сумма выигрышей ее участников. В разделе 2.2 показана кооперация между коалициями из разбиения, динамика развития игроков в объединенных коалициях и выигрыши объединенных коалиций, которые также вычисляются через сумму выигрышей участников. Вводится понятие максимальной коалиции или технологического альянса коалиций. В разделе 2.3 описано построение характеристической функции для верхнего уровня кооперации. Поскольку на верхнем уровне кооперации в качестве игроков выступают коалиции, а не отдельные игроки, то данная характеристическая функция рассматривается только для сформированных коалиций и их возможных объединений. В разделах 2.3.1 и 2.3.2 вычисляются значения характеристической функции на верхнем уровне соответственно для максимальной коалиции в игре и для произвольной коалиции. Для равновесия по Нэшу в игре коалиций значение характеристической функции было найдено в разделе 1.2. В разделе 2.3.3 доказывается супераддитивность построенной характеристической функции. В разделе 2.4 строится процедура распределения совместного выигрыша между коалициями. В качестве принципа оптимальности используется динамический вектор Шепли. Поскольку на верхнем уровне кооперации в качестве игроков выступают коалиции а не отдельные игроки, то данный вектор Шепли также строится через коалиции из заданного разбиения и их возможные объединения. Для реализации данного принципа строится процедура распределения дележа, и доказывается ее динамическая устойчивость (состоятельность во времени) на верхнем уровне. В разделе 2.5 описано распределение выигрыша внутри каждой коалиции. Приведено вычисление характеристической функции на нижнем уровне кооперации для всех возможных случаев, указано отличие от обыкновенной коалиционной игры. Доказана супераддитивность вычисленной характеристической функции. В разделах 2.6, 2.7 и 2.8 показаны процедуры распределения выигрыша коалиции между ее участниками. В каждом из разделов используется свой принцип оптимальности. В разделе 2.6 в качестве принципа оптимальности используется динамический вектор Шепли. В разделе 2.7 в качестве принципа оптимальности берется ES-вектор. В разделе 2.8 в качестве принципа оптимальности используется пропорциональный дележ. Для каждого случая доказана динамическая устойчивость (временная состоятельность) решения на нижнем уровне. В разделе 2.9 и его подразделах приведены численные примеры построенной двухуровневой кооперации. Рассматриваются примеры для каждого из приведенных принципов оптимальности. В каждом примере построены графики изменения состояний игроков и их выигрышей, и приведены таблицы с результатами вычислений, показывающими перераспределение совместного выигрыша на верхнем и на нижнем уровне. Также приведены численные результаты, показывающие динамическую устойчивость построенных решений.

В третьей главе рассматривается модель двухуровневой кооперации в дифференциальной игре сокращения вредных выбросов в атмосферу. В отличие от предыдущей модели, данная игра является игрой с бесконечной продолжительностью. В разделе 3.1 приведена постановка задачи. Участниками являются предприятия, производство которых наносит вред окружающей среде. Задаются параметры игроков. Основным параметром игрока является его уровень вредных выбросов в атмосферу, который является управлением игрока. Также для каждого игрока задается максимально допустимый уровень вредных выбросов в атмосферу. Определяются начальные условия игры, ограничение на параметры. Задается уравнение динамики игры и определяется выигрыш игрока, как его затраты на возмещение вреда окружающей среде от выбросов. Определяется коалиция игроков, вводятся основные ее основные параметры: число участников, уровень выбросов коалиции, которое также называется управлением коалиции. Выигрыш коалиции равен сумме выигрышей ее участников. Задается коалиционное разбиение на множестве игроков, и задаются параметры коалиции из разбиения. В разделе 3.2 описана кооперация между коалициями, выигрыши игроков в объединенных коалициях. В разделе 3.3 описывается построение и вычисление характеристической функции для верхнего уровня кооперации. Данная характеристическая функция так же рассматривается только для сформированных коалиций и их возможных объединений. Вычисляются значения характеристической функции соответственно для случаев равновесия по Нэшу в игре коалиций, для максимальной коалиции и для произвольного объединения коалиций. Здесь же доказывается субаддитивность вычисленной характеристической функции. В разделе 3.4 строится процедура распределения совместного выигрыша на верхнем уровне. В качестве принципа оптимальности используется динамический вектор Шепли. Данный вектор Шепли также строится через сформированные коалиции и их возможные объединения. Далее определяется функция процедуры распределения выигрыша, и доказывается ее динамическая устойчивость (временная состоятельность) на верхнем уровне. В разделе 3.5 описана общая суть распределения выигрыша внутри каждой коалиции. Заданы основные формулы распределения совместного выигрыша. В разделе 3.6 описано построение и вычисление характеристической функции на нижнем уровне кооперации для всех возможных случаев. В этом же разделе доказана субаддитивность вычисленной характеристической функции. В разделе 3.7 описана процедура распределения совместного выигрыша внутри коалиции. В качестве принципа оптимальности используется дележ, пропорциональный динамическому вектору Шепли. Также в этом разделе доказана динамическая устойчивость (состоятельность во времени) построенного решения на нижнем уровне.