Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов Баратова Екатерина Дмитриевна

Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов
<
Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Баратова Екатерина Дмитриевна. Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов : дис. ... канд. физ.-мат. наук : 05.13.17 Борисоглебск, 2006 136 с. РГБ ОД, 61:07-1/529

Содержание к диссертации

Введение

Глава 1. Кооперативная игра N лиц 15

1.1. Постановка задачи и определение решения 15

1.2. Необходимые и достаточные условия существования /7-оптимальной ситуации 18

1.3. Гарантированное решение и освобождение от дифференциальных связей 23

1.4. Скорость сходимости метода штрафов 28

1.5. Сведение к задаче на максимум и необходимые условия оптимальности 31

1.6. Пример 41

Глава 2. Антагонистическая игра 51

2.1. Постановка задачи и определение решения 51

2.2. Освобождение от дифференциальных связей 54

2.3. Сведение к задаче на максимум и необходимые условия оптимальности 58

2.4. Антагонистическое взаимодействие двух коалиций 65

2.5. Пример 70

Глава 3. Иерархическая игра 84

3.1. Учёт неопределённости игроком верхнего уровня 84

3.1.1. Постановка задачи и определение решения 84

3.1.2. Освобождение от дифференциальных связей 87

3.1.3. Переход от задачи со связанными переменными к задаче с распадающимися переменными 88

3.1.4. Сведение к задаче на максимум и необходимые условия оптимальности 93

3.1.5. Пример 102

3.2. Учёт неопределенности игроком нижнего уровня 105

3.2.1. Постановка задачи и определение решения 105

3.2.2. Освобождение от дифференциальных связей 107

3.2.3. Переход от задачи со связанными переменными

к задаче с распадающимися переменными 108

3.2.4. Сведение к задаче на максимум и необходимые условия оптимальности ИЗ

3.2.5. Пример 122

Заключение 125

Библиография

Введение к работе

Актуальность темы. Проблемы обработки, передачи и использования информации в процессе принятия решений возникают во многих областях человеческой деятельности. Причём технический прогресс и постоянное увеличение объёма и усложнение поступающей информации эти проблемы ставят в настоящее время достаточно остро. Дело в том, развитие ресурсо- и энергосберегающих технологий, защита окружающей среды от нежелательного вмешательства и другие сферы деятельности, связанные с участием людей, требуют повышения качества решений. Как следствие, возникают новые математические задачи, связанные с управлением сложными системами. Такие системы изучаются в рамках теоретической информатики, в частности, большой интерес представляют динамические системы, приводящие к задачам оптимального управления, когда процессы протекают во времени.

Наиболее значимыми на сегодняшний день являются исследования информационных процессов во взаимодействии сложных систем, основными характеристиками которых являются конфликтный характер принятия решений, иерархическая структура и т.п. Примерами сложных систем могут служить реальные системы в различных областях человеческой деятельности (в экономике - это предприятия, отрасли; в военном деле - отряды, армии; в социальной жизни - различные группы, сообщества, коллективы и т.д.).

Проблемы постановки, разработки и приложения математических моделей принятия оптимальных решений в сложных системах изучаются в таких дисциплинах, как системный анализ [63,64] и исследование операций [26,85].

Как правило, процесс принятия решения в сложной системе имеет конфликтный характер. При этом конфликт не подразумевает непременное столкновение противоположных интересов, но в первую очередь является способом взаимодействия сложных систем. Это становится причиной появления в формальной постановке задачи принятия решения многих целей, многих критериев оптимальности. Исследованиям в области многокритериальных задач посвящены, например, работы [11,32,38,43,45,46,72,81,98].

Ещё одной особенностью функционирования сложных систем является наличие различного рода возмущений или неконтролируемых факторов. Это помехи при передаче информации, её неполнота, погрешности измерений, не в полной мере понимаемая цель конфликта, неопределённость следующего хода оппонента и т.д. Например, в экономических системах неопределённостями могут быть недопоставки сырья, неблагоприятные погодные условия, изменение спроса на произведённую продукцию.

Теория исследования операций выделяет три типа неконтролируемых факторов: фиксированные, случайные и неопределённые. Если первые два случая исследованы достаточно подробно [26,58,86,96], то случай неопределённых факторов является наиболее сложным [41,42,44,54,57,58,82,90] и для игровых динамических задач исследован недостаточно.

На практике при изучении сложных систем приходится учитывать фактор времени, поэтому соответствующие математические модели реальных процессов включают в себя описание функционирования динамической системы с помощью системы обыкновенных дифференциальных уравнений. Изучению динамических задач с учётом и без учёта неопределённости посвящена теория оптимального управления - наука о методах определения законов управления объектами, допускающих реализацию с помощью технических средств автоматики. Большой вклад в становление теории внесли Л.С.Понтрягин, В.Г.Болтянский, Р.В.Гамкрелидзе и Е.Ф.Мищенко [15,16,24,73,74]. Дальнейшие исследования в этой области представлены в работах [14,22,23,39,59,64,65,75]. Параллельно теории оптимального управления при исследовании сложных систем находит широкое применение теория игр. По определению Н.Н.Воробьева [21], теория игр - это теория математических моделей принятия оптимальных решений в условиях конфликта и неопределённости, когда принимающий решение субъект («игрок») располагает информацией лишь о множестве возможных ситуаций, в одной из которых он в действительности находится, о множестве решений (стратегий), которые он может принять, и о количественной мере того «выигрыша», который он мог бы получить, выбрав в данной ситуации данную стратегию.

Модели теории игр находят широкое применение во многих сферах деятельности человека: в политике (способы взаимодействия между партиями союзами, блоками, группами и другими политическими объединениями), в экономике (различные варианты руководства системой предприятий, контроль над процессом выпуска товаров, регулирование взаимоотношений между потребителем и товаропроизводителем и т.д.), в военном деле (проведение военных операций при участии различных родов войск, с привлечением союзников, с несколькими противниками, взаимодействие однотипных боевых единиц и т.д.), в управлении (взаимосвязь управляющих подсистем различных уровней с учётом помех), в экологии (способы взаимодействия человека с природой, борьба биологических видов за существование и т.д.). Возникновение конфликтных ситуаций в указанных сферах естественно. В теории игр разрабатываются методы решения конфликтов и учёта неопределённостей, получения условий оптимальности различных типов.

Сравнительно новым направлением теории игр является теория дифференциальных игр, в которой исследуется игровая постановка задач оптимального управления.

Существенный вклад в построение основ теории игр внесли Р.Айзекс [1], Д.Блэкуэлл и М.Гиршик [13], Н.Н.Воробьев [21], С.Карлин [51], Н.Н.Красовский [55,56], Р.Д.Льюс и Х.Райфа [60], Дж. Фон Нейман и О.Моргенштерн [66], Г.Оуэн [68], Л.С.Понтрягин [74,75,76,77,78]. В дальнейшем исследования в этой области проводили Ю.Б.Гермейер, В.А.Горелик, В.И.Жуковский, А.Ф.Кононенко, Н.Н.Моисеев, Л.А.Петросян, А.И.Субботин, Н.Т.Тынянский, В.В.Фёдоров, А.А.Чикрий и другие.

Изначально исследования в теории игр велись как в области статических решений [13,21,51,60,66], так и в программных [32,33] и позиционных [17,53,56,83] стратегиях. В первое время изучались только детерминированные задачи, в которых стратегии игроков полностью определяли ход игры, не учитывая неопределённые факторы. Так, были проведены исследования антагонистических [36,48,99], бескоалиционных [20,61], кооперативных [10,27,37,42,69,80,84], иерархических [29,90,93,97], коалиционных [18,41] игр.

В последние годы стали активно изучаться дифференциальные игры при неопределённости [41,42,47,82]. При этом наиболее подробно исследован их линейно-квадратичный вариант. Разработан ряд подходов к формализации решений, например: 1) максиминный (предполагается, что по отношению к одному игроку все остальные игроки и неопределённость настроены враждебно); 2) равновесия по Нэшу, Джоффриону, Парето; 3) равновесие угроз и контругроз; 4) активное равновесие.

Для указанных выше видов дифференциальных игр (антагонистических, бескоалиционных, кооперативных и др.) популярны два общих подхода к принятию решений, названные соответственно «аналогом седловой точки» и «аналогом векторного максимина», основанных на использовании понятия векторных гарантий, сформулированы определения решения с использованием понятий оптимальности по Слейтеру, Парето, Джоффриону, Борвейну, А-минимум. Изучены свойства решений и на основе функций Ляпунова-Беллмана доказаны достаточные условия оптимальности с приведением коэффициентных критериев в случае линейно-квадратичных функций выигрыша. Однако следует заметить, что практически все вышеуказанные исследования направлены на изучение позиционных дифференциальных игр и получение в них достаточных условий оптимальности.

Тем не менее, в том случае, когда дополнительная информация игрокам недоступна или не может быть эффективно использована в процессе игры, единственным возможным способом управления становится программа. Методы решения дифференциальных игр в программных стратегиях на сегодняшний день разработаны в основном для конкретных классов задач. При этом остаётся мало изученной научная проблема получения необходимых условий оптимальности в дифференциальных играх общего вида и при наличии неопределённых факторов. Некоторые подходы к решению указанной проблемы можно найти, например, в работах [17,30,32,33,70,96], однако в общем виде эта проблема ещё не решена.

В данной работе предлагается подход к получению условий оптимальности для разных классов дифференциальных игр в условиях неопределённости на основе аппарата штрафных функций.

Предельный переход в условиях оптимальности для вспомогательных задач позволяет получить необходимые условия оптимальности в дифференциальных играх с программными стратегиями при неопределённости в виде основного результата теории управления -принципа максимума, - сформулированного Л.С.Понтрягиным [16].

Метод штрафных функций был предложен Р.Курантом в 1943 г. в связи с решением задачи о движении тела в ограниченной области. В 1968 г. А.Балакришнан [2] дал строгое обоснование применения метода штрафов к задачам оптимального управления. Адаптировал этот метод к минимаксным задачам исследования операций Ю.Б.Гермейер [28]. В дальнейшем его подход был развит в исследованиях В.А.Горелика и В.В.Федорова [30,32,94,95,96]. Последние результаты в изучении минимаксных задач управления с помощью метода штрафов получены в работах [34,35,88,89].

Метод штрафов позволяет решать проблемы, связанные с наличием в задачах неопределённых параметров и различного типа ограничений и связей. Он используется для сведения исходных задач к вариационным, что позволяет достаточно единообразным образом разрабатывать необходимые условия оптимальности для исходных задач.

Объект настоящего исследования - игровые динамические задачи в условиях неопределённости.

Предмет исследования - необходимые условия оптимальности для дифференциальных игр в условиях неопределённости в нормальной форме (при кооперативном и изолированном поведении) и позиционной форме (двухуровневая иерархическая система).

Цель настоящей работы - исследование основных классов дифференциальных игр: кооперативных, антагонистических, иерархических, в условиях неопределённости в программных стратегиях с использованием принципа гарантированного результата на основе метода штрафных функционалов, получение необходимых условий оптимальности и демонстрация их работоспособности на модельных примерах. 

В основу исследования положена гипотеза, что условия оптимальности для разных классов дифференциальных игр с неопределённостью могут быть получены на основе единого подхода с использованием штрафных функций.

Для достижения поставленной цели работы необходимо было решить следующие задачи:

• формулировка / -оптимального и гарантированного решений для кооперативной игры при неопределённости;

• обоснование применения метода штрафных функционалов в кооперативной игре и вывод необходимых условий оптимальности для кооперативной дифференциальной игры при неопределённости;

• формулировка определения решения для антагонистической игры при неопределённости;

• обоснование применения метода штрафных функционалов к антагонистической игре и вывод необходимых условий оптимальности для антагонистической дифференциальной игры при неопределённости;

• формулировка определения решения для иерархических игр при неопределённости;

• обоснование применения метода штрафных функционалов к иерархическим играм и вывод необходимых условий оптимальности для двухуровневой иерархической дифференциальной игры при неопределённости;

• численное исследование полученных решений. Методологическую основу настоящего исследования составляют:

• выпуклый анализ [79];

• функциональный анализ [52];

• теория матриц и систем дифференциальных уравнений [25,62];

• методы и подходы теории дифференциальных игр и многокритериальных задач [26,41,47];

• методы и принципы теории оптимизации и оптимального управления [23,32,50,65,87];

• метод штрафных функционалов [96].

Научную новизну работы представляют результаты исследования указанных дифференциальных игр в программных стратегиях в условиях неопределённости с использованием принципа гарантированного результата и метода штрафов, а именно, формализация математических задач принятия решений, формулировки определений решений игр, обоснование метода штрафов для снятия дифференциальных связей и учёта неопределённости, вывод необходимых условий оптимальности.

Практическая значимость заключается в прикладной актуальности данных классов игр. Например, программные стратегии могут быть использованы в управлении производственными объектами в условиях конкуренции или сотрудничества, в управлении многоуровневым производством без обратной связи или при неэффективном использовании дополнительной информации, в военном деле при составлении планов операций. Настоящее исследование позволяет предложить эффективное решение указанных проблем, что иллюстрируется в работе численным решением содержательных примеров.

На защиту выносятся следующие основные положения:

1. Определение гарантированных решений для основных классов дифференциальных игр при неопределённости.

2. Обоснование применения метода штрафных функционалов для снятия ограничений в дифференциальных играх.

3. Необходимые условия оптимальности для рассматриваемых классов игр.

Апробация. Результаты докладывались на научно-практических конференциях молодых ученых Балашовского филиала Саратовского государственного университета (СГУ) им. Н.Г.Чернышевского (Балашов, 2002, 2005, 2006 гг.), научно-методических семинарах кафедры информатики, на аспирантском объединении Балашовского филиала СГУ им. Н.Г.Чернышевского (Балашов, 2002, 2005, 2006 гг.), научно-методических семинарах кафедры прикладной математики и информатики Борисоглебского государственного педагогического института (Борисоглебск, 2006 г.), на V Всероссийской научно-практической конференции «Современные технологии в машиностроении» в Пензенском государственном университете (Пенза, 2002), на II Всероссийской научно-технической конференции «Проблемы информатики в образовании, управлении, экономике и технике» в Пензенском государственном педагогическом университете им. В.Г.Белинского (Пенза, 2002), на Всероссийской научно-практической конференции «Проблемы и перспективы Российской экономики» в Пензенском государственном университете (Пенза, 2002). Кроме того, результаты исследования апробированы с помощью численных экспериментов, описанных в диссертации.

Структура работы. Работа состоит из трех глав.

Первая глава посвящена исследованию стратегических аспектов кооперативного поведения в дифференциальной игре N лиц в нормальной форме. Данную игру для краткости будем именовать кооперативной игрой N лиц при неопределённости. Для кооперативной игры ./V лиц при неопределённости предполагается, что игроки стремятся получить максимально возможный суммарный выигрыш, договорившись заранее о распределении прибыли. При этом для учёта неопределённости использовался принцип гарантированного результата, применяемого к линейной свёртке критериев исходной задачи.

В п. 1.1 и п. 1.2 вводится обобщенное определение оптимальности по Парето в условиях неопределённости (р-оптимальной ситуации) и доказываются необходимые и достаточные условия существования р-оптимальной ситуации.

В п.1.3 вводится определение решения на основе гарантии линейной свёртки критериев и определяется гарантированное множество Парето. Затем полученная однокритериальная задача методом штрафных функций освобождается от дифференциальных связей, доказывается совпадение решений исходной и новой задач. В п. 1.4 приводится доказательство теоремы о скорости сходимости метода штрафов. В п. 1.5 полученная однокритериальная задача без ограничений сводится к задаче на максимум, доказывается совпадение решений полученной задачи и задач из п.1.3 и выводятся необходимые условия оптимальности в виде обобщённого принципа максимума. В п. 1.6 рассмотрен численный пример.

Во второй главе исследуется изолированное поведение, характерное для антагонистической игры. Здесь же рассматривается антагонистическое взаимодействие двух коалиций игроков, где внутри коалиций игроки совместно принимают решения, а между коалициями существует конкуренция.

Для данной игры в п.2.1 строится определение решения на основе принципа гарантированного результата, затем в п.2.2 и п.2.3 методом штрафов осуществляется освобождение от дифференциальных связей и исходная задача сводится к задаче на максимум, а затем доказываются необходимые условия оптимальности в виде обобщённого принципа максимума. В п.2.4 рассматривается антагонистическое взаимодействие двух коалиций игроков. В п.2.5 представлен численный пример.

В третьей главе рассматривается двухуровневая иерархическая игра при неопределённости. Игрок нижнего уровня, основываясь на выбранных допустимых стратегиях игроков центра, принимает решение исходя из максимизации своей функции выигрыша. Затем игрок верхнего уровня (управляющий Центр) принимает окончательное решение, основываясь на принципе гарантированного результата. Так же рассматриваются два варианта учёта неопределённого фактора: в первом случае неконтролируемый фактор учитывается только игроками центра, а во втором случае игроки нижнего уровня также получают возможность оценить «свою» неопределённость.

В п.3.1 рассматривается случай учета неопределённого фактора игроком верхнего уровня. Для данной задачи вводится определение решения, затем следует переход от задачи со связанными переменными к задаче с распадающимися переменными и затем к задаче на максимум. После чего доказываются необходимые условия оптимальности. В п.3.1.5 рассмотрен пример. В п.3.2 рассматривается случай учёта «своей» неопределённости на каждом уровне. Для данной задачи также вводится определение решения, затем исходная задача на связанных множествах сводится к задаче на максимум и доказываются необходимые условия оптимальности. В п.3.2.5 представлен пример.

В заключении перечислены основные результаты работы.

Основное содержание диссертации отражено в работах [3-9]. 

Необходимые и достаточные условия существования /7-оптимальной ситуации

Введём множество векторных оценок L , соответствующих множеству / -оптимальных ситуаций. Множеством / -оптимальных векторных оценок L является множество, состоящее из "северо-восточных" частей множеств векторных оценок Lz=p{u{l\...,u{N\z)\(u(l),...,u{N))eDlx...xDN}, т.е. множество V = [)L Z, где L\ = ft(u{])\...,uiN) ,z)\(u0) ,...,u(N) ) є p}. z Так как множество / -оптимальных векторных оценок состоит лишь из граничных точек, то используем линейную свёртку для введения единого критерия: y(«(,,(-),-..,«(JV)(-) ) = tv/(«(,)0,...,«lAr)(-) ) = 1=1 V v»=i ) N где а1 0, J]а. =1. (=1 Если ввести векторы а = {ах ,...,aN), то (1.4) перепишется в виде J(u{l) ,...,u{N} ,z) = (a,J(u(l\...,uiN} ,z)), где символ (у) здесь и далее обозначает скалярное произведение. Для нахождения / -оптимальной ситуации критерий (1.4) необходимо переписать в виде: J{u(X\...,u(N))= \j(uli),...,ulN\z)dz = z (L5) = \fjaiJi(u{]),...,uiN\z)dz = {(a,J(u(l),...,u(N\z))dz. z,=1 z

Таким образом, вместо первоначальной задачи для полученной свёртки критериев можно сформулировать следующую. При ограничениях (1.1) найти такую ситуацию (u(l) ,...,u(N) ) є GD] X...XDN, чтобы 7( ,..., ) = sup jV ...y» ,z w. «« (u{]\...,u(N))eD ...xDN 7 Определение 1.2. Возьмем произвольные точки J , J eL z и определим множество Mz=yAeRMJA- Л7(1) +(1- A)Ji2),A є (0;l)j. Множество векторных оценок Lz=ft(u{l\...,u{N\z)eRN\(u{]\...,ulN))eD]x...xDN} называется эффективно строго выпуклым, если для любого JA є М. выполняется неравенство (a,JA) (a,Jj, а 0, где точка J такова, что p[Jz,J )=т т p[Jz, J) (здесь р - метрика в JeL 2 пространстве R ). Эффективно строго выпуклое множество векторных оценок имеет строго выпуклую "северо-восточную" часть.

Теорема 1.1. Если множества DV...,DN допустимых управлении выпуклы и функционалы F((M(I,,.--,W( ,z,x,t) строго вогнуты по каждому управлению и{]},...,u{N), то множества LT эффективно строго выпуклы. Доказательство. 42)

Зафиксируем произвольное zeZ, возьмём любые две точки J(l), J[i eL z и построим множество Mz, как в определении 1.2. Определим множество управлений Dx l\...,u\N))\j{u ,..yxN\z) = Jx EMZ\. Из выпуклости множеств DX,...,DN следует выпуклость множества D = D, х...х)дг, а значит для любых (ulx ,...,и{Р),( 1,---,11 ) є Dx имеем (І/І ...,И ) = Л(І/{Ї,...,И}?))+(І-Я)(И55,...,І/ЇЇ,)Є/). (О

Из строгой вогнутости функционалов Ft по каждому и( ,i = \,N, следует строгая вогнутость функционалов Ji по соответствующим управлениям и, следовательно, строгая вогнутость векторных критериев J, а значит для любого Я є (0;1) имеем = (1/1 ...,1/ ,2) + (1- (1/ ,...,1/ ,2) = = А/і,)+(і-Я)Л2)=Лемг. Тогда для любого # 0 получаем la,J(u[l),...,u[N),z)) (a,J

Поскольку для любой / -оптимальной ситуации (и{]) ,...,u(N) ) имеем неравенство (a,J(ui])\..yN)\z)) (aJ(u{;\...,u\N),z)), то отсюда получаем требуемое утверждение. Следующая теорема обосновывает применение свертки (1.4) к игре (1.1), (1.2). Теорема 1.2. Для того чтобы ситуация (и{ ,...,и )GD,X...XD Л была р-оптималъной в игре (1.1), (1.2), необходимо и достаточно N существования ог( 0, а =1, таких, что (w(1) ,...,w(Af) ) реализует равенства (1.6) я/?и ограничениях (1.1).

Доказательство.

Прежде всего, заметим, что в силу теоремы 1.1 множество векторных оценок Lz = ft(uw,...,u(N),z)eRN\(u{]),...,u{N))eDlx...xDN\ каждого векторного критерия J(u{l\...,u{N\z), zeZ, непусто, ограничено, замкнуто и эффективно строго выпукло. Необходимость. Пусть ситуация (и(, ,...,м( ), а следовательно, и векторные оценки J(u \...,u N) ) = 1 ,...,u{N)\z),...,JN(u(])\...,uiN) ,z)j, z є Z, / -оптимальны. Зафиксируем произвольное z є Z. Построим в точке 7(tt(,) ,...,M(At) ,z) конус К(и(Х) ,...,w(jV) ), содержащий все векторные оценки J, которые при фиксированном z доминируют векторную оценку J(u{]) ,...,u{N) ,z), т.е. У, J)(и(1) ,...,и{М) ,z),i = \,N, и для хотя бы одного / неравенство строгое.

Освобождение от дифференциальных связей

Введём новый целевой функционал со штрафом за нарушение дифференциальных связей (2.1): V(u{]] (-) (-), Л) = inf іпґУ,(«(,)(-),и(2,(-),-г) ZxD , t 2 (2) где Л О - параметр штрафа, ju(dzxdu( ) - мера Лебега, заданная на множестве ZxD2. Получим семейство максиминных задач У(Л) = sup У(и{])(-),х(-),Л), (2.6) где супремум берётся по всем абсолютно непрерывным функциям х(-) с производными из L2[t„3] и по управлениям w(l)(-)e L2[t,,3]. Теорема 2.1. Решение задачи (2.5), (2.6) существует, и имеет место равенство lim F(/l) = lim sup К(и(1)(-),х(-)Д) = J . Доказательство аналогично теореме 1.3. Проведем оценку погрешности: E{X) = V{X)-J\ Теорема 22. Для достаточно больших Я имеет место оценка К2 0 Е(Л) UMju{ZxD2) где К 0 - константа, М- положительная константа, не зависящая от и (), ju(Z х D2) - мера множества ZxD2. Доказательство. Введём множество P={(ui]\-),x(-)) x(t)&R\x(-)eWP[t„S]yi\t)eUlcR\uli\-)eL2[u 3]J = \J2, . x(t) = f(u{X\u{2\z,x,t),x(t.) = x„zeZ,te[t1f,S}\

Погрешность Е(Я) 0, так как для любого вектора (U{{)(-),X(-))E Р и любого фиксированного Л О имеем ,(» У(и"\-),х(-),Л)= inf inf Ф,(Х(5)) + І? + [Fx{uw(t),u(1\t\z,x{t\t)dt из чего следует: ,()/ sup У(и(Ц(-),х(-),Л) sup К(иІ1,(-) ОД) = (um{\x{-))eL2 wy (и (-),х{-))еР = sup inf inf u0 (.)eO«(2)(.)6D2 Z Ф, (x(,9)) + (V, (и(,) (f), и(2) (0, г, x(0,0 Так как для любого вектора (и{ (-),х(-))е Р будет (Л) = 0, то пусть последнее включение не выполняется. Так как функционал У, удовлетворяет условию Липшица по совокупности управлений и{і\ і = 1,2, то для любого вектора (її{])(-),х(-)) є Р, ui2)(-)EL2[t„&],ul2)(t)eU2c:Rn и z є Z будем иметь: \-),иі2\-),2)- (и{1)(-),и(2)(-и) К\ z/(l)(-)-w(l)(-) +1 0- Ol w I и где К - максимальная константа Липшица. Пусть р, -\\и(-)-и(-)\\ - метрика в 2, р () = bc0-3c0 - метрика в Ж,(,). Тогда y1(w(1)(-),w(2)(-) )- ,("(,)0 (2)0 ) ( 2 +РЖ П) Р, где р- метрика в 12 х W2 \ равная сумме метрик W2]) и L2, и Отсюда следует inf mfJ(uw(-),u{2](-),z) inf inf/(w(1,(-),w(2)(;),z) + p, w(2)(-)eD2 zeZ ua)( )eD2 zeZ а значит, inf infJ(w(,)(-),w(2)(:) ) «(2(-)eD2 -7 Z „H),)sD]tt 2 (.)D2 Z sup Jnf inf J{u(X){-),u(2) (-),z) + Kp. J(-)6Di

Аналогично [35] для любого фиксированного z є Z справедлива оценка ,9 "dr і(0-/(и(,,(0.и(2)(0,г (0,0 Mplh ) W(-),u (-),x(-)),P) = Mp\ где M - положительная константа, не зависящая от и(,(0, следовательно, 9 Л [ x(t)-f(u{]\t),..yN\t),z,x(t),t)\2dtju(dzxdu{2)) /J xU y 1% AMp2 L(dz x du{2)) = АМ/л{2 x D2 )p2 ZxD Таким образом, Г(«(,)(-), ОД)= f inf{j,(W(l)(-) (2)(-) ) 3 -Л f {\x(t)-f(u(])(t),u{2)(t),z,x(t),t)\2dtju(dzxdu{2)) ZxD2 t sup inf inf J(u{]}(-),u(2}(-),z) + Kp-AM{i(ZxD2)p2 w(D(.)eDM(2»(.)eD2 Z откуда Теорема 2.3. Решение задачи (2.7), (2.8) существует, и имеет место равенство lim W(A,v) = lim sup W(u([\-),x(;),G),X,v) = J (і) г Щ V X " к- (и"\-и№к Доказательство. Аналогично теореме 1.3 доказывается равенство \imW(X,v) = V(Z) и равенство lim co(X,v) = J . А,У-ЮЭ Теорема 2.4. Пусть w(1) (-) є Z), - оптимальная стратегия в задаче (2.1), (2.3), определённая на отрезке [t„&]. х (-) - соответствующие траектории системы (2.1). Тогда существует такая неотрицательная измеримая функция p{u(1\-),z), что {p(u{2)(-),z)ju(dzxdui2)) = l, (2.9) ZxD2 а также не равные одновременно нулю в О и вектор-функция ограниченной вариации i//(ui2)(-),z,-) такие, что

1) вектор-функция ц/{и{ \-),z,-) на [t ,$] при любых фиксированных z є Z и и(2)(/) є /2 удовлетворяет уравнению (ui2\t),zJ) = (ui2\-),z)-Fl(u{l}\t),u(2\t),zy(tUy ох f(u{]) (tU2)(t),z,x (t),t)\ iiy{u(2\t),zj) ох У (2.10) с условием трансверсальности (2), дх W{u(1\-lz,3) = ep(u(1)(.\z)- $ ,{x{3)); (2.11) 2) для почти всех t є [/ ,$] при и \-)-и () выполняется неравенство [ ( )/(M(1) W M(2)« 40,O) {2)(t),z,t)+ \ L. X-Ls-j 1% a dtfi(dzxdu(2)\ (2.12) +Ф(«(2)0 ) ЇЇТ (1)ЧО,«(2)(О ЧО,0 u{])(t)-ui]) (t) ) o. Доказательство. Обозначим а = (Л,у). Пусть (и(1)(;а),х(;а),со(а)) - решение задачи (2.7), (2.8) при фиксированном а 0.

1. Используем необходимое условие экстремума функции W по х. Пусть х(-) - произвольная бесконечно дифференцируемая функция, которая обращается в нуль вне некоторого интервала, содержащегося в [ , 9]. Найдём первую вариацию функционала W на траектории х(;а) + х(-) при фиксированных и{])(;а),х(;а),а (а) и приравняем её к нулю:

Освобождение от дифференциальных связей

Рассмотрим дифференциальную иерархическую игру двух лиц при неопределённости: Г = ({1,2}, l, ]i=]rZ,J,{u(X\u{2\zlJ2(u{ \u{2\z)y В этой игре 1-й игрок находится на верхнем уровне иерархии (управляющий Центр), игрок под номером 2 - на нижнем уровне.

Функционирование динамической управляемой системы описывается обыкновенным векторным дифференциальным уравнением x = f(u{]),u(2),z,x,t), x(t,) = x„te[t„&], (3.1) где х є Rn - фазовый вектор, набор и(),и{2) є Rr - управляющие воздействия игроков с номерами 1,2 соответственно, zeRm - неопределённый фактор, Rk,(k = п,г,т) - евклидово векторное пространство, tt,& - заданные моменты времени соответственно начала и окончания игры. Функцию выигрыша первого игрока определим как & J,(uw(-),u{2\-),z) = Фх{х{3))+\F,{u({\t\u{2\t\z,x{t\t)dt, (3.2) t а функция выигрыша второго игрока Э J2(u \\u{2\-),z) = 2{x{3))+\F2(u(1\t),z,x{t)J)dt, (3.3) / где функция F2 в явном виде содержит только стратегию 2-го игрока (однако неявная зависимость этой функции от стратегии 1-го игрока сохраняется из-за наличия дифференциальной связи).

Партия игры разворачивается следующим образом. На управляемую систему X действует некоторая неопределённость z Z. Центр (1 -й игрок), не зная реализовавшуюся неопределённость, выбирает на весь период времени [і„Щ свою конкретную допустимую стратегию и(1)(-) и сообщает её игроку нижнего уровня. Последний знает z є Z и с учётом фиксированного м(1)(-) выбирает свою допустимую стратегию и(2\-) = м(2)(-,и(1)(-)) из условия максимума своей функции выигрыша. Центр, зная способ формирования стратегий игроком нижнего уровня, формирует множество 3(W(,)Q,z) = \ui2)(-)e D2 \J2{u{ \\u(2) (-),z)= sup J2(u (-),u{2)(-),z)\, которое есть множество стратегий 2-го игрока, максимизирующих его критерий J2 с учётом имеющейся у него информации о реализовавшейся неопределённости. Центр «осторожен», принимает решение, учитывая «благожелательность» игрока нижнего уровня, и определяет набор (и(,(-),и(2)(-))- При и(,) =uu)(t), / = 1,2, te[t„&\, и при любых гє2строится решение x(t), te[tt,&\, системы (3.1). Тогда гарантированный результат Центра У, = sup inf sup J,(w(,)(-)y2)(-),z). (3.4) M "(.)eAzeZ"(2 ( ) (« "(.),z) Под решением игры Г будем понимать набор {(w(1) ,w(2) ),(J, ,y2 )), состоящий из стратегий игроков, реализующих максимин (3.4), и их соответствующих выигрышей.

Задача (3.1)-(3.4) является задачей с кратным максимином со связанными переменными (из-за взятия минимума по неопределённости и максимума по стратегиям из многозначного отображения 3(w(1)(-),z)), осложнённой наличием дифференциальных связей. Везде в данной главе предполагаются выполненными следующие условия: 1) вектор-функция f линейна по каждому w(,) и измерима по t, функции Fi строго вогнуты по соответствующему и(1\ удовлетворяют условию Липшица по совокупности управлений uU), j = 1,2, и измеримы по /; 2) вектор-функция / и функции Ф(, Ft непрерывно дифференцируемы д/ дФ dFt по х, ограничены вместе со своими производными - -,—-,—-, i = \,2, при дх дх дх любых ограниченных (W(1),M(2),X); 3) вектор-функция / и функции Fj измеримы и ограничены по z; 4)множества Ut, і = 1,2, - выпуклые, замкнутые и ограниченные множества (выпуклые компакты), множество Z - замкнуто и ограничено; 5)уравнение (3.1) имеет единственное решение для каждого zeZ, u{i)(-)eDif / = 1,2. 6) Функции Ji строго выпуклы ПО Z.

Постановка задачи и определение решения

Рассмотрим дифференциальную иерархическую игру двух лиц при неопределённости: Г = ({1,2},1, {U,.Ц2,Z,Jx{u(]\u(2\z),J2(u{]\ui2\z)). В этой игре 1-й игрок находится на верхнем уровне иерархии (управляющий Центр), игрок под номером 2 - на нижнем уровне.

Функционирование динамической управляемой системы I описывается обыкновенным векторным дифференциальным уравнением x = f(u0),u(2),z,x,t), ( .) = „ Гє[ ,„9], (3.24) где х є Rn - фазовый вектор, набор w(1),w(2) є Rr - управляющие воздействия игроков с номерами 1,2 соответственно, zeRm - неопределённый фактор, Rk,(k = n,r,m) - евклидово векторное пространство, ,3 - заданные моменты времени соответственно начала и окончания игры. Функцию выигрыша первого игрока определим как & J](u\-),u(2\-),z) = (&i(x(&))+ JFt{u({)(t),u(2)(t),z,x(t),t)dt, (3.25) t а функция выигрыша второго игрока 3 2(и(Ц(-),и(2)(-),г) = Ф2(х(3))+ JF2(ui2)(t),ziX(t),t)dt, (3.26) U где функция F2 в явном виде содержит только стратегию 2-го игрока (однако неявная зависимость этой функции от стратегии 1-го игрока сохраняется из-за наличия дифференциальной связи).

Партия игры разворачивается следующим образом. На управляемую систему I действует некоторая неопределённость z &Z, которая неизвестна игрокам. Центр (1-й игрок) выбирает на весь период времени [t ,3] свою конкретную допустимую стратегию и(1)(-) и сообщает её игроку нижнего уровня. Последний с учётом фиксированного и(1)(-) выбирает свою допустимую стратегию м(2)(-) = и(2)(-,м(1)(-)) из условия максимума гарантированного результата для своей функции выигрыша. Центр, зная способ формирования стратегий игроком нижнего уровня, формирует множество Vі О) = u(2)(-)eD2 \MJ2(u{l){-),u(2)(-),z)= sup inf\/2(K(,,(-),H(2,(0,z) zeZ «(2,(.)є/Л -є2 которое есть множество стратегий 2-го игрока, максимизирующих его критерий J2 при «наихудшем» для него значении неопределённости. Центр «осторожен», принимает решение, учитывая «благожелательность» игрока нижнего уровня, и определяет набор (и(1)(-),и(2)(-)). При uU) - uU){t), / = 1,2, te[t„$\, и при любых zeZcTpoHTCfl решение x(t), te[t ,$\, системы (3.24). Тогда гарантированный результат Центра /;= sup sup infJ,(M(,)(-),M(2,(-) ). (3.27) ,/"(.) , « 2 (.)Є3(»(І)(-))2Є2

Под решением игры Г будем понимать набор u{l) ,u{2) ),(J ,J2)), состоящий из стратегий игроков, реализующих максимин (3.27) и их соответствующих выигрышей.

Задача (3.24)-(3.27) является задачей с кратным максимином со связанными переменными (из-за взятия минимума по неопределённости и максимума по стратегиям из многозначного отображения 3(и( ()), осложнённой наличием дифференциальных связей. Для задачи (3.24)-(3.27) требование выпуклости функционалов Ji по z является излишним, поэтому будем требовать лишь выполнения условий 1 )-5) данной главы. Пусть последовательности u„](;a),i = \,2, xn(-,a), con(a) таковы, что при фиксированном а = (Я, rj, v) справедливо равенство sup W(u \-ia\u( \-,a\x(-,a\a){a\a) = W(a). х(;а),иУ\;а),и[г)(;а)

Так как W{a) - величина конечная, то нормы //„(z,-,a) в пространстве L t„&], где y/n{zJ,a) = 2X\xn{t,a)-f{u \t,a\u(2\t,a),z,x{t,a)J)) ограничены при всех z є Z. В силу непрерывности и ограниченности функции / и компактности множества Z существует непустой шар X a R", что x(t )e.X и хп(-,а) равномерно по n,aj є[/ ,і9] ограничены на X. Поэтому с учётом неравенства ,(2), \хп(t,а)\ -\у/п(z, t,а)\ + f{u(l](t,а),и\А) (t,a),z,x(t,a), t) 2Л можно выбрать подпоследовательность xk(-,a), сходящуюся равномерно к абсолютно непрерывной функциих (-,а), x (t,a)eX при всех /є(/„,3]. При этом хк(-,а)- х (-,а) слабо в L2[t ,3].

Похожие диссертации на Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов