Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Никитин Федор Федорович

Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр
<
Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Никитин Федор Федорович. Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр : диссертация ... кандидата физико-математических наук : 01.01.09 / Никитин Федор Федорович; [Место защиты: С.-Петерб. гос. ун-т].- Санкт-Петербург, 2009.- 135 с.: ил. РГБ ОД, 61 09-1/807

Содержание к диссертации

Введение

Глава I. Дифференциальные игры с фиксированным моментом окончания 13

1. Постановка задачи и основные предположения 13

2. Основные положения метода программных итераций 15

3. Вспомогательная оценка 20

4. Теорема существования и единственности решения обобщённого уравнения Айзекса-Беллмана 25

5. Существование и структура решения игры в классе позиционных стратегий 30

6. Задача о мальчике и крокодиле 44

Глава II. Дифференциальные игры на перехват 56

1. Постановка задачи 56

2. Операторы значения и их свойства 57

3. Обобщённое уравнение Айзекса-Беллмана 73

4. Конструкция решения игры в классе рекурсивных стратегий . 84

Глава III. Дифференциальные игры с неограниченной продолжительностью 90

1. Постановка задачи и операторы значения 90

2. Теорема существования цены дифференциальной игры 92

3. Свойства операторов значения 93

4. Последовательные приближения и их сходимость 103

5. Обобщённое уравнение Айзекса-Беллмана и теорема существования и единственности решения 112

6. Существование и структура решения игры в классе рекурсивных стратегий 124

Заключение 127

Список литературы 130

Введение к работе

Актуальность темы. Теория дифференциальных игр изучает задачи конфликтного управления при наличии двух или более сторон, имеющих свои интересы и располагающих средствами воздействия на динамическую систему, описываемую системой дифференциальных уравнений. Практические задачи из области экономики, экологии, биологии, управления механическими системами, а также военного дела являются лишь некоторыми приложениями теории дифференциальных игр. Как показали исследования дифференциальных игр, важнейший их класс образуют изучаемые в диссертации антагонистические дифференциальные игры, к решению которых сводится и решение формально более общих неантагонистических (бескоалиционных) дифференциальных игр.

Существенный вклад в развитие теории дифференциальных игр внесли отечественные научные школы, и, прежде всего, школы академиков Л. С. Понтря-гина [15, 21, 22, 23, 29]1 и Н. Н. Красовского [1, 9, 10, 11, 13, 14, 34, 35, 36, 37, 38, 39, 42, 43, 68]. Первой из них разработаны методы изучения игр сближения-уклонения, сходных по своей постановке с задачами управляемости в теории управления. Второй школой построена теория позиционных дифференциальных игр, которые обобщают задачи оптимального управления. Представляемая диссертация непосредственно примыкает ко второму из упомянутых направлений исследований дифференциальных игр.

Принципиальное отличие задач теории дифференциальных игр от задач оптимального управления состоит в том, что их решение в общем случае необходимо искать в классе стратегий, устроенных по принципу обратной связи или в каких-то других подобных классах (например, в классе кусочно-программных стратегий). В известной мере это предполагает предварительное построение функции значения (функции Беллмана [54]) дифференциальной игры. Предложенное Р. Айзексом [3] для её отыскания уравнение в частных производных первого порядка в рамках классического метода характеристик требует, чтобы она была дифференцируемой, однако обычно это не имеет места. В связи с этим в теории дифференциальных игр появились направления, в которых изучаются либо ХК работам школы Понтрягина тесно примыкают оригинальные исследования киевской школы [30, 31, 32, 55]. определённые обобщённые решения уравнения Айзекса-Беллмана (обобщённые решения Кружкова [12], вязкостные решения Лионса-Крэндалла [56, 57, 65, 66], минимаксные решения А. И. Субботина [13, 14, 36, 38]), либо определённые обобщения самого уравнения Айзекса-Беллмана, в частности, дифференциальные неравенства А. И. Субботина [34, 36], уравнения Ченцова-Чистякова [42, 43, 46, 51].

Последние уравнения составляют основу метода программных итераций [37, 42, 43, 45, 46, 51], возникшего в связи с исследованиями нерегулярных дифференциальных игр и связанной с ними проблемой построения максимальных стабильных мостов — одних из основных конструктивных элементов решения дифференциальной игры по рецептам теории позиционных дифференциальных игр Красовского-Субботина [9, 11, 35]. В ходе упомянутых исследований попутно были обнаружены предпосылки использования этих уравнений и метода программных итераций в целом в качестве новой основы построения теории дифференциальных игр.

Именно этим обстоятельством, вероятно, и было обусловлено то, что последняя была обделена вниманием исследователей, несмотря на то, что обе эти функции имеют ясную, двойственную друг другу теоретико-игровую интерпретацию:

значение первой из них в той или иной заданной позиции представляет собой гарантированный выигрыш первого, максимизирующего игрока в классе программных стратегий, а значение второй — гарантированный проигрыш второго, минимизирующего игрока в том же классе стратегий, другими словами — точную верхнюю оценку проигрыша второго игрока в этом классе стратегий.

В определённом регулярном случае, т. е. в случае, когда второй игрок может гарантировать себе, что его проигрыш будет не больше программного максимина в начальной позиции, естественным образом можно заключить, что у первого игрока имеется оптимальная программная стратегия, а сама величина программного максимина в этой позиции является значением (ценой) игры, т. е. оптимальным количественным исходом конфликта. Поиску условий регулярности были посвящены многие исследования. К числу первых из них относятся работы Л. А. Петросяна [27], а наиболее изящные для линейных игр сближения были установлены Н. Н. Красовским [9].

Предложенный ими метод исследования нерегулярных игр получил название метода программных итераций, который в функциональной его форме4 представляет собой метод последовательных приближений решения максиминного уравнения с начальным приближением — функцией программного максимина .

Следует отметить, что факт сходимости к функции значения как последовательных приближений минимаксного уравнения, так и аналогичных последовательных приближений максиминного уравнения вытекает из сравнения этих последовательных приближений с двумя последовательностями многошаговых игр, используемых в работах Флеминга [61, 62] и многочисленных его последователей [26, 41, 58, 60, 66, 69] для доказательства различных теорем существования решения дифференциальной игры. Известные доказательства [49, 51] того, что функция значения дифференциальной игры является единственной общей неподвижной точкой операторов Ф_ и Ф+ или, что тоже самое, единственным решением обобщённого уравнения Айзекса-Беллмана (с соответствующим краевым условием) также опираются на факт существования решения дифференциальной игры. Доказательства упомянутых выше теорем существования решения дифференциальной игры на основе её аппроксимации многошаговыми играми являются достаточно громоздкими и уже поэтому представляется целесообразным получение независимого (от факта существования решения дифференциальнй игры) и более компактного доказательства теоремы существования и единственности решения обобщённого уравнения Айзекса-Беллмана. Кроме того, из работы [50] нетрудно усмотреть, что теоремы существования решений дифференциальной игры и ряд других фактов теории дифференциальных игр5, в свою очередь, могут быть получены как следствия теоремы существования и единственности решения обобщённого уравнения Айзекса-Беллмана и других результатов метода программных итераций. Таким образом представляется возможным положить теорему существования и единственности решения обобщённого уравнения Айзекса-Беллмана в качестве новой основы построения теории дифференциальных игр.

Говоря далее о методе программных итераций, будем понимать под ним построение как последовательных приближений минимаксного уравнения, так и построение последовательных приближений максиминного уравнения. При этом следует иметь в виду, что последовательные приближения максиминного уравнения могут быть использованы для построения е-оптимальных (при любом є 0) рекурсивных6 стратегий максимизирующего игрока, а последовательные при 5В частности, описание структуры решения дифференциальной игры в различных классах •стратегий, обоснование условий регулярности и техники решения дифференциальной игры „в малом", предложенное Айзексом.

Рекурсивная стратегия отличается от хорошо известной [27] кусочно-программной стратегии тем, что в них моменты коррекции управления выбираются не в начале игры, а в ходе ближения минимаксного уравнения могут быть использованы для построения с-оптимальных рекурсивных стратегий минимизирующего игрока. Поэтому к методу программных итераций будем относить также построение разрешающих стратегий игроков по соответствующим последовательным приближениям.

В работе [46] рассматривались определённые модификации минимаксного и максиминного операторов значения Фі, Ф+7, для которых остаются справедливыми все основные положения метода программных итераций и, главное, последовательные приближения модифицированного минимаксного уравнения при любом є 0 позволяют находить е-оптимальные позиционные стратегии максимизирующего игрока, а последовательные приближения модифицированного максиминного уравнения позволяют находить е-оптимальные позиционные стратегии минимизирующего игрока, чего нельзя сказать про исходные операторы значения Ф_, Ф+.

В настоящей работе рассматриваются упомянутые модифицированные операторы значения и соответствующие им уравнения.

Научная новизна. В каждом из трёх рассматриваемых классов дифференциальных игр получено новое доказательство теоремы существования и единственности решения обобщённого уравнения Айзекса-Беллмана, и на этой основе описана новая версия8 теории дифференциальных игр, включающая в себя известные результаты метода программных итераций для игр сближения в заданный момент времени и установленные в диссертации их аналоги для игр на перехват и игр с интегральным выигрышем на бесконечном промежутке времени. Принципиальная новизна полученных в диссертации результатов состоит, в частности, в том, что представленные доказательства теорем о существовании и единственности решения обобщённого уравнения Айзекса-Беллмана, в отличие от ранее известных, не опираются на какие-либо теоремы о существовании значения и оптимальных или е-оптимальных стратегий дифференциальной игры. Более того, последние теоремы оказываются простыми следствиями первых и развития конфликта, точнее в каждый момент коррекции управления выбирается следующий момент коррекции и программное управление между этими моментами времени. 7Формальное их определение будет дано ниже. 8 К числу других известных её версий относятся, в частности, версия, базирующаяся на идее аппроксимации дифференциальной игры многошаговыми [26, 41, 58, 60, 61, 63, 69] и позиционная версия Красовского-Субботина, основанная на теореме об альтернативе [9,11,35]. других результатов метода программных итераций.

Теоретическая и практическая ценность. Работа носит теоретический характер. Её результаты могут быть использованы для дальнейших исследований теории дифференциальных игр, некоторые из них ранее использовались в исследованиях неантагонистических дифференциальных игр с интегральными выигрышами на бесконечном промежутке времени [2].

Апробация работы. Результаты диссертации докладывались и обсуждались на XXXIV и XXXVI научных конференциях «Процессы управления и устойчивость» факультета прикладной математики - процессов управления (г. Санкт-Петербург, апрель 2003 г. и апрель 2005 г.), международной конференции «Устойчивость и процессы управления», посвященной 75-летию В. И. Зубова (г. Санкт-Петербург, июнь-июль 2005 г.) [67], международном семинаре «Теория управления и теория обобщённых решений уравнений Гамильтопа-Якоби», посвященном 60-летию академика А. И. Субботина (г. Екатеринбург, июнь 2005 г.) [20], международной конференции «Дифференциальные уравнения и топология», посвященной 100-летию академика Л. С. Понтрягина (г. Москва, июнь 2008 г.) [19], а также на семинаре отдела управляемых систем Института Математики и Механики Уральского Отделения Российской Академии Наук и семинаре Центра Теории Игр при Санкт-Петербургском Государственном Университете. 

Публикации. Основные результаты диссертации опубликованы в шести работах [16, 17, 18, 19, 20, 67], три [16, 17, 18] из которых — в изданиях, рекомендуемых ВАК.

Содержание работы по главам. Диссертация состоит из 3 глав. Каждая глава использует независимую нумерацию параграфов, лемм, теорем и формул. При ссылках на результаты других глав, соответствующая глава указывается явно в тексте.

Первая глава посвящена играм сближения в заданный момент времени — антагонистическим дифференциальным играм с ограниченной продолжительностью и терминальным функционалом платы. В первом её параграфе приводится постановка задачи и формулируются основные предположения относительно управляемой системы и функционала качества. Во втором и третьем параграфах приведены известные результаты метода программных итераций и доказаны вспомогательные утверждения, необходимые для обоснования основного результата этой главы — теоремы о существовании и единственности решения обобщённого уравнения Айзекса-Беллмана. Доказательство этой теоремы приведено в четвёртом параграфе. В следующем параграфе доказана теорема о существовании решения дифферециальной игры в классе позиционных стратегий и, по схеме, предложенной С. В. Чистяковым [50], описана структура этого решения на основе последовательных приближений решения обобщённого уравнения Айзекса-Беллмана. Глава заканчивается примером применения метода программных итераций и связанного с ним обобщённого уравнения Айзекса-Беллмана для решения нерегулярной задачи преследования-уклонения.

Во второй главе рассматривается антагонистическая дифференциальная игра на перехват, при этом она исследуется не в классе позиционных стратегий, а в классе рекурсивных стратегий, т. е. в классе кусочно-программных стратегий с выбором моментов переключений (§1). Кроме того, по сравнению с предыдущей главой здесь приводятся полные доказательства основных положений метода программных итераций (§2), таких как свойства операторов значения, теорема о равномерной сходимости последовательных приближений минимаксного и максиминного последовательных приближений и др.9 Основной результат второй главы — теорема о существовании и единственности решения обобщённого уравнения Айзекса-Беллмана в игре на перехват, доказана в третьем параграфе. Главу завершает параграф, посвященный доказательству существования решения игры на перехват в классе рекурсивных стратегий и описанию его структуры в этом классе.

Последняя глава диссертации посвящена антагонистическим дифференциальным играм с интегральным функционалом на бесконечном промежутке времени, формальная постановка которой приводится в первом её параграфе. Теорема существования решения рассматриваемой дифференциальной игры ранее была доказана в статье [16], там же была описана и схема построения решения этой игры. Результаты этой статьи приводятся во втором параграфе. Отметим, что доказательство существования и построение решения исследуемой в этой

Для игр на перехват доказательство этих утверждений приводились ранее [45] только для случая разделённой динамики игроков, в то время как в диссертации рассматривается общий случай неразделённой динамики. главе игры не вызывает принципиальных трудностей в связи с тем, что в силу условий накладываемых на подынтегральную функцию данная игра может быть „приближена" игрой с ограниченной продолжительностью с наперёд заданной точностью. Вместе с тем представляет также интерес и вопрос о том, в какой мере возможен прямой способ доказательства этой теоремы и описание разрешающих стратегий, базирующихся на результатах метода программных итераций. В связи с этим в §3 исследуются свойства операторов значения рассматриваемой игры, в §4 доказывается сходимость последовательных приближений решений максиминного и минимаксного уравнений, и, наконец, в §5 при определённых предположениях устанавливается теорема существования и единственности решения обобщённого уравнения Айзекса-Беллмана.

В заключении диссертации кратко перечисляются результаты, полученные в работе, а также нерешённые и интересные по мнению автора проблемы и возможные направления дальнейших исследований.  

Теорема существования и единственности решения обобщённого уравнения Айзекса-Беллмана

С. В. Чистяков [44], наряду с максиминным уравнением, предложил рассматривать минимаксное уравнение задаваемое с помощью оператора Ф+ при этом было показано, что при выборе функции программного минимакса в качестве начального приближения для решения минимаксного уравнения последовательные его приближения сходятся именно к тому решению минимаксного уравнения, которое, как й в. случае последовательных приближений максиминного уравнения, является функцией значения рассматриваемого семейства игр. Было показано также, что функция значения является единственной общей неподвижной точкой операторов Ф_ и Ф+, удовлетворяющей упомянутому выше краевому условию. Более того, было установлено, что пара уравнений, состоящая из минимаксного и максиминного уравнения, эквивалентна уравнению которое, как вытекает из [46], можно назвать обобщённым уравнением Айзекса-Беллмана. Следует отметить, что факт сходимости к функции значения как последовательных приближений минимаксного уравнения, так и аналогичных последовательных приближений максиминного уравнения вытекает из сравнения этих последовательных приближений с двумя последовательностями многошаговых игр, используемых в работах Флеминга [61, 62] и многочисленных его последователей [26, 41, 58, 60, 66, 69] для доказательства различных теорем существования решения дифференциальной игры. Известные доказательства [49, 51] того, что функция значения дифференциальной игры является единственной общей неподвижной точкой операторов Ф_ и Ф+ или, что тоже самое, единственным решением обобщённого уравнения Айзекса-Беллмана (с соответствующим краевым условием) также опираются на факт существования решения дифференциальной игры. Доказательства упомянутых выше теорем существования решения дифференциальной игры на основе её аппроксимации многошаговыми играми являются достаточно громоздкими и уже поэтому представляется целесообразным получение независимого (от факта существования решения дифференциальнй игры) и более компактного доказательства теоремы существования и единственности решения обобщённого уравнения Айзекса-Беллмана. Кроме того, из работы [50] нетрудно усмотреть, что теоремы существования решений дифференциальной игры и ряд других фактов теории дифференциальных игр5, в свою очередь, могут быть получены как следствия теоремы существования и единственности решения обобщённого уравнения Айзекса-Беллмана и других результатов метода программных итераций. Таким образом представляется возможным положить теорему существования и единственности решения обобщённого уравнения Айзекса-Беллмана в качестве новой основы построения теории дифференциальных игр.

Говоря далее о методе программных итераций, будем понимать под ним построение как последовательных приближений минимаксного уравнения, так и построение последовательных приближений максиминного уравнения. При этом следует иметь в виду, что последовательные приближения максиминного уравнения могут быть использованы для построения е-оптимальных (при любом є 0) рекурсивных6 стратегий максимизирующего игрока, а последовательные при 5В частности, описание структуры решения дифференциальной игры в различных классах стратегий, обоснование условий регулярности и техники решения дифференциальной игры „в малом", предложенное Айзексом.

Рекурсивная стратегия отличается от хорошо известной [27] кусочно-программной стратегии тем, что в них моменты коррекции управления выбираются не в начале игры, а в ходе ближения минимаксного уравнения могут быть использованы для построения с-оптимальных рекурсивных стратегий минимизирующего игрока. Поэтому к методу программных итераций будем относить также построение разрешающих стратегий игроков по соответствующим последовательным приближениям.

В работе [46] рассматривались определённые модификации минимаксного и максиминного операторов значения Фі, Ф+7, для которых остаются справедливыми все основные положения метода программных итераций и, главное, последовательные приближения модифицированного минимаксного уравнения при любом є 0 позволяют находить е-оптимальные позиционные стратегии максимизирующего игрока, а последовательные приближения модифицированного максиминного уравнения позволяют находить е-оптимальные позиционные стратегии минимизирующего игрока, чего нельзя сказать про исходные операторы значения Ф_, Ф+.

В настоящей работе рассматриваются упомянутые модифицированные операторы значения и соответствующие им уравнения.

Существование и структура решения игры в классе позиционных стратегий

Теоретическая и практическая ценность. Работа носит теоретический характер. Её результаты могут быть использованы для дальнейших исследований теории дифференциальных игр, некоторые из них ранее использовались в исследованиях неантагонистических дифференциальных игр с интегральными выигрышами на бесконечном промежутке времени [2].

Апробация работы. Результаты диссертации докладывались и обсуждались на XXXIV и XXXVI научных конференциях «Процессы управления и устойчивость» факультета прикладной математики - процессов управления (г. Санкт-Петербург, апрель 2003 г. и апрель 2005 г.), международной конференции «Устойчивость и процессы управления», посвященной 75-летию В. И. Зубова (г. Санкт-Петербург, июнь-июль 2005 г.) [67], международном семинаре «Теория управления и теория обобщённых решений уравнений Гамильтопа-Якоби», посвященном 60-летию академика А. И. Субботина (г. Екатеринбург, июнь 2005 г.) [20], международной конференции «Дифференциальные уравнения и топология», посвященной 100-летию академика Л. С. Понтрягина (г. Москва, июнь 2008 г.) [19], а также на семинаре отдела управляемых систем Института Математики и Механики Уральского Отделения Российской Академии Наук и семинаре Центра Теории Игр при Санкт-Петербургском Государственном Университете.

Публикации. Основные результаты диссертации опубликованы в шести работах [16, 17, 18, 19, 20, 67], три [16, 17, 18] из которых — в изданиях, рекомендуемых ВАК.

Содержание работы по главам. Диссертация состоит из 3 глав. Каждая глава использует независимую нумерацию параграфов, лемм, теорем и формул. При ссылках на результаты других глав, соответствующая глава указывается явно в тексте.

Первая глава посвящена играм сближения в заданный момент времени — антагонистическим дифференциальным играм с ограниченной продолжительностью и терминальным функционалом платы. В первом её параграфе приводится постановка задачи и формулируются основные предположения относительно управляемой системы и функционала качества. Во втором и третьем параграфах приведены известные результаты метода программных итераций и доказаны вспомогательные утверждения, необходимые для обоснования основного результата этой главы — теоремы о существовании и единственности решения обобщённого уравнения Айзекса-Беллмана. Доказательство этой теоремы приведено в четвёртом параграфе. В следующем параграфе доказана теорема о существовании решения дифферециальной игры в классе позиционных стратегий и, по схеме, предложенной С. В. Чистяковым [50], описана структура этого решения на основе последовательных приближений решения обобщённого уравнения Айзекса-Беллмана. Глава заканчивается примером применения метода программных итераций и связанного с ним обобщённого уравнения Айзекса-Беллмана для решения нерегулярной задачи преследования-уклонения.

Во второй главе рассматривается антагонистическая дифференциальная игра на перехват, при этом она исследуется не в классе позиционных стратегий, а в классе рекурсивных стратегий, т. е. в классе кусочно-программных стратегий с выбором моментов переключений (1). Кроме того, по сравнению с предыдущей главой здесь приводятся полные доказательства основных положений метода программных итераций (2), таких как свойства операторов значения, теорема о равномерной сходимости последовательных приближений минимаксного и максиминного последовательных приближений и др.9 Основной результат второй главы — теорема о существовании и единственности решения обобщённого уравнения Айзекса-Беллмана в игре на перехват, доказана в третьем параграфе. Главу завершает параграф, посвященный доказательству существования решения игры на перехват в классе рекурсивных стратегий и описанию его структуры в этом классе.

Последняя глава диссертации посвящена антагонистическим дифференциальным играм с интегральным функционалом на бесконечном промежутке времени, формальная постановка которой приводится в первом её параграфе. Теорема существования решения рассматриваемой дифференциальной игры ранее была доказана в статье [16], там же была описана и схема построения решения этой игры. Результаты этой статьи приводятся во втором параграфе. Отметим, что доказательство существования и построение решения исследуемой в этой

Для игр на перехват доказательство этих утверждений приводились ранее [45] только для случая разделённой динамики игроков, в то время как в диссертации рассматривается общий случай неразделённой динамики. главе игры не вызывает принципиальных трудностей в связи с тем, что в силу условий накладываемых на подынтегральную функцию данная игра может быть „приближена" игрой с ограниченной продолжительностью с наперёд заданной точностью. Вместе с тем представляет также интерес и вопрос о том, в какой мере возможен прямой способ доказательства этой теоремы и описание разрешающих стратегий, базирующихся на результатах метода программных итераций. В связи с этим в 3 исследуются свойства операторов значения рассматриваемой игры, в 4 доказывается сходимость последовательных приближений решений максиминного и минимаксного уравнений, и, наконец, в 5 при определённых предположениях устанавливается теорема существования и единственности решения обобщённого уравнения Айзекса-Беллмана.

В заключении диссертации кратко перечисляются результаты, полученные в работе, а также нерешённые и интересные по мнению автора проблемы и возможные направления дальнейших исследований.

Конструкция решения игры в классе рекурсивных стратегий

В способе построения последовательных приближений (62), (63) с начальными приближениями (64) и (65) нетрудно усмотреть достаточно естественные мотивы определения стратегий игроков, так называемых рекурсивных стратегий [51], в классе которых в процессе построения указанных приближений может быть найдено решение дифференциальной игры.

Рассмотрим, например, последовательные приближения (62) с начальным приближением (64). Прежде всего заметим, что если в игре Г(і ,ж») максимизу-рующий игрок будет использовать постоянное на интервале [t ,T] программное управление v_ (t) = v_ Є Q, значение которого находится из условия то в ней он гарантирует себе выигрыш, не меньший wl ( , ), какой бы способ формирования управляющих воздействий, приводящий в итоге к реализиции того или иного программного управления, ни использовал бы его противник.

Далее пусть VI — такой закон формирования управляющих воздействий максимизирующего игрока, который в каждой игре Г(«,ж»), (і ,гс«) Є V предписывает ему выбор указанного выше постоянного управления, зависящего, заметим, от начального состояния как от параметра. Тогда очевидно, что если в той или иной заданной игре Г(і ,ж ) максимизурующий игрок сначала выберет постоянное программное управление v_ (t) = v_ на интервале [ ,_ ), где _ Є ( ,Т] и г _ Q находятся из условия а затем будет придерживаться закона формирования управляющих воздействий Vi , т. е. в зависимости от реализовавшейся к моменту времени _ позиции (t_ ,х[_ ), х_ = x_(t_ ) выберет постоянное на интервале [t_ , Т] программное управление, которое диктует ему закон VI в игре Г(І , жі ), то он гарантирует себе выигрыш, не меньший чем ги_ (і ,.?; ), какой бы способ своих управляющих воздействий, приводящий в итоге к реализиции некоторого программного управления, ни использовал бы его противник.

Пусть теперь а_ — отображение, которое каждой позиции (t ,x ) Є V ставит в соответствие постоянное на определённом интервале [,,_) программное управление vL (t) = w_ Є Q, которое находится из условия (101) и очевидно может быть отождествлено с парой (t_\v_). Тогда, в свою очередь, пара Vi = (oi ,Vi ) может рассматриваться как определённый закон формирования управляющих воздействий максимизирующего игрока в каждой игре Г( ,ж ) Є T(V), позволяющий назвать последовательное приближение w[_ () функцией гарантированного выигрыша максимизирующего игрока. На основе этого закона и отображения а_ , определяемого по аналогии с отображением а_ в процессе построения последовательного приближения «/_(), можно сконструировать закон формирования управляющего воздействий максимизирующего игрока, а именно V_ = (а_ ,V_ ), который позволяет назвать последовательное приближение го! () функцией гарантированного выигрыша. Продолжая описанный процесс далее, на основе закона формирования управляющих воздействий V_ и отображения а_ можно определить закон формирования управляющих воздействий Vi = (а_ , V_ ). Таким образом, рекуррентно на основе последовательных приближений (62) с начальным приближением (64) получим последовательность законов формирования управляющих воздействий {Vl" }?S-По аналогичной схеме для последовательных приближений (63) с начальным приближением (65) может быть построена последовательность законов формирования управляющих воздействий минимизирующего игрока {U+ } .

Приведём теперь формальное определение класса рекурсивных стратегий [51]. Пусть аа (b) — произвольное отображение, которое всякой позиции ( , х ) Є V ставит в соответствие определённую пару (Т, v), v Є Q ((T,u), и Є Р), отождествляемую содержательно с постоянным на интервале [ ,Т] программным управлением максимизирующего (минимизирующего) игрока, принимающего значение v (и). Множество всех таких отображений а0 (6) обозначим Л (В0) и назовём классом элементарных стратегий максимизирующего (минимизирующего) игрока. Далее, пусть а (6) — произвольное отображение, которое всякой позиции ( , ) Є V ставит в соответствие пару (t,v) Є \U,T) х Q ((t,u) Є [t ,T] x P), которое при условии t і отождествляется с постоянным на полуинтервале [»,) программным управлением максимизирующего (минимизирующего) игрока, принимающим значение v (и). Множество всех таких отображений а (Ь) обозначим А (В). Класс (2)) — минимальный из всех классов (5) )) каждый из которых удовлетворяет следующим двум условиям назовём классом рекурсивных стратегий максимизирующего (минимизирующего) игрока. В [51] приводится также более конструктивное определение рассматриваемого класса стратегий. А именно, класс стратегий (3D) определяется как совокупность всех упорядоченных наборов отображений произвольной длины к

Дифференциальная игра (1)-(3), рассматриваемая в классе рекурсивных стратегий формализуется следующим образом. Как отмечалось в [51] для произвольной пары рекурсивных стратегий игроков (U, V) Є С х 2) существует единственная траектория x(-,to,xa,U, V) управляемой системы (1), соответствующая этой паре стратегий и исходящая из начальной позиции (to, хо). Тогда в игре Г(іо, 2) определён функционал $} : х — R по следующему правилу

Обобщённое уравнение Айзекса-Беллмана и теорема существования и единственности решения

Пусть теперь imax Т. Тогда из (57) получаем цепочку неравенств wLV )--V ") Iти р+оо ґ+оо / G(r)dr + / \h(r, x +(r))\dr + / h(T, x\{r))\dr + - tmax /-+0O / G(r)dT + 2 G{r)dr+-. Учитывая 2) и определение величины Т из последней цепочки тогда имеем w ?\t ,x )-w{\l! ,J ) e. о Аналогично устанавливается, что при \\(t , х ) — (і", ж") 5 справедливо также неравенство w (t ,x ) w (t",x") -e и тем самым устанавливается равномерная непрерывность функции ад_ () на V. Лемма доказана. Рассмотрим последовательные приближения уравнений (27), (28), построенные на основе указанных выше начальных приближений Ш (.) = ФЧ о in-1)(-), (60) «# (.) = Ф; 0 wf-I)(.). (61) Теорема 4. Справедливы следующие утверждения: 1) Последовательные приближения (60), как и последовательные приближения (61), сходятся равномерно наТ к общей предельной функции iu (-) CMG{V). 2) Общая предельная функция тд (-) является единственной общей неподвижной точкой операторов (5) и (6), т. е. единственным решением системы уравнений (27), (28) на пространстве СМс{Т ). ДОКАЗАТЕЛЬСТВО. С учётом результатов предыдущей теоремы для доказательства первого утверждения теоремы достаточно показать, что W-(-) = ti +(-), где w-(-) — предел последовательных приближений (60), a 10+(-) — предел последовательных приближений (61). 115 Выберем некоторое Т t0 и рассмотрим дифференциальную игру, описываемую теми же условиями с той лишь разницей, что игра имеет фиксированный момент окончания, и функционал качества задаётся как Нт{х(Т))= [ h(T,x(r))di Ju Для этой игры на отрезке интегральной воронки Т)т рассмотрим последовательные приближения .n-1} T( ,a:( ))+ [ h(r,x(T))d Ju $-V T(t,x(t))+ Ґ h{r,x(r))dr Jt, Из результатов, представленных в первой главе, следует, что последовательные приближения {ги_ ()} и {iu+ ()} сходятся при фиксированном Т равномерно на VT к общей предельной функции, зависящей как от параметра от Т. Обозначим последнюю w (-) и доопределим её нулём на Т \Т Т, как и каждый член последовательностей {iw_ ()}, {iw+ ()} Покажем индукцией по п, что для любого п 0 и для любой позиции (і , ж») Є V справедливо неравенство J /-+00 G{r)dr. т Отметим, что неравенство очевидно справедливо для позиций (t ,x ) Є T \DT. Поэтому достаточно доказать указанное неравенство лишь для (і , ж ), принадлежащих множеству Т т. База индукции (n = 0). рТ / +ОО w_ (U, х ) — го! ( , ж ) = maxinf / /г(т,а;(т)) #г — maxinf / /г(т,x(r))dr. veQ u()./t» «eQ «()Л« Рассмотрим u!j. Є Q, на котором достигается первый максимум в выражении выше. Тогда ш_ (і , ж») — ш_ ( , ж ) 116 Аналогично, как это было сделано выше, можно показать, что для произвольного 5 0 существуют г Є Q и 4( ) что ft w( T(t ,x(t,tm,x ,4(-),O) + / л(т,ж(г, „ ., и (о,u;))dr ґ -w{ {t ,x{t ,U,xt,us+(-),v +)) / h(T,a:(T,t„x„4(0,O)dT + = Л. = w T(t ,x(t , u,x., 4(0,0)- - , , .,4(0, )) + / +oo / G(r)dr + 5. Получим теперь оценку снизу. По определению точной верхней грани для 6 0 существует такое Т", что w_ max maxinf te[U,T] vQ u(-) u;ln) r(i,a;( ))+ / /i(r,x(r))dr max inf vQ u(.) ](T ,x{T ))+ h(T,x(r))dT -5/2. Jt, J Рассмотрим два случая. Пусть Т" Є [і ,Т], тогда +1) Т( , )- П+1)( , ) maxinf v&Q u(-) Ы,т(Г,х(Т ))+ Г h(r,x(r))d Ju -6/2. — maxinf veQ u(-) \Г,х(Т ))+ Г h(r,x(r))d Ju Отсюда, применяя приём с выбором управлений и используя индукционное предположение, приходим к заключению, что / +оо G(r)dr-S. Пусть теперь Т" Г, тогда ("+1)/Г/ ..(»+0/ maxinf w T(T,x{T))+ [ h{T,x(r))dr Jt» 118 — max inf vQ u(-) t\T ,x{T )+ [ h(r,x(r))d Ju Выбирая v _ Є Q и гіі(-), имеем wln+1) T(i+1 )- -"+1)( ) rT nt);T(T,x{T,U, x , иІ(-), vl))+ / , , , 1(-), )) -w (T ,x(T\U,x„us_(-),vl))- / /i(T,x(r,t.,ar.,ui(.),«!.))dr-& Так как V T и Ln),T(T, ж(Т, і», ж», «!(), и!.)) = 0 получаем Ln+1),T(t ,x,)-L"+%,x,) /Г -кЛп)(Г ,ж(Г, ,1,,111(-),«!))- / /і(т,а;(т, ,а:#,иі(-),і))Ж--- В силу определения пространства CMQ{T ) И мажорируемости функцией G(-) заключаем, что «;Ln+1) r(t , )- n+1)(t , ) J P+oo РТ Г+ОО G(r)rfr - / G{r)dr -8 = -1 G(r)dT - 6. т JT JT Из произвольности 5 следует справедливость индукционного перехода. Таким образом установлено, что для любого п 0, (і , ж ) Є V J Г+оо G(j)dT. т Переходя в последней оценке к пределу при п —» +оо, имеем \v%(t ,x )-w-.{U,x )\ I G(r)dr, где tuf(-) — предел последовательных приближений в игре с ограниченной продолжительностью Т. Устремляя же в последней оценке Т — +оо получаем, что ги (-) сходится к гу_(-) в смысле метрики равномерной сходимости. Аналогично может быть установлена оценка 1 + 0О Откуда будет следовать, что wj(-) сходится к w+(-) в смысле метрики равномерной сходимости. Следовательно ш_(-) = «;+() = w (-) = lim «(.). Из того, что операторы значения Ф1 и Ф удовлетворяют условию Липшица на пространтсве СМо{Т ) следует их непрерывность на этом пространстве. Из последнего же заключаем, что функция w (-) является общей неподвижной точкой этих операторов. Покажем её единственность на пространстве CMaiV), тем самым установив второе утверждение доказываемой теоремы. Доказательство единственности проведём сходным образом, как это было уже сделано для игр с фиксированной продолжительностью. Рассмотрим произвольные начальные приближения д_ (), д+ {) Є CMG(T ). Пусть последовательные приближения, построенные для этих начальных приближений, сходятся к #-() и д+{-) Є CMG{T ) соответственно. Докажем, что #+(„, ж ) 7_( ,ж») для любой позиции ( ,ж») V.

Похожие диссертации на Обобщенное уравнение Айзекса-Беллмана в теории дифференциальных игр