Содержание к диссертации
Введение 4
Глава 1. Общий подход к моделированию игровой задачи преследования - уклонения 14
1.1 Постановка игровой задачи. Функция качества 14
1.2 Разделение фазового пространства на подобласти. Применение позиционных стратегий в каждой подобласти 17
1.3 Использование гипотез о поведении преследуемого игрока. Сведение игровой задачи к задачам оптимального управления 19
Глава 2. Решение задач оптимального управления 22
2.1 Реализация оптимального синтеза для случая
2.1.1 Формулировка задачи оптимального управления 23
2.1.2 Синтез управления 24
2.1.3 Обоснование оптимальности синтеза 29
2.2 Случай Л = /г = О, А2 Ф 0 36
2.2.1 Структура оптимальных траекторий 37
2.2.2 Расчет оптимальной траектории 40
2.3 Случай применения преследуемым игроком постоянного управления при А 0 и /І 0 47
2.3.1 Движение с постоянной кривизной траектории 47
2.3.2 Прямолинейное движение 52
Глава 3. Численное моделирование 54
3.1 Построение барьерных поверхностей 54
3.1.1 Постановка задачи 55
3.1.2 Вспомогательная задача качества 55
3.1.3 Численный пример 60
3.1.4 Особые траектории 62
3.1.5 Полная картина барьерных поверхностей 66
3.2 Описание численных алгоритмов преследования второго игрока в области G .? 69
3.2.1 Метод локальной оптимизации 70
3.2.2 Стратегия преследования вдоль линии визирования 71
3.2.3 Метод преследования, основанный на оптимальном N синтезе для трехмерной упрощенной задачи 71
3.2.4 Метод преследования, основанный па гипотезе о движении преследуемого с постоянной кривизной траектории 72
3.2.5 Метод преследования, основанный на гипотезе о прямолинейном движении преследуемого 72
3.3 Примеры реализации рассмотренных алгоритмов преследования при малых отклонениях фактического движения преследуемого игрока от прогнозируемого 74
3.4 Численный пример задачи реализации субоптимального синтеза в подобласти фазового пространства 84
Приложение 93
Литература 97
Введение к работе
Диссертация посвящена численному исследованию дифференциально-игровой задачи преследования - уклонения на плоскости, моделирующей воздушный бой двух самолетов. Цель проведенных исследований заключается в разработке и применении численных алгоритмов оптимизации управления для реализации субоптимального синтеза во всем фазовом пространстве исходной задачи.
Для моделирования процесса управления двумя или несколькими движущимися объектами в условиях конфликта, когда перед маневрирующими объектами стоят противоположные цели, а их возможности различны, широко используется аппарат теории дифференциальных игр, получивший значительное развитие в последние десятилетия [1,15,30,31,44, 46, 55]. В этих задачах традиционно рассматриваются интегральные или терминальные функционалы, которые обеспечивают применимость метода динамического программирования во всей рассматриваемой области [1, 46]. Однако для практики представляют большой интерес также задачи оптимального управления и дифференциальных игр, в которых минимизируемым (максимизируемым) функционалом является максимальное (минимальное) значение некоторой скалярной функции фазового вектора вдоль траектории динамической системы. Интервал времени может быть конечным или бесконечным. Оптимальные траектории таких задач лишь частично удовлетворяют принципу оптимальности Беллмана. Если у рассматриваемой траектории и ее последнего фрагмента минимум функции качества достигается в будущем, то принцип оптимальности выполнен, а в противном случае он, как правило, не имеет места. Поэтому метод динамического программирования приводит здесь к задаче со свободной границей.
При моделировании воздушного боя двух самолетов с помощью дифференциальной игры с функционалом типа минимума одной из возможных трактовок упомянутой скалярной функцией является вероятность поражения противника при применении некоторого средства поражения (оружия) в данной точке фазового пространства. Тогда атакующий самолет стремится занять позицию с максимально возможной вероятностью поражения и затем применить оружие.
Исследование задач подобного типа не было достаточно интенсивным вследствие их большей сложности, по сравнению с задачами, использующими функционалы традиционного типа. В последнее десятилетие завершен серьезный этап в обосновании метода динамического программирования для задач оптимального управления и дифференциальных игр [31, 67]. Появились эффективные методы анализа и построения особых (сингулярных) траекторий [18, 57], решения задач с неизвестными границами [48, 51].
Некоторые необходимые условия оптимальности для игровых задач с подобным функционалом рассмотрены в [48, 57], задачи оптимального управления со свободной границей (имеющей иную природу) решены в [51]. В [57, 59] с помощью метода сингулярных характеристик построена неизвестная граница в игровой задаче сближение на конической поверхности с простым движением игроков.
Точное решение задач теории дифференциальных игр, с указанным выше функционалом, представляет большие трудности, особенно для нелинейных систем. В некоторых случаях для разработки алгоритмов численного построения синтеза управления бывает полезным рассмотреть ряд упрощенных задач, решение которых удается довести до конца, и на основе полученных результатов продвинуться к решению исходной задачи.
В силу указанной выше специфики, для построения субоптимального синтеза в исходной игровой задаче предлагается использовать численные методы. Эти методы следуют идее, предложенной в [44], и основываются на некотором прогнозе относительно движения преследуемого игрока. Этот прогноз заключаются в предположении, что преследуемый игрок, начиная с текущего момента времени, применяет некоторое заданное программное управление. Такое упрощение позволяет свести исходную игровую задачу к задаче оптимального управления для одного игрока, решение которой в одних случаях удается получить аналитически [4, 5, 10, И, 14, 22], а в других - численно [3, 8, 21, 42, 44, 64]. Далее, на основе построенного синтеза для упрощенных задач, рассматриваются различные стратегии преследования первым игроком второго. Получен ные таким образом стратегии используются для построения субоптимального синтеза в исходной игровой задаче.
Следует также отметить, что используемая в работе модель применялась различными авторами для постановок как игровых задач [13, 23, 27, 28, 29, 32, 49, 55, 62, 63, 65, 68], так и для задач оптимального управления [2, 4, 5, 7,17, 25, 26, 66]. В частности, в [4] синтезировано оптимальное управление, обеспечивающее наискорейшее попадание автомобиля из начального состояния в фиксированную точку плоскости движения. Эта же задача, но при более сложной модели движения, описываемой нелинейной системой четвертого порядка, решена в [5].
Подобная игровая задача, известная как "игра двух автомобилей", но с другой скалярной функцией качества рассмотрена в [1, 47, 69], где получена зависимость радиуса захвата, обеспечивающего перехват менее скоростного, но более маневренного преследуемого, от линейных скоростей и максимальных скоростей разворота автомобилей. В [61] рассмотрен частный случай игровой задачи двух автомобилей, в которой и линейные, и угловые скорости обоих игроков полагаются равными.
Кроме того, в [16] исследовалась игровая задача двух автомобилей, в которой скорость преследуемого игрока полагалась малой по сравнению со скоростью преследователя ( С V\ в (0.0.1)). В этой работе, с помощью метода малого параметра [40, 41], получен синтез, отражающий качественный характер оптимального управления игроков при малых скоростях преследуемого игрока.
Краткое содержание диссертации.
Диссертация состоит из введения, трех глав, приложения и списка литературы.
Первая глава диссертации посвящена формулировке исходной дифференциальной игровой задачи и описанию численного подхода для реализации субоптимального синтеза. Показано, что в силу симметрии урав п нений динамики относительно части фазовых координат, для построения синтеза достаточно рассмотреть некоторую область фазового пространства. Далее эту область предлагается разделить на две подобласти, в зависимости от значения расстояния г между игроками. В первой подобласти (подобласть Gi) расстояние между игроками мало, и задача первого игрока здесь заключается в уменьшении начальных значений углов /?i и ip2. Во второй подобласти (подобласть () начальное расстояние между игроками велико и основную роль в функции качества играет фазовая координата г. Поэтому в Gi стратегия первого игрока должна быть направлена на уменьшение расстояния между игроками. При этом значениями углов /?i и ф2 можно пренебречь. Это позволяет первому игроку эффективно использовать в Gi довольно простой метод - преследование вдоль линии визирования. Применяя эту стратегию, первый игрок приводит систему в подобласть G\, где ее дальнейшее использование становится неэффективным. В G\ первый игрок должен оптимизировать уже не только расстояние между игроками, но и углы векторов скоростей. Поэтому здесь имеет место сложное маневрирование двух игроков.
Для построения синтеза в области G\ предлагается использовать метод прогнозирования движения преследуемого игрока [44]. Приводятся различные варианты прогноза, которые позволяют свести исходную игровую задачу к задачам оптимального управления.
Во второй главе диссертации рассматривается ряд задач оптимального управления, которые получены в результате применения метода прогнозирования движения преследуемого игрока.
На основе принципа максимума Понтрягина и вспомогательных построений предлагается синтез. Показано, что реализованный синтез удовлетворяет всем условиям регулярности [6] и, следовательно, является оптимальным.
Во второй задаче также полагается, что преследуемый игрок неподвижен, но в отличие от первой задачи, предполагается справедливым неравенство А% ф 0. Это означает, что задано дополнительное условное направление вектора скорости преследуемого игрока. Показано, что в этом случае также целесообразно рассматривать задачу достижения наилучшей для первого игрока позиции за минимальное время. При этом исходная игровая задача сводится к трехмерной задаче оптимального быстродействия.
С использованием результатов работ [4, 22] предлагается синтез и доказывается его оптимальность.
В третьей задаче исследуется случай, когда скорость преследуемого игрока отлична от нуля, а его управление постоянно на всем интервале движения. Показано, что при преимуществе преследователя в линейной скорости, этот игрок всегда может привести систему в наилучшую для него позицию (Я, 0, 0), причем многими способами. Поэтому, также как в задачах оптимального управления, рассмотренных в этой главе ранее, здесь решается задача достижения точки О за минимальное время.
На основе класса оптимальных траекторий, полученных для первой и второй задач, предлагается синтез субоптимального управления. Доказывается, что для некоторых начальных позиций игроков, траектория достижения точки О является оптимальной.
Третья глава диссертации посвящена численному исследованию исходной игровой задачи преследования - уклонения. В первой части этой главы на основе метода построения барьерных поверхностей [1] разработан алгоритм численного определения минимального радиуса захвата преследуемого игрока. Значение минимального радиуса захвата характеризует минимально возможное значение функции качества (0.0.3), которое преследователь, действуя оптимально, может себе обеспечить при любых начальных позициях системы и любых противодействиях преследуемого игрока.
Для исследования барьерных поверхностей применяются численные методы, основанные на использовании характеристик основного уравнения Айзекса - Беллмана. Численно полученные барьерные поверхности анализируются с использованием трехмерной компьютерной графики. Устанавливается структура субоптимальных траекторий на барьерных поверхностях и ряд специфических свойств, связанных с наличием особых траекторий. Приводится пример построения барьерных поверхностей для определенного соотношения линейных и угловых скоростей игроков.
На основе приведенных стратегий игроков предложен алгоритм численной реализации субоптимального синтеза во всем фазовом пространстве исходной задачи. Для конкретных значений параметров проведено численное построение субоптимального синтеза в некоторой подобласти фазового пространства.
В приложении доказывается теорема о структуре оптимальной траектории, состоящей из трех дуг окружностей, в трехмерной задаче оптимального управления, рассмотренной во второй главе.
Основные результаты диссертации.
1. Для случая, когда второй игрок неподвижен, а функция качества не зависит от угла (р2, реализован синтез и доказана его оптимальность.
2. Исследована трехмерная задача оптимального управления, возникающая при упрощении исходной игровой задачи. Данные упрощения также предполагают неподвижность второго игрока, но зависимость функции качества от угла у 2, который составляет некоторый условный, изначально заданный, вектор скорости второго игрока с линией визирования. Реализован синтез и доказана его оптимальность. Доказана теорема о структуре оптимальной траектории, состоящей из трех дуг окружностей.
3. Рассмотрены задачи, в которых предполагается, что преследуемый игрок на всем интервале движения применяет постоянное управление равное по модулю либо нулю, либо единице. Для обоих вариантов предложен субоптимальный синтез и показано, что при некоторых начальных положениях системы субоптимальная траектория будет оптимальной.
4. Для исходной игровой задачи предложен численный алгоритм построения барьерных поверхностей, позволяющий определить минимальный радиус захвата преследуемого игрока. Проведено исследование барьерных поверхностей с использованием трехмерной компьютерной графики. Показано, что в состав этих поверхностей входят особые траектории, управление первого игрока на которых равняется нулю. Проведено исследование структуры особых траекторий.
5. На основе метода прогнозирования движения второго игрока и решенных задач оптимального управления предложен численный алгоритм реализации субоптимального синтеза для исходной игровой задачи.
По теме диссертации опубликовано 7 статей в журналах Российской Академии наук [11, 14, 33], и трудах конференций [12, 34, 35, 36]. Результаты диссертации докладывались на семинарах ИПМех РАН "Теория управления и динамика систем" (руководитель семинара — академик Ф. Л. Черноусько), на XLVIII научной конференции Московского физико-технического института (Современные проблемы фундаментальных и прикладных наук, 25-26 ноября, 2005, Москва - Долгопрудный, Россия) и на IX Всероссийском съезде по теоретической и прикладной механике (Н.Новгород, 2006).
Исследования по теме диссертации выполнены в Институте проблем механики РАН.