Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование экстремалей сложной структуры в задачах оптимального управления Самыловский Иван Александрович

Исследование экстремалей сложной структуры в задачах оптимального управления
<
Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления Исследование экстремалей сложной структуры в задачах оптимального управления
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Самыловский Иван Александрович. Исследование экстремалей сложной структуры в задачах оптимального управления: диссертация ... кандидата Физико-математических наук: 01.01.02 / Самыловский Иван Александрович;[Место защиты: Московский государственный университет имени М.В. Ломоносова], 2016.- 156 с.

Содержание к диссертации

Введение

1 Условия стационарности в задаче оптимального управления для траектории с выходом на фазовую границу на отрезке 22

1.1 Базовый класс задач 22

1.1.1 Исследуемая траектория 23

1.1.2 Рассматриваемый тип минимума 23

1.2 Сведение задачи А к задаче со смешанными ограничениями 24

1.3 Получение условия стационарности в форме Дубовицкого-Милютина 26

1.3.1 Условия стационарности для задачи В 26

1.3.2 Условия стационарности в терминах исходной задачи 29

1.3.3 Знакоопределенноств множителя при фазовом ограничении и атомов мерві 31

1.4 Основной резулвтат 35

1.5 О скачках меры - множителя при фазовом ограничении 36

1.5.1 Об отсутствии скачков мерві 37

1.5.2 Пример наличия скачка меры 37

1.6 Пример нарушения условия неотрицателвности плотности мерві 40

1.7 Обобщение полученного резулвтата 42

1.7.1 Постановка задачи С 42

1.7.2 Сведение задачи С к задаче типа А 43

1.7.3 Условия стационарности для задачи С 44

2 Классификация и анализ экстремалей в задачах о движении материальной точки в среде с трением 50

2.1 Задача на фиксированном отрезке времени в отсутсвие гравитационного поля 50

2.1.1 Постановка задачи 50

2.1.2 Существование и единственноств оптималвного решения 51

2.1.3 Принцип максимума для задачи G1 з

2.1.4 Анализ условий принципа максимума 53

2.1.5 Необходимые и достаточные условия реализации релейной формы оп-тималвного управления 57

2.1.6 Получение условий наличия особого участка из геометрических соображений 58

2.1.7 Итерационный метод для определения границ особого участка 60

2.1.8 Примерві ввічислителвньїх экспериментов 61

2.2 Исследование оптималвных траекторий в задаче Годдарда со свободным временем окончания 62

2.2.1 Постановка задачи 62

2.2.2 Подготовка к исследованию 63

2.2.3 Формулировка принципа максимума для задачи G2 64

2.2.4 Анализ принципа максимума 65

2.2.5 Алгоритм определения типа оптималвной траектории 69

2.3 Исследование оптималвнвіх траекторий в задаче Годдарда с ограниченным временем окончания 71

2.3.1 Зависимоств типа оптималвной траектории от параметра д 71

2.3.2 Пример разбиения плоскости ТОд на множества 75

2.4 Классификация и исследование экстремалей задачи Годдарда на фиксированном отрезке времени 76

2.4.1 Постановка задачи 76

2.4.2 Подготовка к исследованию 76

2.4.3 Принцип максимума для задачи G4 76

2.4.4 Анализ принципа максимума 78

2.4.5 Классификация экстремалей задачи G4 82

2.4.6 Схема выбора экстремалей для анализа 96

2.4.7 Случай линейно-квадратичной функции сопротивления среды 97

2.4.8 Некоторые дополнителвнвіе свойства функции ф(ї) 98

2.4.9 Доказателвство неоптималвности траектории типа III 103

2.5 Взаимосвязв между построеннвіми задачами 107

3 Исследование оптимальных траекторий в задаче Ридса-Шеппа со свободным правым концом при различных ограничениях на линейную скорость 109

3.1 Случай двустороннего ограничения на линейную скороств и Є [—1,1] НО

3.1.1 Принцип максимума для задачи (3.1) в случае двустороннего ограничения на линейную скороств 110

3.1.2 Анализ принципа максимума 111

3.1.3 Неоптимальность экстремалей типа 1а и Па 116

3.1.4 Множества достижимости для различных типоь экстремалей 118

3.1.5 Построение оптимального синтеза 122

3.2 Исследование локальной оптимальности траекторий типа 1а задачи с двусто

ронним ограничением на линейную скорость 125

3.2.1 Формулировка конечномерных задач 126

3.2.2 Применение условий второго порядка 127

3.3 Случай одностороннего ограничения на линейную скорость и Є [0,1] 131

3.3.1 Принцип максимума для задачи (3.1) в случае одностороннего ограничения на линейную скорость 132

3.3.2 Анализ принципа максимума 133

3.3.3 Классификация экстремалей типов I и II 138

3.3.4 Неоптимальность экстремалей типов 1а и Па 138

3.3.5 Неоптимальность экстремалей типов lb и ПЬ 140

3.3.6 Неоптимальность экстремалей типа ПЬО 141

3.3.7 Построение и анализ множеств достижимости для различных типов экстремалей 142

3.3.8 Построение оптимального синтеза 145

Заключение 147

Список цитируемой литературы 148

Список публикаций автора по теме диссертации 152

Список рисунков

Введение к работе

Актуальность темы.

Начиная с середины XX века растущие потребности техники и промышленности стимулировали постановки задач, в которых требовалось найти оптимальную в некотором предписанном смысле траекторию динамической системы с ограниченными областями значений управляющих переменных. Изучение таких задач привело к появлению совершенно новой области науки - теории оптимального управления, центральным результатом которой -принцип максимума Понтрягина [1] - стал мощным инструментом решения прикладных задач.

Одним из важнейших разделов теории оптимального управления является исследование задач с нелинейной динамикой и различными типами ограничений, которым должна удовлетворять траектория изучаемой системы. Как правило, в таких задачах оптимальная траектория имеет сложную ("комбинированную") структуру, содержащую, например, выходы на фазовую границу, несколько переключений управления, а также участки так называемого особого управления, поэтому ее поиск требует разработки специальных методов. Кроме того, поскольку принцип максимума Понтрягина является лишь необходимым условием первого порядка, возникает необходимость получения и применения условий высших порядков для более тонкого анализа оптимальности.

Так как задачи, с которыми сталкиваются специалисты по теории оптимального управления, исторически связаны с прикладными областями (механика полёта, ядерная физика, экономика и т.д.), структура динамической системы и классы используемых функций подчинены логике предметной области, что не позволяет упростить или переформулировать задачу сверх некоторых пределов. В результате применение даже условий первого порядка зачастую оказывается весьма сложным.

Классическим примером являются задача о наискорейшем перемещении материальной точки из начального положения в конечное с возможностью управления линейной скоростью точки и скоростью изменения курсового угла. Впервые подобная задача была поставлена А.А.Марковым в работе [], в которой исследовался вопрос о прокладке кратчайшего железнодорожного маршрута. В современных терминах эта задача была сформулирована в работе Л. Дубинса ]. Именно постановка Дубинса положила начало многочисленным исследованиям, среди которых необходимо выделить работу Дж. Ридса и Л. Шеппа [4], также ставшую классической, где было рассмотрено управление не только скоростью изменения курсового угла, но и линейной

скоростью движения, и были описаны все возможные типы экстремалей. Различные модификации задачи Ридса-Шеппа исследовались многими авторами (см. напр. [, ]); полный синтез для задачи с фиксированным конечным направлением был построен П. Суэресом и Ж. Ламоном в ]. На примере последней работы особенно хорошо видно, что, несмотря на простоту уравнений движения (это трехмерная система х = usintp, у = исожр, ф = v), анализ условий оптимальности представляет большую сложность.

Зачастую даже в случае предельно конкретизированной постановки задачи, такой, в которой "общность" заключается лишь в наличии параметров, после выписывания необходимых условий первого порядка дальнейший анализ возможет лишь с использованием численных методов. Типичным примером является блок задач, связанных с оптимальными режимами вывода полезной нагрузки на орбиту.

В классической работе ] теоретик космонавтики Р. Годдард поставил вопрос о том, как следует управлять тягой вертикально поднимающейся ракеты, чтобы поднять ее на максимальную высоту. В литературе, посвященной различным модификациям и обобщениям этой задачи (см., например, -]), была обнаружена ее основная особенность, а именно наличие особого участка, для определения границ которого применялись специальные численные методы (см. [, ]). Аналитическое исследование при этом практически невозможно в силу существенной нелинейности управляемой системы. Более того, остаются открытыми вопросы, связанные с изменением типа оптимального управления при изменении параметров задачи.

Еще один блок вопросов связан с исследованием задач оптимального управления, в которых на часть переменных наложены ограничения, называемых фазовыми. На сегодняшний день можно выделить три основных пути их учета.

Первый путь, предложенный Р.В. Гамкрелидзе в конце 1950х годов, относится к случаю, когда оптимальная траектория выходит на фазовую границу на отрезке (либо конечном числе отрезков). В этом случае фазовое ограничение на этом отрезке можно продифференцировать и свести к смешанному, и тогда для редуцированной задачи (типа задачи Лагранжа классического вариационного исчисления) можно получить условия оптимальности (см. [1]). Однако при этом возникает проблема определения знака скачка сопряженной переменной в точках стыка с фазовой границей.

Книга [1] оказала огромное влияние на развитие всей теории оптимизации. Она вызвала появление целого ряда работ, в которых задачи оптимизации рассматривались с общих позиций и предлагались абстрактные схемы получения условий оптимальности.

Наиболее общая схема, получившая широкую известность в силу своей прозрачности и эффективности, была предложена А.Я. Дубовицким и А.А. Милютиным в работе [14]. В частности, они предложили рассматривать фазовое ограничение как ограничение в пространстве непрерывных функций. Тогда соответствующий ему множитель есть элемент из сопряженного пространства, т.е., неотрицательная мера, сосредоточенная на множестве выхода оптимальной траектории на фазовую границу. При этом никаких априорных предположений о характере этого множества не делается. Однако сопряженной уравнение тогда содержит в правой части меру (точнее, ее обобщенную производную), т.е. получается дифференциальное уравнение нового, пока не изученного типа. Этим фактом обусловлены многочисленные попытки исключить меру из условий оптимальности, которые пока к успеху не привели. Исследования конкретных задач показали, что абсолютно непрерывная и атомарная составляющая меры реализуются во многих типичных случаях.

Таким образом, для задач с фазовыми ограничениями были получены две формы условий оптимальности (в обоих случаях речь шла о принципе максимума) — форма Гамкрелидзе и форма Дубовицкого-Милютина. Форма Дубовицкого-Милютина более общая, однако форма Гамкрелидзе более простая по используемым понятиям и технике. Естественно, возникает вопрос о связи между ними. В статье ] и позднее в ] было показано, что из условий в форме Дубовицкого-Милютина вытекают условия в форме Гамкрелидзе (путем некоторой замены сопряженной переменной), однако возможность обратного перехода не была установлена.

Наконец, третий подход заключается во введении штрафа за нарушение фазового ограничения. Этот подход освещен, например, в работах , ]. По идеям и методам он существенно отличается от первых двух, и в настоящей работе мы его подробно не рассматриваем.

Объектом исследования в диссертационной работе являются задачи оптимального управления для систем обыкновенных дифференциальных уравнений при наличии концевых и фазовых ограничений.

Предметом исследования являются экстремальные траектории комбинированной структуры (имеющие участки выхода на фазовую границу, точки переключения управления и участки особого управления), а также необходимые условия оптимальности для таких траекторий.

Целями диссертационной работы являются:

Для траектории с выходом на фазовую границу на отрезке выяснить, возможно ли, основываясь на идее Гамкрелидзе, получить полный набор условий стационарности в форме Дубовицкого и Милютина, включая

условия знакоопределенности множителя при фазовом ограничении и скачков сопряженной переменной.

Провести исследование некоторых упрощенных вариантов классической задачи Годдарда о подъёме метеорологической ракеты. Провести классификацию экстремалей в случае свободного, ограниченного и фиксированного интервала времени при наличии плоского постоянного поля силы тяжести. Изучить условия наличия особого участка и зависимость структуры оптимальной траектории от параметров задачи.

Провести исследование модификаций кинематической задачи Ридса-Шеппа на случай частично свободного правого конца в случае одностороннего и двустороннего ограничения на управление, построить полный синтез оптимальных траекторий на плоскости хОу.

Основные положения, выносимые на защиту:

  1. Для траектории с выходом на фазовую границу на отрезке показано, что путь получения условий стационарности, предложенный Гамкрелид-зе [1], позволяет получить полную систему условий в форме Дубовицкого-Милютина []. Для этого предложен метод двухэтапного варьирования исследуемой траектории. На первом этапе метода рассматриваются только те вариации которые не затрагивают траекторию на участке выхода на фазовую границу, что позволяет получить все условия, кроме условий знакоопределенности плотности меры и ее скачков. На втором этапе с помощью специальных вариаций, сосредоточенных на участке выхода, получаются требуемые условия знакоопределенности.

  2. Построен набор задач максимизации терминального функционала, являющихся переходными от простейшей задачи с динамикой типа "тележка" [1, ] к одномерной задаче Годдарда. Для системы на фиксированном отрезке времени в отсутствие гравитационного поля определена структура оптимальной траектории, приведены условия, при которых она содержит особый участок и сформулирован численный метод для отыскания границ этого участка. Для задач как на свободном, так и на ограниченном отрезке времени при наличии постоянного гравитационного поля также определена структура оптимальной траектории и проведен анализ ее изменения при изменении параметра поля. Для задачи на фиксированном отрезке времени при наличии постоянного гравитационного поля проведена полная классификация экстремалей. Так как формулировка задачи допускает отрицательные значения вертикальной скорости объекта, получены новые типы возможных экстремалей.

3. Для задачи Ридса-Шеппа со свободным направлением скорости на правом конце, а также ее модификации на случай неотрицательной линейной скорости построен полный синтез оптимальных траекторий в плоскости

Методы исследования: В диссертационной работе применяются необходимые условия оптимальности первого порядка в форме принципа максимума Понтрягина [1] и его и его обобщений ], условия оптимальности для чисто релейных управлений в форме Н.П. Осмоловского и Г. Маурера ], условия наличия скачков при посадке на фазовое ограничение -], необходимые условия расширенного слабого минимума ], а также методы "размножения" переменных для сведения задач с промежуточными ограничениями к стандартному виду ].

Научная новизна:

  1. В специальном классе задач с фазовыми ограничениями для траектории с выходом на фазовую границу на отрезке установлена эквивалентность подходов Гамкрелидзе и Дубовицкого-Милютина к получению условий стационарности.

  2. Предложен метод двухэтапного варьирования для реализации подхода Гамкрелидзе.

  3. Предложены постановки упрощенной задачи Годдарда, сохраняющие качественные свойства оптимальной траектории, в частности, наличие участка особого управления.

  4. Приведено полное аналитическое решение этих задач в случае отсутствия гравитации, а также при наличии гравитации в случае свободного или ограниченного времени с точностью до определения моментов времени переключения, для которых выписаны соответствующие уравнения.

  5. Проведена полная классификация экстремалей в случае фиксированного времени. Установлено, что всего имеется 5 возможных типов экстремалей, среди которых есть неизвестные ранее.

  6. Построен оптимальный синтез в модифицированных задачах Ридса-Шеппа на плоскости в случае свободного значения курсового угла на правом конце. Такой синтез не может быть получен из синтеза в случае закрепленного правого конца.

Теоретическая и практическая значимость. Работа носит в основном теоретический характер. Предложенные методы и полученные результаты могут быть использованы для качественного исследования модель-

ных задач оптимального управления, возникающих как из чисто математических, так и из прикладных областей. Методы, которыми получены условия стационарности в задаче с фазовыми ограничениями, могут быть также использованы для получения принципа максимума и необходимых условий второго порядка в таках задачах.

Достоверность изложенных в работе результатов обеспечивается строгостью математических доказательств и использованием апробированных научных методов.

Апробация работы. Основные результаты, изложенные в диссертационной работе, докладывались на следующих научных конференциях и семинарах:

Международная конференция студентов, аспирантов и молодых ученых "Ломоносов" (Москва, 2011, 2012, 2013 годы)

Ломоносовские чтения (Москва, 2013, 2016 годы)

Научная конференция "Тихоновские чтения" (Москва, 2014, 2015 годы)

Международная конф. "Differential Equations and Related Topics", посвященная И. Г. Петровскому (Москва, 30 мая - 4 июня 2011 года)

Международная конференция по математической теории управления и механике (Суздаль, 2011, 2015 годы)

3rd Int. Conf. on Control and Optim. with Ind. Appl. (Анкара, 2011 год)

12th Viennese Workshop on Optimal Control, Dynamic Games and Nonlinear Dynamics (Вена, 2012 год)

9th Asian Control Conference (ASCC 2013) (Стамбул, 2013 год).

ICMC Summer meeting in diff. equations (Сан-Карлус, 2013, 2014 годы)

European Control Conference (Цюрих, 2013 год; Линц, 2015 год)

VII Моск. междун. конф. по иссл. опер. (ORM2013) (Москва, 2013 год)

XII Всероссийское совещание по пробл. управления (Москва, 2014 год)

Современные проблемы математики и ее приложений. Международная молодежная школа-конференция (Екатеринбург, 2015 год)

II Международный семинар, посвященный 70-летию со дня рождения акад. А.И. Субботина (Екатеринбург, 2015 год)

Семинар Матем. института имени В.А. Стеклова РАН "Проблемы математ. теории упр." под руководством чл.-корр. РАН СМ. Асеева и проф. М.С. Никольского (Москва, 16 октября 2015 года, 25 марта 2016 года)

Научно-исследовательский семинар "Спектр, теория дифф. операторов и актуальные вопросы матем. физики" под руководством акад. РАН Е.И. Моисеева и проф. И.С. Ломова (Москва, 16 ноября 2015 года)

Публикации. Основные результаты по теме диссертации изложены в 24 печатных публикациях [27-], 6 из которых изданы в журналах и сборниках, рекомендованных ВАК [27, , , , , ], 4 — в прочих журналах

и сборниках , 33, , ] 15 — в тезисах докладов , , -, , -, -].

Личный вклад. Личный вклад автора заключается в формулировке и доказательстве основных теоретических результатов и проведении численных экспериментов. Научный руководитель А.В. Дмитрук является автором постановок задач и предложений по использованию подходов к их исследованию.

Объем и структура работы. Диссертация состоит из введения, трех глав, заключения, библиографии, для удобства разделенной на список цитируемой литературы и список публикаций автора по теме диссертации, и списка рисунков. Общий объем диссертации составляет 156 страниц, включая 53 рисунка. Библиография включает 100 наименований.

Условия стационарности для задачи В

Классическим примером являются задача о наискорейшем перемещении материальной точки из начального положения в конечное, с возможностью управления линейной скоростью точки и скоростью изменения курсового угла. Впервые подобная задача была поставлена А.А. Марковым в работе [11], в которой исследовался вопрос о прокладке кратчайшего железнодорожного маршрута. В современных терминах эта задача была сформулирована в работе Л. Дубинса [12]. Именно постановка Дубинса положила начало многочисленным исследованиям, среди которых необходимо выделить работу Дж. Ридса и Л. Шеппа [13],также ставшую классической, где было рассмотрено управление не только скоростью изменения курсового угла, но и линейной скоростью движения, и были описаны все возможные типы экстремалей. Далее постановка Ридса и Шеппа исследовалась многими авторами (см. например, работы Г. Зуссмана и Г. Танга [14], Ж. Бойсонната и соавторов [15], А. Фуртуны и соавторов [16], B.C. Пацко и В.Л. Туровой [17-19], К. Ли и С. Пайяндеха [20], А. Кастро и Д. Койллера [21]); полный синтез для задачи с фиксированным конечным направлением был построен П. Суэресом и Ж. Ламоном в [22]. На примере последней работы особенно хорошо видно, что, несмотря на простоту уравнений движения (это трехмерная система х = и sirup, у = и cos ір, ф = v), анализ условий оптимальности представляет большую сложность.

Зачастую даже в случае предельно конкретизированной постановки задачи, такой, в которой "общность" заключается лишь в наличии параметров, после выписывания необходимых условий первого порядка дальнейший анализ возможен лишь с использованием численных методов. Типичным примером является блок задач, связанных с оптимальными режимами вывода полезной нагрузки на орбиту. Судя по всему, первой работой, относящейся к этой области, была статья теоретика космонавтики Р. Годдарда [23], в которой был поставлен вопрос о том, как следует управлять тягой вертикально поднимающейся ракеты, чтобы поднять ее на максимальную высоту. В современных терминах задача эта может быть сформулирована следующим образом: т(Т) = піт, h(T) — max, и Є [0,umax], h = v, h(0) = ho, . и- D(h,v) - g(h) v = , v{0)=vo, m k m = —fiu, ra(0) = mo, где скалярные переменные h(t), v{t) описывают высоту и скорость подъема ракеты, m{t) есть общая масса корпуса ракеты и топлива, управление u{t) есть сила тяги двигателя, a D{h,v) и д{К) - сила сопротивления атмосферы и сила тяжести соответственно.

В литературе, посвященной различным модификациям и обобщениям этой задачи (упомянем здесь работы Д.Е. Охоцимского [24], Д.Е. Охоцимского и Т.М. Энеева [25], Дж. Лейтман 7 на [26-28], Б. Гарфинкеля [29], классическую монографию A.M. Лётова [30], статьи П. Тсио-траса и X. Келли [31], X. Сейвалда и Е. Клиффа [32], Ф. Боннанса, П. Мартинона и Е. Тре-ла [33], К. Грайхена и Н. Пети [34, 35], Понссарда, Грайхена, Н. Пети и Ж. Лоран-Варин [36], И.Н. Кандобы, И.В. Козьмина, Е.К. Костоусова и В.И. Починского [37], О. Бокановского и соавторов [38]), была обнаружена ее основная специфика, а именно наличие участка так называемого особого режима, для определения границ которого применялись специальные численные методы (см., например, работы Мартинона, Боннанса и соавторов [33], а также Аронны, Боннанса и Мартинона [39]). Аналитическое исследование при этом практически невозможно в силу существенной нелинейности управляемой системы. Более того, остаются открытыми вопросы, связанные с изменением типа оптимального управления при изменении параметров задачи. В самом деле, долгое время основной интерес вызывала постановка задачи, при которой время вывода нагрузки на орбиту не фиксировано, а цель задачи заключается либо в минимизации этого времени, либо в максимизации высоты, либо в минимизации расхода топлива. Что происходит, если зафиксировать время полета? Как при этом будут меняться типы экстремалей и оптимальная траектория? Как будет меняться форма оптимального управления при изменении правой части системы уравнений движения (например, при рассмотрении различных функций сопротивления воздуха)? Наконец, можно ли упростить управляемую систему так, чтобы стало возможным ее аналитическое иссте-дование, однако качественные свойства траектории, в частности, наличие особого участка, сохранились (подобные упрощения весьма актуальны для механических систем, см., например, работы И.А. Асниса, А.В. Дмитрука и Н.П. Осмоловского [40], а также B.C. Пацко, С.С. Кумкова и С. Ле Менека [41, 42])?

Еще один блок вопросов связан с исследованием задач оптимального управления, в которых на часть переменных наложены ограничения, называемых фазовыми (см., например, работы Маурера [43, 44], X. Стэлфорда [45], X. Зонера [46], Ф. Рампаццо и Р. Винтера [47], Б. Боннарда и соавторов [48], X. Шеттлера [49], а также монографию Д. Стюарта [50]). На сегодняшний день можно выделить три основных пути учета фазовых ограничений.

Первый путь, предложенный Р.В. Гамкрелидзе в конце 1950х годов, относится к случаю, когда оптиамальная траектория выходит на фазовую границу на отрезке (либо конечном числе отрезков). В этом случае фазовое ограничение на этом отрезке можно продифференцировать и свести к смешанному, и тогда для редуцированной задачи (типа задачи Лагранжа классического вариационного исчисления) можно получить условия оптимальности (см. [1]). Однако при этом возникает проблема определения знака скачка сопряженной переменной в точках стыка с фазовой границей. Книга [1] оказала огромное влияние на развитие всей теории оптимизации. Она вызвала появление целого ряда работ, в которых задачи оптимизации рассматривалисв с общих позиций и предлагалисв абстрактные схемы получения условий оптималвности.

Наиболее общая схема, получившая широкую известноств в силу своей прозрачности и эффективности, бвша предложена А.Я. Дубовицким и А. А. Милютинвім в работе [51]. В частности, они предложили рассматриватв фазовое ограничение как ограничение в пространстве непрерывнвгх функций (см. также книги И.В. Гирсанова [52], А.Д. Иоффе и В.М. Тихомирова [53]). Тогда соответствующий ему множителв еств элемент из сопряженного пространства, т.е. неотрицателвная мера, сосредоточенная на множестве ввіхода оптималвной траектории на фазовую границу. При этом никаких априорных предположений о характере этого множества не делается. Однако сопряженной уравнение тогда содержит в правой части меру (точнее, ее обобщенную производную), т.е. получается дифференциалвное уравнение нового, пока не изученного типа. Этим фактом обусловленві многочисленнвіе попытки исключитв меру из условий оптималвности, которые пока к успеху не привели. Исследования конкретнвіх задач показали, что абсолютно непрерывная и атомарная составляющая мерві реализуются во многих типичных случаях.

Таким образом, для задач с фазоввіми ограничениями были полученві две формы условий оптималвности (в обоих случаях речв шла о принципе максимума) — форма Гамкрелидзе и форма Дубовицкого-Милютина. Форма Дубовицкого-Милютина более общая, однако форма Гамкрелидзе более простая по исполвзуемвім понятиям и технике. Естественно, возникает вопрос о связи между ними. В статве Ф. Хартла, Р. Сети и Р. Виксона [54] и позднее в статве А.В. Арутюнова, Д.Ю. Карамзина и Ф. Перейрві [55] бвіло показано, что из условий в форме Дубовицкого-Милютина ввітекают условия в форме Гамкрелидзе (путем некоторой замены сопряженной переменной), однако возможноств обратного перехода не бвша установлена.

Наконец, третий подход заключается во введении штрафа за нарушение фазового ограничения. Этот подход освещен, например, в работах Д. Снимана [56], Б.И. Пшеничного и СО. Очилова [57], Ф. Боннанса и Т. Гилбауда [58], ОМ. Асеева и А.И. Смирнова [59, 60], Б. Ли и соавторов [61], Ч. Джианга и соавторов [62] и т.д. По идеям и методам он существенно отличается от первых двух, и настоящей работе мы его подробно не рассматриваем.

Существование и единственноств оптималвного решения

Поскольку переменные ri,yi,ti задачи В непрерывно стыкуются в концах отрезка [0,1], то соответствующие переменные z(t),x(t) будут непрерывны (и, более того, липшицевы). По аналогичным соображениям будут липшицевы и сопряженные переменные фх, i\)t Посмотрим, что происходит с функцией фх.

Сразу отметим, что на каждом из отрезков А , і = 1,2,3 она липшицева. Переписав условия трансверсальности для фх в терминах задачи А, получим условия стыка: ipx(t1-0) = -fo, (t + 0) = -/?7-ab фх(і2 - 0) = -/3s, фх(і2 + 0) = -/3s, т.е. фх непрерывна в точке 2, а в точке t\ претерпевает скачок Афх( ) = —а\ 0. зо В концах отрезка выполнены условия трансверсалвности ФМ = J m , фх(Т) = -J Z(T), Фх(0) = 4(о) , Фх(Т) = -J x{T). Если ввести расширенную функцию Понтрягина задачи со смешаннвіми ограничениями K(z,x,u,t) = if)zf(z, х, и) + фхд(г, х, и) — mg(z, х, и) — htp(u), (1-22) то согласно (1.19), на всем отрезке [0,Т], кроме точек tx,t% , выполнены сопряженные уравнения -ipz = K,z(z0,x,u0), -фх = к х ,х,и), -ijt = Kft(z,x,u0) (1.23) и при всех t выполнены условия стационарности по управлению К = фМг,х0У) + (фх - m)g u(z,x0,u0) - h p u(u) = 0. (1.24) Перепишем теперв эти условия в терминах задачи А с фазоввім ограничением. Для этого положим фх{ї) = фх{ї) — m{t) и введем расширенную функцию Понтрягина этой задачи Н= zf(z,x,u)+if)xg(z,x,u)+mx — h(p(u) (1-25) с множителем rh(t) при фазовом ограничении. Нетрудно проверитв, что тогда на всем отрезке [0,Т], кроме точек t\,t , выполнены сопряжешгые уравнения Фг= -H z, Фх= -X, (1-26) и всюду выполнено условие стационарности по управлению Ни = 0. Условия трансверсалвности (1.21), очевидно, сохраняются. При этом, согласно (1.18) и (1.20), функция фх имеет скачки Афх(і\) = -а, - m(t\ + 0), Афх(і2) = m(t2 - 0). (1.27) Равенства (1.17) при переписвівании их во времени t дадут "закон сохранения энергии" tpzf(z0,x0,u)+$xg (z,x,u) +tljt = 0. (1.28) В самом деле, посколвку фг = 0, то (1.28) эквивалентно условию H(t,z,x,u) = const. Заметим, что на А2 имеем х = 0, а вне А2 имеем m = 0, т.е ввшолнено и условие дополняющей нежесткости для фазового ограничения m(t)x(t) = О, т.е. мера dm(t)x(t) = О, (1.29) а из определения h и условия (1.10) ввітекает ввшолнение условия дополняющей нежесткости и для ограничения на управление h(t)(p(u(t)) = 0. (1.30)

Мы получили условия стационарности в задаче А, при которых мера на интервале А2 абсолютно непрервшна с плотноствю m{t) и имеет скачки (атомві) —а\ — m(t\ + 0), mit — 0) в точках t\,t . Наша следующая целв — установитв знак плотности и скачков этой меры. Для этого мы учтем, что в нашем распоряжении еств вариации x(t) 0 на отрезке А2. Сначала рассмотрим произволвную тройку w(t) = (z(t),x(t),u(t)), удовлетворяющую на [0,Т] системе уравнений в вариациях вдолв процесса w(t): { z jzz -\- jxx -\- Jvu, (1-31) x = g zz + д хх + д ии. Основная техническая формула, которой мы будем полвзоватвся, дается следующей леммой.

Лемма 1.3.2. Пусть на отрезке [0,Т] заданы липшицевы функции if)z(t),z(t),x(t), и измеримые ограниченные функции h(t),u(t). Пусть также заданы функции if)x(t),m(t), липши-цевые на отрезках Ai = [0,ti], Аг = [ 1, 2], A3 = [t2,T] с возможными разрывами в точках і,І2, где 0 t\ іг Т, такие что на каждом из указанных отрезков выполнены соотношения фг = -i zf z (Фх -m)g z, фх = -фг?х (Фх т) д х, (1.32) Фг!и + (Фх -т)д и- 1ир и = 0. Тогда для любого решения w = (z,x,u) системы уравнений в вариациях (1.31) на [0,Т] справедливо равенство «ШТ) + ,,(Г),(Т) - М0Ш - «ожо) = /« + /„ + О t2 Т + (A x( i) - пг( і + 0) ) xitx) + (Д х(і2) + rn(t2 - 0) ) ж(і2) - rhx dt + / h p ulldt, (1.33) ti о где Aif)x(ti) — скачки фх в точках ti, і = 1,2. Доказательство. В силу системы (1.32) полный дифференциал функции фг г-\-фхх на каждом из отрезков Aj имеет вид d _ _ _ _ _ _ — (ipzz + хж) = (- Л - (Фх - m)g z) z + ipz(f zz + / ж + /» + + (- /х - ( - пг)зО ж + i z(g zz + 5ІЇ + й) = = mg zz + mgxx + тд ий + Л.(/?„й = тї + htp uU. Интегрируя левую и правую части полученного равенства на всем отрезке [0,Т] (при этом на Д2 интегрируя mi по частям) и учитывая возможнвіе скачки фх в точках t\,t2 , получаем, что левая частв (1.33) равна Т н т 2 / d zz + фхх) = I mxdt + / mxdt + mx - I mxdt + о о t2 1 т + Д х(іі)ж(іі) + Афх{г2)х{г2) + / fr mft, о откуда следует требуемое равенство (1.33). Далее нам потребуются вариации некоторого специалвного типа. Лемма 1.3.3. Для любой липшицевой функции х() на отрезке А2 = [?,2] найдется решение системы (1.31) на А2 с x{t) = x(t). Доказательство. Положим ж() = x(t), й() = v(t) g u , где г () - некоторая скалярная функция. Учитвівая, что g v(z,х,и) ф 0, из второго уравнения системы (1.31) можно выразитв /.ч k - g z z - tfx v{t) = rjy2 Подставляя полученное u{t) в первое уравнение системы (1.31), приходим к неоднородному линейному уравнению относительно z : \Уи\ J \ I Ум I / І Ум I Полагая для определенности z(t\) = 0, получаем решение этого уравнения. П

Ограничимся теперь вариациями x(t) = x(t) 0 на А2 = [t?, ]- Обозначим соответствующее значение z(t) = (). Согласно лемме 1.3.3, решение ((), x(t)) системы (1.31) существует. Для построения соответствующего допустимого процесса (который будет сравниваться с оптимальным процессом w) нам надо перейти к исходной нелинейной системе z = f(z,x,u), х = g(z,x,u). Согласно основному свойству уравнения в вариациях, для любого є 0 найдется поправка wE = (гє,хє,йє) с условием Нй Цю (є), такая что тройка we = w + ew + we удовлетворяет исходной системе на Аг- Нетрудно показать, что для нее выполнены и ограничения xe(t) 0, р(иє) 0 на А2.

Формулировка принципа максимума для задачи G2

Покажем сначала, что о 0. В самом деле, пусть реализуется "анормальный" случай о = 0. Тогда уравнение (2.9) для {) превращается в однородное, и по теореме единственности решения линейного ОДУ (см., например, [72]) из условия трансверсальности {) = 0 вытекает, что {) 0. Следовательно, х = 0 (см. (2.6)) и по условию нетривиальности набора множителей 0. Тогда из (2.8) получаем {) 0, и из уравнений движения (2.1) мы получаем {) = = o, что противоречит условию дополняющей нежесткости (2.4). Следовательно, о 0 и можем произвести нормировку о = 1. Тогда уравнение (2.9) принимает вид = -1+ (). (2.11)

Сформулируем несколько утверждений, непосредственно вытекающих из принципа максимума. Утверждение 2.1.3. () 0 для всех . Доказательство. Согласно (2.11), {) = -1. Так как непрерывна, () 0 в левой полуокрестности . Предположим, что найдётся такой момент времени , что і ) = 0 и {) 0 на интервале ( ,). В силу уравнения (2.11) получаем ( ) = -1, что противоречит предыдущему неравенству Утверждение 2.1.4. Любая траектория задачи (2.1), удовлетворяющая принципу максимума, является оптимальной в глобальном смысле. Доказательство. Поскольку {) 0 для всех , функция Гамильтона-Понтрягина (2.3) вогнута по паре переменных (,). Кроме того, концевые условия линейны, множество допу стимых управлений [0,1] выпукло, а множитель при функционале есть 0 = 1. Как известно, в этом случае принцип максимума гарантирует глобальную оптимальность траектории (см., например, [74]). Утверждение 2.1.5. 0. Доказательство. Допустим, что = 0. Тогда из (2.8) получаем = 1 для почти всех . Слудовательно, = , что противоречит (2.10). Из последнего утверждения и (2.8) следует, что существует такой момент времени 2 что = 0 для почти всех Є {2,). Более того, поскольку 0, из условия (2.4) вытекает, что {) = т, и, следовательно, имеет место равенство т = 0. (2.12) Замечание 5. В случае, если функция сопротивления среды линейна, т.е. () = ( 0), анализ условий принципа максимума значительно упрощается. Уравнение (2.11) имеет аналитическое решение {) = (і — 1 yt T /, которое неотрицательно на [0,] и монотонно убывает от (0) 0 до {) = 0. Согласно условию (2.8), в этом случае оптимальное управление всегда имеет релейный вид = (1,0) на следующих друг за другом интервалах ((0,), (,)) . Этот случай не добавляет интересных для рассмотрения экстремалей, поэтому далее мы полагаем, что () строго выпукла.

Определим множество = { : {) = }. Очевидно, что 0 замкнуто. Более того, оно непусто (в противном случае на (0,), откуда следует, что = 0, что противоречит (2.12)). Утверждение 2.1.6. Множество связно. Доказательство. Допустим противное. Тогда существует такой интервал = ( ,"), что () = (") = , и либо і) {) на , либо іі) {) на . Рассмотрим случай і). Поскольку ( ) Ои (") 0, из (2.11) вытекает, что (( )) ((")) и, значит, { ) (") вследствие строгой монотонности . Но = 0на, поэтому = —() согласно (2.1), и {) не может увеличиваться на . Значит, {) = на , и, поскольку () 0 для 0, мы получаем {) = 0 на . Поскольку (0) = 0, уравнение 2.11 принимает вид = —1 + . Его решение есть либо возрастающая, либо убывающая функция, которая не может принимать одинаковые значения в и t", что противоречит предположению. Случай ii) рассматривается аналогично. Следовательно, М есть отрезок [i1, ], с возможностью t1 = 2 Утверждение 2.1.7. М С (0,Т), т.е. t = 0 и t = Т не принадлежат М. Доказательство. Так как ф{Т) = 0 а, правый конец отрезка времени Т М0, и нам нужно лишь показать, что 0 ф М. Принимая во внимание, что М есть отрезок [t1,t2], предположим сначала, что М = {0}. Тогда ф а на (0,Т), следовательно, и = 0 для почти всех t Т, что противоречит (2.12). Предположим теперь, что М0 = [0,2], где 0 2 Т. Тогда на [0,2] имеем х = const = х(0) = 0, и = р(х) = 0, следовательно, и = 0 на всём [0,Т], что противоречит (2.12). Утверждение 2.1.8. ф{ї) а на (0,t1). Доказательство. Пусть верно обратное. Тогда, поскольку ґф(і) /ана (0,t1), получаем ф а, откуда следует, что и = 0 на (0,t1). Значит, на этом интервале также х = 0 и р(х) = 0. Поскольку, очевидно, ijj(t1) = 0, из (2.11) получаем //(0) = 1/ х Значит, на (0,t1) получаем ф = - 1 + ф/а 0, и, следовательно, ф а. Отсюда следует что, ф а и убывает на (0,1), поэтому фі 1) а, что противоречит предположению t1 Є М. П Следующие два утверждения верны не только для сопряженной функции из принципа максимума, а вообще для любой функции ф{ї), определяемой сопряженным уравнением. Они потребуются ниже для обоснования сходимости некоторого итерационного процесса. Утверждение 2.1.9. Пусть ф{і) удовлетворяет (2.11) на интервале (0,1) где и = 1, и, кроме того, ф(Ь1) = а 0 и ijj(t1) 0. Тогда ф{і) строго убывает на (0,1). Доказательство. Покажем сначала, что ф(і) а в левой полуокрестности t1. В случае if (t1) 0 это очевидно. Если же ф{і1) = 0, то ф( 1 )= ф р"(х)(1-ф)) 0, так как ip(x(t)) 1 для всех t 0, поэтому требуемое условие выполняется. Далее, если ф не является строго убывающей на (0,1), можно показать, что существуют такие моменты времени t t" t1, что ф(ІЇ) = ф(Ь") = с а и ф(і) с on (t ,t"). Тогда фіі,1) 0 и ф(г") 0, что в силу (2.11) означает, что ip(t ) p (x(t )) 1 и ф(Ґ) \x{t")) 1, и, следовательно, ip (x(t )) ip (x(t")). Однако, поскольку x(t ) x(t") (так как и = 1) и р (х) строго возрастает на х, мы приходим к противоречию. Утверждение 2.1.10. Пусть ф{і) удовлетворяет (2.11) на интервале [t2,T] где и = О, и пусть, кроме того, ф ) 0 с ipfo) 0. Тогда ф{і) строго убывает на [2,Т].

Доказательство. Поскольку и = О, имеем х = — р(х). В силу (2.11), ф = ф р — ф р" р есть непрерывная функция. Поскольку ф ) 0, получаем ф ) О, поэтому ф 0 в правой полуокрестности 2 Следовательно, в этой полуокрестности имеем ф 0, поэтому Ф Ф&), и тогда, поскольку х убывает, в силу (2.11) эти неравенства выполняются на всём полуинтервале (2,Т]. Таким образом, если мы вернемся к сопряженной переменной ф из принципа максимума, то она имеет следующий вид. Сначала ф убывает на (0,і) от ф(0) до ф(Ьі) = а 0. Затем ф{і) = а на [ti,t2]. Наконец, ф(і) а на (2,Т), убывая от ф ) = а до ф{Т) = 0.

Как и раньше, при исследовании управления будем использовать запись и = (мі,м2,...) на (Аі,А2,...), где Аі,А2,... есть некие интервалы, если u{t) = щ на Ai, u{t) = м2 на А2, и т.д.

Возмоясны два различных типа поведения сопряженной переменной, и, соответственно, два типа оптимальных траекторий. і) ф принимает значение а только в момент времени t\. Тогда и = (1,0) на ((0,ii), (t\,T)) есть релейное управление. іі) ф сохраняет значение а на отрезке [ti,t2], где t\ t2. В этом случае управление имеет релейно-особую структуру, и, как это обычно бывает, условие максимума функции Гамильтона-Понтрягина не позволяет непосредственно определить управление на особом участке [ti,t2]. Однако, дифференцируя равенство ф{і) = а, мы получим ф = —1 + аір (х) = 0. Поскольку // строго возрастает по х, мы получаем x{t) = const, то есть х = и — р(х) = 0, и, следовательно,

Случай одностороннего ограничения на линейную скорость и Є [0,1]

Данная глава посвящена построению оптималвнвіх траекторий в следующей задаче оптимального управления на фиксированном отрезке времени [0,Т]. x = usin(p, х(0) = 0, х(Т) = хт, y = ucosp, у(0) = 0, у(Т) = ут, ф = v, /?(0) = 0, р(Т) свободно, и Є U, г 1, J = Т — min, где множество U рассматривается в виде [—1,1] либо в виде [0,1]. Здесь имеются три скалярные фазовые переменные x,y,Lp и два управления u,v, при этом функции х(-),у(-), р(-) - абсолютно непрерывные, u(-),v(-) - измеримые ограниченные. Пара (х,у) задает положение точки на плоскости, р есть угол между направлением скорости (х,у) и осью ординат. Нетрудно видеть, что при U = [—1,1] материальная точка может либо стоять на месте, либо двигаться вперед по курсу, в то время как при 11= [0,1] допускается движение задним ходом. Эта задача (с фиксированным направлением скорости не только в начальный, но и в конечный момент) была поставлена Ридсом и Шеппом в [13], где были описаны все возможные типы экстремалей. Она исследовалась многими авторами (см. напр. [14-17, 20]); полный синтез для задачи с фиксированным конечным направлением построен в [22]. Мы рассматриваем эту задачу со свободным р(Т), т.е. управляющий игрок стремится наискорейшим образом достигнуть заданной точки, неважно с какого направления. Наша цель - построить оптимальный синтез для задачи (3.1).

Несмотря на то, что задача со свободным () значительно проще задачи с фиксированным () (это типичная ситуация в задачах оптимального управления), оптимальный синтез для задачи (3.1) не вытекает из оптимального синтеза для задачи с фиксированным (), и вопрос о его виде со сих пор не освещался в литературе. В то же время относительная простота задачи (3.1) позволяет провести ее анализ вполне ясно и обозримо, избегнув громоздкости рассмотрений для случая фиксированного конечного направления. Кроме того, так как синтез для задачи (3.1) зависит лишь от двух параметров (т,т) (в отличие от синтеза для фиксированного (), который зависит от трех параметров), он может быть изображен на плоскости.

Отметим также, что при замороженном управлении = 1 задача (3.1) (с различными вариантами условий на ()) превращается в известную задачу Маркова-Дубинса [12].

Рассмотрим случай, когда в задаче (3.1) управление Є = [-1,1]. Тогда, поскольку множество значений управления (,) есть выпуклый компакт (квадрат на плоскости), и управляемая система линейна по обоим управлениям, то по теореме Филиппова (см., например, [73]) решение здесь всегда существует.

Пусть ((),(),(),(),()), Є [0,] есть некоторый оптимальный процесс. Согласно Принципу максимума Понтрягина [1], для него найдется число 0 и липшицевы сопряженные функции х() ,у(), v() , не все равные нулю, порождающие функцию Понтрягина = (х sin + у cos ) + , (3.2) так что выполняются — сопряженные уравнения { -х = х = 0, -у = у = 0, (3.3) -р = v= (х cos -у sin ) , — условия трансверсальности: р() = 0, Ill - "закон сохранения энергии": (,,,,) = О, — и условие максимума: для почти всех max (,,,! ,!) = (,,,,). (3.4) м 1, к 1 В силу "сепарабелвности" по и последнее условие разбивается на два отделвнвіх: для п.в. max (х sin + у cos ) = (х sin + у cos ) , И 1 , (3.5) max ю = ю. Последние два условия, в свою очередв, означают, что Є Sign(х sin + у cos ), Є Sign , (3.6) где Sign = еств многозначная функция, равная 1 при 0, — 1 при 0, и отрезку [—1,1] при = 0. Если () Є Sign (), а функция {) обращается в нолв лишв на множестве мерві 0, то можно писатв "обычное" равенство {) = sign().

Следуя А.А.Милютину, под управляемой системой задачи будем пониматв набор всех ее поточечнвіх ограничений без учета концеввіх ограничений. В задаче (1) управляемая система состоит из соотношений = sin, 1, =cos, 1, (3.7) Экстремалью управляемой системві будем назвіватв набор из фазоввіх, управляющих и со-пряженнвіх переменнвіх, удовлетворяющих данной управляемой системе, а также сопряженным уравнениям, закону сохранения энергии и условиям максималвности (т.е. всем поточечным условиям ПМ). Для системы (3.7) экстремали еств набор функций (, ,,, ,х ,у ,ф, удовлетворяющих (3.7) и (3.3)-(3.5). Экстремали назвівается нетривиальной, если набор сопряженнвіх функций не еств тождественно нулевой. Для задачи (1) нетривиалвноств экстремали эквивалентна нетривиалвности всего набора множителей Лагранжа (если х = у = f = 0, то и = 0).

Найдем все нетривиальные экстремали системы (3.7). Нам будет удобно считать их заданными на всей прямой —оо t оо, а подходящее положение отрезка [to,T] определить позже, принимая во внимание граничные условия.

Из (3.3) следует, что фх = const = (Зх ,фу = const = (3у, поэтому из сопряженных переменных реально остается лишь ф , которую далее будем обозначать просто ф.

Заметим, что, если (Зх = (Зу = 0, то согласно (3.3) имеем ф = const, а из условия ф(0) = О получаем, что ф = 0, а тогда и а = 0, т.е. весь набор тривиален.

Следовательно, ((3Х,(3У) ф (0,0), и без нарушения общности можно положить /5 + /5 = 1. Тогда (Зх sin р+[Зу cos р = sin (p — 9) при некотором 9, и H = и sin (р — 9)+ьф, а для функций ф{і) и p{t) получаем следующие условия: ф= -и cos(p-9), ф(Т) = 0, (3.8) ф = v, р(0) = 0. (3.9) и Є Sign sin (р — 9), v Є Sign ф. (3.10) H=\sin(p-9)\ + [tp\=a 0. (3.11) Обратим внимание, что в силу (3.10) для почти всех t u{t) sin [pit) -9) = \ sin [pit) - 9) . Рассмотрим так называемый анормальный случай, когда а = 0. В этом случае sin (р — 9) = 0, ф = 0. Так как p{t) непрерывна, а синус зануляется в изолированных точках, то pit) = const, следовательно, v = 0. Так как при этом cos (р — 9) ф 0 и ф = 0, то из (3.28) получаем и = 0. Таким образом, движение точки состоит в том, что она стоит на одном и том же месте (в начале координат). Такое, однако, возможно лишь в случае (хт,Ут) = (0,0). Поэтому далее считаем, что (хт,Ут) Ф (0,0), и тогда а