Содержание к диссертации
Введение
2 Краевая задача. Существование решения и численные методы интегрирования 16
2.1 Постановка задачи IG
2.2 Условие разрешимости линейной краевой задачи 18
2.3 Аналог формулы Копий 20
2.4 Методы численного интегрирования для нелинейных краевых задач . 21
2.4.1 Алгоритм первого порядка 22
2.4.2 Алгоритм второго порядка 25
3 Необходимые условия оптимальности в управляемом динамическом процессе с краевыми условиями 32
3.1 Постановка задачи 32
3.2 Формула приращения целевого функционала первого порядка 37
3.3 Принцип максимума 43
3.4 Доказательство принципа максимума 45
4 Поиск оптимального управления 50
4.1 Метод последовательных приближений 50
4.2 Одна модификация метода последовательных приближений 56
4.3 Двух параметрический итерационный процесс 63
4.4 Численные и наглядные примеры 71
5 Особые управления 87
5.1 Предварительные результаты 87
5.2 Формула приращения целевого функционала второго порядка 89
5.3 Вариация второго порядка и критерий оптимальности для особых управлений 95
5.4 Применение критерия оптимальности второго порядка 100
6 Метод квадратичной аппроксимации в задачах управления с краевыми условиями 107
6.1 Линейно-квадратичная задача 107
6.2 Линейно-квадратичная задача переменной структуры 111
6.3 Практический пример 113
7 Заключение 123
8 Список литературы 126
- Методы численного интегрирования для нелинейных краевых задач
- Формула приращения целевого функционала первого порядка
- Одна модификация метода последовательных приближений
- Вариация второго порядка и критерий оптимальности для особых управлений
Введение к работе
В каждом разделе науки и техники существуют управляемые системы, т.е. такие системы, которые можно заставить вести себя по разному в зависимости от волн оператора. Каждый раз, когда оператор системы принимает решение, т.е. выбирает распределение параметров, которые управляют системой, он производит изменение в распределении состояний, в которых пребывает система и, следовательно, изменяет конечное состояние. Поэтому, возникает естественный вопрос: среди всех допустимых управлений конкретно какое управление приведет систему в определенное состояние? Например, какое управление минимизирует разницу между конечным и начальным значением произвольной функции, зависящей от состояния системы. Область науки, исследующая такого типа задачи, называется теорией оптимального управления.
Математическая теория оптимального управления начала развиваться пятьдесят лет назад как специальный раздел в рамках предмета дифференциальные уравнения. Оптимальное управление берет свои истоки в вариационном исчислении 17 века (Ферма, Ньютон, Лейбниц и братья Бернуллн). Оно имеет дело с нахождением функций, которые минимизируют целевой функционал, подчиненный системе дифференциальных уравнений. Вариационное исчисление также имеет дело с функциями более чем одной переменной и используется для постулирования вариационных принципов в физике.
Метод Эйлера, метод множителей Лагранжа, и их комбинированное необходимое условие первого порядка для стационарного решения (известное как уравнение Эйлера-Ла-грапжа) дали толчок для дальнейшего развития вариационного исчисления п 19 веке Лсжаидром, Я к оби, Гамильтоном и Вейсрштрассом. В начале 20 века Больца и Блисс
дали вариационному исчислению его современную строгую математическую структуру [16, 18, 19, 22, 33, 51].
Дипамическос программирование как продолжение и новый взгляд на теорию Гамнль-тона-Якобп было разработано Р. Беллманом и его коллегами начиная с 1950-х годов. [11, 12, 13]. Оно имеет дело с семействами экстремальных траекторий, удовлетворяющих конкретным конечным условиям. Оптимальная функция возврата определялась как величина целевого функционала, начинающегося в текущем состоянии и моменте времени и приближающегося оптимально к заданным конечным условиям. Так как функция управления здесь представляется в виде обратной связи на текущее состояние и момент времени, динамическое программирование часто определяется как нелинейное оптимальное управление по обратной связи. Беллман распространил теорию Гамильтопа-Якобн на дискретные динамические системы и комбинаторные системы. Частные производные оптимальной функции возврата по переменным состояния идентичны множителям Ла-гранжа, поэтому вывод уравнений Эйлера-Лагранжа может быть сделан очень просто с использованием метода динамического программирования [22].
Очень редко имеется возможность решить уравнения в частных производных Гамнль-тона-Якоби-Ьсллмана для нелинейной системы, имеющей какое-либо практическое значение, поэтому развитие явных управляемых схем обратной связи для нелинейных систем обычно недостижимо. Однако, если пространство состояний ограничено областью, близкой к оптимальной траектории, задача динамического программирования может хорошо аппроксимироваться линейной квадратичной задачей, т.е. задачей с линейной динамикой и квадратичным целевым функционалом [1, 19, 23, 25, 36, 37, 50].
Принцип .максимума представляет собой обобщение необходимых условий Эйлера-Ла-граижа и Вейерштрасса на случаи, когда функции управления ограничены [33]. Он был разработан Л.С. Понтрягиным и его школой в СССР [64]. В терминологии оптимального управления этот принцип утверждает, что минимизирующая траектория должна удовлетворять уравнениям Эйлера-Лагранжа, где функция управления максимизирует гамильтониан в пределах своей ограниченной области в каждой точке вдоль траектории. Таким образом, задача вариационного исчисления трансформируется в задачу нелинейного программирования в каждой точке вдоль траектории.
Принцип максимума оперирует одной экстремалью в конкретный момент времени, то-
гда как динамическое программирование оперирует семействами экстремалей. Принцип максимума является неотъемлемой частью динамического программирования, так как решение уравнений Гамильтона-Якоби-Беллмаиа включает также нахождение управлений (по возможности ограниченных), которые максимизируют гамильтониан в каждой точке пространства состояний.
Первоначально доказанный для линейных задач быстродействия, принцип максимума был получен в общем линейном случае В.Г. Болтянским в [17]. Введение игольчатых вариаций и применение теоремы отделимости для выпуклых множеств позволило преодолеть трудности, связанные с замкнутостью области управлений. Аналогичный подход был использован Р.В. Гамкрслидзе, чтобы доказать принцип максимума для задач с фазовыми ограничениями по состоянию [31, 32]. С тех пор большое число публикаций, посвященных принципу максимума и его различным приложениям, изданы и издаются, и круг задач, решаемых этим методом, расширяется каждый год.
Однако, прннцгт максимума Поптряпша не дает никакой информации об о со бых оптимальных управлениях, т.е. он не может определить особое экстремальное управление в терминах фазовой, сопряженной и независимой переменных. Хотя некоторые обобщения необходимых условий оптимальности, как и некоторые методы численного решения особых задач были найдены, точное решение все еще вызывает сложности. Первоначальный вклад был сделан Л.И. Розоноером, А. Миэле, Г. Ксллп и соавторами и ('15, GO, CG] которые ввели новый тип вариаций вместо игольчатой вариации, используемой Л.С. Понтрягнным. Дальнейшее обобщение необходимых условий оптимальности особых управлений, сопровождаемое численными методами решения появилось в [9, 10, 19, 20, 2G, 27, 28, 29, 30, 42, 46, 5S].
Первые практические задачи оптимального управления были связаны с оптимизацией нелинейных динамических систем для авиастроения, создания космических аппаратов и роботов. Какова должна бить реактивная тяга, чтобы ракета с заданной массой топлива достигла максимальной высоты? Так как эта конкретная задача сегодня всесторонне исследована, ее можно использовать, чтобы наглядно продемонстрировать цель данной диссертации.
Рассмотрим вертикальный взлет ракеты (Fig. 1.0.1). Пусть t = to '- время старта, Xi(t) - вертикальная координата, т.е. высота ракеты в каждый момент времени t > to.
Обозначим за x%{t) — х\{І) мгновенную скорость ракеты и за хз(0 - переменную массу ракеты. Если / = const — характеристика реактивной тяги, и и — u(t) характеризует расход топлива, то із(0 = ~u{t), и сила реактивной тяги представляется как /(л = /ї(((). Естественно рассматривать функцию ті = u(t) как управление этим динамическим процессом:
О < u(i) < а, «(О / = [0, а]. (1.0.1)
Здесь а > 0 - это заданный параметр, характеризующий максимально возможное потребление топлива для заданного двигателя, а ноль подразумевает выключенный двигатель. Предположение о мгновенности переключения управлений определяет класс допустимых управлений как класс кусочно-непрерывных функций в пределах (1.0.1). Общее сопротивление состоит из силы гравитации fgT = хз(0 * Зі гДе 9 - гравитационное ускорение, и из вертикальной компоненты аэродинамического сопротивления fT — /г(^і(0»х2(0)і зависящей от скорости х% и высоты Xj. Считается, что
fr - С 'ехр(-7хі)-г|,
где С, 7 "* константы, характеризующие аэродинамическое сопротивление и меру раэря-жешюсти воздуха при подъеме. Согласно закону Ньютона
Xz-Xi — fa — jgr — /г-
Отсюда положение ракеты как управляемого динамического объекта в пространстве определяется вектор-функцией x(t) — (xj (і), 2(0)^3(0) и кусочно-непрерывной функцией управления и = u(t) с прямым ограничением (1.0.1), и их взаимосвязь описывается системой дифференциальных управлений
ii - х2,
І2 = -д + —{Ы(г) - Мхих2)], (1.0.2)
#3
із = —""(0 с начальными условиями
. ari('o) - х?, Mh) = 0, x3{t0) = лг > 0, (1.0.3)
где х - общая масса оболочки ракеты то и топлива in, х = "Jo + "і-
J' Высота
Jth — fr — /<
топливо
\ГГГ7Г7777Т77ТГГҐ>
V7T777T777T7T7
Рис. 1.0.1: Вертикальный взлет ракеты.
Для процесса с фиксированной продолжительностью ( Є Т = [ґ0, її], естественно ввести ограничение
x3(d) > mo, . (1.0.4)
которое подразумевает, что масса топлива, на борту не должна опускаться ниже массы оболочки ракеты. Если m > a{t\ — to), ограничением (1,0.4) можно пренебречь.
В зависимости от различных целей управления можно сформулировать различные типы задач оптимального управления. Три задачи,- лриведенные ниже, общепризнанны основными.
I. Предположим, что ограничением (1.0.4) можно пренебречь. В течение определенного времени (і — to, какова должна быть сила реактивной тяги, чтобы ракета достигала
максимальной высоты? В терминах целевого функционала
J (и) = xi(ti) -+ max, u(t)eU; (1.0.5)
или, например, при каком выборе управлення ракета сможет достичь определенной высоты Л в момент времени ti, затратив при этом наименьшее количество топлива? IJ этом случае
J(u) = PiixiiU) - hf + Р2 І ' u(t)dt -> min, u(t) Є. U, (1.0.6)
J to
где Pi, P2 - определенные приоритетные коэффициенты.
Это задача с ограниченным управлением (1.0.1) и неограниченным состоянием, поэтому ее иногда называют задачей со свободным правым концом.
2, Предположим, что ограничение (1.0.4) существенно. Тогда для ракеты достичь максимальной высоты математически означает
J(u) — x(ti) -4 max, u(t) /, -r3(fi) > mo- (1.0.7)
Задачи (1,0.5) и (1.0.7) не являются одинаковыми. Также ясно, что в задаче (1.0.7) ограничение тина неравенства (1.0.4) фактически может быть заменено на ограничение-равенство
x3(fi) = та,
так как естественно рассматривать, что все топливо будет истрачено к моменту времени ty.
Эта задача называется задачей оптимального управления с фазовыми ограничениями, потому что и управление, и состояние здесь ограничены.
Используя метод штрафных функций, задачу (1.0.7) можно свести к ряду задач со свободным правым концом:
Л(u) = -ari(*j) + т-(гз(*і) - m0)2, Sk > 0,
$k+i < ^, =1,2,..., lim 5k = 0.
3. Предположим, что конечний момент времени t\ заранее не определен. Сформулируем задачу следующим образом: Какова должна быть сила реактивной тяги, чтобы ракета достигла высоты h за кратчайшее время? В этом случае
rti
J(u) =/ clt ~ mill, u(t)eU, x\{ti) = h, x3(li) = гщ. (1.0.S)
Эта задача называется задачей быстродействия.
Все три типа задач, приведенных выше, хорошо известны каждому, кто знаком с теорией оптимального управления. Они являлись объектом аналитического и численного решения в течение всего времени существования теории оптимального управления.
Следует заметить, что во всех трех типах задач начальное состояние динамического процесса задается начальными условиями (1.0.3). Что же происходит, когда одна группа переменных состояния задана в начальный момент времени f0, а другая группа задана в конечный момент времени? Например, пусть
x\{to) = 0, x2(t0) = 0, хг(и) = го0. (1.0.9)
Тогда можно сформулировать другую задачу оптимального управления. Какова должна быть сила реактивной тяги, чтобы ракета достигла высоты h, израсходовав при этом все топливо? В терминах целевого функционала это запишется как
J (и) = (xi(^) - hf -» min, u(t)eU. (1.0.10)
В данной постановке начальная масса топлива т не определена заранее, а определяется после того, как закон оптимального управления установлен: m = x^(t0) — "го-Е-слн мы зададим другую группу краевых условии
xt(to) = 0, x2{ti) = 0, x3{ti) = т0 (1.0.11)
для динамической системы (1.0.2), то для того же самого целевого функционала (1.0.10) цель оптимального управления можно сформулировать следующим образом. Найти закон оптимального управления, при котором ракета достигнет высоты h, израсходовав при этом все топливо, и па этой высоте зависнет ( X2{t\) = 0).
Задачам типа (1.0.2), (1.0.9) или (1.0.11) с фазовыми ограничениями или без них исследователями уделялось намного меньше внимания, чем задачам, в которых начальное
состояние динамического процесса определено, хотя они и могут рассматриваться как обобщенный случай задач со свободным правым концом и поэтому называются задачами оптимального управления с краевыми условиями. Здесь динамический процесс подчинен краевой задаче, которая, как известно, является обобщением задачи с начальными условиями или задачи Коши. Цель данной диссертации как раз и состоит в тщательном и подробном изучении задач управления с краевыми условиями.
Следует отметить, что лишь малая часть современных технических задач может решаться исключительно аналитическими методами [15, 16, 19, 22, 33, 35, 52, 53, 61, G4]. Следовательно, существует необходимость в разработке численных алгоритмов, позволяющих решать задачи оптимального управления на компьютере. Здесь можно выделить две группы численных алгоритмов: методы первого и методы второго порядка. Методы первого порядка (пли градиентные методы) оперируют производными не выше первого порядка от рассматриваемых функций, а методы второго порядка (млн методы квазилинеаризации) оперируют ироизводиымн не выше второго порядка от рассматриваемых функций. Применение принципа максимума ведет к так называемым методам последовательных приближений, которые используют понятие игольчатой вариации, чтобы улучшить значения имеющегося допустимого управления.
Изначально задачи оптимального управления сводились к двухточечной краевой задаче по аналогии с вариационным исчислением. Тогда, естественно было применять для их решения численные методы решения краевых задач, такие как метод частных решений [34, G2], метод комплиментарных функций и сопряженных переменных [G5], методы стрельбы [3, 43]. Эти методы заключаются в "угадьіваніш"начальньіх значений сопряженных переменных (т.е. множителей Лаграижа), интегрировании вперед уравнений Эйлера-Лаграпжа и затем интерполяции но сопряженным элементам вплоть до удовлетворения конечных условий. Иногда уравнения Эйлера-Лагранжа могут становиться нестабильными для интегрирования вперед и назад, что вызывает потерю численной точности для компьютерного решения.
Градиентные методы, предложенные в [7, 44, 63], исключают проблему нестабильности методов стрельбы, но они требуют выбора начальных приближений, достаточно близких к решению задачи. Сначала исходная динамическая система интегрируется вперед, и полученная траектория сохраняется. Затем, сопряженная система интегрируется назад вдоль этой траектории, что, по сути, является стабильным интегрированием. Это определяет
импульсную реакцию целевого функционала н ограничений на правом конце на возмущение переменных управления. После этого значення переменных управлення изменяются в направлении, противоположном направлению градиента, и вся процедура повторяется до тех пор, пока конечные условия не будут удовлетворяться в пределах заданной точности, и целевой функционал не будет больше убывать.
Существуют также методы к вази линеаризации [14], разработанные в качестве одной из реализаций абстрактного метода Ньютона-Рафсон а в банаховых пространствах [40, 41]. По сути дела квазилинеаризация включает в себя линеаризацию нелинейных уравнений вблизи решения, удовлетворяющего заданным краевым условиям, и решение последовательности линейных двухточечных краевых задач, где решение fc-той задачи берется в качестве начального для решения (Л-f 1)-ой задачи. Данная методика требует значительно больше программирования, чем градиентные методы, а также не только хороших начальных приближений, но и аналитических выражении для первой и второй производной функций правых частей исходной системы и краевых условий.
Методы, основанные на принципе максимума (т.е. методы последовательных приближений), впервые были предложены И.А. Крыловым и Ф.Л. Черноусько [47, 48] и далее были разработаны другими отечественными математиками [30, 55, 56, 57, 72, 73, 74, 75, 76]. Методы принципа максимума развиваются как одна из реализаций метода приращений. Метод последовательных приближений состоит в интегрировании исходной динамической системы вперед и сопряженной системы назад па выбранном допустимом управлении п нахождении экстремального управления согласно принципу максимума. Далее, это допустимое управление улучшается посредством его игольчатой вариации с экстремальным управлением в некоторой малой окрестности, определяемой вариационным параметром. После этого производится параметрическая минимизация приращения целевого функционала, ведущая к нахождению значения вариационного параметра. В конечном счете, улучшенное управление, соответствующее найденному значению вариационного параметра, берется в качестве следующего приближения, и вся процедура повторяется до тех пор, пока принцип максимума не будет удовлетворяться. Этот метод дает хорошие результаты для задач с ограниченным управлением, особенно для задач с точечными ограничениями на управление. Однако, параметрическую минимизацию иногда трудно осуществить, поэтому сейчас разрабатываются некоторые успешные комбинации методов последовательных приближений с градиентными методами [74].
Все вышеперечисленные методы (методы стрельбы, градиентные алгоритмы, квазилинеаризация и методы последовательных приближений) были разработаны для задач оптимального управления со свободным или закрепленным правым концом, с ограничениями на управление или без таковых, с фиксированной или незадашюй продолжительностью управляемого процесса. Во всех отих задачах начальное состояние динамического процесса было всегда задано, т.е. начальные условия для фазовых переменных были всегда определены.
В данной диссертации принципиальное внимание уделено численным методам решения, основанным на принципе максимума, и их комбинациям с градиентными алгоритмами для задач оптимального управления с краевыми условиями вместо начальных.
Как было отмечено ранее, задачи управления с краевыми (вместо начальных) условиями не нашли должного внимания в науке. Всего лишь несколько работ на эту тему были опубликованы к настоящему времени. Работа [21] изучает условия оптимальности задачи, где состояние исходной системы должно остановиться па границе. Здесь также показано, что решение обобщенных уравнений Гамильтона-Якобн-Бсллмана является единственным в классе регулярных функций. Задача управления решением уравнения теплопроводности с согласованными ограниченными условиями и коэффициентами теплообмена в качестве управления рассмотрена в [51]. Выпуклая задача оптимального управления для линейной системы с двухточечными краевыми условиями антшіерноднческого типа изучена в [S]. Работа [21] исследует принцип оптимальности Бсллмана, тогда как в данной диссертации внимание будет уделено принципу максимума Нонтрягпна.
Диссертация построена следующим образом. В Главе 2 приводится общая формулировка краевой задачи. Здесь выводится легко проверяемое условие, при котором линейная краевая задача имеет единственное решение, а также приводится аналитическая формула представления решения линейной краевой задачи, напоминающая по форме и являющаяся обобщением формулы Кошн для представления решения линейной задачи Копій. В этой главе также описываются алгоритмы решения первого и второго порядка для нелинейной краевой задачи, являющиеся по сути дела аналогами градиентных методов и к вази линеаризации. Для выводов использован метод при ращен пи и другие методики, общепризнанные в теории управления.
Задача оптимального управления с краевыми условиями поставлена в Главе 3. Три
различных типа формулы приращения целевого функционала получены с применением линеаризации и теории первой вариации, необходимые условия оптимальности в форме принципа максимума сформулированы и доказаны с использованием аналога формулы Коши, который был получен в Главе 2.
Методы численного интегрирования для нелинейных краевых задач
Задачам типа (1.0.2), (1.0.9) или (1.0.11) с фазовыми ограничениями или без них исследователями уделялось намного меньше внимания, чем задачам, в которых начальное состояние динамического процесса определено, хотя они и могут рассматриваться как обобщенный случай задач со свободным правым концом и поэтому называются задачами оптимального управления с краевыми условиями. Здесь динамический процесс подчинен краевой задаче, которая, как известно, является обобщением задачи с начальными условиями или задачи Коши. Цель данной диссертации как раз и состоит в тщательном и подробном изучении задач управления с краевыми условиями.
Следует отметить, что лишь малая часть современных технических задач может решаться исключительно аналитическими методами [15, 16, 19, 22, 33, 35, 52, 53, 61, G4]. Следовательно, существует необходимость в разработке численных алгоритмов, позволяющих решать задачи оптимального управления на компьютере. Здесь можно выделить две группы численных алгоритмов: методы первого и методы второго порядка. Методы первого порядка (пли градиентные методы) оперируют производными не выше первого порядка от рассматриваемых функций, а методы второго порядка (млн методы квазилинеаризации) оперируют ироизводиымн не выше второго порядка от рассматриваемых функций. Применение принципа максимума ведет к так называемым методам последовательных приближений, которые используют понятие игольчатой вариации, чтобы улучшить значения имеющегося допустимого управления.
Изначально задачи оптимального управления сводились к двухточечной краевой задаче по аналогии с вариационным исчислением. Тогда, естественно было применять для их решения численные методы решения краевых задач, такие как метод частных решений [34, G2], метод комплиментарных функций и сопряженных переменных [G5], методы стрельбы [3, 43]. Эти методы заключаются в "угадьіваніш"начальньіх значений сопряженных переменных (т.е. множителей Лаграижа), интегрировании вперед уравнений Эйлера-Лаграпжа и затем интерполяции но сопряженным элементам вплоть до удовлетворения конечных условий. Иногда уравнения Эйлера-Лагранжа могут становиться нестабильными для интегрирования вперед и назад, что вызывает потерю численной точности для компьютерного решения.
Градиентные методы, предложенные в [7, 44, 63], исключают проблему нестабильности методов стрельбы, но они требуют выбора начальных приближений, достаточно близких к решению задачи. Сначала исходная динамическая система интегрируется вперед, и полученная траектория сохраняется. Затем, сопряженная система интегрируется назад вдоль этой траектории, что, по сути, является стабильным интегрированием. Это определяет импульсную реакцию целевого функционала н ограничений на правом конце на возмущение переменных управления. После этого значення переменных управлення изменяются в направлении, противоположном направлению градиента, и вся процедура повторяется до тех пор, пока конечные условия не будут удовлетворяться в пределах заданной точности, и целевой функционал не будет больше убывать.
Существуют также методы к вази линеаризации [14], разработанные в качестве одной из реализаций абстрактного метода Ньютона-Рафсон а в банаховых пространствах [40, 41]. По сути дела квазилинеаризация включает в себя линеаризацию нелинейных уравнений вблизи решения, удовлетворяющего заданным краевым условиям, и решение последовательности линейных двухточечных краевых задач, где решение fc-той задачи берется в качестве начального для решения (Л-f 1)-ой задачи. Данная методика требует значительно больше программирования, чем градиентные методы, а также не только хороших начальных приближений, но и аналитических выражении для первой и второй производной функций правых частей исходной системы и краевых условий.
Методы, основанные на принципе максимума (т.е. методы последовательных приближений), впервые были предложены И.А. Крыловым и Ф.Л. Черноусько [47, 48] и далее были разработаны другими отечественными математиками [30, 55, 56, 57, 72, 73, 74, 75, 76]. Методы принципа максимума развиваются как одна из реализаций метода приращений. Метод последовательных приближений состоит в интегрировании исходной динамической системы вперед и сопряженной системы назад па выбранном допустимом управлении п нахождении экстремального управления согласно принципу максимума. Далее, это допустимое управление улучшается посредством его игольчатой вариации с экстремальным управлением в некоторой малой окрестности, определяемой вариационным параметром. После этого производится параметрическая минимизация приращения целевого функционала, ведущая к нахождению значения вариационного параметра. В конечном счете, улучшенное управление, соответствующее найденному значению вариационного параметра, берется в качестве следующего приближения, и вся процедура повторяется до тех пор, пока принцип максимума не будет удовлетворяться. Этот метод дает хорошие результаты для задач с ограниченным управлением, особенно для задач с точечными ограничениями на управление. Однако, параметрическую минимизацию иногда трудно осуществить, поэтому сейчас разрабатываются некоторые успешные комбинации методов последовательных приближений с градиентными методами [74]. Все вышеперечисленные методы (методы стрельбы, градиентные алгоритмы, квазилинеаризация и методы последовательных приближений) были разработаны для задач оптимального управления со свободным или закрепленным правым концом, с ограничениями на управление или без таковых, с фиксированной или незадашюй продолжительностью управляемого процесса. Во всех отих задачах начальное состояние динамического процесса было всегда задано, т.е. начальные условия для фазовых переменных были всегда определены.
В данной диссертации принципиальное внимание уделено численным методам решения, основанным на принципе максимума, и их комбинациям с градиентными алгоритмами для задач оптимального управления с краевыми условиями вместо начальных.
Как было отмечено ранее, задачи управления с краевыми (вместо начальных) условиями не нашли должного внимания в науке. Всего лишь несколько работ на эту тему были опубликованы к настоящему времени. Работа [21] изучает условия оптимальности задачи, где состояние исходной системы должно остановиться па границе. Здесь также показано, что решение обобщенных уравнений Гамильтона-Якобн-Бсллмана является единственным в классе регулярных функций. Задача управления решением уравнения теплопроводности с согласованными ограниченными условиями и коэффициентами теплообмена в качестве управления рассмотрена в [51]. Выпуклая задача оптимального управления для линейной системы с двухточечными краевыми условиями антшіерноднческого типа изучена в [S]. Работа [21] исследует принцип оптимальности Бсллмана, тогда как в данной диссертации внимание будет уделено принципу максимума Нонтрягпна.
Диссертация построена следующим образом. В Главе 2 приводится общая формулировка краевой задачи. Здесь выводится легко проверяемое условие, при котором линейная краевая задача имеет единственное решение, а также приводится аналитическая формула представления решения линейной краевой задачи, напоминающая по форме и являющаяся обобщением формулы Кошн для представления решения линейной задачи Копій. В этой главе также описываются алгоритмы решения первого и второго порядка для нелинейной краевой задачи, являющиеся по сути дела аналогами градиентных методов и к вази линеаризации. Для выводов использован метод при ращен пи и другие методики, общепризнанные в теории управления.
Формула приращения целевого функционала первого порядка
В итоге сделаем вывод, что для линей но-квадрати мной задачи с краевыми условиями квадратичные аппроксимации точны, откуда следует дополнительное упрощение метода последовательных приближений на основе условий оптимальности второго рода, который подходит для поиска как особых, так и нсособых управлений. Поэтому, подход квадратичной аппроксимации рассматривается как одно из важных достижений данной диссертации.
В завершение диссертации, рассмотрим практический пример рассматриваемой задачи. С помощью этого примера можно продемонстрировать, что задачи оптимального управления с краевыми условиями вполне реально существуют, и поэтому их нужно решать.
В общем случае, диффузный процесс для волн любой природы в многослойной среде описывается системой дифференциальных уравнений в частных производных с краевыми условиями очень сложной структуры [-I, 5, G, 39]. В таких задачах состояние процессов задано амплитудными или эндотермическими характеристиками волны, а управление описывается физическими или геометрическими характеристиками каждого слоя среды. Выбор этих характеристик как констант каждого слоя, определяет выбор компонент слоя и его толщину, достаточную для того, чтобы погасить волну в последнем внутреннем слое. Краевые условия выражают связь между случайно приходящими и отраженными волнами па внутренней и внешней стенке. Расстояние между внутренней и внешней стенкой (т.е. толщина среды) задает область определения независимой переменной.
Физические характеристики слоев зависят от природы рассматриваемых воли. Например, — для тепловых волн это коэффициенты теплопроводности или температуропроводнмо стн; — для звуковых волн это плотность или скорость распространения волны в каждом слое; — для электромагнитных волн это диэлектрическая или магнетическая проницаемость каждого слоя; — для эластичных воли это плотность или параметры Лэйма в каждом слое. Математические модели, связывающие состояние и управление различных типов волн имеют схожие структуры, и с использованием методов математической физики (например, метода Фурье или метода декомпозиций), они могут сводиться к краевой задаче для обыкновенных дифференциальных уравнений на комплексной области. Отобразим структуру такой краевой задачи. Пусть t Є {О, Г] - координата, направленная внутрь многослойной конструкции перпендикулярно к поверхности, ti, і = І,..-,N обозначают границы разделения слоев с различными физическими характеристиками, V.W, і = 1,,..,N - постоянная физическая характеристика составляющего материала г -го слоя. Отсюда, функция управления и — "(0э ы(0 /Г, подчинена поточечному ограничению Таким образом, среда состоит из конечного числа слоев, чья толщина рассматривается как результат воздействия управления. Это иллюстрирует Рис. 6.3.1. Состояние процесса х = x(t) & R2n определяется амплитудными характеристиками волны и ее градиентом х = (x (t),x (t)), x (t) Є Я71, / = 1,2. Дифференциальные уравнения обычно линейны по х и имеют управляемые коэффициенты. Краевые условия связывают характеристики случайно приходящей внешней волны (( = 0) с характеристиками волны, отраженной внутрь конструкции сквозь стенку (t = Т) : где Ао, А\ - заданные матрицы размерности (пхп). Условия (6.3.3) могут рассматриваться как частный случай обобщенных линейных краевых условий (5.1.3): Для нахождения стены минимального веса при обеспечении идеальной внутренней температуры, следует рассматривать целевой функционал где за р(и) обозначена плотность составных материалов каждого слоя при условии, что Определим цель управления следующим образом. Если дано несколько различных материалов, найти стенку минимального веса или толщины, способную поддерживать амплитуду колебаний внутренней температуры, гаснущих определенное число раз. В математических терминах это выглядит следующим образом. Пусть і Є [0,Т] - горизонтальная координата, направленная внутрь стенки, перпендикулярно внешним и внутренним поверхностям. Координата t характеризует переменную толщину стенки Т. Пусть также и = u(t) - кусочно-постоянная функция управления: где « , і = 1,...,N - коэффициенты теплопроводности каждого материала (или слоя). Формируя функцию и = и((), мы создаем многослойную конструкцию (стенку) из различных материалов, каждый из которых имеет свои коэффициент температуронроводнмости. Таким образом, толщина каждого слоя есть поле деятельности некоторого Уравнение теплопроводности приводит к системе обыкновенных дифференциальных уравнений на комплексной плоскости. Эта система отражает взаимосвязь управления и состояния у(0 (yi[t),i/2(t))- Здесь yi(t) - распределение температурных амплитуд, 7/2(0 текущее теплораспределение.
Одна модификация метода последовательных приближений
Эта глава резюмирует диссертацию в целом, подчеркивает основные результаты и намечает направления дальнейшего исследования.
Глава 1 - вводная. В пей приводятся исторические аспекты задачи управления с краевыми условиями, т.е. задачи, которая рассматривается в течение всей диссертации, а также дастся обзор современных исследований задач этого типа.
Глава 2 посвящена краевым задачам. Значительными результатами данной главы считаются легко проверяемое условие (2.2.7), при котором линейно-квадратичная задача имеет единственное решение, и аналитическое представление решения линейной краевой задачи (2.3.1), напоминающее представление решения краевой задачи с начальными условиями (так называемая формула Коши). Также показано, как обобщенную нелинейную краевую задачу можно свести к задаче минимизации выпуклой функции (2.4.3), характеризующей отклонение от краевых условий, чтобы иметь возможность применять вычислительные алгоритмы первого и второго порядка для ее решения. Для этого получены явные формулы градиента и гессиана.
В Главе 3 приводится общая постановка задачи оптимального управления с краевыми условиями, различные виды формул приращения целевого функционала и доказательство необходимых условий оптимальности в виде принципа максимума. Нетрадиционные формулы приращения (3.2.15)-(3.2.10), полученные с помощью подхода линеаризации [2, 67], считаются важным результатом, т.к. они дают более "глубокое"и более информативное приращение целевого функционала но сравнению с традиционной формулой и приводят к более эффективным численным алгоритмам с более "глубокой"итерацией, описанным
Глава 4 описывает алгоритмы поиска оптимального управления, основанные на принципе максимума. Сначала традиционная схема метода последовательных приближений подстраивается под задачи оптимального управления с краевыми условиями, затем вводится модификация этого метода с более "глубокой"итерацисй, и наконец, комбинация метода последовательных приближений и градиентного метода приводит к двух параметрическому итерационному процессу. Обсуждаются достоинства и недостатки каждого метода, доказывается сходимость первого (Алгоритм 4Л) и последнего (Алгоритм 4.3) методов (второй метод является частным случаем первого), потенциальные возможности каждого метода демонстрируются на примерах. Каждый алгоритм имеет самостоятельную значимость.
Глава 5 посвящена исследованию особых управлении. В ней дается обзор частных случаев, в которых не применим принцип максимума и существует необходимость в других условиях оптимальности. Такие условия оптимальности второго порядка (5.3.15) впервые получены на основе формул приращения второго порядка, с использованием метода приращений, обобщения теории второй вариации и подхода линеаризации в простой аналогии с условиями оптимальности первого порядка (т.е. собственно принципом максимума). В Главе 5 подчеркивается значение этих условий в качестве орудия обнаружения и проверки кандидатов па особое управление и как условий, имеющих большой потенциал для численного поиска оптимальных управлений.
В Главе С рассматривается л иней но-квадратичная задача с краевыми условиями как частный случай общей нелинейной задачи. Метод квадратичных аппроксимаций приводит к значительному упрощению метода последовательных приближений на основе условий оптимальности второго порядка. Этот метод подходит для поиска как особых, так и псо-собых управлений. Он считается значительным результатом Главы б. Чтобы подвести итог результатов всей исследовательской работы, проведенной в данной диссертации, в последнем разделе Главы 6 рассмотрена и решена одна практическая задача управления с краевыми условиями, что и завершает основную часть диссертации. Даже если этот пример ие совсем профессионален, он ясно показывает, что задачи управления с краевыми условиями не просто выдумка математиков, они имеют практическую значимость, и поэтому должны исследоваться далее.
124
Таким образом, в качестве научных достижений и научных результатов диссертации можно выделить: условие разрешимости и аналитическое представление решения линейной краевой задачи; нетрадиционные формулы прирашеиня и доказательство принципа максимума; численные алгоритмы поиска оптимальных управлений; необходимые условия оптимальности второго порядка для особых управлений; метод квадратичной аппроксимации и его приложения. Теперь, когда установлена значимость задач оптимального управления с краевыми условиями для современной науки, их дальнейшее исследование может принести цепные результаты. Можно указать несколько направлений их дальнейшего изучения. Очевидно, что для краевых задач характерцы различные неопределенности и особенности, следовательно, они являются неотъемлемой частью и задач управления с краевыми условиями. Таким образом, было бы неплохо провести детальный анализ параметрических и динамических неопределенностей, рассмотреть вопрос о стабильности и, возможно, установить свойства робастностн, даже если только для частных случаев.
В теории, стоит попробовать получить необходимые условия оптимальности для особых управлений в общем, нелинейном, случае. В данной диссертации они доказаны только для задач управления с линейными краевыми условиями.
На практике, хорошо бы подогнать и улучшить компьютерную программу математических вычислений с помощью новой, только выходящей версии Mathematica 3.0, которая включает, как обещают, пакет прикладных программ для решения краевых задач. Компьютерные программы, использованные в данной диссертации, написаны на Fortran-77 и скорее рассматриваются как образовательный и тестирующий инструмент, чем как профессиональный инженерный пакет.
Вариация второго порядка и критерий оптимальности для особых управлений
Очень редко имеется возможность решить уравнения в частных производных Гамнль-тона-Якоби-Ьсллмана для нелинейной системы, имеющей какое-либо практическое значение, поэтому развитие явных управляемых схем обратной связи для нелинейных систем обычно недостижимо. Однако, если пространство состояний ограничено областью, близкой к оптимальной траектории, задача динамического программирования может хорошо аппроксимироваться линейной квадратичной задачей, т.е. задачей с линейной динамикой и квадратичным целевым функционалом [1, 19, 23, 25, 36, 37, 50].
Принцип .максимума представляет собой обобщение необходимых условий Эйлера-Ла-граижа и Вейерштрасса на случаи, когда функции управления ограничены [33]. Он был разработан Л.С. Понтрягиным и его школой в СССР [64]. В терминологии оптимального управления этот принцип утверждает, что минимизирующая траектория должна удовлетворять уравнениям Эйлера-Лагранжа, где функция управления максимизирует гамильтониан в пределах своей ограниченной области в каждой точке вдоль траектории. Таким образом, задача вариационного исчисления трансформируется в задачу нелинейного программирования в каждой точке вдоль траектории.
Принцип максимума оперирует одной экстремалью в конкретный момент времени, тогда как динамическое программирование оперирует семействами экстремалей. Принцип максимума является неотъемлемой частью динамического программирования, так как решение уравнений Гамильтона-Якоби-Беллмаиа включает также нахождение управлений (по возможности ограниченных), которые максимизируют гамильтониан в каждой точке пространства состояний.
Первоначально доказанный для линейных задач быстродействия, принцип максимума был получен в общем линейном случае В.Г. Болтянским в [17]. Введение игольчатых вариаций и применение теоремы отделимости для выпуклых множеств позволило преодолеть трудности, связанные с замкнутостью области управлений. Аналогичный подход был использован Р.В. Гамкрслидзе, чтобы доказать принцип максимума для задач с фазовыми ограничениями по состоянию [31, 32]. С тех пор большое число публикаций, посвященных принципу максимума и его различным приложениям, изданы и издаются, и круг задач, решаемых этим методом, расширяется каждый год.
Однако, прннцгт максимума Поптряпша не дает никакой информации об о со бых оптимальных управлениях, т.е. он не может определить особое экстремальное управление в терминах фазовой, сопряженной и независимой переменных. Хотя некоторые обобщения необходимых условий оптимальности, как и некоторые методы численного решения особых задач были найдены, точное решение все еще вызывает сложности. Первоначальный вклад был сделан Л.И. Розоноером, А. Миэле, Г. Ксллп и соавторами и ( 15, GO, CG] которые ввели новый тип вариаций вместо игольчатой вариации, используемой Л.С. Понтрягнным. Дальнейшее обобщение необходимых условий оптимальности особых управлений, сопровождаемое численными методами решения появилось в [9, 10, 19, 20, 2G, 27, 28, 29, 30, 42, 46, 5S].
Первые практические задачи оптимального управления были связаны с оптимизацией нелинейных динамических систем для авиастроения, создания космических аппаратов и роботов. Какова должна бить реактивная тяга, чтобы ракета с заданной массой топлива достигла максимальной высоты? Так как эта конкретная задача сегодня всесторонне исследована, ее можно использовать, чтобы наглядно продемонстрировать цель данной диссертации.
Рассмотрим вертикальный взлет ракеты (Fig. 1.0.1). Пусть t = to - время старта, Xi(t) - вертикальная координата, т.е. высота ракеты в каждый момент времени t to.
Обозначим за x%{t) — х\{І) мгновенную скорость ракеты и за хз(0 - переменную массу ракеты. Если / = const — характеристика реактивной тяги, и и — u(t) характеризует расход топлива, то із(0 = u{t), и сила реактивной тяги представляется как /(л = /Ї(((). Естественно рассматривать функцию ті = u(t) как управление этим динамическим процессом:
Здесь а 0 - это заданный параметр, характеризующий максимально возможное потребление топлива для заданного двигателя, а ноль подразумевает выключенный двигатель. Предположение о мгновенности переключения управлений определяет класс допустимых управлений как класс кусочно-непрерывных функций в пределах (1.0.1). Общее сопротивление состоит из силы гравитации fgT = хз(0 Зі гДе 9 - гравитационное ускорение, и из вертикальной компоненты аэродинамического сопротивления fT — /г( і(0»х2(0)і зависящей от скорости х% и высоты Xj. Считается, что где С, 7 " константы, характеризующие аэродинамическое сопротивление и меру раэря-жешюсти воздуха при подъеме. Согласно закону Ньютона
Отсюда положение ракеты как управляемого динамического объекта в пространстве определяется вектор-функцией x(t) — (xj (і), 2(0) 3(0) и кусочно-непрерывной функцией управления и = u(t) с прямым ограничением (1.0.1), и их взаимосвязь описывается системой дифференциальных управлений