Содержание к диссертации
Введение
1 Предварительные сведения 7
1.1 Регулятор «предиктор-корректор» 7
1.1.1 Управляемая система 7
1.1.2 Задача оптимального управления 8
1.1.3 Метод управления «предиктор-корректор» 11
1.1.4 Регулятор с двумя режимами функционирования 11
1.2 Обзор литературы 12
1.2.1 О регуляторе «предиктор-корректор» 12
1.2.2 О существовании оптимального управления 13
1.2.3 О реализации в реальном времени 15
1.2.4 О вычислительном запаздывании 17
1.3 Структура работы 19
2 Анализ нелинейного режима 21
2.1 Оценка области управляемости и выбор горизонта прогноза 21
2.2 Построение явной обратной связи
2.2.1 Понятия и обозначения, связанные с динамическим программированием 27
2.2.2 Вспомогательный результат: непрерывность функции Белл
2.2.3 Шаг 1: оценка близости решения задачи приближенного динамического программирования к оптимальной обрат з
2.2.4 Шаг 2: аппроксимация решения задачи приближенного динамического программирования явной функцией 38
2.2.5 Построение субоптимальной обратной связи в заданной близости от оптимальной 42
3 Анализ квазилинейного режима 45
3.1 Оптимальное управление в линейно-квадратичной задаче 46
3.1.1 Построение оптимального управления без ограничений 46
3.1.2 Оптимальное управление, ограниченное по норме 48
3.2 Реализация регулятора в квазилинейном режиме 51
3.2.1 Свойства линейной обратной связи 59
3.2.2 Приближенное динамическое программирование 62
4 Компенсация вычислительного запаздывания 69
4.1 Анализ линейного приближения 70
4.1.1 Предсказывающее преобразование состояния 70
4.1.2 Функционал Ляпунова — Красовского 72
4.1.3 Устойчивость регулятора с компенсацией запаздывания 74
4.1.4 Робастность регулятора с компенсацией запаздывания 78
4.2 Нелинейный случай 83
4.2.1 Схема компенсации запаздывания 83
4.2.2 Устойчивость нелинейного регулятора с компенсацией запаздывания 89
5 Примеры 92
5.1 Система первого порядка 92
5.2 Система второго порядка 93
Заключение
- Метод управления «предиктор-корректор»
- Понятия и обозначения, связанные с динамическим программированием
- Оптимальное управление, ограниченное по норме
- Устойчивость регулятора с компенсацией запаздывания
Введение к работе
Актуальность темы исследования. Историю предикторных методов управления можно отсчитывать с конца 50-х гг. XX в., когда американский ученый и инженер O. Smith разработал метод, названный «предиктором Смита». В статье J. Richalet и др. (1978) был предложен подход к управлению, который называется model predictive control (MPC), а в настоящей работе — метод «предиктор-корректор». Несмотря на далеко не очевидную правомерность данного метода регулирования, его практическое использование с самого начала было весьма успешным, главным образом, в медленных процессах химической промышленности. Сейчас регуляторы типа «предиктор-корректор» распространились и в других областях: в автомобильной промышленности, в управлении морскими объектами и портфелями ценных бумаг, в стабилизации плазмы, в составлении расписаний и т. д.
Вычислительная сложность регуляторов «предиктор-корректор» приводит к проблемам при их реализации в реальном времени. Упрощению алгоритма управления посвящена значительная доля современных публикаций по теме (например, работы P. O. M. Scokaert, B. Kouvaritakis, Y. Wang, S. Boyd, M. Rubagotti и др.). В 2011 г. в статьях A. Bemporad и др. была разработана и доведена до практики эффективная реализация линейного регулятора, а начиная с 2003 г. T. A. Johansen, A. Grancharova, P. T0ndel и др. развивают подход к аналогичной быстрой реализации для некоторых классов нелинейных систем. В общем невыпуклом случае вопросы устойчивости и субоптимальности по-прежнему являются открытыми, поэтому зачастую предлагаемые методы либо неконструктивны, либо основаны на эмпирических соображениях и подтверждаются лишь численными примерами. Этого недостаточно для того, чтобы гарантировать работоспособность регулятора.
Из литературы известны примеры, когда даже при относительно быстрой реализации регулятора в управлении возникает запаздывание, нарушающее устойчивость системы. В таких случаях хорошие результаты дает метод компенсации запаздывания, который позволяет исключить запаздывание из замкнутой системы и упростить синтез и анализ регулятора. Происходя из идеи предиктора Смита, в 70-80-е гг. XX в. метод компенсации был существенно усилен статьями A. Manitius, A. Olbrot, W. H. Kwon, A. E. Pearson, Z. Artstein и др., а в XXI в. его развивают F. Mazenc, M. Jankovic, M. Krstic, I. Karafyllis, В. Л. Харитонов и др. Последние работы в данной области посвящены робастным, адаптивным и нелинейным вариантам компенсации запаздывания. Использование сложных двухуровневых регуляторов «предиктор-корректор» приводит к появлению в
управлении двух запаздываний, но для нелинейных систем с двумя запаздываниями метод компенсации еще не разработан. Неизвестны и оценки границ робастности метода при неизбежно возникающих погрешностях в параметрах.
Цель диссертационного исследования — развитие конструктивного подхода к анализу регуляторов «предиктор-корректор» в контексте их практической реализации в сложных нелинейных системах.
Задачи, решаемые в исследовании:
-
Развить конструктивные методы системного анализа нелинейных регуляторов «предиктор-корректор».
-
Построить алгоритм оценки области управляемости нелинейного регулятора «предиктор-корректор».
-
Предложить алгоритм аппроксимации обратной связи «предиктор-корректор» явной функцией с сохранением устойчивости и достижением заданной степени субоптимальности.
-
Распространить на нелинейные системы метод компенсации нескольких запаздываний в управлении.
Результаты, выносимые на защиту:
-
Системный анализ метода «предиктор-корректор» в задачах управления нелинейными разностными системами.
-
Оценка области управляемости нелинейного регулятора «предиктор-корректор» с гарантированной точностью.
-
Метод аппроксимации обратной связи нелинейного регулятора кусочно аффинной функцией, сохраняющий свойства устойчивости и субоптимальности.
-
Компенсация нескольких запаздываний в управлении в нелинейной разностной системе.
5. Программная реализация разработанных алгоритмов.
Методы исследования, используемые в работе:
-
Теория нелинейных динамических систем дискретного времени.
-
Методы оптимального управления в линейных и нелинейных системах.
3. Методы теории устойчивости нелинейных систем с запаздыванием.
Научная новизна диссертации заключается в следующем:
1. Развитый в работе подход к системному анализу регулятора «предиктор-корректор» позволяет единообразно, с позиций прямого метода А. М. Ляпунова, изучать такие различные вопросы, как приближение обратной связи и компенсация нескольких запаздываний. В литературе подобный подход не встречался.
-
Предложенный алгоритм построения оценки области управляемости метода «предиктор-корректор», в отличие от известных альтернатив, гарантирует заданную точность аппроксимации и сходится к точной области управляемости.
-
Метод аппроксимации обратной связи «предиктор-корректор» кусочно аффинной функцией применим для нелинейных систем с любыми связными компактными ограничениями и гарантирует устойчивость и субоптимальность. Имеющиеся в литературе аналоги предполагают выпуклость ограничений либо не имеют строгого обоснования.
-
Впервые доказана робастность метода компенсации нескольких запаздываний в управлении и получена оценка допустимых погрешностей в параметрах системы.
-
Метод компенсации нескольких запаздываний в управлении впервые распространен на нелинейный случай.
Теоретическая значимость работы состоит в развитии методов оценки устойчивости и качества приближенных регуляторов «предиктор-корректор» с компенсацией вычислительного запаздывания.
Практическая значимость полученных результатов заключается в возможности их применения для конструктивного анализа, разработки и настройки регуляторов типа «предиктор-корректор», пригодных для использования в системах управления в режиме реального времени и обладающих желаемыми характеристиками: устойчивостью и субоптимальностью.
Апробация результатов исследования. Результаты докладывались на следующих конференциях:
-
41, 42, 44, 45, 46 международные научные конференции аспирантов и студентов «Процессы управления и устойчивость» (CPS) (Санкт-Петербург, 2010-2015).
-
3 международная конференция «Устойчивость и процессы управления» (SCP) (Санкт-Петербург, 2015).
-
2014 International Conference on Computer Technologies in Physical and Engineering Applications (ICCTPEA) (Санкт-Петербург, 2014).
Публикации. Список публикаций автора по теме диссертации приведен в конце автореферата. Общее количество работ — 12, из них 5 — в изданиях, рекомендованных ВАК РФ.
Структура и объем диссертации. Диссертация состоит из введения, перечня обозначений, 5 глав, заключения и списка литературы, включающего 93 наименования. Объем диссертации — 109 страниц, 5 рисунков.
Метод управления «предиктор-корректор»
Метод управления «предиктор-корректор» также известен в литературе под названиями model predictive control (MPC), receding horizon control (RHC), управление с прогнозирующими моделями, упреждающее управление и т. д. Впервые он был описан в [69] и с тех пор получил широкое распространение и признание. Теории и практике использования регуляторов «предиктор-корректор» посвящены подробные монографии [40; 63; 82]. К достоинствам этого класса регуляторов часто относят робастность [29; 49; 75], близость к оптимальному управлению (субоптимальность) [80] и фундаментальную способность явно учитывать ограничения в процессе вычисления управления.
Обзор коммерческих систем управления типа «предиктор-корректор», доступных в промышленности, можно найти в [79]. Модель системы в них может быть задана в частотной области или в пространстве состояний. Функционал качества может быть линейным или квадратичным, скалярным или векторным с ранжированными по приоритету компонентами. Допускаются жесткие и мягкие ограничения, и т. д. Если в начале своего существования регуляторы «предиктор-корректор» применялись в основном в медленных процессах, например, в химической промышленности, то с развитием вычислительных возможностей стали доступны реализации для быстрых систем — как линейных, так и нелинейных [81]. Сейчас есть примеры использования этих регуляторов, например, в автомобильной промышленности [34], управлении морскими объектами [88], стабилизации плазмы [3; 87; 92], составлении расписаний [46] и т. д.
Несмотря на активное успешное применение, с регуляторами «предиктор-корректор» по-прежнему связан ряд открытых вопросов [42; 65; 72], например: расширение области устойчивости, которая гарантируется терминальным ограничением и терминальным слагаемым [27]; расширение границ свойственной регулятору робастности [28; 37]; разработка адаптивных схем управления «предиктор-корректор», а также схем с оценкой состояния по наблюдениям [73]. Ниже мы подробнее остановимся на других важных проблемах: реализации регулятора в реальном времени и вычислительном запаздывании.
Задача оптимального управления лежит в основе регулятора «предиктор-корректор». Известны примеры таких задач, где есть допустимые управления, но не оптимальное. Вопрос существования оптимального управления, таким образом, представляет значительный интерес в контексте данной работы. Для систем дискретного времени на конечном промежутке этот вопрос решается существенно проще, чем для непрерывных систем. Действительно, функционал качества в этом случае есть функция конечного числа переменных. Достаточно предположить непрерывность этого функционала и компактность допустимых множеств, чтобы показать существование минимума указанной функции. Похожие соображения приводят к следующим результатам.
В [24] рассмотрена задача оптимального управления на конечном проме 14 жутке времени в нелинейной системе дискретного времени с ограничением на управление, но без ограничений на состояние. Получены необходимые и достаточные условия оптимальности, аналогичные принципу максимума Понтряги-на [11]. В частности, доказано, что если ограничения на управление компактны, правая часть системы непрерывна как функция состояния и управления, а весовые функции функционала качества дифференцируемы, то оптимальное управление существует для любого начального состояния, причем оптимальное значение функционала конечно.
Результат [24] был обобщен в [2], где добавлены ограничения на состояние системы. Оказалось, что если множества допустимых управлений и начальных состояний компактны, ограничения на будущие состояния представлены замкнутыми множествами и в системе всегда существует хотя бы одна допустимая последовательность управлений, то всегда существует и оптимальная последовательность.
Дальнейшее развитие условия существования оптимального управления получили в [44], где были рассмотрены ограничения на управление, зависящие от состояния, а также несколько ослаблены предположения о функциях задачи: весовые функции считаются полунепрерывными снизу, а ограничения на управление — полунепрерывными сверху точечно-множественными отображениями состояния системы в компактное множество управлений.
На бесконечном промежутке задача оптимального управления дискретной системой была изучена в [55] в предположениях, аналогичных [44], с дополнительным условием, отражающим специфику бесконечного промежутка времени: должна существовать допустимая управляющая последовательность, доставляющая функционалу качества конечное значение. Доказано, что при этом оптимальное управление также существует.
Эти результаты обуславливают сделанное выше предположение 13 о существовании оптимального управления.
В связи с проблемой существования оптимального управления при наличии ограничений на состояние следует отметить вопрос существования хотя бы одного допустимого управления. Задача нахождения множества начальных состояний, при которых существует допустимое управление, называется в литературе задачей о построении области управляемости. Смежной проблемой является построение области притяжения, которую можно интерпретировать как область управляемости в ноль за бесконечное время. В достаточно общем нелинейном случае практично лишь построение оценки этого множества. Среди методов, используемых для оценивания областей достижимости и управляемости, отметим в линейном случае метод опорных плоскостей [7; 30], а в нелинейном — метод функций Ляпунова, которые часто выбирают в виде форм второй или более высокой степени [12]. Известны оценки эллипсоидами области притяжения переходных траекторий, например, в задаче управления колесным роботом [13; 26]. Существуют, кроме того, и другие методы оценки области притяжения [5], в том числе (в случае линейной системы с выпуклыми ограничениями на состояние) — оценка многогранником [4]. Методы построения многогранной оценки в общем нелинейном случае в литературе не встречаются.
Понятия и обозначения, связанные с динамическим программированием
Напомним: в предыдущей главе была построена явная функция мявн(ж), аппроксимирующая оптимальную обратную связь мопт(0, х) на множестве \%т. При этом построение выполнено в два этапа:
Промежуточная функция итн(х) — это решение приближенной задачи динамического программирования (2.3), которая получается из исходной задачи (1.3) заменой функции Беллмана пт{х) на равномерное кусочно аффинное приближение опТ(ж).
Заметим, что с приближением к нулю метод предыдущей главы перестает работать, т. к. рекомендуемая теоремой 4 сетка для построения функции иявн(х) бесконечно уплотняется.
В настоящей главе рассмотрим регулятор «предиктор-корректор» в некоторой окрестности нуля ц. Имеет место линейное приближение системы (1.1) и квадратичное приближение весовых функций и т в функционале (1.2): х(к + 1) = Ах (к) + Ви(к), (3.1) У(х ,и(-)) = У ( \\х(к + 1, х ,м(-)) Lf+ llM( )llw ) + РК 1 Х и( )) \\м (3.2) к=0 Оптимальный регулятор в линейно-квадратичной задаче, как известно, — линейный, а оптимальное значение функционала — квадратичная функция начального условия. Ниже рассмотрены и охарактеризованы с точки зрения субоптимальности и устойчивости два варианта управления в области д:
1. Линейный регулятор, оптимальный в линейно-квадратичном приближении оптимизационной задачи.
2. Решение задачи приближенного динамического программирования аналогично предыдущей главе, но с квадратичной, а не просто равномерной аппроксимацией функции Беллмана.
В качестве введения сформулируем некоторые известные результаты, касающиеся оптимального управления в линейных системах с квадратичным функционалом качества.
Построение оптимального управления без ограничений Теорема 5. [10] Если положительно определенная матрица Рк является решением уравнения Риккати Pk-i = А РкА — {А Р В + N)(B РкВ) {В РкА + N ) + М с условием Рт = Мт, то оптимальное управление для линейной системы (3.1) с квадратичным функционалом (3.2) без учета ограничений имеет вид линейной обратной свя 47 зи и(к) = Kkx(k), к = 0,1,..., Т — 1, где Kk = —(N + В РкВ) В РкА. Чтобы построить оптимальное управление и оптимальное движение в виде иопт(к,х ) = S{k)x , ж0пт( ,ж ) = R{k)x , можно использовать следующую теорему. Теорема 6. [8; 25] Если существует решение Q системы линейных алгебраических уравнений
Если матрица Q существует, то она определяет матрицу R(l), которая ответственна за отображение х ь- жопт(1, х). Спектр матрицы R(l), таким образом, позволяет судить об устойчивости замкнутой системы: имеет место следующий факт.
Следствие 1. Пусть существует решение Q системы (3.3). Система (3.1), замкнутая регулятором «предиктор-корректор» с функционалом (3.2) без учета ограничений, экспоненциально устойчива тогда и только тогда, когда все собственные числа матрицы
Оптимальное управление, ограниченное по норме Пусть в отсутствие ограничений система (3.1), замкнутая регулятором «предиктор-корректор» без ограничений, экспоненциально устойчива. Предложим способ оценивания области устойчивости при наличии ограничений с помощью прямого метода Ляпунова. Для примера рассмотрим ограничение в виде эллипсоида: % = \и : \\и\\с }, где С — положительно определенная (т х т)-матрица, р 0. Очевидно, что, вообще говоря, не при всяких начальных условиях решение может быть устремлено к 0 при ограниченной величине управления.
Будем использовать метод функций Ляпунова: пусть V — положительно определенная (п х п)-матрица, g — положительное число, х — любой вектор из области {ж Є М.п : \\x\\v #}, х1 — решение х{1) системы (3.1), замкнутой регулятором «предиктор-корректор» с функционалом (3.2), с начальным условием х(0) = х и ограничением и Є аі/. Если величина II 1112 II ОМ2 \\х \\у — \\х \\у (3.4) отрицательно определена при всех х из указанной выше области, то эта область является оценкой снизу требуемой области асимптотической устойчивости. Рассмотрим произвольную положительно определенную матрицу W размером п х п. Поскольку спектр матрицы R(l) в силу устойчивости системы без ограничений лежит внутри единичного круга, уравнение R (l)VR(l) — V = —W относительно матрицы V имеет положительно определенное решение. Далее будем под матрицей V понимать именно такое решение. Допустим, что известна положительная величина (3 такая, что при всех х из области X = {ж Є М.п : \\x\\v /Зр}, где р р, вектор и = S(k)x принадлежит области U = {и Є М.т : \\и\\с р] при всех к = 0,1,..., Т - 1. Например, можно взять Amin(V) /3 = max IISYA;)!! Amax(C) к=0,1,...,Т-1 Очевидно, что в силу линейного характера связи и и х нет необходимости выбирать число /3 зависимым от р.
Когда р = р, приращение (3.4) отрицательно определено при х Є X благодаря тому, что х1 = R(l)x, а матрица V выбрана так, как указано выше. Станем увеличивать число р и потребуем, чтобы величина (3.4) оставалась отрицательной при всех х Є дХ, где дХ = {ж Є М.п : жу = (Зр]. Если х Є дХ, то соответствующая оптимальная последовательность и(к) = S(k)x может быть как допустима, так и нет. В первом случае разность (3.4) отрицательна. Если же S(k)x — не допустимая последовательность, то использоваться в управлении будет последовательность й(к), наилучшая из допустимых.
Оптимальное управление, ограниченное по норме
Следующая лемма дает оценку субоптимальности линейной обратной связи, построенной по линейно-квадратичному приближению оптимизационной задачи.
Пусть радиус R удовлетворяет условию леммы 11 при s = 0, а матрица К = Ко определена равенством (3.6). Тогда обратная связь и = Кх является є-субоптимальной в области $R, т. е. {j[x, Кх), Кх) + onT(f(x, Кх)) (1 + є)сУ0ПТ(х) Ух є SSR, причем LpihfM.fi + 1) + h?i hfM.fi "опт " опт "опт є = Здесь hj\ — константа Липшица функции J QUT, определенная в теореме 3, константа Jf = Jf дана в лемме 10, а Мио — в лемме 11. Доказательство. Из равенства - опт(ж) = [ f (х, и0ПТ(х)), и0ПТ(х)) + У0ПТ[ f(x,u0TlT(x))) следует {j{x,Kx),Kx) + onT(f(x, Кх)) — Уопт(х) = (f(x, Кх), Кх) + + опт(/(ж5 Кх)) — і f (х, иопт(х)), иопт(х)) — У0ПТ[ fix, иопт{х)) \ Оценивая и получаем 1(f(x,Kx),Kx) — і f (х, иопт(х)), иопт(х)) hi(hfMUonT + і) ж опт(/(ж5 Кх)) — У0ПТ[ f(x,uonT(x)) jUh.hfM Wxf j{x,Kx),Kx + onTf(x, Кх)) — опт( ) ( L (L/MMo + l) + h\hfMua \\x\\ = jf ж Є Уопт(х), откуда следует требуемое неравенство. Лемма доказана. Выводом из последних двух лемм является следующая теорема.
Теорема 8. Пусть числа г и R выбраны согласно условиям лемм 12 и 13, матрица К = KQ определена равенством (3.6), а явная обратная связь uWYi{x) построена по алгоритму теоремы 4. Определим регулятор с двумя режимами функционирования
Кх в квазилинейном режиме, явн( ) в нелинейном режиме со следующими правилами переключения между режимами: если регулятор находится в нелинейном режиме, а система входит в шар S3r, то регулятор переходит в квазилинейный режим; если регулятор находится в квазилинейном режиме, а система выходит из шара ё$ц, то регулятор переходит в нелинейный режим. Такой регулятор обладает следующими свойствами: 1. Он стабилизирует нулевое равновесие системы (1.1), причем: в нелинейном режиме функция Беллмана 0ПТ является функцией Ляпунова, гарантирующей устойчивость, и скорость ее убывания вдоль решения дана в лемме 8; в квазилинейном режиме квадратичная функция Ляпунова убывает вдоль решений со скоростью, определенной в лемме 12.
Он является є-субоптимальной обратной связью, причем оценка є дана в леммах 7 и 13. Доказательство. Следует из лемм 12 и 13. Рассмотрим вариант построения обратной связи в квазилинейном режиме с использованием динамического программирования. Для этого в задаче иОПТ(0,х) = argmin (f(x, и), и) + У0ПТ(/(х,и)) заменим функцию Беллмана опт на ее квадратичную аппроксимацию Получим задачу приближенного динамического программирования итн(х) = argmin #"(ж,гі), (3.8) и где (х,и) = f(x,u),u + \\f(x, it)Up . Охарактеризуем обратную связь иДЇШ(х) с точки зрения устойчивости и субоптимальности. Для этого докажем две вспомогательные леммы, аналогичные леммам 10 и 11.
Лемма 14. Существуют такие положительные константы Mj?; MQ&, #" и &, что \JP(x,u) — \\Ах + Ви\\м+Рі — \\и\\%\ М (\\х\\3 + \\и\\3), д (х,и] Мд \\х\\2 + \\и\\2 2В (М + Pi)(Ах + Ви) — 2Nu ди \\и\\ (х,и) #" ж + Доказательство. Докажем для примера первое неравенство: \ (х,и)— \\Ах + _Вмм+р — \\u\\N \i(f(x,u),u) — \\f(x,u)\\M — ы%\ + + \\f(x,u)\\M+p — \\Ах + Ви\\м+Р М(( \\f(x)u)\\ + Н3) + + Атах(М + Pi) /(ж, и) — Ах — Ви\\ х х (/(ж,гі) + \\Ах + Ви\\) MI( LA \\Х\\ + Н3) + Н3) + + М/Атах(М + Pi)(Lf + тах{Л , Ц-ВЦ}) х х (ж2 + м2)(ж + м). Заключаем, что допустимо взять Mjr = Mn(\.Lt + 1) + 4MfXirmx(M)(Lf + max{A , }). Остальные неравенства устанавливаются аналогично. Лемма доказана. Лемма 15. Пусть константы Mj?, MQ , #" и #" определены леммой 14, матрицы К = Ко и Р = Ро определены уравнениями (3.6) и (3.7), а число v таково, что SSV С а1/. Если R min v Amm(AW) \/К(ШЩ 8M,9JT1 + \\К\\ / о 4:Мд ( \\К\\ + Z где N = N + B (М + Р\)В, то при всех ж R имеют место оценки \\иДЇШ(х) — Кх\\ МПдин \\х\\ , \&o r(x)-M2p\ Ms \\xf W11-i- II 111 \ - опт II II где 2(1 + iffll!) м % = м (і + 4 ПІЇТІ і + 2М, II5 (м + Рі)л + опт І дин V II + М„ Атах(АПр( Г) + 4MMs р ( ЗГ)) и-дИН V /і \ ОПТ \ /
Доказательство. Согласно лемме 14 функция #" удовлетворяет условию леммы 9. Следовательно, функция мдин(ж), определенная равенством (3.8), допускает линейное приближение в окрестности нуля, а і опт(ж) квадратичное приближение. При этом указанные приближения являются, соответственно, оптимальным управлением и значением функции Беллмана приближенной линейно-квадратичной задачи Ас + Ви\\м+Рі + — min. Заметим, что и = Кх является решением этой задачи, а жр — ее функцией Беллмана. Лемма доказана.
Следующие леммы аналогичны леммам 7 и 8 предыдущей главы, однако здесь используется не равномерное, а квадратичное приближение функции Беллмана, полученное в лемме 11. Лемма 16. Пусть радиус г = RQ, где RQ удовлетворяет условию леммы 15 при s = О, а матрица Р = PQ определена равенством (3.7). Тогда обратная связь и = итн(х), определенная как решение оптимизационной задачи (3.8), является г -субоптимальной в области SSr, т. е. ( / {х, Мдин( )) , ЧцИн(ж) ) + опт( f{Xi Чцин(ж)) ) (1 + 7г) опт( ) Ух Є SSr. Здесь = Щм,уіпт U( \\к\\3 + мдинр3( JT)) + 1 + м&опт + м опт константа Jf = Jf определена в лемме 10, М опт и Mjn — в лемме 11, а ММдин и М ОПТ - в лемме 15. Доказательство. Из неравенства
Устойчивость регулятора с компенсацией запаздывания
Подведем итог полученным результатам. В главе 2 дан способ построения оценки области управляемости регулятора с терминальным ограничением (теорема 2). Предложенный способ основан на том, что в системе с липшицевой правой частью образ многогранника при фиксированном управлении можно приблизить также многогранником. Это позволяет строить оценку области управляемости в виде многогранного множества, интегрируя систему в конечном множестве точек при убывании времени. Достоинством этого метода является возможность оценить управляемость системы в зависимости от горизонта прогноза. Благодаря этому можно выбирать допустимо малый горизонт прогноза, не нарушающий управляемость. С другой стороны, применимость метода может быть ограничена необходимостью разбиения пространства на большое число ячеек.
Также в главе 2 описан способ построения приближенного решения оптимизационной задачи (1.3) в виде кусочно заданной явной функции иявн(х) в области значений ж, отделенных от нуля (теорема 4). Способ заключается в вычислении оптимального управления в узлах некоторой сетки и интерполировании обратной связи в остальных точках пространства. При этом непрерывная интерполяция, например, линейная, вообще говоря, неприемлема, т. к. оптимальная обратная связь может быть разрывна. Вместо этого даны допустимые границы, в которых может находиться иявн(х). Удовлетворяющая этим ограничениям обратная связь является стабилизирующей и є-субоптимальной. Выбирая достаточно мелкую сетку, можно добиться сколь угодно малой оценки субоптимальности є, а также того, что приращение функции Ляпунова в замкнутой управлением иявн(х) системе не более чем на сколь угодно малую константу больше, чем при использовании точного регулятора «предиктор-корректор». В главе 3 рассмотрена линейно-квадратичная аппроксимация задачи (1.3) в окрестности нулевого положения равновесия. Это необходимо, т. к. метод главы 2 работоспособен только при ж, отделенных от нуля. Оптимальное линейное управление и = Кх, полученное как решение линеаризованной задачи, оказывается первым приближением решения исходной задачи (1.3) при малых х. Оно является стабилизирующим и субоптимальным в окрестности нуля (теорема 8). Его недостаток — в том, что полученная оценка субоптимальности не зависит от окрестности линейного приближения. Как альтернатива линейному управлению, рассмотрен вариант приближенного динамического программирования с квадратичной аппроксимацией функции Беллмана. В этом случае также достигается устойчивость и субоптимальность (теорема 9), причем оценка субоптимальности теперь уменьшается с сокращением окрестности нуля, а скорость убывания функции Ляпунова стремится к ее скорости на движениях системы с точным регулятором. Это позволяет строить регулятор с наперед заданными оценками субоптимальности и скорости убывания функции Ляпунова. С другой стороны, преимуществом линейной обратной связи является ее простота.
В главе 4 в регулятор вводится вычислительное запаздывание. Предлагается рассматривать управление, которое складывается из двух компонент: низкочастотной щ с большим запаздыванием и высокочастотной щ с меньшим запаздыванием. Регулятор щ строит программную траекторию, а щ стабилизирует ее по линейному приближению, подавляя случайные возмущения. Для построения управления используется метод компенсации запаздывания. В системе линейного приближения, для которой метод компенсации уже известен в литературе, получена оценка робастности замкнутой системы по отношению к неточностям в модели, используемой для компенсации запаздывания (теорема 10). В нелинейном случае метод компенсации, интерпретируемый как предсказывающее преобразование состояния, обобщен на системы с несколькими запаздываниями. Это преобразование приводит систему к виду, аффинному по высокочастотному слагаемому it2, которое теперь не содержит запаздывания (теорема 11). Дано достаточное условие существования управления it2, стабилизирующего линейное приближение системы в окрестности программной траектории (теорема 12).
Данная работа касается исключительно теоретического обоснования и анализа регулятора типа «предиктор-корректор». За рамками остаются такие задачи, как, например, оптимизация расхода памяти, затрачиваемой на хранение кусочно заданной обратной связи мявн(ж), а также быстрое ее вычисление. Можно, однако, утверждать, что решение этих вопросов для систем небольшой размерности вполне реалистично (см. обзор литературы).
Следует отметить, что для всех оценок, о которых идет речь в настоящей работе, даны выражения или указан способ их получения. Эти оценки далеки от минимальных. Например, указанная в теореме 4 плотность сетки, по которой строится функция мявн(ж), вероятно, чрезмерна. Тем не менее, благодаря тому, что эта плотность является достаточной, можно вычислить указанную в теореме аппроксимацию по предлагаемой сетке, но затем, исходя из вида функции иявн(х) в конкретной задаче, построить более экономную аппроксимацию. То же касается констант Липшица для функций Беллмана, приведенных в теореме 3. Их цель — обосновать аппроксимацию функции Беллмана с заданной точностью. Когда такая аппроксимация построена, во-первых, ее можно попытаться упростить, а во-вторых, по найденной аппроксимации можно уточнить константы Липшица и далее использовать именно их.