Введение к работе
Актуальность темы. В диссертации рассматриваются два класса задач
управления нелинейной динамической системой задачи оптимального управления и задачи синтеза гарантирующих управлений в нелинейных дифференциальных играх Важную роль при решении таких задач играет функция цены для задачи оптимального управления и множества, обладающие специальным свойством стабильности, в игровой задаче управления
Объектом исследования в первом классе задач управления являются динамические управляемые системы, описываемые на отрезке времени [to, Т] дифференциальным уравнением
x = f(x,u), (1)
где х Є .Я" - фазовая переменная, а у пр а в л е ж и (RP е с н ен о геометрическим ограничением и Р С ВР Для системы (1) с начальным условием x(to) = xq рассматривается ряд задач оптимального управления со свободным правым концом и функционалом типа Больца, а также задачи с фиксированным правым концом х(Т) = х\ и функционалом типа Лагран-жа или быстродействия Подобные задачи часто возникают при исследовании математических моделей механики, экономики, биологии, фундаментальной медицины
Функция цены в задаче оптимального управления каждой точке фазового пространства и начальному моменту времени ставит в соответствие оптимальное значение функционала, достижимое из этой точки как из начальной Функция цены играет важную роль при решении задач оптимального управления в классе позиционных законов управления Она является удобным носителем информации об оптимальном управлении, позволяющим рассчитывать его в реальном времени для реализовавшейся позиции
Для вычисления функции цены в узлах пространственно-временной сетки разработан ряд методов, которые можно разделить на следующие две группы методы, основанные на исследовании отдельных траекторий, и методы, основанные на исследовании всего множества траекторий
К первой группе относятся методы основанные на решении краевой задачи принципа максимума Понтрягина1 (Г Л Гродзовский, Ю Н Иванов, В В Токарев, Н Н Моисеев, Д Брайсон, Хо Ю-ши, С Н Аввакумов, Ю Н Киселев, М В Орлов и др ), градиентные методы в пространстве управлений2
1 Понтрягин Л С , Болтянский В Г, Гамкрелидзе Р В , Мищенко Е Ф Математическая теория опти мальных процессов М Наука 1976
2Васильев Ф П Методы оптимизации М Факториал пресс 2002
(Л И Шатровский, Т М Энеев, Н Н Моисеев, Р Копп, X Мойер, А В Бала-кришнан, Ф П Васильев и др ), метод последовательных приближений (И А Крылов, Ф Л Черноусько, Н В Баничук, X Келли, Р Копп, X Мойер и др), методы, связанные с варьированием и перебором траекторий в пространстве фазовых координат (Н Н Моисеев, В С Михалевич, Н 3 Шор, Ф Л Черноусько, Р П Федоренко и др )
Ко второй группе относятся методы, основанные на получении уравнений Гамильтона-Якоби-Беллмана3, исследовании существования и единственности решения различных краевых задач для таких уравнений и построении разностных аппроксимаций для решения этих краевых задач
В случае выполнения гипотезы о дифференцируемости функции цены для непрерывной управляемой системы, такие методы были предложены Р Белл-маном, Н Н Моисеевым4 и др
С другой стороны исследования конкретных задач оптимального управления показывают (Л С Понтрягин, Е Ф Мищенко и др ) что функция цены, как правило, дифференцируема не всюду и потому не является классическим глобальным решением уравнения Гамильтона-Якоби-Беллмана Таким образом, в этом случае, как и во многих других, где используются уравнения в частных производных (УЧП) первого порядка, возникает необходимость вводить понятие обобщенного решения, а также развивать теорию и методы построения таких решений
Задачи, связанные с изучением негладких решений УЧП первого порядка, исследовались в работах Н С Бахвалова Л Эванса, У Флеминга, И М Гельфанда, С К Годунова, Э Хопфа, Н Н Кузнецова, О А Ладыженской, П Лакса О А Олейник, Б Л Рождественского, А А Самарского, А Н Тихонова А Б Куржанского, Н С Кружкова, А А Меликяна, М С Никольского и др
В начале 80-х годов М Крэндалл и П Л Лионе ввели понятие вязкостного решения (viscosity solution) Теория вязкостных решений продвинула исследования УЧП первого порядка и эллиптических уравнений В рамках этой теории были доказаны теоремы существования и единственности для различных типов уравнений и краевых задач, а также изучены некоторые приложения к задачам управления и дифференциальным играм
В конце семидесятых годов А И Субботиным был предложен другой подход к построению обобщенных решений, который может быть рассмотрен как неклассический метод характеристик Следуя этому подходу, обобщенное решение (называемое минимаксным) должно быть инвариантно относительно
3Б«пман Р Динамическое программирование М ИЛ 1960 4МоисеевНН Элементы теории оптимальных систем М Наука 1975
потока, порождаемого так называемыми характеристическими дифференциальными включениями. Теория минимаксных решений изложена в работах А И Субботина5 В них получены теоремы существования и единственности таких решений, поставлены задачи численной аппроксимации минимаксных решений и решения на их основе задач оптимального управления и дифференциальных игр.
Развитие теории минимаксных решений, в том числе метода характеристик, для задач оптимального управления, предложено в работах Н Н Субботиной6, в которых получено условие первого порядка, дополняющее принцип максимума Понтрягина до необходимых и достаточных условий оптимальности
В работах А М Тарасьева. А А Успенского и В Н Ушакова предложены конечно-разностные операторы для построения минимаксного решения уравнения Гамильтона-Якоби-Беллмана-Айзекса. Поскольку точное вычисление этих операторов является достаточно сложной задачей, авторами предложена их аппроксимация кусочно-линейными функциями с вершинами в узлах фиксированной сетки в фазовом пространстве7. Расчеты конкретных задач, проведенные по этому методу, показали его эффективность
В девяностых годах В. П. Масловым, В Н Колокольцовым и С Н Самбор-ским в работах, базирующихся на идемпотентном анализе, была предложена другая концепция обобщенного решения. Она основана на существенной модернизации классического подхода к определению обобщенного (слабого) решения в математической физике. С помощью этого подхода были развернуты исследования УЧП с выпуклым гамильтонианом и их приложений к задачам математической физики
Вместе с тем разработка новых схем аппроксимации функции цены в задаче оптимального управления с заданной точностью, основанных, в частности, на совместном использовании обобщения классического метода характеристик Коши и необходимых условий оптимальности в форме принципа максимума Понтрягина, является актуальной
Объектом исследования во втором классе задач управления являются динамические управляемые системы с неопределенными параметрами, описы-
s Субботин А И Обобщенные решения уравнений в частнвіх производнвіх первохо порядка Перспекти-вві динамической оптимизации Москва-Ижевск Институт компвютернвгх исследований 2003, Субботин А И Минимакснвіе неравенства и уравнения Гамилвтона-Якоби М Наука 1991
eSubbotina N N The maximum principle and the superdifferential of the value function // Probl Control Inform Theon 1989 V 18, N З P151-160
7Тарасвев A M , Успенский A A , Ушаков В H Аппроксимационнвіе операторві и конечно-разностнвіе схемві для построения обобщеннвіх решений уравнений Гамилвтона-Якоби // Известия РАН, Техн кибернетика 1994 N 3 С 173-185
ваемые на отрезке времени [0,Т] дифференциальным уравнением
x = f(x,u,v), (2)
где х Є Я" - фазовая переменная, управление и стеснено геометрическим ограничением и Є Р С RP, помеха г; выбирается из множества Q с Я? Для этой системы с начальным условием х(0) = xq рассматривается задача наведения траектории системы (2) на терминальное множество М С Rn в момент времени Т в классе позиционных управлений
В работах Н Н Красовского и А И Субботина8 введены конструкции стабильных мостов и показано, что если построен максимальный м-стабильный мост W С [0,Т] х Rn в данной задаче то задача наведения имеет решение в классе позиционных процедур управления для любой начальной точки (t0, ю) Є W
Для линейной дифференциальной игры при помощи альтернированного интеграла Л С Понтрягина решение задачи построения множества W сводится к интегрированию многозначных отображений Исследованию этой задачи посвящены работы Е Ф Мищенко, А Б Куржанского, М С Никольского, Е С Половинкина, Н Л Григоренко, Н X Розова, В С Пацко, В И Максимова, А А Чикрий и др
В случае нелинейной управляемой системы для построения множества W используюхся операторные конструкции, исследованные в работах Н Н Красовского, А И Субботина, А Б Куржанского, Б Н Пшеничного В В Остапенко9 В Н Ушакова, Н Н Субботиной, А А Меликяна В общем случае вычисление этих операторов представляет собой сложную задачу Поэтому для практической реализации в вычислительных программах требуются дальнейшие аппроксимации этих операторов
В работах А М Тарасьева, В Н Ушакова и А П Хрипунова10 рассмат ривается аппроксимация операторов программного поглощения многогранниками, которые могут быть, вообще говоря, не выпуклыми Данный метод эффективен для решения дифференциальных игр на плоскости Но уже в трехмерном пространстве алгоритмы вычисления множеств, являющихся, например, пересечением не выпуклых многогранников сложны и с трудом поддаются программированию
Новым направлением в построении максимальных и-стабильных мостов являются сеточные методы В этих методах в фазовом пространстве задает
"Красовский Н Н Субботин А И Позиционные дифференциальные игры М Наука 1974 'Пшеничный Б Н Остапенко В В Дифференциальные игры Киев Наукова думка 1992 "Tipauen \М Утаков ВН, Хрипунов KTL О построении множеств позиционного поглощения в игровых задачах управтения // Труды Инст матем механ УрО РАН 1992 Т 1 С 160-177
ся некоторая (обычно равномерная) сетка, в узлах которой и определяются операторы программного поглощения. Дискретизации подвергаются и другие элементы дифференциальной игры, такие как множества допустимых управлений игроков, временной интервал, терминальное множество. Данный метод с успехом применялся для построения областей достижимости нелинейных управляемых систем В.Н. Ушаковым. Также в работах Т.Х Бабалыева и А. П. Хрипунова было рассмотрено применение сеточных методов для построения множеств позиционного поглощения для линейных по управлениям дифференциальных игр сближения.
Таким образом задача отыскания достаточных условий сходимости аппроксимаций u-стабильных мостов для нелинейных дифференциальных игр к идеальному м-стабильному мосту является актуальной.
Цель работы. Цель работы состоит в разработке методов аппроксимации функции цены в задачах оптимального управления, построении аппроксимаций максимальных u-стабильных мостов для дифференциальных игр сближения и доказательстве теорем о достаточных условиях их сходимости.
Научная новизна работы. В диссертации представлены новые методы аппроксимации функции цены в нелинейных задачах оптимального управления и метод аппроксимации максимальных стабильных мостов в нелинейных дифференциальных играх с фазовыми ограничениями. Исследована сходимость методов.
Основные результаты работы.
Предложены методы аппроксимации функции цены для задачи оптимального управления со свободным правым концом и функционалом типа Больца, задач с фиксированным правым концом и функционалами типа Лагранжа и быстродействия. Доказаны теоремы о сходимости аппроксимированного значения функции цены к точному значению. Получены оценки скорости сходимости.
С помощью модифицированного метода аппроксимации функции цены для задачи оптимального управления со свободным правым концом и функционалом типа Больца построено программное управление, гарантирующее значение функционала сколь угодно близкое к оптимальному.
Для задачи сближения в нелинейных дифференциальных играх с фазовыми ограничениями предложен метод аппроксимации максимальных и-стабильных мостов. Доказана теорема о достаточных условиях сходимости аппроксимирующего множества к идеальному.
Практическая ценность работы. В работе предложены подходы к построению аппроксимации функции цены в ряде нелинейных задач оптималь-
ною управления, а также метод аппроксимации максимальных стабильных мостов в дифференциальных играх Методы реализованы в виде программного комплекса Проведены вычисления функции цены и максимальных стабильных мостов в новых задачах оптимального управления и дифференциальных играх
Методы исследования. В работе используется принцип максимума Понт-рягина, теория минимаксных решений для краевых задач уравнений Гамильтона - Якоби-Беллмана А И Субботина, теоремы о разрешимости нелинейных дифференциальных игр Н Н Красовского и А И Субботина
Апробация работы. Результаты работы были представлены в виде докладов на семинарах
1 Семинар кафедры оптимального управления факультета ВМиК МГУ
(рук академик РАН Ю С Осипов, профессор М С Никольский)
2 Семинар "Математические модели в экономике и биологии", Планерное,
Моек обл , 24 26 января 2003 г
3 Семинар "Математические модели в экономике и экологии" Химки,
Моек обл , 27-29 января 2004 г
и на следующих конференциях
1 Международная конференция студентов и аспирантов по фундамен
тальным наукам "Ломоносов 2001", секция "Вычислительная математика и
кибернетика" Москва, МГУ, 10-13 апреля 2001 г
Школа-семинар молодых ученых факультета ВМиК МГУ г Дубна, 2001 г
Конференция "Динамические управляемые процессы и приложения", Москва, кафедра Оптимального управления факультета Вычислительной математики и кибернетики МГУ, 24 апреля 2001 г
Научная школа-конференция "Мобильные роботы и мехатронные системы", Москва, Институт механики МГУ, 17-18 ноября 2003 г
Публикации Основные результаты диссертации опубликованы к работах Ш-[5]
Структура и объем диссертации. Диссертация состоит из введения четырех глав и приложения Общий объем диссертации 116 страниц, включая 34 рис Библиография содержит 62 наименования