Введение к работе
Актуальность работы. Диссертационная работа посвящена распространению информационного подхода, развитого в математической статистике и теории информации, на задачи оптимизации и адаптивного управления дискретными стохастическими системами. Он направлен на решение двух основных проблем: получение информационных нижних границ и оптимальных алгоритмов для рассматриваемого класса задач. Эти проблемы имеют фундаментальный характер, поскольку пх решение, с одной стороны, устанавливает предельные возможности, связанные с извлечением максимальной информации из наблюдений, получаемых в процессе оптимизации стохастических систем, а с другой стороны, указывает конкретные алгоритмы оптимизации и управления, реализующие эти возможности.
Отметим, что теория информации и математическая статистика, глубоко развитые к настоящему времени, в значительной степени посвящены задаче оценивания параметра или какой-либо функции (в общем случае, функционала) этого параметра при заданном статистическом эксперименте (см., например, книги и статьи А.А.Боровкова, И.А.Ибрагимова, Р.З.Хасьмпнского, Н.Н.Чсн-цова). Полученные результаты имеют широкое применение, в частности, в задачах идентификации динамических систем (см. работы Л.Льюнга, Б.Т.Поляка, Я.З.Цыпкнна и др.).
С другой стороны, многие задачи стохастической оптимизации и адаптивного управления, как правило, отличаются наличием по крайней мере одного из следующих факторов:
-
зависимость наблюдений (а, следовательно, и содержащейся в них информации) от управляющих переменных,
-
наличие нестационарных (дрейфующих) параметров,
-
потребность обеспечения заданной цели управления,
-
недостаток априорной информации, необходимой для использования разработанных ранее эффективных алгоритмов стохастической оптимизации и адаптивного управления.
Эти факторы осложняют непосредственное применение известных результатов и требуют дальнейшего развития информационного подхода как в отношении установления информационных нижних границ, так и в отношении получения оптимальных алгоритмов.
В диссертационной работе иовестные ранее методы получения информационных неравенств модифицированы и развиты с учетом отмеченных выше особенностей. В частности, установлены нижние границы для целого ряда оадач стохастической оптимизации, идентификации и адаптивного управления. Кроме того, разработан математический аппарат, предназначенный для исследования рекуррентных алгоритмов тппа стохастической аппроксимации с усреднением траектории и позволяющий при определенных условиях реализовать асимптотически оптимальные алгоритмы при имеющейся априорной информации. На основе этого подхода решен ряд конкретных оадач оптимизации, идентификации и адаптивного управления дискретными стохастическими системами.
Методы исследования. Установление информационных неравенств основано на минимаксном и на байесовском подходах, позволяющих получать как правило точные (достижимые) нижние границы. В задачах с непараметрпческой неопределенностью применяются стандартные приемы перехода к семейству задач с неопределенным конечномерным параметром со значением в компакте (см., например, Ибрагимов И.А., Хасьмияский Р.З. Асимптотическая теория оценивания. М.: Наука, 1979).
В основе рекуррентных алгоритмов лежит метод стохастической аппроксимации, как правило, с дополнительным усреднением траектории (т.н. метод Поляка-Ругшерта). Для получения опти-' мальных (и кпазиоптпмальных) алгоритмов при низком уровне априорной информации применяется также адаптивный подход, состоящий в оценивании недостающих параметров. Суть методики исследования асимптотических свойств рекуррентных алгоритмов с усреднением траектории заключается в построении аппроксимирующего процесса, описываемого линейным разностным уравнением. Изучение последнего значительно проще и фактически сводится к применению известных результатов теории случайных процессов и, в частности, мартингалов (см., например, Лшщер Р.Ш., Ширяев А.Н. Теория мартингалов. М.: Наука, 1986).
Теоретическая и практическая ценность работы. Развитая в диссертации методика получения информационных неравенств направлена на ее применение при решении различных задач стохастической оптимизации, идентификации и адаптивного упра-
вленпя дискретными стохастическими системами. Ее эффективность продемонстрирована в работе при рассмотрении конкретных задач. Установленные нижние границы представляют собой важную характеристику этих задач, поскольку указывают предельно возможную точность (пли, другими словами, предельно возможную скорость) их решения. Асимптотически оптимальные алгоритмы достигают эту нижнюю границу. Основанные на методе усреднения траектории, эти алгоритмы требуют для их реализации сравнительно небольшого объема априорной информации. В случаях, когда этой пнформацпп все же недостаточно, этот недостаток может быть компенсирован дополнительной обработкой текущей информации на' основе адаптивного подхода.
Аппробация работы. Основные результаты работы докладывались на симпозиуме ИФАК по стохастическому управлению (Вильнюс, 1986), 15-й международной конференции по стохастическому программированию (Анн Арбор, Мичиган, США, 1989), 1-й и 2-й европейских конференциях по управлению (Гренобль, Франция, 1991 и Гронинген, Нидерланды, 1993), международной конференции по управлению "CONTROL'94", (Ковентри, Великобритания, 1994), 1-й Российско-Швед ской конференции по управлению (Линчепинг, Швеция, 1992), 10-м всесоюзном совещании по проблемам управления (Ташкент, 1989), 5-м Ленинградском симпозиуме по теории адаптивных систем (Ленинград, 1991), международной школе-семпнаре ИФАК по оценке эффективности применения адаптивных стратегий управления (Тбилиси, 1991), XXIII школе-коллоквиуме по теории вероятностей и математической статистике (Бакуриани, 1990); на семинарах в Институте проблем управления (рук. Р.Ш.Липцер, А.И.Яппш, 1986, 1989), в Институте проблем передачи информации (рук. Р.З.Хасьмпнашй, 1989, 1990,), Институте кибернетики (рук. Ю.М.Ермольев, 1987), а также в ряде зарубежных университетов (Пекин, Китай, 1992; Рим, Италия, 1993, 1995; Рединг и Эксетер, Англия, 1994; Париж и Рен, Франция, 1994; Париж и Страсбург, Франция, 1995).
Публикации. Основные результаты работы опубликованы в [1 - 23]. В работах, выполненных в соавторстве, диссертанту принадлежат результаты, относящиеся к информационным неравенствам, а также методика исследования рекуррентных алгоритмов
типа стохастической аппроксимации с усреднением траектории.
Объем и структура работы. Диссертация состоит из введения, восьми глав и списка цитируемой литературы. Первые две главы посвящены развитию математического аппарата, позволяющего устанавливать информационные нижние границы, проводить исследование асимптотических свойств рекуррентных алгоритмов типа стохастической аппроксимации с обобщенным усреднением траектории и определять условия их оптимальности. В последующих главах этот аппарат применяется при решении конкретных задач стохастической оптимизации, идентификации и адаптивного управления дискретными стохастическими системами.