Содержание к диссертации
Введение
1 Угол между подпространствами одинаковой размерности 16
1.1 Операторы проектирования 16
1.2 Свойства угла между подпространствами одинаковой размерности 39
1.3 Оценка угла между подпространствами одинаковой размерности , 41
2 Приведенная целевая функция задачи с ограничениями типа равенства 45
2.1 Дифференциальные свойства приведенной целевой функции 45
2.2 Вычисление градиента и гессиана приведенной целевой функции 57
2.3 Оценки норм градиента и гессиана приведенной целе вой функции 63
3 Обобщенный приведенный метод Ньютона 65
3.1 Алгоритм обобщенного приведенного метода Ньютона 65
3.2 Доказательство сходимости алгоритма 71
3.3 Оценки скорости сходимости приведенных алгоритмов
Литература
- Свойства угла между подпространствами одинаковой размерности
- Оценка угла между подпространствами одинаковой размерности
- Вычисление градиента и гессиана приведенной целевой функции
- Доказательство сходимости алгоритма
Введение к работе
При применении в различных областях техники и экономики математических методов исследования операций зачастую возникает необходимость численного решения задач условной оптимизации. В настоящее время имеется и активно используется большое количество численных релаксационных методов локального поиска, позволяющих эффективно отыскивать локальный экстремум для широкого круга задач (см. работы Д. И. Батищева, Ф. П. Васильева, И. М. Гельфанда, Ю. Г. Данилина, Ю. Г. Евтушенко, А. А. Жиглявского, С. К. Завриева, В. Г. Карманова, Б. Т. Поляка, Б. Н. Пшеничного, Р. Г. Стронгина, А.Г.Сухарева, В.В.Фёдорова, Д.Б.Юдина, и их учеников; [9], [10], [19], [21], [23], [24], [28], [39], [41], [43], [44]).
Однако, следует отметить, что практическая эффективность методов решения задач безусловной оптимизации и, в частности, метода Ньютона, намного превосходит эффективность методов решения задач условной оптимизации. Поэтому подходы, позволяющие разрабатывать оптимизационные алгоритмы решения задач условной оптимизации, основанные на исключении ограничений в исходной задаче и последовательном использовании эффективных методов безусловной оптимизации, представляют большой практический интерес.
Целью диссертационной работы является разработка алгоритма, позволяющего применить алгоритмы метода Ньютона, разработанные для решения системы нелинейных уравнений и задачи безусловной оптимизации, в задаче условной оптимизации.
Основными задачами работы являются обобщение идеи метода приведённого градиента для построения алгоритмов второго порядка в задаче с ограничениями-равенствами; исследование дифференциальных свойств приведённой относительно ограничений целевой функции задачи; - теоретическое обоснование сходимости алгоритма. Рассмотрим задачу f(x) — min,
, (і) х Є X = {х Є Rn: 9і{х) = 0, * = 1,..., m} .
Будем считать, что функции f(x) и &(х) (г = 1,2,..,,77) дважды непрерывно дифференцируемы на множестве X, удовлетворяют условию Липшица и для всех х Є X векторы Vgi(x) [г = 1,2,..., т) линейно независимы — условие регулярности.
Целью работы является построение алгоритма, позволяющего применить метод Ньютона решения задачи безусловной оптимизации в решении задачи (1) с ограничениями типа равенства.
Пусть є = (еі, Є2,. - -, е„) — ортонормированный базис пространства Жп. Через / = {іі,І2,...,іп-т) обозначим набор индексов «і,«2» )in-m таких, что 1 < ii < г2 < ...іп-т К п. Через jn-m = {j = (гьг2,...,г„_т): 1 < гі <г2 < ...*n-m ^ п) обозначим множество всех таких наборов. Введем
Е{1) = Linfe,, в(а,..., ein_m) — подпространство в Rn, образованное базисными векторами е^,
Будем считать, что функции f(x) и ді{х) (і = 1,2,... ,m), равно как и их производные, вычисляются как функции аргументов, разложенных по базису е.
Суть алгоритма обобщённого приведённого метода Ньютона состоит в следующем.
Рассмотрим к-ю итерацию алгоритма.
На первом этапе строится касательное подпространство N(xk) размерности п — т к множеству ограничений и выбирается координатное подпространство Е{1) той же размерности п — т.
Через E(I)1 обозначим ортогональное дополнение к Е(1).
Аналогично алгоритмам с исключением переменных координат, происходит разбиение переменной хк на пару переменных (yft, zh) следующим образом: xk = yk + zk, укЄЕ(І)±, zkeE{I), функция ук =
k) определяется как решение системы нелинейных уравнений 9i(yk,zk) = Q (г = 1,2,...,т).
В условиях теоремы о неявных функциях, в окрестности точки Z определена приведённая целевая функция F(z) = f(
tz).
Таким образом, задача (1) сводится к задаче безусловной оптимизации F{z) — rnin z Є Жп~т
При переходе от задачи (1) к задаче (2) мы использовали достаточные условия существования дифференцируемой неявной функции у - tp(z).
На втором этапе происходит сдвиг по методу Ньютона в координатном подпространстве Е(1): ^+1 = г* _ (F"{zk)ylF'(zk), при этом проверяется условие релаксации F(zk+l)
Далее, решая уравнение yk+1 = ip(zk+l)t например, модифицированным методом Ньютона, получаем следующую допустимую точку rf+i = ук+1 + ^+1_
Обоснование замены касательной плоскости координатной плоскостью той же размерности приводится в главе I.
В 1.1 вводится определение и устанавливаются представления матрицы оператора ортогонального проектирования.
Рассмотрим пространство К, и пусть М С Ж71: dimM = m, т ^п. Оператор Р^ такой, что для любого х Є Rn выполнено 1) Р^х є М, 2)х-Р^хЄМ1, называется оператором ортогонального проектирования.
Через 0(тхп) = (Oij) (і = 1,2,..., m, j = 1,2,..., n) обозначим нулевую матрицу размера тхп. Для единичной матрицы порядка m будем использовать обозначение О
1(т х т) = о j = 1,2,..., m.
Пусть /г. = {/її, /і2,..., /гт, /im+i,..., /гп} — ортонормированный базис в Мп. Обозначим через
Н = Я (те х га) = (Л-і,..., /ьт),
Я = Я (те х (п - т)) = (Лт+і,..., Л„). матрицы, столбцами которых являются координаты векторов Л в базисе е. Отметим некоторые свойства этих матриц. 1) НГН = 1(т х т), 2)НТН = 0(тх {п-т))> 3)ЯЯт + ЯЯТ = /(пхп), 4) / = ННТ. Пусть
Л= (hi,h2,.. . ,/im), ^ = (с?1, C?2t -ч^т)»
Я = Я(пхт), D = D(nxm), тогда для матрицы Грама пары (Л,, d) {hudi) ... (hudm) G(h,d) = выполнено G(h,d) — HTD.
Пусть Mi, Мз С E" — линейные подпространства, dim Mi = = dimM2 = m, a rf и h — ортонормированные базисы Mi и M2 соответственно. Обозначим через Pj^ (Mi) оператор ортогонального проектирования с М\ на Мг, тогда Pk2{M1) = G{h,d) = G{d,hY.
В 1.2 вводится существенное для работы понятие угла между пространствами одинаковой размерности и исследуются его свойства.
Обозначим через S\ единичную сферу в R": Si = {x<=Rn: ||i|| =1}.
Через S\{M) обозначим пересечение единичной сферы S\ с подпространством М С Еп.
Пусть Mi и M2) = arccos min |[Р^ (Mi)xlj.
Отметим простые свойства угла между подпространствами.
Если m = 1, то ang(Mi, Мг) — не тупой угол между пересекающимися прямыми.
Если т = 2, то ang(Mi, М2) совпадает с определением не тупого линейного угла двугранного угла между плоскостями.
Справедливо равенство ang(Mi, М2) = ang(M2, Mi).
Справедливо равенство ang(Mi, Мг) = angCMj1, М2Х).
В 1.2 получено представление косинуса угла между подпространствами через сингулярные числа матрицы Грама систем базисных векторов подпространств. cosang(Mb М2) = pmm(G{h, d)), 8 гДе Pmin — минимальное сингулярное число матрицы G{h, d), причём если Mi + М2Х = R", то cosang(MbM2) = ||G(d,A)' -in-1
В 1.3 устанавливается один из основных результатов работы — получение нетривиальной нижней оценки угла между касательной плоскостью N(xk) и координатной Е(І) в случае dim N(xk)= dim E(I).
Ответ на вопрос, каким может оказаться угол в худшем случае расположения N(xk), даётся значением следующего максимина
7* = max min ang(tf(x*)(Е{1)).
Нам будет удобно искать не значение угла, а значение его косинуса.
Отметим, что оценка величины cos 7* является общей характеристикой евклидова пространства и зависит только от п и т.
Теорема 1.3.1. Пусть М С Шп, dimM = т, (еі,Є2, ...,е„) — ортонормированный базис пространства W1. Тогда найдётся координатное пространство E(I) = Lin(eiltei3,...,eim) такое, что cosang(M,(/)) >—?==
Применительно к задаче (1) теорема формулируется так:
Для касательного подпространства N(xk) размерности п — т найдётся координатное подпространство Е(1) той же размерности п — т такое, что cosang(iV(xfc),;(/))^-^_
В главе II диссертации установлены дифференциальные свойства приведённой целевой функции F{z) = f(tp(z)tz) задачи F{z) — min z Є Шп~т и получены оценки норм её градиента и гессиана.
Для получения этих оценок используется теорема о существовании и дифференциальных свойствах неявной функции. Обозначим
ВГ1(уо) = {у: \\у-Уо\\ <п},
Д-2(2о) = {z: \\z - z0\\ < r2} , tt(yo,zo) = {(y,^): ||V — Ї/0ІІ
Для получения решения у — ip(z) уравнения д(у, z) = 0 применим метод Ньютона: Vn+i{z) =
Введём функцию Лагранжа задачи (1): L(xtX) = f(x) + \Tg(x)t обозначим через VL(xt\) = Vf(x) + \TVg(x) V2I(x, Л) = V2/(x) + XTV2g(x) ее градиент и гессиан соответственно.
Обозначим
Р(х,(Н,Щ = ЯТ -'HT^x)T({Vg(x)H)-1)THT.
В 2.1 получены формулы для вычисления градиента и гессиана функции f(z):
Пусть функции f(x) и gi{x) дважды непрерывно дифференцируемы на X, V/(x) удовлетворяет условию Липшица, векторы Vgi{x) (i= 1,2,... ,m) линейно независимы. Тогда для любого z Є BT2{zq) VF(z) = P{x,(H,H))Vf(x)7 W2F(z) = Р(х,{Н,ЩЧ2Ь(х,\)Р(х,{Н,ЩТ1 где x = t/ + z, у —
В 2.2 исследованы дифференциальные свойства приведённой целевой функции.
Точку Xq Є X будем называть ^-отделённой по разбиению М\Мі^ Mi + M2 = R", если ||vff0ron|^.
Пусть точка Хо Є X w-отделена по разбиению W1 = Mi -f М2, ^0 = ї/о + (b Уо Є Aft, z0 Є М2) тогда ЗКі и і^2 > 0: Ч zyz\z" Є ^() выполнено
1)||VF(2)|K^
2) ||VF(z') - VF(*")|| * ^2 ||V - г"||.
На основании результатов параграфов 2.1 и 2.2, в параграфе 2.3 получены равномерные по углу между касательным и координатным пространствами оценки норм градиента и гессиана приведённой целевой функции.
При выполнении перечисленных выше ограничений на функции f(x) и Qi{x) (г = 1, 2,..., т) справедливы неравенства UVF(**)||<^-|V/(*)|, 11 v "I ^COS27* PminV2L(^,A) где ртах и рт;п — наибольшее и наименьшее сингулярные числа матрицы вторых производных функции Лагранжа задачи (1).
В главе III диссертации описан алгоритм и доказана сходимость обобщённого приведённого метода Ньютона.
В 3.1 описан алгоритм обобщённого приведённого метода Ньютона.
1) Пусть на k-ft итерации метода получена точка хкєХ: ||V50rfc)||<*.
Проверяем регулярность точки хк. При отсутствии регулярности — остановка работы метода в точке хк.
3.1. Строим касательное подпространство N(xk) к множеству ограничений.
3.2. Выбираем координатное подпространство Е{1) таким, что 0<&ng(N(xk),E{I)) <.
Вычисляем VF{zk), (V2F(zk))~l для хк = у* + zk, z Є Е{1).
Вычисляем hk = (V2F{zk))~lVF{zk), zk+l = zk + hk — шаг метода Ньютона в подпространстве Е(І),
Проверяем F(zk+1) < F(zk).
Решая систему g(y, zk+1) = 0, находим yk+l.
Получаем следующую точку xk+l = yk+l + zk+1.
В 3.2 исследуется сходимость обобщённого приведённого метода Ньютона.
Точка х* Є X задачи (1) называется Морс-регулярной, если точка х* регулярна и 3 A*: VL(x*t А*) = О, существуют п — т линейно независимых векторов Si, S2, -.. , Sn-m таких, что VF(x*)$i = 0 (г = 1,2,..., п-т) и {VL(x*}\*)suSi)^0. Условие Морс-регулярности эквивалентно условию невырожденности спроектированной матрицы Гессе функции Лагранжа. Таким образом, условие Морс-регулярности стационарной точки является обобщением условия невырожденности экстремума задачи (1).
Теорема 3.2.1. Если последовательность {х } определяется алгоритмом обобщённого приведённого метода Ньютона, и каждая стационарная точка функции Лагранжа Морс-регулярна, то найдётся А* Є Ж такое, что последовательность {#&} сходится к точке х*, в которой VL(x\X) = 0 и найдётся q Є (О,1) такое, что f(xk+1)-f(x*)^q(f(xk)-f{x*)).
Доказательство теоремы 3.2.1 опирается на результат теоремы 1.3.1 о строгой отделённости от | угла между N(xk) и Е(1).
Сравнивая предложенный метод, например, с методом множителей Лагранжа, сводящим решение задачи (1) к решению системы нелинейных уравнений gi{x) = 0. видим, что эта система включает в себя п + т уравнений относительно п + т переменных. В нашем методе предлагается перейти к задаче F(z) —» min, z Є Un'm меньшей размерности.
В методе приведённого градиента и аналогичных ему методах — проекции градиентов Розена, Абади—Карпентье — сдвиг осуществляется вдоль проекции градиента целевой функции на касательное к множеству ограничений подпространство с последующим проектированием на допустимое множество.
В этих методах необходимо на каждом шаге строить касательное подпространство, то есть переходить к новым переменным и вычислять градиент и гессиан от этих переменных, В предложенном алгоритме выбор координатного подпространства может быть перенесён на следующий шаг метода и в этом случае нет необходимости заново вычислять градиент и гессиан приведённой функции. В результате получаем возможность существенно сократить практическое время счёта.
В заключении сформулированы основные результаты работы.
Разработан унифицированный подход к конструированию численных методов решения задач условной оптимизации, предполагающий последовательное исключение групп переменных в исходной задаче и применения в решении получающейся задачи безусловной оптимизации с «приведённой» функцией цели методов безусловной оптимизации.
Исследованы дифференциальные свойства функции цели. Получены явные выражения градиента и гессиана приведённой функции цели. Исследована связь характеристик гессиана приведённой функции цели со способом выбора координатных подпространств при исключении ограничений.
Построен и обоснован новый метод решения задач условной оптимизации — обобщённый приведённый метод Ньютона.
1 Угол между подпространствами одинаковой размерности
Свойства угла между подпространствами одинаковой размерности
В этом параграфе вводится существенное для работы понятие угла между пространствами одинаковой размерности и исследуются его свойства. Обозначим через Si единичную сферу в Rn: Si = {:r Rn: х = 1}. Через Si(M) обозначим пересечение единичной сферы Si с подпространством М С кп. Определение. Пусть Мі и М-2 — подпространства в Шп размерности т, т п. Углом между Мі и Мг назовём величину
Отметим простые свойства угла между подпространствами. 1) Если m = 1, то ang(M"i, Мг) — не тупой угол между пересекающимися прямыми. 2) Если т = 2, то ang(Mi,M2) совпадает с определением не тупого линейного угла двугранного угла между плоскостями. 3) Справедливо равенство ang(Mj, М2) = ang(M2 Mi). 4) Справедливо равенство ang(Mi, М2) = angfAfj1, М ) Получим представление косинуса угла между подпространствами через сингулярные числа матрицы Грама систем базисных векторов подпространств. cos ang(Af:, М2) = pmin (G(h, d)), где pmin — минимальное сингулярное число матрицы G(h, d)y причём если Mi + М2Х = R", то cosang(MbM2) = llGCd, )-1!!"1. Лемма 1.2.1. Пусть М С W1, h = {hxh2 ... hm} — ОНБ М, Е{1) = Де !, ЄІ„ ... ,eim) — подпространство в Kn, / є /, тогда cosang(M,(/)) = pmmG{h,e{I)). (см. [36])
Таким образом inf (G Ga,a) = min (G Ga,a) = a:a=l a:a=l m m min (Х)МЇГІ ЇІ Ew) = mm Ai =min_Aj. =11 =1 =1 »=1 t=l / :Et1i =1 t=l,m Докажем последнее равенство. Расположим А в порядке возрастания, причём каждое из собственных чисел запишется столько раз, какова его кратность. Пусть причем знаки равенства достигаются в случаях если im = 1, fi\ = /i2 = ... = fim-i = 0 и fii = 1, iii = ріг= Mm = 0 соответственно. В результате р2 = min АІ, где At — собственные числа матрицы i=l,...,m G G, а искомый минимум равен р = min р где р\ — сингулярные t=l,...,m числа матрицы (7, ибо р\ = ХІ (І 1,2,...,т). Следовательно, Р = Pmin- Лемма доказана.
Среди оптимизационных задач исследования операций одно из центральных мест занимают задачи с ограничениями. Для таких задач важна разработка численных методов. Большая группа методов — методы приведенного градиента [1]. В таких методах градиент приводится относительно плоскости, касательной к ограничениям, активным в данной точке [3]. Однако при практической реализации удобно использовать вместо касательных плоскостей координатные плоскости. Теоретическое обоснование подобной замены требует оценки величины угла между касательной и координатной плоскостями. Получению соответствующих гарантированных оценок посвящена данная работа. Основным результатом данного параграфа является получение соответствующих гарантированных оценок.
Для произвольной плоскости Н в W1 через L(H) будем обозначать параллельную Н плоскость, проходящую через начало координат. Через і" — {(гі,г2,.. .,гт) — обозначим набор индексов базисных векторов, задающих m-мерную координатную плоскость в R, через множество всех таких наборов. Введем E(I) = L(e(I) подпространство в R", Обозначим через 5і = {і Є 1" | ||х|| = 1} — единичную сферу в Жп. Пусть М С Ип, через Si(M) обозначим пересечение единичной сферы Si с подпространством М. S\{M) = S\ П М.
Свойства угла между гиперплоскостями. Пусть М\ и М2 — подпространства в W1 размерности Углом между Mi и Ы.2 назовем величину где Ргд/3 — оператор проектирования в Rn. Отметим простые свойства угла между подпространствами. 1. Если т = 1, то ang(Mi,M2) — нетупой угол между пересекающимися прямыми. 2. Если т — 2, то ang(Mi, М2) совпадает с определением нетупого линейного угла двугранного угла между плоскостями. 3. Справедливо равенство ang(Mi, М2) = ang(Af2, М{). 4. ang(Mi, М2) = angfMj1-, Mg-). Обозначим через A(Mi,M2) матрицу оператора проектирования Ргм2 как оператора
Оценка угла между подпространствами одинаковой размерности
Алгоритм с исключением переменных координат. Если объединить идею метода приведенного градиента с линеаризацией нелинейных ограничений, то можно построить алгоритм, позволяющий искать решение общей задачи нелинейного программирования. Пусть требуется минимизировать непрерывно дифференцируемую целевую функцию /о(ж), х Є Ж", на множество П = {хШп: /(я) = 0}, где f(x) — непрерывно дифференцируемая векторная функция с координатными функциями fi(x) (г = 1,... , т), причем т п.
Пусть в любой точке х є Ґ матрица Якоби функции f(x) имеет ранг, равный т. Обозначим J = {1,..., п} и выделим подмножество JB С J таких т индексов, что в некоторой точке х Є Г2 квадратная матрица Якоби В этой функции по части переменных Xj (j Є JB ) будет являться невырожденной и иметь обратную матрицу В 1. Как и в методе приведенного градиента, переменные Xj (j Є Jf)} являющиеся координатами точки хв Є Ш, назовем базисными, а остальные переменные Xj (j J = J \ JB ), являющиеся координатами точки xN R" m, — свободными. Тогда функции /j(х) (г = 1,..., т) можно представить в виде fi{xB, xN) (і Є IQ).
Согласно теореме о неявной функции, существует такая окрестность U{x+) точки х Є Шп ту что в этой окрестности система т уравнений fi(xB,xN) = 0, і Є /о, задает непрерывно дифференциру емую функцию xB(xN)) xN U{x )} причем хв(х ) = хв. Из этой же теоремы следует, что матрицу Якоби функции xB{xN) в точке х по всем свободным переменным Xj, j є J y можно найти по формуле N(x$?) = —B N , где TV — матрица Якоби функции f(x) в точке х по свободным переменным.
Используя представление целевой функции в виде Л(х) = MxB(xN),xN)=g{xN) и правило дифференцирования сложной функции, вычисляем ее градиент в точке x f Є IRn_m: ф?) = grades?) = дв N(x?) +д?, где дв и t — матрицы Якоби целевой функции по свободным и базисным переменным. Матрицу-строку и{х ) размерности п — т называют обобщенным приведенным градиентом целевой функции относительно свободных переменных в точке х$? Жп т. Сравнивая его с приведенным градиентом, видим, что элементы матрицы N(x ) зависят от координат точки гг , тогда как элементы матрицы N остаются неизменными при фиксированном наборе свободных переменных.
Алгоритм минимизации целевой функции на множестве Q с использованием обобщенного приведенного градиента аналогичен описанному выше алгоритму метода, приведенного градиента, но требует пересчета матрицы N(x ) на каждой итерации даже при неизменном наборе свободных переменных. Кроме того, на каждой к-й. итерации вновь полученная точка хк Є R может и не принадлежать множеству Q в силу линеаризации нелинейных ограничений типа равенства в окрестности точки хк+1. Поэтому дополнительно приходится находить проекцию полученной точки Хк на множество П и лишь затем переходить к следующей итерации.
Обобщенный приведенный градиент можно применить для поиска минимума целевой функции на множестве, заданном в неотрицательном октанте Мп при помощи нелинейных ограничений не только типа равенства, но и типа неравенства, в том числе с использованием нелинейных функций, значения которых ограничены и сверху, и снизу.
Вычисление градиента и гессиана приведенной целевой функции
Так как последовательность {х } является релаксационной, то есть fo(xk) /оСа7 ""1)» то последовательность {fo(xk)} невозрас-тающая и ограничена снизу в силу ограниченности снизу функции fa(x) на множестве Q. Согласно признаку Вейерштрасса сходимости монотонной ограниченной последовательности, последовательность {fo(xk)} сходится к некоторому конечному пределу Д — со. Поэтому после суммирования обеих частей по к Є N получим ХК\ Это неравенство означает, что ряд в его правой части сходится. Следовательно, так как є 0, то
Если множество XQ ограничено, то все элементы хк релаксационной последовательности {хк} принадлежат этому множеству, т. е. {хк} является ограниченной последовательностью и согласно теореме Больцано-Вейерштрасса, имеет хотя бы одну предельную точку х у которая будет пределом при / —» со, некоторой подпоследовательности {я }, выделенной из {хк}. Тот же предел имеет и подпоследовательности {гг -1}. Поэтому, переходя к пределу при к = ki — со с учетом непрерывности grad/o(x) получаем требуемое.
Справедлива оценка 0 fo(xk) — f С, к N, С = const 0. Если же при этом целевая функция сильно выпукла и при построении релаксационной последовательности {хк} выполнено условие 0 Єо іт]к = П $і гДе 7 - - параметр сильной выпуклости функции fo(x), то последовательность {хк} сходится в точке х минимума целевой функции на множестве П и справедлива оценка \хк - х \ qk \х - х 1 & Є N, причем 0 q = (1 - 2 + т}2Ь2)У2 1. Отметим, что при выборе 7} = j/L2 знаменатель геометрической прогрессии принимает минимальное значение q = (1 — "у2Ь2)1 2. компакт из n-мерного пространства En. Пусть остаются в силе предположения 1.2 на функции F(x) и д(х): Еп
Для описания fc-мерного евклидова подпространства Е С Еп нам будет удобно использовать конечный набор из к линейно независимых векторов ё = (е1,..., ёк) — базиса подпространства Е.
Матрицу размерности к X 1 координат разложения по базису ё любого элемента х Є Е обозначим х[ё]. Элементы х[ё] образуют к-мерное координатное пространство, которое будем обозначать Л, нулевой элемент в Rk обозначим 0.
Зафиксируем в Еп ортонормированный базис ео = (ej,..., eg).
Далее всюду считаем, что функции F(x) и д(х), равно как и их производные, вычисляются как функции аргументов, разложенных по базису ео. Не изменяя обозначений для х Є Еп будем в расчетных формулах писать F(x), понимая под этим .F(x[eoj) и д{х) = д{х[ео\). Иногда будем употреблять обозначения типа р(гг[ё]), понимая при этом, что происходит преобразование вектора х[ё]в вектор координат разложения элемента х Є Еп по базису BQ — х[ео\.
Пусть точка х Q — регулярная в задаче (3.2), то есть Im(V#(;r0)) = Е. Тогда в задаче (3.2) точке х Є Q регулярная, если Vpj(x), і = 1, m — линейно независимы.
Для исследования метода приведенного градиента наибольший интерес представляют отделенные разбиения пространства Еп — Е\ х Е%. Если Е\ С Еп — отделенное подпространство в регулярной для задачи (1) точке я0 Є Q, то dimi = m.
Доказательство сходимости алгоритма
Таким образом в рассмотренной одной из простых схем градиентного метода, где шаг подбирается решением подзадачи, необходима аккуратность при выборе параметра метода к, если градиент вычисляется с отличной от нуля помехой. Выбор параметра к может существенно влиять на размеры области сходимости, например, для « = 0.9 г(єо,к) = 9єо Кроме того, если к 1/2, то в рассматриваемой схеме неверно было бы выбирать критерии окончания счета, связанные с обычной в практике градиентных методов проверкой j/i(rrfe) т, где г — малое число, параметр метода. Может возникнуть ситуация, когда хк Є Xs{r)\Xs{so) и принципиально невозможно найти $%, удовлетворяющий (9), но 11 (2 )11 т, и незнакомый с проведенным ана лизом исследователь будет продолжать попытки поиска 0 .
Для данного метода предыдущая теорема [5] указывает правило останова, и можно рекомендовать выбирать к Є (0,1/2], тем более, что к = 0.5 соответствует наибольшей скорости сходимости метода без помех (о — 0) [41]. Для более сложных градиентных методов определение зависимости параметров от погрешностей требует специального исследования. Рассмотрим простейший случай, когда квазистационарная кривая односвязна. Теорема.
Пусть множество Хт состоит из одной связной компоненты, точка х Є Xs — точка локального максимума функции на Q. Пусть в задаче (1) выполнено: (1) условие общей применимости с константой ( 0; (2) условие изолированности экстремумов; (3) условие удаленности стационарных точек задачи (1) от границы множества Q.
Тогда, используя метод приведенного градиента с выбором подходящего координатного разбиения на каждой итерации, при соблюдении условия, алгоритм ТР находит все элементы х Є т, следовательно, решает многоэкстремальную задачу.
Доказательство. Покажем корректность всех этапов алгоритма ТР, что и даст нам конструктивное доказательство теоремы.
В нашем случае — только одна связная компонента, то есть v = 1, поэтому индекс v мы будем опускать.
Пусть х\ Є т) t 1 найденная алгоритмом стационарная точка задачи (1). Рассмотрим последовательность действий для опреде ления других элементов Для определенности положим, что s = — 1, то есть алгоритм ОМПГ будет использоваться для решения задачи (1) на минимум.
По теореме о неявной функции, по условиям для подходящего координатного разбиения Еп = Ei(x ) х E ixl) существует rt Є Ei(xl) и хг = тгХт (xt+rt)- При этом в соответствии с п. ТРЗ устанавливаем признак первого выхода из х : ко := 1. Точка х\ разбивает Xj на две полутраектории «%д и St$, направленные в разные стороны. Предположим для определенности, хJ Є St,i, то есть хг расположена дальше х\ по траектории Stti
Предположим, что существует х" Cj — локальный минимум, соседний с х\, принадлежащий St,i- Пусть S tl = St,\{xl\ х" — отрезок полутраектории St,i) - = St,\\st,i По справедливости условия применимости можно использовать алгоритм ОМПГ с выбором подходящего координатного разбиения и соблюдением условия для минимизации из начальной точки
Далее для упрощения записи будем опускать нижний индекс t. По условию р(х", 8Q) о Рассмотрим множество: Д д = {хе Sl\S(x ;a$)} U{xG S { : \\х - х"\\ є/2 (17) Покажем, что х\ Є Rt,i для всех к = 1,2,.... Отметим, что Rt,i С Q. Рассмотрим предварительно две точки х1, х1 Є So С Хт, где So отрезок траектории такой, что существует разбиение Еп = Е\ х Е%, что любая точка х Є So ( -отделена по этому разбиению. Пусть х — (y,z); yeEi;z =Е2.