Содержание к диссертации
Введение
Глава 1: Модели на основе однослойных нейронных сетей : 19
1.1 Непрерывная нейросетевая модель 19
1.2 Дискретная нейросетевая модель 22
1.2.1 Примеры дискретных нейросетевых моделей 25
1.3 Методы обучения нейронных сетей 32
1.3.1 Алгоритм градиентного спуска 32
1.3.2 Правило обучения Видроу-Хоффа 33
1.4 Задача прогнозирования котировок ценных бумаг 39
1.4.1 Критерий оценки качества прогноза 41
1.4.2 Определение параметров нейросетевой модели 42
1.4.3 Предварительная обработка временного ряда 43
1.4.4 Однодневное прогнозирование 44
1.4.5 Долгосрочный прогноз 48
1.4.6 Примеры прогнозов динамики временных рядов, котировок акций российских эмитентов на ММВБ 49
1.5 Построение адаптивных комбинаций моделей прогнозирования 51
1.5. Г Постановка задачи 51
1.5.2 Численное моделирование 54
1.6 Выводы к Главе 1 58
Глава 2: Модели.на основе многослойных нейронных сетей 60
2.1 Топология многослойных нейронных сетей 60
2.2 Алгоритм обратного распространения ошибки 63
2.2.1 Критерий останова 66
2.2.2 Достаточный объем обучающей выборки для обобщения 67
2.2.3 Недостатки алгоритма обратного распространения ошибки 68
2.3 Оптимизация обучения по алгоритму обратного распространения 69
2.3.1 Адаптивный шаг обучения для различных функций активации...72
2.3.2 Метод обучения с ранним остановом 79
2.3.3 Модификация целевого функционала в задаче прогнозирования.81
2.4 Численное моделирование 81
2.4.1 Определение оптимальных значений параметров обучения 81
2.4.2 Прогнозирование 86
2.5 Примеры, прогнозов динамики временных рядов котировок акций российских эмитентов на ММВБ 92
2.6 Нейронные сети на основе радиальных базисных функций 94
2.7 Стратегии обучения сетей на основе радиальных базисных функций... 101
2.7.1 Случайный выбор фиксированных центров 102
2.7.2 Выбор центров-на основе самоорганизации 104
2.7.3 Выбор центров с учителем 107
2.8 Задача идентификации нелинейных динамических процессов 110
2.8.1 Метод восстановления фазового пространства 111
2.8.2 Численное моделирование 113
2.9 Выводы к Главе 2 117
Глава 3: Управление инвестициями в финансовые инструменты фондового рынка 119
3.1 Основные понятия 119
3.2 Правила открытия и закрытия позиции 121
3.3 Увеличение объема выигрывающей позиции 122
3.4 Методика оптимизации портфеля Марковица 124
3.4.1 Задача построения инвестиционного портфеля 126
3.4.2 Алгоритм формирования инвестиционного портфеля 129
3.5 Тестирование комплекса программ для управления инвестициями 131
3.5.1 Отчеты о тестировании 132
3.5.2 Методика тестирования 137
3.5.3 Результаты тестирования 138
3.6 Выводы к Главе 3 148
Заключение 150
Приложение А 152
Приложение Б 157
Список использованных источников 160
- Примеры прогнозов динамики временных рядов, котировок акций российских эмитентов на ММВБ
- Определение оптимальных значений параметров обучения
- Нейронные сети на основе радиальных базисных функций
- Тестирование комплекса программ для управления инвестициями
Введение к работе
Актуальность исследования
Для управления инвестициями в финансовые инструменты фондового рынка необходимо осуществить прогнозирование биржевых котировок финансовых инструментов, сформировать инвестиционный портфель, формализовать правила открытия и закрытия позиции по каждому финансовому инструменту, определить правила управления капиталом, а также критерии их эффективности. На рынке программных продуктов и систем представлено большое количество программ, решающих задачи прогнозирования временных рядов, внутреннего, налогового, управленческого и депозитарного учета операций с ценными бумагами. Большинство представленных программ являются узкоспециализированными продуктами, которые отличают высокие аппаратные требования, существенные затраты на внедрение, сопровождение и интеграцию с имеющейся информационной инфраструктурой инвестиционных компаний и банков, а также недоступность для частных инвесторов. Таким образом, разработка комплекса программ для решения всего комплекса задач связанных с управлением инвестициями на фондовом рынке, отвечающего потребностям как частных инвесторов, так и инвестиционных банков и управляющих компаний является актуальной прикладной задачей.
Одной из основных задач, решаемых в процессе управления инвестициями на фондовом рынке, является построение моделей прогнозирования динамики временных рядов котировок финансовых инструментов. Для решения задачи прогнозирования в работе построены различные модели на основе искусственных нейронных сетей. В силу того, что нейронные сети используются во многих областях научных и прикладных исследований, выбор оптимальной структуры сетей и алгоритмов их обучения применительно к конкретной предметной области является актуальной научной задачей.
В целях совершенствования методов и повышения качества инвестиционной деятельности на фондовом рынке актуальным является построение нейросетевых моделей для прогнозирования динамики котировок финансовых инструментов, выявление особенностей их применения и реализации, а также разработка на их основе комплекса программ, который благодаря модульной структуре, простоте внедрения и сопровождения, а также невысоким аппаратным требованиям был бы востребован как профессиональными управляющими, так и частными инвесторами для управления инвестициями на фондовом рынке.
Целью работы является разработка методики применения нейросетевых моделей для прогнозирования динамики временных рядов котировок финансовых инструментов и построение на их основе комплекса программ для управления инвестициями на фондовом рынке.
Задачи исследования:
Разработать методику применения нейронных сетей для описания динамики временных рядов котировок финансовых инструментов на фондовом рынке.
Разработать и реализовать на основе аппарата нейронных сетей адаптивные комбинации моделей прогнозирования временных рядов.
3. На основе построенных моделей разработать комплекс программ поддержки принятия решений по управлению инвестициями в финансовые инструменты фондового рынка.
Методы исследования. При решении поставленных задач в работе применялись методы нелинейного программирования, метод обратного распространения ошибки, алгоритм кластеризации по к средним и эконометрические методы.
При разработке комплекса программ, проведении вычислительных экспериментов и визуализации результатов использовались следующие программные продукты: Microsoft Excel, Borland Delphi 7.0.
Положения, выносимые на защиту:
Разработаны однослойные нейронные сети для моделирования динамики временных рядов и прогнозирования котировок финансовых инструментов фондового рынка.
С помощью аппарата однослойных нейронных сетей построены адаптивные комбинации моделей прогнозирования временных рядов.
Построены нейронные сети на основе радиальных базисных функций для прогнозирования временных рядов котировок финансовых инструментов.
Построены нейронные сети на основе многослойного персептрона для моделирования динамики временных рядов и прогнозирования котировок финансовых инструментов.
Разработан комплекс программ для управления инвестициями в финансовые инструменты фондового рынка, основанный на нейросетевых моделях прогнозирования, теории портфельного инвестирования Марковица и выработанных формальных правилах принятия инвестиционных решений и управления капиталом.
Выработана методика оценки эффективности комплекса программ для управления инвестициями на фондовом рынке.
Научная новизна и теоретическая значимость
Научная новизна диссертационного исследования заключается в разработке и развитии целостного теоретического, методологического и инструментального обеспечения на основе нейронных сетей для математического моделирования, анализа и прогнозирования временных рядов. Теоретическая значимость исследования отражена в следующих положениях:
На основе теории и методологии нейронных сетей, построены однослойные и многослойные модели для анализа и прогнозирования временных рядов котировок акций.
Выработаны и опробованы рекомендации по оптимизации процесса обучения нейронных сетей по алгоритму обратного распространения ошибки, позволяющие улучшить результаты прогнозирования динамики временных рядов, включая уравнения для вычисления адаптивного шага обучения и модификацию целевого функционала в алгоритме обратного распространения.
С помощью аппарата однослойных нейронных сетей проведено построение адаптивных комбинаций моделей прогнозирования.
4. Выработана методика оценки эффективности комплекса программ для управления инвестициями в финансовые инструменты фондового рынка.
Практическая значимость
В среде программирования Borland Delphi 7.0 разработан комплекс программ для управления инвестициями в финансовые инструменты фондового рынка, основанный на нейросетевых моделях прогнозирования, теории портфельного инвестирования Марковица и выработанных формальных правилах принятия инвестиционных решений и управления капиталом.
Основные положения, выводы, рекомендации, модели, методы и алгоритмы, рассмотренные в диссертации, ориентированы на широкое использование финансовыми учреждениями и разработчиками информационно-аналитических систем для поддержки принятия управленческих решений в процессе инвестиционной деятельности на фондовом рынке.
Достоверность и обоснованность
Достоверность и обоснованность полученных результатов базируется на использовании апробированных численных и аналитических методов исследования; применении документально обоснованных исходных данных по объектам приложений разработанных моделей и методов и соответствии результатов численных экспериментов фактическим данным.
Апробация работы
Основные результаты диссертации и отдельные её положения были представлены на семинарах ВЦ РАН по оптимальному управлению, а также в докладах на кафедре компьютерной безопасности и математических методов управления ТвГУ (2006-2010 гг.).
Эффективность предложенных методов, алгоритмов, моделей и программ подтверждена расчетами на реальных временных рядах котировок акций российских эмитентов на ММВБ. Разработанный комплекс программ для управления инвестициями в финансовые инструменты фондового рынка, а также отдельные рекомендации, вытекающие из диссертации, приняты к внедрению в ОАО «ГУТА-БАНК», где используются для планирования и осуществления деятельности профессионального участника фондового рынка, что подтверждено актом о внедрении.
Основные положения работы внедрены в учебный процесс и лежат в основе разработанного на кафедре КБ и ММУ курса «Математическое моделирование нейронных сетей».
Публикации
По материалам диссертации опубликовано 9 печатных работ, среди них 3 - в изданиях, рекомендованных ВАК Минобрнауки РФ.
Структура и объём работы
Диссертация состоит из введения, трёх глав основного текста, заключения, списка использованной литературы, изложена на 165 страницах и имеет 2 приложения. В диссертации 38 рисунков и 26 таблиц, отражающих результаты численного моделирования. Список литературы включает 63 источника, из них 30 отечественных, 33 зарубежных.
Примеры прогнозов динамики временных рядов, котировок акций российских эмитентов на ММВБ
Без требования положительности весовых коэффициентов адаптивной модели график ошибки Е(Х) имеет четко выраженный минимум. При наличии ограничения мл(/) 0 функция Е(Я) становится практически монотонно возрастающей, причем, чем меньше Я, тем выше точность прогноза. Она не ухудшается даже в пределе при Л —»+0, когда регуляризация фактически отключается. Таким образом, требование монотонности само по себе является хорошим регуляризатором.
В результате проведенного в первой главе анализа методов моделирования и прогнозирования динамики временных рядов с помощью моделей однослойных нейронных сетей получены следующие основные результаты: 1. Задача моделирования нейронной сети сформулирована как задача оптимального управления, где весовые коэффициенты нейронной сети рассматриваются как функции управления. Приведены примеры дискретных задач оптимального управления, моделирующих нейронные сети общей топологии, изложен алгоритм построения приближенного оптимального решения для данных задач. 2. Изложены методика построения прогнозных моделей на основе однослойных нейронных сетей и алгоритмы их обучения, включая процедуры предварительной обработки данных, выбор функций активации нейронов, определение параметров модели сети и алгоритма обучения, , приведены уравнения для определения адаптивного шага обучения однослойной линейной нейронной сети для последовательного и пакетного режимов обучения. 2. С помощью моделей на основе однослойных нейронных сетей проведено численное моделирование динамики временного ряда и прогнозирование биржевых котировок акций ОАО «Сбербанк» за период с 12.01.2009 по 12.07.2009 г. Получены однодневный и долгосрочный прогнозы для исследуемого временного ряда, рассмотрено влияние различных параметров модели и метода на скорость сходимости алгоритма обучения и качество прогноза. 3. Осуществлено сравнение результатов прогнозирования, полученных с помощью моделей на основе однослойных нейронных сетей и стохастических моделей, построенных по методике Бокса-Дженкинса. Сравнение показало, что модели однослойных нейронных сетей обеспечивают лучшие результаты прогнозирования по сравнению с моделями типа АШМА как по значению, так и по качеству прогноза направления тренда. [12], [15] 4. С помощью аппарата однослойных нейронных сетей проведено построение адаптивных комбинаций моделей прогнозирования. Численное моделирование по данным котировок акций ОАО «Сбербанк», выявило преимущество адаптивных комбинаций в 30-40% по точности прогноза значений и в 10-20% по точности прогноза направления тренда по сравнению с базовыми алгоритмами, составляющими динамическую комбинацию.
В Главе 2 рассматриваются многослойные нейронные сети с прямым распространением сигналов, способные осуществлять любое отображение входных векторов в выходные, а также приводится алгоритм обратного распространения ошибки и его модификации, которые были предложены в [5], [28]. Рассматривается применение многослойных персептронов и сетей на основе радиальных базисных функций для решения задачи прогнозирования временных рядов котировок акций, предложена и опробована модификация целевого функционала в алгоритме обратного распространения, позволяющая повысить качество прогноза направления тренда в данной задаче.
Архитектура многослойной нейронной сети состоит из множества слоев нейронных элементов. В таких нейронных сетях связи между собой имеют только соседние слои, при этом каждый нейрон предыдущего слоя связан со всеми нейронами последующего слоя [29], [19], [58], [60]. Первый слой нейронов называется входным, последний слой нейронов называется выходным. Между входным и выходным слоями располагается один или более скрытых слоев. Определение числа скрытых слоев и числа нейронов в каждом слое для конкретной задачи является неформальной проблемой.
В 1957 году Колмогоров показал [8], что любую непрерывную функцию п переменных на единичном отрезке [0,1] можно представить в виде суммы конечного числа одномерных функций:
Определение оптимальных значений параметров обучения
В общем случае не существует доказательства сходимости алгоритма обратного распространения, как не существует какого-либо четко определенного критерия его останова. Известно лишь несколько обоснованных критериев, которые можно использовать для корректировки весов. Каждый из них имеет свои практические преимущества. Обозначим символом со вектор весов, обеспечивающий локальный или глобальный минимум. Необходимым условием минимума является то, что вектор градиента, т.е. вектор частных производных первого порядка для поверхности ошибок в этой точке равен нулевому. Следовательно, можно сформулировать разумный критерий сходимости алгоритма обучения методом обратного распространения [28].
Считается, что алгоритм обратного распространения сошелся, если Евклидова норма вектора градиента достигает достаточно малых значений.
Недостатком этого критерия сходимости является то, что для сходимости обучения методом обратного распространения может потребоваться довольно много времени. Кроме того, необходимо постоянно вычислять вектор градиента.
Другим уникальным свойством минимума является то, что функция стоимости (или мера ошибки) Е(со) в точке со-со стабилизируется. Отсюда можно вывести еще один критерий сходимости.
Критерием сходимости алгоритма обратного распространения является достаточно малая абсолютная интенсивность изменений среднеквадратической ошибки в течение эпохи.
Интенсивность изменения среднеквадратической ошибки обычно считается достаточно малой, если она лежит в пределах 0,1-1% за эпоху. Иногда используется уменьшенное значение - 0,01%. К сожалению, этот критерий может привести к преждевременной остановке процесса обучения.
При обучении методом обратного распространения в сеть подают обучающую выборку и вычисляют синаптические веса многослойного персептрона, загружая в сеть максимально возможное количество примеров. При этом достигается обобщающая способность сети. Считается, что сеть обладает хорошей обобщающей способностью, если отображение входа на выход, осуществляемое ею, является корректным для данных, никогда ранее не подававшихся сети в процессе обучения.
Способность к обобщению определяется тремя факторами: размером обучающего множества и его представительностью, архитектурой нейронной сети и физической сложностью рассматриваемой задачи. В контексте первых двух факторов вопрос обобщения можно рассматривать с двух различных точек зрения: Архитектура сети фиксирована, и задача сводится к определению размера обучающего множества, необходимого для хорошего обобщения. Размер обучающего множества фиксирован и задача сводится к определению наилучшей архитектуры сети, позволяющей достичь хорошего обобщения. На практике оказывается, что для хорошего обобщения достаточно, чтобы размер обучающего множества N удовлетворял следующему соотношению: МНг - общее количество свободных параметров сети; допустимая ошибка. Данная оценка получена из эмпирического правила Видроу для алгоритма минимизации среднеквадратической ошибки, утверждающего, что время стабилизации процесса линейной адаптивной временной фильтрации примерно равно объему памяти линейного адаптивного фильтра в задаче фильтра на линии задержки с отводами, деленному на величину рассогласования [28]. Рассогласование в алгоритме минимизации среднеквадратической ошибки выступает в роли ошибки Б В вышеуказанной оценке. Алгоритм обратного распространения ошибки, в основе которого лежит градиентный метод, создает ряд проблем при обучении многослойных нейронных сетей. К таким проблемам можно отнести следующие: 1. Неизвестен выбор количества слоев и количества нейронных элементов в слое для многослойных сетей. 2. Медленная сходимость градиентного метода с постоянным шагом обучения. 3. Проблема выбора подходящей скорости обучения а. Так, слишком малая скорость обучения увеличивает время обучения и приводит к скатыванию нейронной сети в локальный минимум. Большая скорость обучения может привести к пропуску глобального минимума и сделать процесс обучения расходящимся. 4. Градиентный метод не различает точек локального и глобального минимумов. 5. Влияние случайной инициализации весовых коэффициентов нейронной сети на поиск минимума функции среднеквадратичной ошибки. Последний пункт отражает то, что при разной инициализации синаптических связей, могут получаться различные решения задачи. Это характеризует неустойчивость алгоритма обучения, когда нейронная сеть в одних случаях может обучаться до требуемой суммарной среднеквадратичной ошибки, а в других нет. То, что алгоритм обратного распространения ошибки не позволяет в общем случае достичь глобального минимума не умаляет его достоинств. Это связано с тем, что во многих практических задачах достаточно обучить нейронную сеть до требуемой среднеквадратичной ошибки. Является ли при этом найденный минимум локальным или глобальным не имеет большого значения. В последующих разделах данной главы будут рассмотрены модификации алгоритма обратного распространения ошибки с целью нейтрализации приведенных выше недостатков.
Нейронные сети на основе радиальных базисных функций
Для любой непрерывной функции f (х) найдется сеть на основе радиальных базисных функций с множеством центров и общей шириной сг 0, такая, что функция F{x), реализуемая сетью, будет близка к fix) по норме Lp, / е[1,оо].
В сформулированной таким образом обобщенной теореме об аппроксимации ядро G: Rm -»R не обязательно должно удовлетворять условию радиальной симметрии. Таким образом, теорема является более строгой, чем это необходимо для сетей- на основе радиальных базисных функций. И что более важно, она подводит теоретический базис под построение нейронных сетей на основе радиальных базисных функций с целью их практического применения.
На практике не существует неограниченной выборки данных, в распоряжении исследователя оказывается некоторое множество примеров вполне ограниченного размера. Аналогично, не существует нейронных сетей, обладающих бесконечно большой вычислительной мощностью, — она всегда ограничена. Следовательно, существуют два момента, приводящих к ошибке обобщения в нейронных сетях, обучаемых на конечных наборах примеров и тестируемых на не встречавшихся ранее данных. Один из этих моментов, называемый ошибкой аппроксимации, возникает вследствие ограниченной мощности сети, недостаточной для представления интересующей целевой функции. Другой момент, ошибка оценивания, является результатом недостаточности ограниченного объема информации, содержащегося в примерах обучения. С учетом этой информации в [52] получен предел ошибки обобщения, генерируемой сетью на основе радиальных базисных функций с активационными функциями Гаусса, который выражается в терминах размеров скрытого слоя и обучающего множества. Функция регрессии принадлежит некоторому пространству Соболева.
Пусть Сг — класс гауссовых сетей на основе радиальных базисных функций с т0 входными и т1 скрытыми узлами. Пусть /(х) — функция регрессии, принадлежащая некоторому пространству Соболева. Предполагается, что множество примеров обучения Т = {(-,,0} , составляется с помощью случайной выборки из регрессивной модели, основанной на функции /(х). Тогда для любого параметра чувствительности с)е(0,1] ошибка обобщения, генерируемая сетью, ограничена сверху числом с вероятностью, превышающей 1-3 [52].
Из выражения (2.33) можно сделать следующие выводы. Ошибка обобщения сходится к нулю только в том случае, если количество скрытых элементов тх возрастает медленнее, чем размер обучающей выборки N. Для фиксированного количества примеров обучения N оптимальное количество скрытых элементов тх ведет себя в соответствии с (2.34). щ ос ЛА1/3. (2.34) Сети на основе радиальных базисных функций обеспечивают скорость аппроксимации порядка 0(\/т1), что близко к значению, полученному в [31] для многослойного персептрона с сигмоидальной функцией активации. Сети на основе радиальных базисных функций и многослойный персептрон являются примерами нелинейных многослойных сетей прямого распространения. И те и другие являются универсальными аппроксиматорами. Таким образом, всегда существует сеть радиальных базисных функций, способная имитировать многослойный персептрон (и наоборот). Однако эти два типа сетей отличаются некоторым важным аспектам. 1. Сети на основе радиальных базисных функций (в своей основной форме) имеют один» скрытый слой, в то время как многослойный персептрон может иметь большее количество скрытых слоев. 2. Обычно вычислительные узлы многослойного персептрона, расположенные в скрытых и выходном слоях, используют одну и ту же модель нейрона. С другой стороны, вычислительные узлы скрытого слоя сети на основе радиальных базисных функций могут в корне отличаться от узлов выходного слоя и служить разным целям. 3. Скрытый слой в сетях на основе радиальных базисных функций является нелинейным, в то время как выходной — линейным. В то же время скрытые и выходной слои многослойного персептрона, используемого в качестве классификатора, являются нелинейными. Если многослойный персептрон используется для решения задач нелинейной регрессии, в качестве узлов выходного слоя обычно выбираются линейные нейроны. 4. Аргумент функции активации каждого скрытого узла сети на основе радиальных базисных функций представляет собой Евклидову норму (расстояние) между входным вектором и центром радиальной функции. В то же время аргумент функции активации каждого скрытого узла многослойного персептрона — это скалярное произведение входного вектора и вектора синаптических весов данного нейрона. 5. Многослойный персептрон обеспечивает глобальную аппроксимацию нелинейного отображения. С другой стороны, сеть на основе радиальных базисных функций с помощью экспоненциально уменьшающихся локализованных нелинейностей (т.е. функций Гаусса) создает локальную аппроксимацию нелинейного отображения.
Тестирование комплекса программ для управления инвестициями
Опыт использования методики случайного выбора центров показал, что этот метод относительно нечувствителен к использованию регуляризации. Случайный выбор центров можно использовать в качестве метода построения сетей радиальных базисных функций на основе множества примеров большого объема с возможным применением регуляризации [28].
Основной проблемой описанного выше метода выбора фиксированных центров является тот факт, что для обеспечения удовлетворительного уровня эффективности он требует большого множества примеров. Одним из способов обхода этой проблемы является использование гибридного процесса обучения, состоящего из двух этапов [34], [53], [51]. Этап обучения на основе самоорганизации. Его целью является оценка подходящих положений центров радиальных базисных функций скрытого слоя. Этап обучения с учителем. На этом этапе создание сети завершается оценкой линейных весов выходного слоя. Для реализации этих двух этапов обучения можно применить пакетную обработку, однако лучше использовать адаптивный (итеративный) подход. Для процесса обучения на основе самоорганизации требуется разработать алгоритм кластеризации, разбивающий заданное множество точек данных на две подгруппы, каждая из которых должна быть максимально однородной. Один из таких алгоритмов называется алгоритм кластеризации по А:-средним [6]. Согласно этому алгоритму центры радиальных базисных функций размещаются только в тех областях входного пространства X, в которых имеются информативные данные. Пусть т] — количество радиальных базисных функций. Определение подходящего значения для т1 требует проведения некоторых- экспериментов. Пусть {(и)} — центры радиальных базисных функций на п -й итерации алгоритма. Тогда алгоритм кластеризации по к -средним можно описать следующим образом. 1. Инициализация. Выбираем случайные значения для исходных центров (0) . Единственным требованием к их выбору на данном шаге является различие всех начальных значений: При этом значения Евклидовой нормы по возможности должны быть небольшими. 2. Выборка. Выбираем вектор х из входного пространства X с определенной вероятностью. Этот вектор будет входным для алгоритма на итерации п. Проверка подобия. Обозначим к(х) индекс наиболее подходящего (победившего) центра для данного вектора х. Находим к(х) на итерации п, используя критерий минимального Евклидова расстояния: где tk{n) — центр к -й радиально базисной функции на итерации п. 4. Корректировка. Корректируем центры радиальных базисных функций, используя следующее правило: (и + 1) = 5. Продолжение. Увеличиваем на единицу значение п и возвращаемся к шагу 2, продолжая процедуру до тех пор, пока положение центров tk существенно изменяется. Описанный алгоритм кластеризации по А;-средним на самом деле является конкурентным процессом обучения, известным также под названием построения карты самоорганизации. Этот алгоритм целесообразно реализовывать на стадии обучения без учителя (на основе самоорганизации) Ограничением алгоритма кластеризации по к -средним является нахождение только локального оптимального решения, зависящего от исходного выбора центров кластера. Следовательно, вычислительные ресурсы могут расходоваться напрасно: отдельные центры изначально попадут в те области входного пространства X, где количество точек данных невелико и откуда не будет шанса переместиться в области, требующие большего количества центров. В результате можно получить неоправданно большую сеть. Чтобы обойти этот недостаток обычного-алгоритма кластеризации, по А:-средним, в, 1995 году был предложен улучшенный алгоритм кластеризации по к -средним [35], который основан на понятии взвешенной переменной меры принадлежности кластеру, обеспечивающем сходимость алгоритма к оптимальной .конфигурации, независимо от исходного положения центров. Определив отдельные центры гауссовых радиальных базисных функций и их общий вес с помощью алгоритма кластеризации по А:-средним или его улучшенной версии, можно перейти к следующему (и последнему) этапу оценки весов выходного слоя. Простейшим методом такой оценки является алгоритм метода наименьших квадратов (МНК). Вектор выходного сигнала, сгенерированного скрытыми узлами, является входным вектором алгоритма МНК. Алгоритм кластеризации по &-средним для скрытых узлов и алгоритм МНК для выходных узлов могут выполнять вычисления параллельно, таким образом, процесс обучения, ускоряется.