Рекуррентные алгоритмы обучения и самообучения в теории распознавания образов Измакова Ольга Анатольевна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Измакова Ольга Анатольевна. Рекуррентные алгоритмы обучения и самообучения в теории распознавания образов : диссертация ... кандидата физико-математических наук : 01.01.09. - Санкт-Петербург, 2005. - 109 с. РГБ ОД,

Содержание к диссертации

Введение

1 Задача распознавания образов 15

1.1 Обучающиеся опознающие системы 15

1.2 Задача распознавания как задача аппроксимации индикаторной функции 18

1.3 Линейная разделимость образов 21

1.3.1 Выпуклые множества на единичном кубе 23

1.4 Нелинейная разделимость образов 25

1.4.1 Комитет неравентсв 25

1.4.2 Переход в спрямляющее пространство 28

1.5 Самообучение 28

1.5.1 Автоматическая классификация сигналов 29

1.5.2 Методы стохастической оптимизации

в задаче самообучения 32

1.6 Алгоритм локального обучения 34

2 Задача аппроксимации функций 37

2.1 Среднеквадратичное приближение 38

2.2 Алгоритм антиградиентного спуска 39

2.3 Система нормальных уравнений Гаусса в стандартной задаче аппроксимации 41

2.4 Последовательная аппроксимация 50

2.4.1 Метод последовательного проектирования 52

2.4.2 Последовательное проектирование в случае одномерных подпространств 55

2.5 Кусочно-параметрическая аппроксимация 60

2.6 Метод локальной аппроксимации 64

Содержание

2.7 Выбор системы базисных функций 66

3 Рандомизированные алгоритмы стохастической оптими зации в задаче самообучения 69

3.1 Алгоритмы стохастической оптимизации с возмущением на входе в задаче самообучения 71

3.1.1 Примеры применения представленных алгоритмов 79

4 Применение рекуррентных алгоритмов обучения 83

4.1 Метод группового учета аргументов 83

4.2 Нейроны, нейронные сети и методы их обучения 87

4.2.1 Описание искусственных нейронных сетей 93

4.2.2 Локальная аппроксимация в нейросетях 94

4.2.3 Алгоритмы самообучения для нейронных сетей . 95

Заключение 103

Библиография 104

Задача распознавания как задача аппроксимации индикаторной функции
Алгоритм антиградиентного спуска
Примеры применения представленных алгоритмов
Нейроны, нейронные сети и методы их обучения

Введение к работе

Научные исследования, связанные с развитием теории распознавания образов, не теряют своей актуальности более полувека. Параллельно с рождением и развитием новых прикладных областей науки возникает необходимость и в новых математических инструментах распознавания, обращение к которым позволит получать решения возникающих в этих областях задач. В частности, возникает потребность в алгоритмах, приспособленных к применению в нестандартных, с точки зрения развитой ранее теории, условиях.

Литература, посвященная распознаванию образов, весьма обширна. К ней относятся как работы теоретического характера ([1], [17], [20], [28], [43], [44], [47] [48], [49], [50], [52]-[54]), так и работы, в которых обсуждаются вопросы функционирования конкретных опознающих систем ([21], [33]). Такое разделение достаточно условно, поскольку большинство работ первой группы также содержит практические рекомендации и результаты моделирования конкретных опознающих систем. В перечисленных выше монографиях и статьях можно найти детальное обсуждение различных постановок задач теории распознавания и методов их решения.

В настоящей работе использованы геометрический (экстраполяцион-ный) подход и подход на основе методов стохастической аппроксимации. Традиционными недостатками значительного числа алгоритмов, развитых в рамках указанных подходов, являются неприменимость в условиях большой размерности и/или отсутствие состоятельности без достаточно ограничительных условий на неконтролируемые возмущения. Между тем, многие из возникающих на современном этапе практических задач характеризуются высокой размерностью. Кроме того, при рассмотрении задач с помехами желательно делать лишь минимальные предположения об их статистических свойствах.

Введение

Основной целью настоящей работы является разработка новых алгоритмов обучения и самообучения для решения задачи классификации, работоспособных в условиях большой размерности и при минимальных ограничениях на неконтролируемые возмущения.

В диссертационной работе получены следующие новые результаты:

разработан и обоснован метод последовательного проектирования, позволяющий строить проекцию элемента гильбертова пространства на замкнутую линейную оболочку заданных подпространств, используя проектирование на эти подпространства, дополненное одномерными проекциями;

получены явные формулы для вычисления коэффициентов аппроксимирующей функции при решении задачи среднеквадратичной аппроксимации методом последовательного проектирования;

предложены рандомизированные алгоритмы стохастической оптимизации, адаптированные для решения задачи самообучения;

получены достаточные условия состоятельности рандомизированных алгоритмов стохастической оптимизации в задаче самообучения.

Разработанные и обоснованные в настоящей работе новые алгоритмы могут быть использованы для решения разнообразных задач распознавания. Например, метод последовательного проектирования применим для решения задачи среднеквадратичной аппроксимации функций, в том числе возникающей в рамках теории распознавания образов. Кроме того, этот метод применим для доказательства сходимости метода группового учета аргументов. Рандомизированные алгоритмы стохастической оптимизации могут применяться при решении конкретных задач самообучения, в частности, в качестве алгоритма настройки весовых коэффициентов ассоциативных нейронных сетей.

По материалам диссертации были сделаны доклады на Первой международной конференции по мехатронике и робототехнике (Санкт-Петербург, 2000 г.), на заседании международной школы-семинара "Адаптивные роботы - 2004" (Санкт-Петербург), а также на семинарах кафедр теоретической кибернетики и системного программирования математико-механического факультета Санкт-Петербургского государственного университета. Основное содержание диссертации было опубликовано в рабо-

Введение

тах [15], [16], [22] - [24] и [45], часть из которых написана в соавторстве с научным руководителем В. Н. Фоминым, которым осуществлялась общая корректировка направлений исследования. В статье, написанной в соавторстве с С. С. Сысоевым, диссертанту принадлежит метод решения и его обоснование, а ее соавтору — численное моделирование представленного алгоритма.

Работа выполнена при частичной поддержке Российского фонда фундаментальных исследований (гранты 98-01-00581 и 05-07-90179).

Диссертация организована следующим образом.

В первой главе подробно обсуждаются различные постановки задачи распознавания образов, в том числе задачи обучения с учителем и самообучения.

Один из распространенных подходов к задачам обучения с учителем заключается в том, чтобы представить их в виде задачи аппроксимации некоторой функции (Фомин В. Н. [43]). Особенность большинства задач обучения с учителем позволяет заменить их задачей аппроксимации ко-нечнозначной функции (двузначной в случае двух классов изображений). Значения этой функции на тренировочной последовательности интерпретируются как указания "учителя" о принадлежности элементов обучающей последовательности тому или иному классу образов.

Выбор алгоритма для обучения опознающей системы в значительной степени опирается на априорную информацию, которая известна о классах изображений в пространстве признаков. В п. 1.3 и 1.4 рассмотрены случаи линейной и нелинейной разделимости образов и описаны некоторые из возможных алгоритмов решения задачи обучения с учителем в этих ситуациях.

В следующем пункте первой главы обсуждается задача обучения без учителя. Существует несколько возможных математических формулировок задачи самообучения: оценивание смесей распределений (Дуда Р., Харт П. [17], Фукунага К. [47]), вариационный подход (Цыпкин Я. 3. [48], Айзерман М. А., Браверман Э. М., Розоноэр Л. И. [1], Фомин В. Н. [43], [44]) и множество вариантов кластер-анализа. В настоящей работе используется вариационный подход, при котором процесс обучения сводится к построению последовательности оценок оптимальных параметров, которые доставляют минимум функционалу среднего риска, имеющего смысл математического ожидания общих потерь, и определяют

Введение

оптимальное разбиение выборочного пространства, т. е. оптимальное правило классификации. Отметим, что вариационный подход позволяет строить алгоритмы обучения в рекуррентной форме, и предоставляет возможность использовать для вывода алгоритмов самообучения метод стохастической оптимизации.

В завершении первой главы описан алгоритм локального обучения, в котором на основе геометрического подхода к задаче распознавания реализована идея построения разделяющей поверхности как набора поверхностей заданного вида, каждая из которых выполняет разделение на классы на одном из подмножеств признакового пространства. Разбиение пространства признаков на эти подмножества происходит в процессе обучения.

Во второй главе обсуждается задача аппроксимации, трактуемая как задача экстраполяция функции с некоторого конечного множества, на котором ее значения известны, на более широкое множество аргументов с помощью восстанавливающей функции — линейной комбинации заданных (базисных) функций. Коэффициенты восстанавливающей функции определяются из требования ее близости в среднеквадратичном смысле к аппроксимируемой функции на множестве, где ее значения известны. Указанная задача всегда разрешима, однако развитые методы ее решения могут оказаться непродуктивными в некоторых задачах, возникающих в приложениях, что может быть связано с большой размерностью или плохой обусловленностью конструируемых в ходе решения матриц. Например, при использовании алгоритма антиградиентного спуска в условиях, когда система базисных функций велика, может возникать необходимость выбора очень малого шага аппроксимации (лемма 1). Применение алгоритма Гаусса также может быть затруднительно или давать большую погрешность вычислений, если матрица коэффициентов плохо обусловлена или имеет большие размеры.

Основной результат второй главы — формулировка и обоснование алгоритма последовательного проектирования, позволяющего избежать указанных трудностей. Метод изложен на абстрактном уровне и позволяет строить проекцию заданного элемента гильбертова пространства на замкнутую линейную оболочку набора конечномерных подпространств в предположении, что имеется возможность вычислять ортогональные проекции на произвольные конечномерные подпространства.

Введение

Уточним постановку задачи. Пусть в гильбертовом пространстве Н заданы последовательность {Н^, к = 1,2,...} базисных подпространств Hjt (которые предполагаем конечномерными) и некоторый элемент / Є Н. Требуется найти ортогональную проекцию этого элемента на замкнутую линейную оболочку заданных подпространств, предполагая, что алгоритм вычисления искомой проекции может содержать только проектирование на Hjt, к = 1,2,..., дополненное одномерными проекциями. Обозначим через /i = Phi/ ортогональную проекцию элемента / на базисное подпространство Ні, а через Н2 = Lin{H2, /1} — линейную оболочку, порождаемую базисным подпространством Н2 и элементом /і. Продолжая этот процесс, определим элементы /_п и подпространства H_n+i согласно алгоритму:

/_п = Р_йп/, H_n+1 = Lin{H_n+1,/_n}, п = 1,2,.... (0.1)

Важное свойство последовательных проекций отражено в нижеследующей лемме.

Лемма 2 Для произвольного элемента / Є Н и последовательности подпространств {Н& С Н, к = 1,2,...} для последовательных проекций {/т п Є N} справедливо предельное равенство

где / — некоторый элемент из замкнутой линейной оболочки, порождаемой подпространствами {Н&, к = 1,2,...}.

Для того, чтобы установить условия, при которых предел последовательных проекций {/„, п = 1,2,...} совпадает с искомой проекцией, введем следующее определение.

Определение Последовательность {Щ С Н, к = 1,2,...} назовем чередующейся, если каждый из ее элементов встречается в любой подпоследовательности {Н&, к — М, М + 1,...}, где М — произвольное положительное число.

Теорема 1 Если последовательность базисных подпространств {Hfc С Н, к = 1,2,...} чередующаяся, то для произвольного элемента / Є Н последовательные проекции /„, п = 1,2,..., построенные в соответствии с алгоритмом (0.1), сходятся к ортогональной проекции элемента f на замкнутую линейную оболочку базисных подпро-

Введение

странств Н*, к — 1,2,...:

/но = Лій,/п = Рн()/-

п—» ОО '

Представленный алгоритм может быть успешно использован для решения задачи среднеквадратичной аппроксимации функции линейной комбинацией функций заданного набора. Действительно, такая задача экви-

валентна задаче вычисления ортогональной проекции элемента / =

\f(Xp)J

пространства R^p на подпространство, которое является линейной оболочкой N одномерных подпространств, каждое из которых определяется

вектором (fik =

, составленным из значений одной из базисных

функций, и нахождения коэффициентов разложения найденного вектора / по векторам В п. 2.4.2 подробно описаны указанные этапы решения поставленной задачи. С помощью вспомогательной леммы 3 получены явные формулы для вычисления компонентов вектора / и коэффициентов, определяющих искомую аппроксимирующую функцию (леммы 4 и 5).

В п. 2.5 и 2.6 рассматриваются методы кусочно-параметрической и локальной аппроксимации функций (Катковник В. Я. [25], [26]), в основе которых лежит идея построения восстанавливающих функций на подмножествах множества аппроксимации.

Задача распознавания как задача аппроксимации индикаторной функции
При геометрическом подходе к распознаванию образов часто достаточно принять, что экстраполирующая функция /() имеет тот же знак, что и /(), на всем признаковом пространстве, точнее, функция /() должна находиться из условия f(x)f{x) 0, х Є Xі UX2. (1.3)
Условие (1.3) не всегда может быть обеспечено, это зависит от структуры функций /() и /(). Критерий качества аппроксимации можно выбрать и из других соображений, например, из условия, чтобы нарушение неравенства (1.3) происходило на возможно меньшем множестве признакового пространства — в теории распознавания образов это требование обычно формализуется как требование минимизировать так называемую вероятность ошибки классификации. Эта вероятность может быть записана в несколько обобщенной форме F(f) = jQ(f(x)J(x))V(dx), (1.4) где Q(-, ) — некоторая неотрицательная функция и V(-) — вероятностное распределение, заданное на Xі U X2, (Х1 U X2) = 1. Наилучшая аппроксимация fopt функции /() тогда находится из условия F(f) - min, /є{/} где минимум берется по заданному множеству {/} всех допустимых аппроксимирующих функций. При выборе +1, если Z О, если Z О sign( ) = _х функционал (1.4) принимает вид: F(f) = V{f(x)f(x) 0} и называется вероятностью ошибки распознавания. Функционал F(f) обращается в ноль, если с вероятностью 1 знаки функций /() и /() совпадают на всем множестве Xі U X2. В следующей главе в качестве функционала F(f), характеризующего качество аппроксимации функции / с помощью набора базисных функций, будет рассмотрен функционал (1.4) при Q(fJ) = (/-/)2.
Рассмотрим задачу распознавания, используя геометрический подход. Примем, что в пространстве признаков X выделены два класса изображений: Xі = {х : f(x) 0} и X2 = {х : f(x) 0}, которые порождаются в X функцией /(). Назовем их идеальными образами. Пусть также имеется система, организованная так, что при предъявлении ей входного вектора х она "вырабатывает" значения функций ipi(x), 2( )5 , PN(X) и вычисляет величину: / т Я \ г(2) / ,Я = Х (0 .-( ), т = 1=1 \#)/ при заданном векторе коэффициентов Т. Тем самым определяются множества (образы):
Таким образом, рассматриваемая система "классифицирует" любой сигнал, относя его либо к множеству Xі (Т), либо к множеству Х2(Т). Эта классификация может изменяться, если варьировать коэффициенты Т. Система, дополненная способом изменения весовых коэффициентов Т, может "подгонять" свою классификацию к некоторой требуемой. Если существует вектор % такой, что Xі(71) = Xі и X2(7I) = X2, то существует принципиальная возможность добиться сколь угодно высокого качества классификации: порождаемые системой образы будут сколь угодно точно совпадать с идеальными. При таком подходе обучение системы сводится к построению в пространстве Rm поверхности, разделяющей множества Xі(7 ) и Х2(7 ) , т. е. разделяющей поверхности. Всякую такую поверхность можно рассматривать как приближение к "идеальной" разделяющей поверхности. Приведенная интерпретация обучения системы послужила поводом назвать обсуждаемый вариант теории распознавания образов геометрическим подходом к задаче распознавания.
Выбор алгоритма для построения оценок парамета Т в процессе обучения опознающей системы в значительной степени зависит от той априорной информации, которая известна о классах изображений в пространстве признаков. Рассмотрим некоторые частные варианты задач, возникающих в теории обучаемых опознающих систем, используя для простоты их двуклассовую постановку.
Наиболее сильным предположением о классах изображений в признаковом пространстве является предположение о непересечении их выпуклых оболочек.
В рассматриваемой ситуации, решение задачи обучения сводится к построению линейной поверхности, разделяющей выпуклые оболочки заданных множеств, и может быть выполнено, например, с помощью таких известных алгоритмов как "Ява", "Полоска", "Отражение" и др. ([43], [46], [54]). Для надежности работы опознающей обучающейся системы следует выбирать разделяющую плоскость, наиболее удаленную от изображений тренировочного множества. Очевидно, такой будет плоскость, проходящая через середину отрезка, соединяющего две ближайшие точки выпуклых оболочек Со Xі и Со X2 классов изображений Xі и X2, перпендикулярно этому отрезку. Приведем рекуррентный алгоритма "Оптимальное разделение" для нахождения искомой плоскости ([27], [43]). Основная задача алгоритма — нахождение точек XQ Є Со Xі и г/о Є Со X2, реализующих расстояние между множествами Со Xі и Со X2. Остальные построения сложности не вызывают.

Алгоритм антиградиентного спуска
Задача аппроксимации функции по ее измерениям в отдельных точках является одной из центральных в вычислительной математике. Существуют различные варианты этой задачи, связанные со способом аппроксимации (заданием базисных функций, множества аппроксимации, выбором критерия качества аппроксимации и т. д.). В приложениях могут возникать различные специфические особенности, которые часто определяются дилеммой: как при минимальном числе измерений значений функции получить ее наилучшую аппроксимацию. В общем случае эту дилемму трудно формализовать; в приложениях подобные задачи часто решаются с помощью тех или иных эвристических подходов.
В общем виде задача аппроксимации состоит в следующем. Пусть на множестве аппроксимации X С Rm задана вещественная функция /() : Rm — Rs, значения которой известны (могут быть вычислены или измерены) на множестве Хо С X. В более общей постановке задачи предполагается, что вместо точных значений функции доступны зашум ленные величины у І = /(#») + V{, о помехах V{ делаются те или иные предположения, например, характерны предположения о центрированности и некоррелированности помехи. Пусть на X также задана матричная функция состоящая из (s х г)-матричных функций (рк(т) (г 1)? которые известны в произвольной точке iGX (будем называть эти матричные функции базисными). Задача состоит в продолжении (экстраполяции) функции /() с множества Хо на все X с помощью набора { ( )}ь=і5 точнее, требуется аппроксимировать функцию /() с помощью их линейной комбинации: коэффициенты Т аппроксимирующей (или восстанавливающей) функции /(,Т) выбираются в зависимости от того, в каком смысле понимается ее близость к /() на множестве Хо- Обычно имеется в виду наилучшее приближение, что связано с заданием критерия качества аппроксимации.
Типичной задачей аппроксимации является задача среднеквадратичного приближения функции на множестве Хо с помощью базисных функций { pk{ )}k-i- Для формулировки этой задачи примем, что на множестве X задана неотрицательная мера V (V(X.) = 1). Обозначим через li2(V,s) множество квадратично интегрируемых по мере V(-) s-вектор-функций. Множество li2(V,s) является гильбертовым пространством по отношению к скалярному произведению звездочка означает транспонирование соответствующей матрицы (вектор рассматривается как одностолбцовая матрица). Введем функцию
Коэффициент Т аппроксимирующей функции /(-,Т) будем определять из условия Множество векторов Т будем рассматривать как евклидово пространство HN r размерности N г со скалярным произведением Соотношение (Т,Т ) = Т Ґ ф(х) = Ф(х)Т
Задача аппроксимации функций тогда задает отображение Ф : HNr —» 1 (7 , s). Будем предполагать, что мера V(-) имеет вид функция Дирака, Jx ф(х)5(х)йх = ф(0) для любой достаточно гладкой функции ф(-) Є JJ2(V,S)). В этом случае множество Хо состоит из конечного числа р точек. Пространство li2(V,s) оказывается эквивалентным евклидову пространству Rsp со скалярным произведением абор коэффициентов Т, при котором минимум в (2.4) достигается, называется оптимальным. Задача нахождения оптимального набора коэффициентов Т из условия (2.4) всегда разрешима. Наилучшее в среднеквадратичном смысле приближение имеет вид: /(х) = 1(х,Т) = Ф(х)Т. Описанную задачу нахождения наилучшего (в среднеквадратичном смысле) приближения /() к функции /() будем называть стандартной задачей аппроксимации.
Проблема, связанная с непосредственным нахождением оптимального набора коэффициентов Т, может оказаться сложной с вычислительной точки зрения. Наиболее распространены два метода решения стандартной задачи (2.4): первый из них основан применении рекуррентных процедур, например процедуры антиградиентного спуска, второй — на сведении задачи оптимизации (2.4) к решению системы линейных уравнений Гаусса. Остановимся подробнее на этих методах.

Примеры применения представленных алгоритмов
С учетом полученных оценок, для условного среднего невязки выполняется неравенство Е{ ff - тН і } , - г II2 (і - 2W + MmJ/V + a?) + +Мт аф1е-1 + (СЕ {(S?)2 ,} + o(/3,2)). Выберем настолько малым, чтобы Mmzl2s 2ц и пусть г достаточно велико. Используя условия теоремы 2 для числовых последовательностей, преобразуем последнее неравенство к виду
В силу условий теоремы 2, выполнены все условия леммы Роббинса-Сигмунда ([34], гл.2, лемма 10; [63]), необходимые для сходимости с вероятностью единица ff - г при і —» со. Для доказательства в соответствующих условиях теоремы 2 сходимости в среднеквадратичном смысле возьмем безусловное математическое ожидание от обеих частей последнего неравенства Е {ff - г 2} Е{, - г 2} (1 - С,о,) + С (аф] + «?А"2(1 + )). Сходимость к точке г последовательности оценок {т } в среднеквадратичном смысле следует из [34], гл.2, лемма 5.
Доказательство теоремы для алгоритма (3.3) проводится аналогично.
Замечания 1. Выполнение условия (3.5) в общем случае предварительно не проверить. Однако, если для какой-либо последовательности оценок {Тп} условие (3.5) не выполняется, то это не означает невозможность получения состоятельных оценок с помощью алгоритмов (3.2) или (3.3). Можно взять другие начальные данные и попробовать воспользоваться алгоритмом еще раз.
2. Легко убедиться в том, что условия (П. 1,2,3) выполняются для функции q(x,r) = \\х — т\\2. В этом случае выполнение условия (3.4) означает, что расстояние между различными классами должно быть больше, чем максимальный среди всех классов радиус.
3. В теореме 2 помехи наблюдения V„ можно условно назвать почти произвольными, так как они могут быть неслучайными, но неизвестными и ограниченными, или представлять из себя реализацию некоторого стохастического процесса с произвольной структурой зависимостей. Известные ранее алгоритмы решения задачи самообучения либо требуют точного измерения значений функций потерь или их производных в заданных точках, либо используют предположения о независимости и центрированности помех наблюдения при доказательстве сходимости алгоритмов.
4. Из анализа доказательства видно, что в качестве пробного одновременного возмущения не обязательно брать бернуллиевские случайные величины. Достаточно потребовать для их распределения симметричности и конечности носителя. Другие соображения показывают, что при прочих равных условиях использование бернуллиевских случайных величин дает большую ффективность.
5. Можно рассматривать подпоследовательности {( „} и {/? }, изменяющиеся отдельно для оценок соответствующего класса. Это оказывается особенно удобным в случае, когда представители разных классов появляются в обучающей последовательности неравномерно.
6. Для анализа скорости сходимости алгоритмов (3.2) и (3.3) применимы результаты, представленные в [13] (теорема 3.2).
Рассмотрим примеры применения рандомизированных алгоритмов стохастической оптимизации (3.2), (3.3) для решения задачи самообучения ([22Ц24]). Пример 1
Рассмотрим пример использования для решения задачи самообучения алгоритма (3.2). Пусть известно, что в пространстве входов существует три класса изображений, которые с помощью набора признаков отображаются в соответствующие классы в пространстве признаков, содержащемся в R2. Решение задачи самообучения в этом случае сводится к разбиению пространства признаков на три подмножества, что эквивалентно нахождению трех центров этих множеств. В примере моделирования роль "настояших" классов в пространстве признаков играли множества Xі = [-1,0 ±1,8] х [-1,0 ±1,8], Х2 = [2,0±1,1] х [0,5 ±2,8], Х3 = [-0,5±1,3] х [3,0 ±2,0].
В качестве штрафных функций были выбраны qk = \\х — тк\\2, к = 1,2,3. На рис. 3.1 показаны результаты компьютерного моделирования применения алгоритма (3.2) для решения задачи самообучения после наблюдений на интервале времени от 1 до 300. При этом роль пробного одновременного возмущения играли случайные величины равномерно распределенные в квадрате [—1; 1] х [—1; 1]. Рассмотрим пример использования для решения задачи самообучения рандомизированного алгоритма стохастической оптимизации (3.3). В примере моделирования роль "настоящих" классов в пространстве признаков играли множества Хг = [(с% ± 2,5] х [(сг)у ± 2,5], і = 1,2,3,4, где — центры соответствующих множеств, выбираемые слу ( =)„. чайным образом. В качестве штрафных функций были выбраны q% = Ця —г 2, і — 1,2,3,4. На рисунке 3.3 показаны результаты компьютерного моделирования применения алгоритма (3.3) для решения поставленной задачи после наблюдения на интервале времени от 1 до 2000. Скорость и характер сходимости текущих оценок к "настоящим" центрам приведены на рис. 3.4.

Нейроны, нейронные сети и методы их обучения
Следуя [4] введем общее формальное описание нейронных сетей. Обобщенной искусственной нейронной сетью (ИНС) называется система, состоящая из взаимосвязанных по входам и выходам элементов, реализующих преобразования заданного вида. Класс преобразований, выбранный для реализации элементов ИНС, называется формальным ней-робазисом.
Веса реакций нейронов допускают настройку, реализуемую во времени с помощью различных алгоритмов. В общем виде она осуществляется по формулам w\l (t + l) = F [X(t),Y(t),W(t)} в дискретном времени, или d- = Fl;\x(t),Y{t),W(t)] dt в непрерывном времени. Здесь через X(t), Y(t), W{t) обозначены значения всех входов, выходов и весов соответственно в момент времени t.
Необходимо отметить, что функциональные преобразования F}j должны быть реализованы в нейробазисе. Выбором нейробазиса определяется работоспособность нейронной сети. В частности, характерным для многих модификаций ИНС является нейробазис, содержащий следующие типы преобразований: билинейное: у = wTx, у Є R1, w Є R , Є R ; сигмоидальное: у = o(x), j/GR1, X Є R1, где a(x) — монотонная дифференцируемая функция, такая что lim а(х) = 1, lim о(х) = 0; сдвиг на такт или интегрирование.
Так введенный нейробазис достаточно богат для аппроксимации практически любого гладкого функционального преобразования и позволяет построить точное представление многих важных функций [4].
Наиболее распространенным типом ИНС являются многослойные сети. Каждый слой такой сети реализует операцию преобразования входных сигналов в выходные: т. е. является композицией билинейного и сигмоидного преобразований. Вид сигмоидальных функций может быть различным. Наиболее часто используются сигмоидальные функции вида
Важной особенностью таких функций является то, что их производная представима в нейробазисе:
Одна из общепринятых точек зрения на нейронные сети заключается в том, что они рассматриваются как эффективное средство решения общей проблемы аппроксимации функций, но с заранее фиксированной программой настройки. При использовании ИНС для аппроксимации функциональных связей вводятся функционалы, характеризующие близость преобразования, осуществляемого ИНС, к заданному поточечному. Для реализации функциональных связей в нейробазисе может быть эффективно использована идея локальной аппроксимации ([4]). Остановимся на этом вопросе подробнее.
Основным элементом преобразования данных, необходимых для построения оценок локальной аппроксимации, является функция локальности /?(). В литературе по ИНС функции такого рода часто именуются колоколообразными. Они могут быть реализованы в приведенном выше нейробазисе. Фактически, требуется реализовать убывающую функцию расстояния между точками:
Преобразования такого вида, очевидно, реализуемы во введенном нейро-базисе. Если а(-) имеет вид (4.2), то что позволяет получить приемлемые оценки для локальных потенциалов. Оценка типа суммирования локальных потенциалов представима в виде:
Некоторые оценки локальной аппроксимации требуют реализации в ней-робазисе операции деления (в частности, оценка Надарая-Ватсона ([4])). Это осуществимо лишь приближенно, но может быть сделано достаточно эффективно. В [4] утверждается, что для любого х, 0 а х Ь, существуют величины Wk,ak,/3k такие, что справедливо соотношение Таким образом, в ИНС возможна реализация различных вариантов оценок локальной аппроксимации.
Основу функционирования искусственных нейронных сетей составляют алгоритмы обучения, позволяющие оптимизировать весовые коэффициенты. Особенности организации ИНС налагают на эти алгоритмы определенные ограничения. Именно, специфика нейронных сетей такова, что наборы информации, поступающие на вход сети, должны обрабатываться локальным образом как в пространстве, так и во времени. С математической точки зрения это означает, что нейронные сети используют рекуррентные алгоритмы, в которых новые значения весов И7, определяющих память ИНС, являются функциями предыдущих весов и наблюдаемого образа ([59]):

Похожие диссертации на Рекуррентные алгоритмы обучения и самообучения в теории распознавания образов

Комитетные конструкции в многоклассовых задачах распознавания образов Белецкий Николай Григорьевич

Предикатное описание дополнительных ограничений в задачах распознавания образовТаханов Рустем Серикович

К-сингулярные системы точек в алгебраическом подходе к распознаванию образовКарпович, Павел Алексеевич

Инвариантные методы в теории распознавания изображений Шмидт Анатолий Анатольевич

Применение методов теории распознавания образов для анализа колебательно-вращательных спектровЩербаков, Анатолий Петрович

Программный комплекс для анализа данных трековых детекторов методами распознавания образов и его применение в физике высоких энергий, элементарных частиц и космических лучейСтарков, Николай Иванович

Особенности разработки и программной реализации методов распознавания образов в задачах автоматизации биофизических исследованийБеридзе, Анна Дмитриевна

Идентификация сложных атомных спектров с помощью метода распознавания образовАзаров, Владимир Иванович

Исследование и оптимизация когерентных оптических систем автоматического распознавания образовТихомирова, Тамара Анатольевна

Метод минимизации эмпирического риска в задачах восстановления регрессии и обучения распознаванию образовОльшевская, Ольга Викторовна