Содержание к диссертации
Введение
Глава 1. Исследование существующих моделей НС 1 3
1.1. Обзор основных подходов к моделированию НС 13
1.2. Исследование основных параметров НС 17
1.3. Однонаправленные многослойные НС 20
1.4. Исследование градиентных алгоритмов обучения однонаправленных и полносвязных НС 25
1.5. Анализ коэффициентов обучения 36
1.6. Исследование эвристических методов обучения НС 40
1.7. Сравнение эффективности алгоритмов обучения 48
1.8. Выводы 50
Глава 2. Многослойная однонаправленная НС 51
2.1. Основные типы задач, решаемые многослойными однонаправленными НС 51
2.2. Многослойная однонаправленная НС с линейной активационной функцией 54
2.3. Многослойная однонаправленная НС с нелинейными активационными функциями 62
2.4. Алгоритм обучения НС по методу обратного распространения ошибки и возможность его оптимизации 74
2.5. Выводы 83
Глава 3. Разработка программного комплекса для тестирования эффективности методов формирования и обучения однонаправленных НС . 84
3.1. Описание структуры программного комплекса 84
3.2. Классы обработки данных 86
3.3. Класс формирования и обучения НС 103
3.4. Классы управления процессом обучения НС 106
3.5. Выводы 120
Глава 4. Результаты экспериментальной части исследования 121
4.1. Основа экспериментальной работы 121
4.2. Проведение экспериментальной части исследования для задач прогнозирования 124
4.3. Проведение экспериментальной части исследования для задач распознавания 142
4.4. Вопрос практического применения разработанного программного комплекса 154
4.5. Выводы 159
Заключение 162
Список литературы 164
- Исследование основных параметров НС
- Исследование эвристических методов обучения НС
- Класс формирования и обучения НС
- Проведение экспериментальной части исследования для задач распознавания
Введение к работе
Квантовые осцилляционные эффекты при изучении зонной структуры твёрдого тела дают наиболее обширную информацию о предмете исследования. Однако интерпретация их, за исключением быть может эффекта Газа - ван Альфена, требует всесторонней математической обработки результатов эксперимента. Следует отметить, что наиболее «прозрачный» в физическом смысле эффект Газа - ван Альфена также изобилует многочисленными тонкостями при интерпретации экспериментальных данных.
Данная работа посвящена аналитическому и численному исследованию магнитооптического эффекта в анизотропных монокристаллах на основе модельных представлений, в частности, разработке и реализации метода моделирования формы линии магнитооптического эксперимента, выявлению закономерностей, обнаруживающихся в результате численного эксперимента, анализу адекватности математической модели и ее эвристичности.
Особенностью рассматриваемого физического эксперимента является то, что магнитное поле модифицирует электронный энергетический спектр в систему энергетических уровней Ландау, изучение переходов между которыми позволяет получить уникальную информацию о параметрах спектра. Применение системы, состоящей из двух трансляцион-но-симметричных монокристаллов, позволяет получить интенсивные магнитооптические спектры, пригодные для исследования формы зависимости интенсивности полезного сигнала от величины индукции магнитного поля. Если квант лазерного излучения существенно превосходит характерную энергию теплового размытия, то это позволяет существенно расширить исследуемый температурный интервал от Т = 4,2 К до Т = 280 К. Математическая обработка экспериментальных данных методом моделирования формы линии магнитооптических спектров в рамках модифицированной модели Бараффа позволила реализовать преимуще 5 ства осцилляционного эксперимента, в котором проявляются закономерности взаимодействия электромагнитного излучения с анизотропной плазмой носителей заряда, находящихся в квантующем магнитном поле.
Актуальность работы. Получение достоверной информации о параметрах электронного энергетического спектра узкозонных полупроводников и полуметаллов возможно при выполнении, по крайней мере, двух условий. Это проведение адекватного физического эксперимента и соответствующей математической обработки полученных данных. Квантовый магнитооптический эксперимент позволяет получить информацию о параметрах электронного энергетического спектра исследуемого материала и особенностях взаимодействия электромагнитного излучения с кристаллом в технически наиболее интересном интервале температур вплоть до комнатной.
Из эксперимента довольно трудно получить картину зонной структуры исследуемого материала. Интерпретация квантового магнитооптического эксперимента в деталях невозможна без моделирования формы экспериментальной линии. Кроме того, полуметалл висмут даёт уникальную возможность из-за малости эффективных циклотронных масс проводить эксперимент в магнитных полях достижимых с применением относительно простого оборудования, а особенности энергетического спектра висмута делают его модельным материалом при исследовании гальваномагнитных свойств твёрдых тел.
Резонансные оптические переходы носителей заряда на уровнях Ландау в таких полуметаллах как висмут дают уникальную информацию о закономерностях электронного энергетического спектра в широком диапазоне температур, что делает висмут модельным материалом при исследовании электронных свойств твёрдых тел. Это представляет большой интерес вследствие активного использования висмута, его сплавов и других полуметаллов в разнообразных термоэлектрических преобразователях и, в перспективе, в качестве материалов для инфракрасной спектроскопии. Интерес к оптическим свойствам данных материалов обусловлен тем, что они могут служить базой для изготовления фотоприемников, быстродействующих модуляторов излучения и других устройств. Поэтому является актуальным вопрос о генерации и усилении инфракрасного излучения в рассматриваемых условиях.
Всё это определяет актуальность математического моделирования процессов, происходящих в плазме твёрдого тела при взаимодействии с электромагнитным полем в присутствии магнитного квантования. Наибольшее значение приобретает надёжная информация о температурных зависимостях свойств кристаллов полуметаллов и функций отклика на внешние воздействия, получаемая с помощью математических моделей и численного эксперимента.
Объект и предмет исследования. Объектом исследований являлись анизотропные монокристаллы полуметаллов, а предметом исследования - их свойства: магнитооптический эффект, электронный энергетический спектр висмута и его сплавов, особенности взаимодействия электромагнитного излучения с анизотропными кристаллами, в присутствие магнитного квантования, в рамках модифицированной модели Бараффа.
Целью диссертационной работы является математическое моделирование, применение аналитических и численных методов исследования магнитооптического эффекта в планарном волноводе из висмута. При этом ставилась задача определить параметры электронного энергетического спектра носителей заряда в широком диапазоне температур и в различных кристаллографических направлениях, выяснить возможность применимости различных известных моделей электронного энергетического спектра к описанию физических свойств висмута, изучить особенности взаимодействия электромагнитного излучения с анизотропным кристаллом в присутствии квантующего магнит 7 ного поля, рассмотреть возможность создания конкретных технических устройств, основанных на методике полосковой линии.
Для достижения поставленной цели решались следующие задачи В качестве физических предпосылок к построению более точных математических моделей явился анализ процессов в кристаллах, в т.ч. численными методами:
• исследование распространения волн в планарном волноводе с применением численных методов и моделей энергетического спектра носителей заряда в висмуте;
• формулировка алгоритмов расчёта формы экспериментальной линии;
• разработка способа численного моделирования формы линии магнитооптического эксперимента, для этого решались уравнения Максвелла с граничными условиями в рамках модифицированной модели Бараффа;
• получение модельных зависимостей коэффициента пропускания полосковой линии от величины магнитного поля, параметров энергетического спектра, времени релаксации носителей заряда, комплексной диэлектрической проницаемости, совпадающие с экспериментом;
• разработка комплекса программ для обработки результатов магнитооптического эксперимента, реализации процедуры моделирования и исследования спектров;
• сравнение результатов моделирования, численного расчета и эксперимента.
Методы исследования. При выполнении работы использовались методы электродинамики сплошных сред, квантовой теории твёрдого тела, квантовомеханическои теории возмущений и математического моделирования, состоящие в анализе известных экспериментальных фактов, выделении главного элемента на каждой этапе вы 8 числительного алгоритма и его учете при моделировании. В качестве
математического аппарата использовались элементы математического анализа, дифференциальных уравнений, теории эрмитовых операторов, вычислительной математики и информатики с расчетом на ПЭВМ всех стадий созданного алгоритма решения поставленной задачи.
Научная новизна заключается в программной реализации алгоритма математической модели, которая, в отличие от предыдущих разработок основана на сочетании следующих принципов построения и оценки степени ее достоверности на различных этапах:
1. Аналитическое решение уравнений Максвелла и квантомеханиче-ское рассмотрение свойств стенок волновода сочетается с численным решением дисперсионного уравнения для волны, распространяющейся в волноводе.
2. Расчёт уровней Ландау и матричных элементов оператора скорости проводился во втором порядке теории возмущений.
3. Учитывались осцилляции уровня Ферми в зависимости от величины магнитного поля и изменение положения уровня Ферми в зависимости от температуры и кристаллографического направления.
4. Для расчётов использовалось квантовомеханическое выражение для тензора высокочастотной удельной электропроводности и диэлектрической проницаемости.
5. Варьировалось количество уровней Ландау, необходимых в расчёте компонент тензора высокочастотной диэлектрической проницаемости (не менее 600).
6. Численным экспериментом установлены корни дисперсионного уравнения, единственность решения и устойчивость решения по начальному приближению и вариации параметров модели.
7. Применена блочная структура программного комплекса, причём
суммирование по волновому вектору производилось во внешнем цик
ле, организованном с помощью командного файла. Защищаемые положения
1. Аналитическое решение уравнений Максвелла с граничными условиями в сочетании с численным решением дисперсионного уравнения для электромагнитной волны, распространяющейся в волноводе, с учётом свойства среды стенок волновода средствами квантовомехани-ческой теории возмущений в приближении тензора эффективных масс, позволяет создать предпосылки для построения математической модели, необходимой для исследования формы линии магнитооптического эксперимента [39, 41, 89, 90].
2. Математическая модель, основанная на модифицированной модели Бараффа, позволяющая однозначно определить зависимости параметров энергетического спектра, времени релаксации носителей заряда, комплексной диэлектрической проницаемости от температуры, обеспечивает возможность оценить размеры области оптических межзонных переходов носителей заряда в к - пространстве. Численный расчёт, сделанный при самых общих предположениях, справедлив для всех немагнитных материалов в линейном приближении, а особенности полуметалла висмута учтены расчётом уровней Ландау, уровня Ферми и матричных элементов оператора скорости во втором порядке теории возмущений [34, 77,91, 92].
3. Математическая модель электромагнитного процесса в планарном волноводе в сочетании с численным расчётом корней дисперсионного уравнения позволила обосновать сходимость метода по начальному приближению, единственность решения и определить величину погрешности (не превышающую 6%), вносимую выбранным методом расчёта [79, 82, 84].
4. Введение в математическую модель комплексных констант в диагональные компоненты тензора высокочастотной диэлектрической проницаемости и функциональной зависимости времени релаксации от величины магнитного поля определяет границы применимости МО 10 дели т приближения и модели электронного энергетического спектра
висмута в приближении тензора эффективных масс [39, 40, 85].
Личный вклад автора. Основные результаты диссертации получены лично автором. Ряд экспериментальных данных и численных результатов, используемых в диссертации, получены Бровко СВ., Собченко CO., Токаревым В.В. Расчёт матричных элементов оператора скорости в первом порядке теории возмущений производился совместно с Бровко СВ., а во втором порядке теории возмущений - с Кондаковым О.В. При этом диссертанту принадлежит постановка задачи, выбор методов её решения и получение ключевых результатов.
1. Соискатель сформулировал и реализовал на практике метод расчёта формы линии магнитооптического эксперимента, заключающийся в расчёте коэффициента пропускания планарного волновода в зависимости от величины магнитного поля. Классифицированы поверхностные электромагнитные волны, распространяющиеся в полосковой линии, найдены два дисперсионных уравнения для электромагнитных волн, существующих в планарном волноводе, получены матричные элементы оператора скорости для всех разрешённых и запрещённых межзонных и внутризонных оптических переходов электронов на уровнях валентной зоны и зоны проводимости. Рассчитан коэффициент пропускания планарного волновода с приемлемой для анализа точностью.
2. Автором проведена статистическая обработка с помощью ПЭВМ полученных спектров и оценены погрешности экспериментальных данных.
3. Соискателем проведён анализ полученных спектров магнитопро-пускания: а) по положению в магнитном поле максимумов осцилляции; б) численным моделированием формы линии.
и
4. Определены параметры энергетического спектра в зависимости от магнитного поля, температуры и кристаллографических направлений висмута, отличающиеся от данных других работ.
5. Диссертантом сделан вывод о суммировании интенсивностей электромагнитных волн, провзаимодеиствовавшнх с материалом стенок волновода, определена область межзонных переходов в к - пространстве, обоснована наблюдаемая неэллипсоидальность поверхностей Ферми висмута при Т = 78 К, определены значения фоновой части диэлектрической проницаемости.
Научная значимость работы состоит во всестороннем исследовании методами численного и математического моделирования магнитооптических осцилляции, в установлении особенностей распространения электромагнитных волн в планарном волноводе, характера и особенностей процессов рассеяния носителей заряда в условиях магнитного квантования; в определении параметров закона дисперсии модифицированной модели Бараффа.
Практическая значимость работы заключается в создании комплекса программ, реализующих алгоритм расчёта формы линии зависимости интенсивности излучения, прошедшего через планарный волновод, от величины магнитного поля; в определении параметров, характеризующих взаимодействие электромагнитного излучения с веществом, в том числе, обеспечивающих высокую модуляцию пропускания волновода в зависимости от величины магнитного поля, для определения возможности его практического применения в качестве основного элемента оптического квантового генератора в инфракрасной области спектра с частотой, перестраиваемой магнитным полем. Практическое значение работы заключается в том, что модель, основанная на классическом рассмотрении электромагнитного поля и квантовом учёте свойств вещества, применима для большого круга материалов. Материалы диссертационного исследования могут быть использованы при планировании и анализе результатов квантовых магнитооптических и гальваномагнитных эффектов. Разработанная методика и программное обеспечение могут быть использованы для исследования других полуметаллов и сплавов.
Структура диссертации
Диссертация состоит из введения, трех глав, заключения, списка литературы и Приложений.
В первой главе приведен литературный обзор теоретических и экспериментальных работ, посвященных изучению зонной структуры висмута, закона дисперсии носителей заряда. Описана методика и техника магнитооптического эксперимента.
Во второй главе описывается метод моделирования формы линии магнитооптического эксперимента, заключающийся в численном расчёте коэффициента пропускания системы находящейся в магнитном поле и состоящей из двух трансляционно-симметричных монокристаллов висмута с зазором между ними, внутри которого распространяется электромагнитная волна.
В третьей главе приводятся сравнения результатов, полученных методами моделирования, с экспериментальными данными. Рассматривается вклад в магнитооптический отклик кристалла от электронов с различными циклотронными массами. Анализируются параметры, характеризующие электромагнитный процесс в планарном волноводе. Исследуется зависимость магнитопропускания планарного волновода из монокристаллов висмута от направления вектора индукции магнитного поля по отношению к осям высокой симметрии. Рассматриваются параметры, характеризующие электронный энергетический спектр в точке L зоны Бриллюэна. Анализируется структура магнитооптических осцилляции, связанных с оптическими переходами на уровнях Ландау в висмуте при Т = 80К. Особое внимание уделено форме и раз ІЗ мерам области в к - пространстве, в которой происходят межзонные
переходы носителей заряда между уровнями Ландау валентной зоны и
зоны проводимости под действием электромагнитного излучения.
В заключении перечислены основные результаты и выводы, полученные в работе.
В приложения вынесены вопросы программного обеспечения, численного счета и другие вспомогательные материалы.
Исследование основных параметров НС
Существует огромное количество различных моделей НС [77], имеющих множество индивидуальных особенностей и характеристик. Однако все НС, рассматриваемые в соответствии со структурным подходом, обладают рядом общих характеристик: правило распространения сигналов в НС; правило вычисления сигнала активности; правило обучения, корректирующее связи; структура связей; размер НС; емкость НС.
Все эти характеристики оказывают влияние на возможность обучения определенному числу образов, скорость обучения и возможность дальнейшего переучивания НС.
Правило распространения сигналов в НС
В обычных компьютерных программах используются условия, выполнение которых определяет начало и конец различных процессов. То же самое верно и для НС. Каждая конкретная модель НС предполагает наличие некоторого правила обновления состояния элементов НС (то есть правила комбинирования входящих сигналов, вычисления исходящего сигнала) и посылки сигнала другим элементам. При этом в одних моделях моменты обновления элементов выбираются случайным образом, в других же моделях обновление некоторых групп элементов допускается только после обновления определенных групп предыдущих элементов.
Правило вычисления сигнала активности
Для всех элементов имеется правило вычисления выходного значения, которое предполагается передать другим элементам или во внешнюю среду (если речь идет о выходном элементе, представляющем конечный результат вычислений). Это правило называют функцией активности, а соответствующее выходное значение называют активностью соответствующего элемента. Активность может представляться либо некоторым действительным значением произвольного вида, либо действительным значением из некоторого ограниченного интервала значений (например, из интервала [0, 1]) или же некоторым значением из определенного дискретного набора значений (например, {0, 1} или {+1,-1}). На вход функции активности поступает значение комбинированного ввода данного элемента.
Правило обучения, корректирующее связи
Одно из главных преимуществ НС заключается в том, что они предполагают наличие правил, с помощью которых эта НС может меняться. Это может быть как жесткая функция, так и набор некоторых правил, условий или ограничений, описывающих изменения НС. Типичной формой обучения является управляемое обучение, когда для каждого набора данных, подающегося в процессе обучения на вход НС, соответствующий выходной набор известен. Обычно в начале обучения коэффициенты устанавливаются случайным образом так, что в первый раз при предъявлении НС учебного образа оказывается весьма маловероятным, чтобы НС произвела верный вывод. Расхождение между тем, что даст НС, и тем, что для данного учебного набора должно быть получено на самом деле, составляет ошибку, которая может использоваться для корректировки весовых коэффициентов.
Структура связей
Структура связей отражает то, как соединены элементы НС. В одной модели (то есть для одного типа НС) каждый элемент может быть связан со всеми другими элементами этой НС, в другой модели элементы могут быть организованы в некоторой упорядоченной по уровням (слоям) иерархии, где связи допускаются только между элементами в смежных слоях, а в третьей — могут допускаться обратные связи между смежными слоями или внутри одного слоя, допускаться посылка сигналов элементами самим себе. Возможности здесь практически бесконечны, но обычно для каждой конкретной модели НС указывается тип допустимых связей.
Каждая связь определяется тремя параметрами: элементом /, от которого исходит данная связь, элементом j, к которому данная связь направлена, и числом wtJ, указывающим весовой коэффициент (вес связи). Отрицательное значение весового коэффициента wu соответствует подавлению активности соответствующего элемента, а положительное значение — усилению его активности. Абсолютное значение весового коэффициента характеризует силу связи. Структура связей обычно представляется в виде весовой матрицы w, в которой каждый элемент wu представляет величину весового коэффициента для связи, идущей от элемента / к элементу j. Для описания структуры связей может использоваться не одна, а несколько весовых матриц, если элементы НС оказываются сгруппированными в слои.
Размер и емкость НС
Нет строго определенной процедуры для выбора количества нейронов и количества слоев в НС. Чем больше количество нейронов и слоев, тем шире возможности самой НС. Однако тем более нелинейной может быть зависимость вход-выход, но тем медленнее обучается и работает сама НС. Количество нейронов и слоев связано со следующими моментами: сложностью задачи; количеством данных для обучения; требуемым количеством входов и выходов НС; имеющимися ресурсами: памятью и быстродействием машины, на которой моделируется НС;
Исследование эвристических методов обучения НС
Помимо алгоритмов обучения, реализующих апробированные методы оптимизации нелинейной целевой функции (такие, как методы переменной метрики Левенберга-Марквардта либо сопряженных градиентов), создано огромное количество алгоритмов эвристического типа, представляющих собой в основном модификацию методов наискорейшего спуска или сопряженных градиентов. Подобные модификации широко известных алгоритмов связаны с внесением в них некоторых изменений, ускоряющих (по мнению авторов) процесс обучения. Как правило, такие методы не имеют серьезного теоретического обоснования, особенно это относится к процедуре подбора управляющих параметров. Однако в таких алгоритмах реализуется личный опыт работы авторов с нейронными сетями. К наиболее известным эвристическим алгоритмам относится Quickprop [86] С. Фальмана, а также RPROP [98] М. Ридмиллера и X. Брауна.
Алгоритм Quickprop Алгоритм Quickprop содержит элементы, предотвращающие зацикливание в точке неглубокого локального минимума, возникающего в результате работы нейрона на фазе насыщения сигмоидальной кривой, где из-за близости к нулю производной функции активации процесс обучения практически прекращается.
Первое слагаемое -— соответствует оригинальному алгоритму наискорейшего спуска, последнее слагаемое a Aw,tJ(к-\) - фактору момента, а средний член yw.tJ предназначен для минимизации абсолютных значений весовых коэффициентов. Коэффициент у, имеющий обычно малую величину, (типовое значение j = 10 4), - это фактор, приводящий к уменьшению весовых коэффициентов вплоть до возможного разрыва соответствующих взвешенных связей. Константа ijk - это коэффициент обучения, который в данном алгоритме может иметь ненулевое значение % (как правило, 0,01 щ 0,6) на старте процесса обучения, когда Aw,,} (к -1) = 0 либо когда dE{w(k)) + yw,/k) Awlt/ 0, или нулевое значение - в противном случае. .j
Важную роль в алгоритме Quickprop играет фактор момента, который адаптируется к текущим результатам процесса обучения. В соответствии с алгоритмом Фальмана коэффициент момента a:J подбирается индивидуально для каждого весового коэффициента по правилу (() _ \am dePJk) am. deSJk)AWll{k \)(iu(k) i) аи А,/ (1.47) причем «m,W, (1.48) ,j ,( ,_ А-./( ) sjk- -s k) Ы9)
Константа ашш - это максимальное значение коэффициента момента, которая по предложению Фальмана принимается равной атш = 1,75. Также известна упрощенная версия алгоритма Quickprop, в которой значения весовых коэффициентов изменяются в соответствии с правилом
В нем уменьшено количество управляющих параметров и упрощена сама формула уточнения значений весовых коэффициентов. Эффективность модифицированного алгоритма сравнима с оригинальным алгоритмом Фальмана [101, 49].
Алгоритм RPROP
Другой простой эвристический алгоритм, демонстрирующий высокую эффективность обучения, - это алгоритм М. Ридмиллера и X. Брауна, называемый RPROP (англ.: Resilient back PROPagatiori) [98, 106]. В этом алгоритме при уточнении весовых коэффициентов учитывается только знак градиентной составляющей, а ее значение игнорируется: ҐдЕ(м(к))Л (1.52) dw Aw(J( ) = -?u( )sgn I,I j
Коэффициент обучения подбирается индивидуально для каждого весового коэффициента wLj с учетом изменения значения градиента: mm{ar,Jk-\\rimJ для 5/J(t)5/J(A-l) 0 тякфч к-1), ) для StJ(k)Sltj(k-\) Q , т}і}(к-\) в остальных случаях (1.53) где S (к) = — , ни Ъ - константы: « = 1.2; = 0.5. Минимальное и dw.. максимальное значения коэффициента обучения обозначены соответственно rjmm и 7jmax; для алгоритма RPROP они составляют т}тп =10" и г}тах =50. Функция sgn() принимает значение, равное знаку градиента.
Алгоритм RPROP, в котором игнорируется информация о значении градиента, позволяет значительно ускорить процесс обучения в тех случаях, когда угол наклона целевой функции невелик. В соответствии со стратегией подбора весовых коэффициентов, если на двух последовательных шагах знак градиента не изменяется, предусматривается увеличение коэффициента обучения. Если же знак градиента изменяется, то коэффициент обучения уменьшается.
Алгоритм обратного распространения ошибки
Но наиболее популярным, и чаще всего применяемым на практике, является алгоритм обучения по методу обратного распространения ошибки. Это связано с тем, что данный алгоритм во многом лишен недостатков других алгоритмов. Алгоритм обратного распространения ошибки определяет стратегию подбора весовых коэффициентов многослойной НС с использованием градиентных методов оптимизации, при этом для его реализации нет необходимости выполнения чрезмерно большого числа машинных команд на одну итерацию обучения, что позволяет быстро и эффективно обучать большие (состоящие из тысяч нейронов) и малые (состоящие из десятков и сотен нейронов) НС. В настоящее время алгоритм обратного распространения ошибки считается одним из наиболее эффективных алгоритмов обучения многослойной НС. Его основу составляет целевая функция, формулируемая, как правило, в виде квадратичной суммы разностей между фактическими и ожидаемыми значениями выходных сигналов.
Класс формирования и обучения НС
Основным классом, отвечающим за формирование и проведение обучения НС, является TNetsInterface. К основным функциям данного класса относятся: установка НС в исходное состояние (инициализация всех весовых коэффициентов случайными значениями); обработка входных векторов и получение соответствующих им реакций (выходных векторов) от НС; обучение НС.
Управление процессом инициализации НС осуществляется из основного интерфейса программы, вкладка «Нейронная сеть», рис. 3.11. [2]. Управление процессом обучения (в том числе изменение скорости обучения, инерции и других параметров) осуществляется из управляющего класса TStudyMake или TAutoTeacher, рассматриваемых далее.
Обучение НС, осуществляется с помощью алгоритма обратного распространения ошибки, рассмотренного в первой главе данной работы. В качестве активационной в моделируемой НС используется сигмоидальная функция. Обучение НС может проводиться в двух режимах: это классическое обучение и обучение с применением предложенных во второй главе модификаций алгоритма обратного распространения ошибки.
Синтаксис вызова и описание функций класса TNetsInterface, рис. 3.12.:
NeuronNetWorksStudy (массив значений входного вектора) - функция вычисления выходных значений НС по вектору входных значений, передаваемому в функцию в качестве параметра.
NeuronNetStudyfjuaccue ожидаемых значений) - функция обучения НС в соответствии с массивом ожидаемых значений, передаваемым в функцию в качестве параметра. Обучение производится по алгоритму обратного распространения ошибки.
NeuronNetWorb (массив входного вектора, указатель на массив для выходных значений НС) - функция вычисления выходных значений, формируемых НС, по входным значениям, передаваемым в функцию в качестве первого параметра. Вторым параметром является ответ НС.
SaveMain (указатель на файл) - функция для сохранения всех параметров класса в файл, указатель на который передается в качестве параметра. Сохраняются все текущие параметры обучения и весовые коэффициенты.
LoadMain (указатель на файл) - загрузка ранее сохраненной НС из файла, указатель на который передается в функцию в качестве параметра.
Класс TStudyMake является основным классом в задаче управления процессом обучения. Основной задачей данного класса является формирование последовательности обучающих образов и корректировка параметров НС в ходе процесса обучения.
Класс TStudyMake связывает НС (TNetsInterface) и классы, формирующие учебные множества данных (TSequence, TImageSequence, TWavSequence).
Распределение последовательности передачи учебных образов в НС оказывает существенное влияние на обучение. Если учебные векторы подавать не в случайном порядке, то существует вероятность полного переориентирования НС на один из классов с практически полным забыванием всех остальных образов. Это значительно увеличивает время, затрачиваемое на обучение НС.
Таким образом, к основным функциям класса TStudyMake можно отнести: распределение порядка передачи учебных образов в НС при обучении; проверка подготовленных учебных данных на внутреннюю (линейную) непротиворечивость; проверка допустимости применения образов (для каждого учебного образа в отдельности) при использовании в качестве источника данных класса TSequence. Проверка «весомости» учебного образа. Блок-схема функционирования класса TStudyMake представлена на
рис. 3.13., а управляющее воздействие на данный класс осуществляется из основного интерфейса программы, рис. 3.3., рис. 3.6., рис. 3,9. [2].
Проведение экспериментальной части исследования для задач распознавания
Поскольку кроме задач прогнозирования НС используются и в задачах распознавания или классификации, о чем уже говорилось выше, то для полноты тестирования предложенных методов были рассмотрены еще и две практические задачи распознавания. Это задача распознавания графических изображений и звуковых сигналов.
В задаче распознавания графических изображений рассматривались цельные образы цифр и букв, сформированные с помощью различных шрифтов [52]. Всего 25 образов по 25 вариантов написания каждого из них.
Размер входного вектора задавался пользователем в зависимости от масштабируемых размеров исходного изображения. Использовались такие конечные изображения:
Число скрытых слоев выбиралось равным 1 в соответствии со сделанными во второй главе предположениями. Для сравнения скорости и эффективности обучения использовалась еще одна НС с двумя дополнительными скрытыми слоями нейронов (трехслойная НС). Размеры всех скрытых слоев принимались равными и составляли значения I, от 20 до 100 с шагом 10, от 100 до 600 с шагом 50, от 600 до 1200 с шагом 100 и от 1200 до 2400 с шагом 300. Z, - {20,30,40,50,60,70,80,90,100,150,200,250,...,600,700,...,1200,1500,...,2400} (4.5)
Аналогично рассмотренной выше задаче прогнозирования, при условии очевидного превышения необходимого числа нейронов, НС более не увеличивались, и программа переходила к следующему набору исходных образов. Момент превышения определялся путем анализа собираемой статистики по процессу обучения.
Число различных вариантов подготовки исходных данных для задачи распознавания графических изображений: два это передача образа в градациях серого и черно-белых изображений. В первом случае каждый пиксель рассматривался как значение в диапазоне от 0 (черное) до 1 (белое). Во втором случае каждый пиксель изображения рассматривался как черный или белый {ОД}. Ожидаемые вектора могли быть сформированы как одно из трех вариантов представления номера класса. В качестве учебных образов использовался набор из 25 различных графических изображений.
Таким образом, перебор всех возможных вариантов НС с подачей всех возможных вариантов исходных данных составлял 15 600 комбинаций. Однако при проведении практического эксперимента часть комбинаций была отброшена ввиду очевидной неэффективности конфигураций НС или недостаточной предварительной подготовки учебных данных. Так, не рассматривались НС с числом нейронов более 300, поскольку число учебных образов для данной задачи не велико и составляет всего 625 штук с учетом тестовых образов. Общее число сформированных, обученных и протестированных НС составило около 1600 вариантов.
Результаты проведенных экспериментов, приводятся в том же порядке, что и результаты для задачи прогнозирования. Рис. 4.11, рис. 4.12 и рис. 4.13. Основное отличие между задачами прогнозирования и распознавания заключается в эффективности применения НС. Если в задачах прогнозирования можно говорить, в лучшем случае о 77% точности прогнозов НС для тестовых образов, то в задачах распознавания речь идет уже о 92% вероятности распознавания тестового образа. Наиболее явные изменения, показывающие эффективность применения модифицированного алгоритма обучения НС, проявлялись при использовании максимального числа учебных образов и при максимальном размере самого образа. Модифицированный алгоритм позволял увеличить число верно распознаваемых тестовых образов в среднем на 7,5%, или, иначе говоря, до 99.5% вероятности верного распознавания (рис. 4.11).
Вместе с тем модификация алгоритма обучения в соответствии с предложениями, выдвинутыми во второй главе, и формулой (2.54) для изменения значения ошибки нейронов последнего слоя самое существенное влияние оказывала на время, необходимое на проведение полного обучения НС. На рис. 4.11 и 4.12 видно, что для достижения равного значения средней ошибки НС, обучаемой с помощью модифицированного алгоритма обратного распространения ошибки, потребовалось в примерно на 27,5% меньшее число эпох (итераций) обучения, по сравнению с не модифицированным алгоритмом. При этом ситуация, когда в процессе обучения значение максимальной ошибки было равно 1, практически исключается, при применении модифицированного алгоритма обучения. По рис. 4.13 видно, что значение максимальной ошибки начинает резко снижаться уже на 2700 эпохе обучения, и в конечном итоге оно будет уменьшаться вместе со значением средней ошибки обучения, а не останется равной 1, как при использовании немодифицированного алгоритма.
Безусловно, меньшее число учебных образов оказало свое влияние, на формирование НС, вынудив использовать НС небольшого размера. Практически во всех проведенных экспериментах оптимальный размер НС лежал в пределах 50-80 нейронов, а НС, содержащие более 300 нейронов, уже почти не использовались. Применение формулы (2.24) позволило еще значительнее ограничить необходимый размер НС.
Если для проведения вычислительного эксперимента в задачах прогнозирования понадобилось почти 5000 часов машинного времени, то для проведения вычислительного эксперимента в задачах распознавания понадобилось менее 1000 часов.