Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Высокоточное нейросетевое распознавание в системах технического зрения Руденко, Ольга Валентиновна

Высокоточное нейросетевое распознавание в системах технического зрения
<
Высокоточное нейросетевое распознавание в системах технического зрения Высокоточное нейросетевое распознавание в системах технического зрения Высокоточное нейросетевое распознавание в системах технического зрения Высокоточное нейросетевое распознавание в системах технического зрения Высокоточное нейросетевое распознавание в системах технического зрения
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Руденко, Ольга Валентиновна. Высокоточное нейросетевое распознавание в системах технического зрения : диссертация ... кандидата технических наук : 05.13.01 / Руденко Ольга Валентиновна; [Место защиты: Кубан. гос. технол. ун-т].- Краснодар, 2011.- 139 с.: ил. РГБ ОД, 61 12-5/1110

Содержание к диссертации

Введение

1. Анализ современных подходов к разработке систем технического зрения 9

1.1. Структурная организация систем технического зрения 9

1.2. Модели информативных признаков для распознавания

1.2.1. Общая модель классификации 11

1.2.2. Выбор информативных признаков 15

1.3. Нейросетевой метод распознавания и способы его реализации 20

1.3.1. Математическая модель нейрона и нейронной сети 20

1.3.2. Применение нейросетевого метода 24

1.3.3. Применение нейронных сетей в экспертных системах 28

1.3.4. Программное обеспечение для имитационного моделирования нейронной сети

1.4. Основные проблемы разработки и адаптации систем технического зрения в промышленности 33

1.5. Цели и задачи исследований 35

1.6. Выводы 37

2. Методы решения задачи распознавания в системах технического зрения 38

2.1. Структура методов распознавания 38

2.2 Методы и алгоритмы предварительной обработки изображений 42

2.2.1. Отделение объекта от фона методом связных компонент 42

2.2.2 Преобразование реальных контуров изображений 45

2.3. Вейвлет- спектр цветовой окраски и формы исследуемых объектов 48

2.4. Исследование и понижение размерности признакового пространства51

2.4.1 .Генетический алгоритм 51

2.4.2. Анализ главных компонент з

2.4.3. Факторный анализ 57

2.5.Выводы 61

3. Алгоритм нейросетевого распознавания 63

3.1. Выбор объектов исследования для нейросетевого алгоритма 63

3.2. Математическое описание нейронной сети 66

3.3. Структура нейронной сети 69

3.4. Оценка сложности задачи классификации 84

3.5. Минимизация функции ошибки обучения с помощью градиентных методов 86

3.6. Оценка точности работы распознающего устройства по экспериментальным данным 93

3.7. Сравнение точности распознавания нейросетевого алгоритма с другими методами классификации 103

3.8. Выводы 107

4. Нейросетевой блок распознавания экспертной системы мониторинга качества при производстве консервов из растительного сырья 108

4.1. Автоматизация инспекции сырья как этап технологического процесса и часть вычислительного ядра ЭС 108

4.2. Нейросетевой блок контроля сырья экспертной системы (ЭС) мониторинга показателей безопасности и качества 111

4.3. Работа нейросетвого алгоритма по выделению примесей из сырья 114

4.4. Оценка точности работы нейросетевого блока контроля сырья экспертной системы 120

4.5. Выводы 122

Заключение 123

Список литературы

Введение к работе

Актуальность темы

Последние десятилетия для автоматизации производства активно ведутся разработки систем технического зрения (СТЗ). Для повышения эффективности функционирования СТЗ необходимо постоянно пополнять арсенал методов и средств предварительной обработки изображения и построения классификаторов, сочетающих требуемые показатели по быстродействию и достоверности идентификации. Перспективные СТЗ экспертного уровня точности для объектов природного происхождения в задачах пищевой и зерноперерабатывающей промышленности рассмотрены в работах А.Ю. Шаззо с сотр., Русанова И.А. с сотр. и др. на основе различных методов распознавания: статистических, нейросетей (НС), байесовских сетей и т.д. Нейросетевые алгоритмы и технологии построения нейросетевых экспертных систем разработаны в трудах как зарубежных, так и российских ученых: А.Н. Горбанем, В.В. Кругловым, Е.М. Миркесом, В.А. Дуниным-Барковским и др. Основная трудность при разработке НС с заданными свойствами является отсутствие теоретического проектирования их топологий и предсказание точности распознавания. В связи с этим изучение возможной достижимой для НС точности распознавания массовых объектов с сильной внутриклассовой визуальной вариабельностью и разработка соответствующих методов, гарантирующих достаточную заданную точность, является актуальной задачей.

Цель работы: разработка методов и алгоритмов по применению в СТЗ нейронных сетей для распознавания с достаточной заданной точностью массового количества объектов природного происхождения с сильной визуальной внутриклассовой вариабельностью.

Предмет исследования: совокупность математических моделей и основных архитектур нейронных сетей, позволяющих проводить классификацию объектов с большой визуальной внутриклассовой вариабельностью, реализуемых программно на нейроимитаторах.

Объект исследования: процесс распознавания экспертного уровня точности объектов природного происхождения.

Основными задачами исследования являются:

  1. совершенствование методик и технологий для распознавания объектов природного происхождения с большой визуальной внутриклассовой вариабельностью в промышленных СТЗ с заданной точностью;

  2. отбор информативных признаков, участвующих в классификации;

  3. выбор топологии и обучение нейронной сети;

  4. создание «обучающей» базы данных программного комплекса нейросетевого распознавания;

  5. разработка программного обеспечения, позволяющего проводить высокоточное распознавание, на основе нейронных сетей;

  6. оценка точности распознающего алгоритма;

  7. обоснование эффективности нейросетевого метода распознавания по сравнению с другими методами.

Методы исследования. В диссертации использованы методы системного анализа, распознавания образов, компьютерного зрения, нейронных сетей, математической статистики, спектрального анализа.

Положения, выносимые на защиту:

  1. выбор типа признакового пространства для распознавания объектов с большой визуальной внутриклассовой вариабельностью;

  2. выбор типа пользовательской топологии и подбор методов обучения нейронной сети для высокоточного распознавания;

  3. оценка точности работы нейронной сети на реальном наборе данных;

  4. блок экспертной системы на основе нейронной сети для контроля качества пищевой продукции.

Научная новизна работы:

повышение точности распознавания с использованием нейронной сети на основе объединения геометрических параметров и цветовых составляющих объектов пищевой и зерноперерабатывающей промышленности;

предложена методика выбора топологии и методов обучения нейронной сети для задачи высокоточного распознавания;

проведены экспериментальные исследования по проверке эффективности разработанной системы.

Достоверность и обоснованность научных результатов и выводов основана на корректности постановок задач и используемого математического аппарата, адекватности математических моделей и согласованностью теоретических расчетов с экспериментальными результатами.

Практическая значимость. Результаты работы использованы при разработке программного обеспечения базы данных для лабораторного стенда экспертного уровня для целей семеноводства и для создания блока распознавания сырья экспертной системы мониторинга показателей безопасности и качества.

Реализация и внедрение результатов работы. Диссертационные исследования выполнены в рамках госбюджетной темы НИР №8.5.06-10 «Исследования математических моделей для естественнонаучных приложений» по кафедре Общей математики КубГТУ и гранта РФФИ и Администрации Краснодарского края №08-07-99033-р_офи 2008-2009 г.г.

Результаты работы внедрены на кафедре Пищевой инженерии и высоких технологий (КубГТУ, г. Краснодар) и в Краснодарском научно-исследовательском институте хранения и переработки сельскохозяйственной продукции ГУ КНИИХП (г. Краснодар).

Публикации. Основные положения диссертации достаточно полно изложены в 7 печатных работах, из них 5 статей (3 статьи в изданиях из перечня ВАК для публикации научных результатов диссертаций на соискание ученой степени доктора и кандидата наук) и 2 тезиса докладов.

Получено 2 свидетельства о государственной регистрации программы для ЭВМ № 2011613332 и №2011615407.

Апробация работы. Основные результаты диссертации обсуждались на международной, всероссийской и региональной научных конференциях:

V Международная научная конференция «Научный потенциал XXI века», Ставрополь, 2011 г.;

конференция получателей грантов регионального конкурса РФФИ и Администрации Краснодарского края «Юг», 2007-2008 гг.;

I межвузовская научно-практическая конференция «Автоматизиро-ванные информационные и электроэнергетические системы, Краснодар, 2010 г.

международная научно-практическая конференция «Хлебобулочные, кондитерские и макаронные изделия XXI века», Краснодар, 2011 г.

Объем и структура работы. Диссертационная работа включает в себя введение, 4 главы, заключение, список используемой литературы из 95 наименований и 3 приложения. Работа изложена на 125 страницах, содержит 41 рисунок и 19 таблиц.

Общая модель классификации

Существует несколько основных подходов к формированию признаков: геометрический, статистический, структурный, лингвистический, нейросистемный.

1. Геометрические признаки бывают простые и производные. К простым признакам относятся: периметр, площадь фигуры без дыр, площадь дыр и другие. К производным признакам относятся: средняя длина хорды, эксцентриситет, изрезанность контура, пористость, спиральность, периметр наименьшей выпуклой формы, описывающей объект. Геометрические признаки так же могут быть классифицированы на площадные и контурные. Контурными признаками являются: длина контура, определяемая как число элементов в контуре, код Фримена, кривизна линии, аппроксимация линейными сегментами, функциями, структурная аппроксимация, активный контур, спектральная характеристика, структурная функция, полярное представление контура, спиральная развертка. Площадными признаками являются: площадь, координаты центра тяжести, толщина/компактность, эксцентриситет, ориентация области, округлость/угловатость. Недостатком этих признаков является необходимость качественной сегментации изображения на объект и фон.

2. Статистические признаки: коэффициент корреляции, моменты различных порядков, закон распределения, матрицы смежности. Недостатками этих признаков являются значительные вычислительные затраты. Например, две текстуры, различаемые человеком, имеют одинаковые моменты первого и второго порядков. Применение моментов более высоких порядков резко увеличивает вычислительные затраты.

3. Структурные признаки основаны на представлении как всего изображения, так и изображения отдельного субъекта в виде совокупности некоторых примитивных геометрических элементов (непроизводные элементы) и их отношений между собой. Структурное представление изображения строится на базе геометрического подхода, включая в описание формы взаимное положение и отношения отдельных элементов. Например, набор характеристик геометрии контура зерновок, позволяющих за минимальное время идентифицировать состав зерновой смеси, использует 9 параметров (таких как отношение длины к ширине, квадрата периметра к площади, объём эквивалентного конуса и др.). Главным недостатком структурных методов является необходимость четкого разделения изображения на объект и фон.

4. Лингвистические признаки. Как и в структурном подходе, за основу берутся непроизводные элементы (геометрические фигуры), вычисляемые на изображении и составляющие словарь терминальных символов. Объединенные по определенному правилу терминальные символы составляют слова или словарь нетерминальных символов, комбинации нетерминальных символов составляют предложения. Порождающая грамматика представляет собой математическую схему, которая используется для описания правил построения комбинации слов и предложений из отдельных символов . Процесс грамматического анализа заключается в определении возможности формирования цепочки символов в рамках данной грамматики. Недостатками этого метода являются процесс выбора типа непроизводных элементов и трудоемкость операции отыскания последних на реальных изображениях. Применение лингвистического подхода, как и в случае структурного подхода, целесообразно только тогда, когда определение непроизводных элементов значительно проще, чем определение и анализ изображений самих объектов.

5. Нейросистемные признаки. В основу этого подхода положен принцип действия нейронных клеток головного мозга человека. Значение признака, образующееся на выходе нейрона, зависит от входного сигнала, весовых коэффициентов входов и функции возбуждения. Недостатком нейросети является необходимость предварительного разделения на объект и фон. Другой недостаток заключается в отсутствии инвариантности ко всем видам преобразований. Главным достоинством нейросетей является значительная степень параллельности вычислений, и значительная скорость обработки, которая не может быть достигнута при использовании других подходов.

Кроме вышеописанных подходов к формированию признаков, существует еще целый ряд методов: дистанционное преобразование (ДП), вейвлет-анализ (ВВА) и мультисенсорные системы. Существующие способы ДП полутоновых изображений нашли широкое распространение лишь в специальных областях, таких как обработка медицинских изображений. Попытки применения ДП к обычным изображениям не увенчались успехом, так как оно находится в сильной зависимости от качества предварительной сегментации и чувствительно к изменениям интенсивности и шуму. Вейвлет-анализ является эффективным для анализа изображений. Достоинством вейвлет-анализа является то, что он дает информацию о характере изменения сигнала.

Все перечисленные выше методы являются односенсорными, так как они используют информацию, полученную только от одного типа датчиков (преобразователь свет-сигнал). Использование мультисенсорной информации может оказаться более удобным для цифровой обработки изображений. При этом могут комбинироваться тепловые, радарно-локационные, мультиспектральные датчики, преобразователи свет-сигнал и пр. Полученные таким образом несколько изображений одной сцены могут обрабатываться совместно, что позволит повысить общее качество обработки.

Основные проблемы разработки и адаптации систем технического зрения в промышленности

Распознавание представляет собой задачу преобразования входной информации (признаки принадлежности к классу), в выходную (заключение о том, к какому классу относится распознаваемый объект). Процесс системного анализа включает ряд этапов, реализация которых необходима для решения проблемы. Сочетание этих этапов в определенной последовательности, диктуемой структурой проблемы и причинно-следственными связями, и приводит к системному решению (рис.6). При всем многообразии различных алгоритмов распознавания изображений, типичный состоит из трех компонент: 1) преобразование исходного изображения (предобработка и/или математическое преобразование); 2) выделение ключевых характеристик (анализ главных компонент, генетический алгоритм и др.); 3) механизм классификации: статистические методы, метрика, нейронная сеть и т.п. Априорная информация

Каждый компонент системы нужно разработать так, чтобы для системы в целом обеспечить достижение поставленных перед ней цели с требуемой эффективностью.

Одним из весьма эффективных методов обеспечения инвариантности по отношению к геометрическим трансформациям является предварительная обработка изображения и приведение его к стандартной позиции, масштабу и ориентации.

Применение спектрального Фурье-анализа контура в начале 90-х г. г. являлось основным методом выделения признакового пространства для метода идентификации объектов природного происхождения (сорта не шлифованного риса) на основе спектра контура изображения и коэффициента отражения компонентов [58,59,60]. Отдельные гармоники спектра соответствуют тем или иным геометрическим параметрам. Однако использование набора признаков (Фурье-спектров контура объектов) в виде входного вектора нейронной сети дает существенно более высокий процент ошибок, чем методика, основная на спектрально-статистических методах. Дальнейшее развитие спектрального метода возможно, если при анализе каждого объекта учитывать не только его контур, но и цветовые характеристики - общий цветовой фон, локальные всплески отдельных оттенков и т.д. Для анализа цветовой составляющей исследуемых объектов перспективен метод двумерного дискретного вейвлет-преобразования. После преобразования в цветовое пространство типа цветность/яркость изображение обрабатывается высокочастотным и низкочастотным фильтрами по строкам и столбцам с последующим прореживанием. Фильтр представляет собой небольшое «окно». Значения яркости и цветности попавших в него пикселей умножаются на заданный набор коэффициентов, а полученные значения суммируются, и «окно» сдвигается для расчета следующего значения. В результате фильтрации вместо одного изображения размером mxn вейвлет-преобразование дает четыре изображения размером (т/2) х (п/2). Фильтрация низкочастотным фильтром по горизонтали и по вертикали дает самое высокоинформативное изображение, которое подвергается дальнейшей фильтрации (число уровней фильтрации обычно составляет от 4 до 6). Результатом вейвлет-преобразования является массив числовых коэффициентов. На следующем этапе происходит квантование этого массива, и близкие к нулю коэффициенты отбрасываются. Вычисленный массив вейвлет-коэффициентов образует признаковое пространство, используемое нейронной сетью для решения задач классификации объектов.

Когда исходное признаковое пространство задано, осуществляется отбор меньшего числа наиболее информативных признаков (формирование признакового пространства меньшей размерности). Основными методами являются генетический алгоритм, анализ главных компонент (АГК) и факторный анализ.

Для выполнения механизма классификации существуют следующие методы распознавания: методы функций близости; методы дискриминантных функций; статистические методы распознавания; лингвистические методы; эвристические методы. Методы функций близости основаны на использовании функций, оценивающих меру близости между распознаваемым образом и эталонными образами различных классов.

Методы дискриминантных функций состоят в построении функций, определяющих в пространстве образов границы, разделяющие пространство на области, соответствующие классам образов.

Статистические методы основываются на минимизации вероятности ошибки классификации. Строится распределение для каждого класса и проводится классификация по правилу Байеса.

Лингвистические методы распознавания образов основываются на анализе описания идеализированного изображения, представленного в виде графа или цепочки символов, являющейся фразой или предложением некоторого языка.

К эвристическим методам относится использование искусственных нейронных сетей (ИНС). Этот метод требует либо большого количества примеров задачи распознавания при обучении, либо специальной структуры нейронной сети, учитывающей специфику данной задачи. Тем не менее, его отличает более высокая эффективность и производительность. Основными недостатками аппарата нейронных сетей является то, что отсутствует строгая теория по отбору структуры НС и практические невозможно извлекать приобретенные знания из обученной НС(«черный ящик»).

Преобразование реальных контуров изображений

Общую схему генетических алгоритмов опишем, рассматривая задачи безусловной оптимизации max {/(/) /є {0,1}" }.Стандартный генетический алгоритм начинает свою работу с формирования начальной популяции IQ = {і\, І2, ..., is} — конечного набора допустимых решений задачи. Эти решения могут быть выбраны случайным образом или получены с помощью вероятностных жадных алгоритмов. Выбор начальной популяции не имеет значения для сходимости процесса в асимптотике, однако формирование "хорошей" начальной популяции (например, из множества локальных оптимумов) может заметно сократить время достижения глобального оптимума. На каждом шаге эволюции с помощью вероятностного оператора селекции выбираются два решения, родители і\, і2. Оператор скрещивания по решениям і\, і2 строит новое решение / , которое затем подвергается небольшим случайным модификациям, которые принято называть мутациями. Затем решение добавляется в популяцию, а решение с наименьшим значением целевой функции удаляется из популяции.

Недостатками ГА являются невозможность его использования в случае, когда необходимо найти точный глобальный оптимум; время исполнения функции оценки велико; невозможно найти все решения задачи, а не одно из них. В пакете Statistica 6.1 комбинация генетического алгоритма с вероятностными сетями позволяет ускорить их работу, но с остальными типами сетей время обработки слишком велико..

Анализ главных компонент (АГК) является одним из основных способов уменьшить размерность входных данных, потеряв наименьшее количество информации. Очень часто применяется в областях, связанных с распознаванием образов и компьютерным зрением. Используем метод главных компонент в качестве критерия оптимальности.

В пакете Statistica 6.1 реализован один из распространенных методов -анализ главных компонент (АГК). Метод представляет собой линейное преобразование исходных данных, при котором количество переменных уменьшается, но при этом максимально сохраняется вариация данных. Поскольку такое преобразование улавливает только линейные направления максимальной вариации, предлагается применить нелинейный вариант АГК, основанный на применении автоассоциативных сетей. Рассмотрим вопрос о понижении размерности признакового пространства на примере задачи классификации 5 сортов не шлифованного риса.

Автоассоциативная сеть - это сеть, предназначенная для воспроизведения на выходе своих же входных данных. Трехслойная автоассоциативная сеть сначала линейно преобразует входные данные в меньшую размерность промежуточного слоя, а затем снова линейно разворачивает их в выходном слое. Трехслойная автоассоциативная сеть сначала линейно преобразует входные данные в меньшую размерность промежуточного слоя, а затем линейно разворачивает их слова в выходном слое. С помощью конструктора сетей SNN строится автоассоциативная MLP - сеть с пятью слоями, где 3 слоя являются скрытыми. Средний слой должен содержать меньше нейронов, чем входной и выходной. Далее сеть обучается на подготовленном множестве. Здесь можно использовать любой итерационный алгоритм обучения. После этого можно удалить два последних слоя и получить сеть для пре-процессирования, которая будет понижать размерность. С помощью редактора наборов добавляем сеть для распознавания к препроцессируемой сети. Таким образом, будет построена единая сеть для препроцессирования и обработки данных.

Архитектура полученной таким образом сети - многослойный персептрон 249-126-100-507-5 (рис.15). Входной слой содержит 249 входных векторов, первый слой - 126 нейронов, второй слой в 100 нейронов образует «узкое горло», реализующее АГК, третий слой содержит 507 нейронов, «разворачивающих» векторы. После объединения проводится повторное обучение созданной сети для оценки ее работы по распознаванию.

Главными целями факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации.

В отличие от метода главных компонент факторный анализ основан не на дисперсионном критерии автоинформативности системы признаков, а ориентирован на объяснение имеющихся между признаками корреляций. Рассмотрим вопрос о понижении признакового пространства на примере классификации зерна к одному из пяти сортов не шлифованного риса. Факторный анализ начинается с вычисления корреляционной матрицы. Ее анализ позволит оценить степень коррелированности переменных между собой. Если эта степень окажется высокой, то данные можно объединять в один фактор. Каждый фактор состоит из спектров цветовых компонент объектов в пространстве {R, G, в] -палитры, взятых независимо друг от друга.

Каждому фактору соответствует дисперсия, объясненная этим фактором. В первом столбце приведены дисперсии выделенных факторов. Во втором столбце для каждого фактора приводится процент от общей дисперсии. Третий столбец содержит накопленную дисперсию. Теперь можно решить, сколько факторов можно оставить (табл. 1).

Нейросетевой блок контроля сырья экспертной системы (ЭС) мониторинга показателей безопасности и качества

Процесс обучения нейронной сети При заданной архитектуре, вид функции G определяется значениями синоптических весов и смещений сети. Пусть решением задачи классификации является функция Y=F(X), заданной парами входных и выходных данных (Хь Y . Обучение состоит в поиске функции G, близкой функции F в смысле некоторой функции ошибки. При заданном наборе обучающих примеров и виде функции ошибки, обучение нейронной сети является многоэкстремальной невыпуклой задачей оптимизации. Каждому из весов и порогов сети соответствует одно измерение в многомерном пространстве. Измерение (N+1) соответствует ошибке сети. Цель обучения нейронной сети - найти на многомерной поверхности самую низкую точку. Аналитическими средствами невозможно определить положение глобального минимума. Поэтому при обучении НС происходит исследование этой поверхности. Отталкиваясь от случайной точки поверхности, алгоритм обучения постепенно отыскивает глобальный минимум.

Для решения задачи могут быть использованы итерационные алгоритмы: локальной оптимизации с вычислением частных производных первого порядка - градиентные методы; локальной оптимизации с вычислением производных первого и второго порядка - метод Ньютона, квазиньютновские методы, метод Левенберга-Маркрвардта и др.; стохастические методы оптимизации - поиск в случайном направлении, метод отжига, метод Монте-Карло; алгоритм обратной оптимизации ( перебор значений переменных от которых зависит целевая функция).

Используя начальную конфигурацию весов, алгоритм обучения производит поиск глобального минимума поверхности ошибок. Иногда в процессе обучения он приводит сеть к точке локального минимума. Поэтому процесс обучения требует постоянной проверки. Иногда требуется реализация нескольких алгоритмов. Для сети типа Многослойный персептрон (MLP) очень хороший результат показывают методы сопряженных градиентов и обратного распространения.

Алгоритм обратного распространения реализует градиентный спуск по поверхности ошибки в пространстве весовых коэффициентов и поэтому может застревать в локальных минимумах. При этом рядом может иметься другой, более глубокий минимум. Для преодоления этой трудности обучение сети проводят несколько раз и затем выбирают тот вариант обученной сети, который дает наилучшие результаты. Согласно методу наименьших квадратов, минимизируемой целевой функцией ошибки НС является величина E(w) = - {y\Np -d} р f , (24)

Спуск по сопряженным градиентам - это современный метод обучения многослойных персептронов. Как правило, он работает значительно лучше, чем метод обратного распространения, и может применяться во всех случаях, где применим метод обратного распространения. Этот метод рекомендуется для сетей с большим числом весов (большим, чем две-три сотни) и/или с несколькими выходными элементами. При спуске по сопряженным градиентам на каждой итерации производится пакетная обработка данных. В то время как в методе обратного распространения веса сети корректируются после обработки каждого очередного наблюдения, в методе сопряженных градиентов вычисляется усредненный градиент поверхности ошибок по всей обучающей выборке, и веса корректируются один раз в конце каждой эпохи.

Метод Левенберга-Маркара (Levenberg, 1944; Marquardt, 1963; Bishop, 1995) - самый быстрый алгоритм обучения из всех, которые реализованы в пакете STATISTICA Neural Networks, но, к сожалению, на его использование имеется ряд важных ограничений. Он применим только для сетей с одним выходным элементом, работает только с функцией ошибок сумма квадратов и требует памяти порядка W 2 (где W - количество весов у сети; поэтому для больших сетей он плохо применим). Метод сопряженных градиентов почти так же эффективен, как и этот метод, и не связан подобными ограничениями.

Перед началом обучения сети весам и порогам случайным образом присваиваются небольшие по величине начальные значения. Тем самым отклики отдельных элементов сети имеют малый наклон и ориентированы хаотично - фактически они не связаны друг с другом. По мере того, как происходит обучение, поверхности отклика элементов сети вращаются и сдвигаются в нужное положение, а значения весов увеличиваются, поскольку они должны моделировать отдельные участки целевой поверхности отклика.

Типичной проблемой при обучении нейронных сетей (особенно многослойных персептронов) является переобучение. Сеть, у которой число весов велико в сравнении с объемом обучающей выборки, может достичь малой ошибки обучения, смоделировав функцию, которая хорошо аппроксимирует обучающие данные, но при этом не ухватывает существующих закономерностей. График такой чересчур сильно подогнанной функции обычно имеет большую кривизну, поскольку он должен все время изгибаться, чтобы проходить через все точки и моделировать не только данные, но и все помехи в них.

Похожие диссертации на Высокоточное нейросетевое распознавание в системах технического зрения