Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка нейросетевых алгоритмов инвариантного распознавания образов Немков Роман Михайлович

Разработка нейросетевых алгоритмов инвариантного распознавания образов
<
Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов Разработка нейросетевых алгоритмов инвариантного распознавания образов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Немков Роман Михайлович. Разработка нейросетевых алгоритмов инвариантного распознавания образов: диссертация ... кандидата технических наук: 05.13.18 / Немков Роман Михайлович;[Место защиты: Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Северо-Кавказский федеральный университет"].- Ставрополь, 2015.- 162 с.

Содержание к диссертации

Введение

ГЛАВА 1 Обзор состояния проблемы и постановка задач исследования 11

1.1 Исследование проблемы инвариантного распознавания образов 11

1.2 Исследование математических методов распознавания изображений 17

1.3 Анализ архитектур сверточных нейронных сетей 25

1.4 Анализ алгоритмов обучения сверточных нейронный сетей 35

1.5 Анализ программно-аппаратных комплексов распознавания изображений 44

1.6 Выводы 49

ГЛАВА 2. Математическое моделирование сверточной нейронной сети с рецептивными полями нестандартной формы 51

2.1 Алгоритм изменения формы рецептивных полей для различных комбинаций сверточных слоёв СНС 51

2.2 Метод синтеза параметров математической модели СНС с помощью расширенного обучающего множества, генерируемого изменением её рецептивных полей 62

2.3 Разработка алгоритма синтеза параметров СНС с расширенным обучающим множеством 64

2.4 Выводы 67

ГЛАВА 3 Численный метод редукции расширенного обучающего множества для ускорения обучения сверточной нейронной сети 68

3.1 Метод редукции расширенного обучающего множества 68

3.2 Численные алгоритм редукции расширенного обучающего множества 75

3.3 Выводы

ГЛАВА 4. Эксперименты по обучению и тестированию сверточных нейронных сетей для задачи распознавания изображений 80

4.1 Общая структура программно-аппаратного комплекса для распознавания объектов 80

4.2 Модуль создания и обучения сверточной нейронной сети 83

4.3 Обучающие выборки, использующиеся в экспериментах 87

4.4 Эксперименты с выбором базовых параметров для СНС

4.4.1 Эксперименты с выбором функций активации для нейронов СНС 93

4.4.2 Эксперименты по выбору типа нормировки для входных значений СНС 95

4.4.3 Эксперименты по выбору способа инициализации настраиваемых параметров СНС 98

4.4.4 Выводы 99

4.5 Эксперименты по оценки эффективности метода синтеза параметров математической модели СНС с расширенным обучающим множеством и численного метода редукции расширенного обучающего множества 100

4.5.1 Эксперименты на тестовых выборках для инвариантного распознавания 101

4.5.2 Эксперименты по распознаванию объектов на стенде «Мехатроника» 109

4.6 Выводы 115

Заключение 117

Список литературы 119

Введение к работе

Актуальность темы. Инвариантное распознавание изображений является ключевым направлением в области распознавания образов. Под инвариантным распознаванием понимается получение такой технической системы, выход которой не изменен для определённого диапазона трансформаций входов. Оно применяется в распознавании лиц, букв, цифр, биометрических данных человека, снимков со спутников и космических телескопов, дорожных знаков, автомобильных номеров, в военной области и гражданской промышленности.

Несмотря на значительный успех, распознавание изображений только в некоторых областях способно по качеству результата сравниться или превзойти когнитивную функцию восприятия у человека. В целом, задача инвариантного распознавания изображения до сих пор не решена.

Существуют различные методы для инвариантного распознавания

изображений: потенциальные функции, байесовские сети, Марковские сети, искусственные нейронные сети, различные виды ассоциативной памяти и др.

В настоящее время для инвариантного распознавания изображений наилучшие результаты показывают стохастические модели, а именно, подкласс искусственных нейронных сетей (ИНС) – сверточные нейронные сети (СНС) [1], с помощью которых получают результаты в среднем лучше на 10%–15%. Однако, обучение ИНС – это плохо обусловленная (некорректная) обратная задача. Плохая обусловленность означает, что даже большой набор данных может нести в себе малый объем информации о решаемой задаче. Поэтому ключевая роль в процессе синтеза параметров конкретной математической модели ИНС принадлежит обучающим данным. Составление же репрезентативной обучающей выборки является одной из самых сложных задач в машинном обучении.

Известно несколько альтернатив увеличения качества инвариантного распознавания без создания человеком большой репрезентативной выборки:

  1. Использование специальных алгоритмов, которые перед обучением расширяют обучающее множество, составленное человеком. Однако, настройка, подбор алгоритмов и получаемого размера множества становятся очень трудным этапом.

  2. Использование регуляризации. Основной недостаток – более сложное обучение и трудность выработки устойчивости сети к требуемым искажениям.

  3. Изменение внутренних параметров математической модели сети: искажения, накладываемые на вектор антиградиента, на настраиваемые веса сети, временное исключение некоторых нейронов или связей между ними во время обучения сети. Это позволяет решать в основном прикладные задачи: препятствовать

переобучению, вырабатывать устойчивость работы сети к возможным отказам некоторых элементов. Увеличение обобщающей способности – лишь косвенное следствие применения подобных решений.

Предлагается за счёт изменения таких внутренних параметров СНС, как форма рецептивных полей (РП) [2], создавать искажения по отношению к текущему паттерну, тем самым получая новые паттерны и расширяя обучающую выборку. Реализация предлагаемого подхода для обучения СНС с изменяемыми внутренними свойствами требует адаптации алгоритма обратного распространения ошибки.

В связи с вышеизложенным, проводимое в работе исследование и разработка
нейросетевых алгоритмов инвариантного распознавания образов является

актуальной и важной задачей.

Объект исследования – аппаратно-программные комплексы инвариантного к положению, сдвигу и масштабу распознавания объектов.

Предмет исследования – нейросетевые методы и алгоритмы инвариантного распознавания изображений.

Цель диссертационной работы – повышение обобщающей способности нейросетевых алгоритмов инвариантного распознавания образов на основе особой архитектуры сверточной нейронной сети за счёт совершенствования методов синтеза её параметров.

Научная задача – разработка метода синтеза параметров математической модели сверточной нейронной сети посредством изменения её рецептивных полей, обеспечивающего расширение обучающего множества и уменьшение ошибки обобщения.

Достижение поставленной цели потребовало решения частных задач:

– Разработка алгоритма изменения форм рецептивных полей для

различных комбинаций сверточных слоёв СНС;

– Разработка метода синтеза математической модели СНС с помощью

расширенного обучающего множества, генерируемого изменением её РП;

– Разработка алгоритма синтеза параметров математической модели СНС

с расширенным обучающим множеством;

– Разработка численного метода редукции расширенного обучающего

множества, генерируемого изменением рецептивных полей СНС;

– Создание программного комплекса распознавания объектов с камер

робототехнических систем, базирующегося на СНС с расширенным обучающим множеством.

Методы исследования. Для решения поставленных в работе научных задач
использовались методы математического моделирования, объектно-

ориентированного программирования, теории распознавания образов, теории нейронных сетей, методы обучения с преобразованными данными, безусловной минимизации, методы цифровой обработки изображений.

Значительный вклад в развитие методов теории нейронных сетей внесли такие ученые как А. Н. Горбань, А. И. Галушкин, Н.И. Червяков, В.А. Терехов, Я. Лекун, П. Симард, Г. Хинтон и др.

Научная новизна

  1. Разработан алгоритм изменения форм РП для различных комбинаций сверточных слоёв СНС, приводящий к изменению ее архитектуры, отличающийся от известных тем, что элемент РП нейрона может получать значение, находящееся в двух дискретных шагах от него на карте признаков.

  2. Разработан метод синтеза параметров математической модели СНС с расширенным обучающим множеством, отличающийся от известных тем, что обучающая выборка генерируется путём добавления искажённых образов посредством изменения рецептивных полей СНС, что обеспечивает повышение обобщающей способности.

  3. Предложен алгоритм синтеза параметров математической модели СНС с расширенным обучающим множеством, отличающийся от известных тем, что предусмотрена адаптация алгоритма обратного распространения ошибки к изменившейся архитектуре сверточной нейронной сети.

  4. Предложен численный метод редукции расширенного обучающего множества, отличающийся от известного тем, что за счёт исключения части прямых прогонов сокращается время обучения.

  5. Впервые создан программный комплекс, интегрированный в состав робототехнических систем (РТС), позволяющий на основе предложенного метода синтеза параметров СНС и разработанного алгоритма редукции расширенного обучающего множества, распознавать различные классы объектов с камер аппаратно-программных комплексов РТС.

Практическая значимость результатов работы заключается в том, что созданный программный комплекс позволяет создать и обучить сверточную нейронную сеть, которая при интеграции ее в системы технического зрения РТС, способна стать ее ядром и распознавать реальные объекты по данным видеопотока.

Использование разработанного метода синтеза параметров СНС с

расширенным обучающим множеством позволяет распознавать изображения с

точностью до 96% при уровне шума в 17%±3%. Разработанный на основе предложенного метода алгоритм синтеза параметров математической модели СНС с расширенным обучающим множеством позволяет улучшать в среднем обобщающую способность на 2.5% по сравнению с результатами без его использования и на 1.25% по сравнению с аналогами.

Использование разработанного численного метода редукции обучающего множества позволяет сократить время обучения в среднем на 37% за счёт накопленной статистической информации о результатах распознавания паттернов в предыдущие эпохи.

Положения, выносимы на защиту:

  1. Алгоритм изменения форм РП для различных комбинаций сверточных слоёв СНС.

  2. Метод синтеза параметров математической модели СНС с расширенным обучающим множеством, генерируемым изменением её РП.

  3. Алгоритм синтеза параметров математической модели СНС с расширенным обучающим множеством.

  4. Численный метод редукции расширенного обучающего множества, генерируемого изменением рецептивных полей СНС.

  5. Программный комплекс распознавания изображений с камер аппаратно-программных комплексов РТС.

Достоверность и обоснованность полученных результатов обеспечивается

применением современной технологии математического моделирования,

корректностью математических постановок задач, и результатами натурных экспериментов.

Авторский вклад в разработку. Основные результаты и выводы в диссертации получены лично автором. Авторским вкладом является разработка алгоритма изменения форма РП для слоёв СНС; разработка метода синтеза параметров математической модели СНС с расширенным обучающим множеством, генерируемым изменением её РП; разработка алгоритма синтеза параметров для математической модели СНС с расширенным обучающим множеством; разработка численного метода редукции расширенного обучающего множества; проведение натурных экспериментов с распознаванием реальных объектов, а также экспериментов с распознаванием паттернов из тестовых выборок MNIST, Small NORB и выборки, созданной для стенда «Мехатроника».

В работах, выполненных в соавторстве, автором экспериментально исследованы различные способы расширения обучающего множества посредством

применения разных типов рецептивных полей, влияние алгоритма редукции на время
обучения и качество распознавания. Разработан программный комплекс для

обучения СНС с использованием предлагаемой математической модели.

Апробация работы. Основные результаты диссертационной работы
докладывались и обсуждались на следующих научных конференциях и семинарах:
XV Региональной научно-технической конференции «Вузовская наука – Северо
Кавказскому региону» (г. Ставрополь, СевКавГТУ, 2011); Международной научной
конференции «Актуальные проблемы и инновации в экономике, технике,
образовании, информационных технологиях» (г. Ставрополь, СевКавГТИ, 2011); I
Всероссийской конференции «Проблемы математики и радиофизики в области
информационной безопасности» (г. Ставрополь, СГУ, 2012); V Международной
научно-технической конференции Инфоком-5 (г. Ставрополь, СевКавГТУ, 2012); 41
Научно-технической конференции по итогам работы профессорско-

преподавательского состава (г. Ставрополь, СевКавГТУ, 2012); The 4th International
Scientific Conference (Trnava, University of SS. Cyril and Methodius, 2013); II
Международной научно-практической конференции «Актуальные проблемы
современной науки» (г. Ставрополь, СКФУ, 2013); VI Международной научно-
технической конференции Инфоком-6 (г. Ставрополь, СКФУ, 2014); Young
Scientists’ International Workshop on Trends in Information Processing (YSIP-14) (г.
Ставрополь, СКФУ, 2014); I Международной конференции «Параллельная
компьютерная алгебра и её приложения в новых инфокоммуникационных системах»
(г. Ставрополь, СКФУ, 2014); I Всероссийской научно-технической конференции
«Фундаментальные и прикладные аспекты компьютерных технологий и

информационной безопасности» (г. Ростов-на-Дону, Институт компьютерных технологий и информационной безопасности ЮФУ, 2015); II Всероссийской научно-технической конференции «Студенческая наука для развития информационного общества» (г. Ставрополь, СКФУ, 2015).

Внедрение. Работа выполнялась по теме «Разработка программного комплекса для распознавания изображений с камеры мобильного робота» в рамках программы «У.М.Н.И.К.» (государственный контракт №3608ГУ1/2014 от 29.09.2014). Основные результаты исследований были внедрены в НПО «Андроидная техника» (г. Магнитогорск, акт о внедрении от 25 августа 2015 г.), ГК «Стилсофт» (г. Ставрополь, акт о внедрении от 3 сентября 2015), а также в учебный процесс СКФУ по направлению подготовки 09.04.03 Информационные системы и технологии, магистерская программа "Робототехнические системы" в рамках дисциплины "Системы технического зрения" (г. Ставрополь, акт о внедрении от 25.06.2015 г.).

Публикации. По теме диссертационной работы опубликовано 24 работы в журналах и трудах конференций, из них 3 работы в изданиях, рекомендованных ВАК РФ для опубликования научных положений диссертационных работ, 7 работ в трудах международных конференций, 11 свидетельств о государственной регистрации программ и программных модулей для ЭВМ.

Структура и объём диссертации. Диссертация состоит из введения, четырёх глав, заключения, списка литературы из 165 наименований и 2 приложений. Общий объём 162 страницы.

Анализ архитектур сверточных нейронных сетей

Для задач частного инвариантного распознавания уже сейчас существует ряд математических методов, таких как нейронные сети Widrow [108, 147], неокогнитрон [116], нейронные сети высших порядков [94, 117, 124, 130, 159, 163, 164], статистические модели [78, 84, 89] и др., которые позволяют решить эти задачи. Основная проблема заключается в практических сложностях реализации таких методов на дискретной машине: большие и структурно сложные сети, сдвиги на произвольные вектора, повороты на произвольные углы, масштабирование на произвольные множители.

Задача общего инвариантного распознавания не решена до сих пор. Есть отдельные успехи на качество распознавания для ограниченных классов объектов, как правило, лиц [160], дорожных знаков [155], банковских чеков [136], которые демонстрируют точность распознавания даже выше чем у человека. Недавно стали появляться сети, которые демонстрируют успехи по распознаванию большого количества классов, они способны распознавать тысячи классов [132, 151] правда, с низкой точностью для большинства из них. Таким образом, можно сделать вывод, что задача инвариантного распознавания объектов не решена. Нет и теоретического понимания того как подобную задачу решает человек и высшие млекопитающие [113, 120].

Из анализа научно-технической литературы [13, 27-29, 33, 34, 85, 89, 91, 92, 99, 102-105, 107, 110, 111, 119] можно сделать вывод, что для решения задачи инвариантного распознавания изображений на сегодняшний день доминируют математические модели на основе статистического обучения, которые представляют собой иерархические признаковые классификаторы.

Нет прямой заранее известной аналитической взаимосвязи между наборами пикселей или вокселей (элементы объёмного изображения) и семантическим содержанием этого изображения. Такую связь нужно создать на основе обучения, которое отталкивалось бы от целого набора изображений, настроив параметры таких моделей.

Этот набор можно уменьшить, если изменить представление изображений: с пиксельного уровня перейти на более высокий уровень (вейвлет-представление [88], представление в виде случайных полей [34], модель формы элементов изображения [35]), тем самым увеличив ценность каждого паттерна, но полностью отказаться от статистического набора данных не получится.

Проблема интерпретации семантического содержания изображения является NP-полной задачей [64] и поэтому требует системы промежуточных представлений (иерархия либо просто по масштабу, либо ещё и по уровню абстрактности), в противном случае может произойти комбинаторный взрыв и семантическое содержание за приемлемое время будет невозможно найти.

Наиболее популярные математические модели и дающие лучшие практические результаты (в среднем на 10%-15% [36]) при распознавании изображений – это системы иерархических голосующих гиперплоскостей, т.е. ИНС [89]. Основные их преимущества – это иерархичность, способность эффективно работать с низкоуровневым представлением данных, являются универсальными аппроксиматорами. Основные особенности статистического распознавания и обучения заключаются в следующем [33]: 1. Объекты, которые необходимо распознать кодируются векторами признаков. 2. Допустимые значения векторов признаков образуют пространство признаков X. Если удаётся закодировать объект количеством a числовых признаков, то X – это подмножество a-мерного евклидова пространства Ra. 3. Ответы распознавателя (ожидаемые и вычисленные, т.е. ответы учителя) кодируются так же как признаки объектов, т.е. точками в некотором пространстве Y, например, в b-мерном евклидовом пространстве Rb. 4. Распознаватель нужно учить вычислять некоторую функцию f:RaRb, про которую известны только её значения в конечном числе точек. 5. Распознавание дискретной характеристики объекта называется классификацией, число возможных значений b – числом классов, объекты для которых эта характеристика принимает i-ое значение – i-ым классом.

Процесс статистического обучения ИНС с учителем рассматривается как процесс реконструкции гиперповерхности на основе множества точек, которое может быть довольно разряженным [21, 89].

Моделирование физических процессов, обеспечивающих генерирование обучающих данных (например, звуковой сигнал, изображение и т.д.), является хорошо обусловленной прямой задачей. Однако, обучение на примерах таких физических данных, рассматриваемое как задача восстановления гиперповерхности, является плохо обусловленной (некорректной) обратной задачей [89]. Плохая обусловленность (по Адамару) объясняется тремя основными причинами: не для каждого входного сигнала может существовать выходной (нарушение критерия существования), информации, содержащейся в примерах, может быть недостаточно для корректной уникальной реконструкции отображения «вход-выход» (нарушение критерия уникальности), неизбежное наличие шумов в данных обучения вносит неопределённость в восстанавливаемое отображение (нарушения принципа непрерывности).

По существу, плохая обусловленность задачи означает, что даже большой набор данных может нести в себе удивительно малый объём информации о решении задачи. Поэтому для статистического обучения ключевая роль в процессе синтеза параметров конкретной математической модели ИНС принадлежит обучающим данным [89]. К такому же выводу пришёл диссертант на основании проведённого исследования по подбору оптимальных параметров для ИНС и их влияние на обобщающую способность [50, 52, 60].

Однако, составление больших и репрезентативных выборок одна из самых сложных задач в статистическом обучении [89, 104].

Исходя из анализа литературы [18, 77-79, 82, 89, 102-106, 141, 157, 161, 162, 165], можно выделить несколько альтернатив по расширению обучающего множества:

1. Использование специальных алгоритмов, которые перед обучением расширяют обучающее множество. С помощью различных алгоритмов меняют входной паттерн: меняют фон, текстуру, накладывают различные шумы. Так, если нужно распознавать цифры или буквы, то разумно подобрать алгоритмы, которые создают искажения, имитирующие различные виды подчерка [156, 165], и таким образом пополняют обучающую выборку. Однако, настройка, подбор таких алгоритмов, а также корректировка размера финального обучающего множества становятся очень сложным этапом.

2. Использование регуляризации [82]. В контексте задачи восстановления гиперповерхности главная идея регуляризации заключается в стабилизации решения с помощью некоторой вспомогательной неотрицательной функции, которая несёт в себе априорную информацию о решении [89]. Данный метод аналогичен с математической точки зрения расширению множества через преобразования паттернов или наложения шумов [106], хотя физически размер множества не меняется. Основные недостатки – более сложное обучение сети и трудность выработки устойчивости сети к требуемым искажениям.

3. Изменение внутренних параметров математической модели сети [121, 141, 161, 162]: искажения, накладываемые на вектор антиградиента, на настраиваемые веса сети, временное исключение некоторых нейронов или связей между ними во время обучения сети. Это позволяет решать в основном прикладные задачи: препятствовать переобучению сети, вырабатывать устойчивость работы сети к возможным отказам некоторых элементов, находить более глубокий локальный минимум на поверхности ошибок. Увеличение обобщающей способности сети – лишь косвенное следствие применения подобных решений. Расширение обучающей выборки при таком подходе не происходит. Возникают проблемы со сложностью регулирования уровня искажений, т.к. с одной стороны для ускорения обучения уровень искажений нужно снижать, а с другой стороны для правильного распознавания новых паттернов уровень искажений нужно увеличивать. К тому же такие методы обучения плохо совмещаются с алгоритмами, которые используют информацию вторых производных для поиска направления спуска по поверхности ошибок.

В работе предлагается частично совместить пункты 1 и 3: за счёт изменения внутренних параметров модели иерархической ИНС создавать искажения по отношению к текущему паттерну (через изменение восприятия этого паттерна), тем самым получая новые паттерны и расширяя обучающую выборку. В свою очередь это потребует адаптации алгоритма обратного распространения ошибки.

Метод синтеза параметров математической модели СНС с помощью расширенного обучающего множества, генерируемого изменением её рецептивных полей

Метод синтеза параметров математической модели СНС с расширенным обучающим множеством, описанный в главе 2, приводит к увеличению времени обучения. С увеличением степени обученности сети всё большее количество паттернов дают на выходном слое малую ошибку, и, как следствие, оказывают малое влияние на корректировку параметров сети. На рисунке 3.1 кривая II отображает этот процесс. Поэтому для ускорения обучения паттерны, дающие малую ошибку на выходном слое, могут быть пропущены.

Однако, пропуск обратных прогонов никак не влияет на количество прямых прогонов (прямая I на рисунке 3.1). Отсюда необходимо разработать численный метод [75], который позволял бы пропускать часть прямых прогонов (т.е. делать редукцию обучающего множества) на основе накопленной статистической информации о правильности распознавания искажённых паттернов за предыдущие эпохи, что позволяло бы сократить время обучения без потери качества распознавания.

В предлагаемом методе синтеза параметров математической модели СНС с расширенным обучающим множеством искажения первоначальных паттернов могут получаться за счёт применения РП нестандартной фомры для нейронов на любых комбинациях С-слоёв, поэтому стандартные методы редукции обучающего множества [95, 97, 127, 138, 158] не подходтя для этой задачи, т.к. не учитывают этой особенности искажения паттерна, поэтому требуется разработка нового численного метода. Разработанный метод редукции расширенного обучающего множества применяется только по отношению к производным искажённым паттернам (добавочное множество мощностью M) по двум причинам: 1. Паттерны добавленные человеком к первоначальном множеству (мощностью N0) обладают большей семантической ценностью, чем паттерны полученные путём искажения первоначальных. 2. Обычно, в связи со сложностью составления репрезентативных выборок для задач распознавания изображений количество первоначальных паттернов может быть незначительным по сравнению с количеством добавленных искажённых паттернов.

Информацию об искажении паттерна можно разделить, как уже было показано в подглаве 2.1 рисунке 2.6, на две части: глобальные искажения и локальные искажения. Локальные искажения неудобно использовать в качестве отправной точки для накопления статистической информации, т.к. они слишком хаотичные. Информация же о глобальном искажении: о используемой схеме искажения Qi, может в целом характеризовать полученный искажённый паттерн. Как показано на рисунке 3.2 паттерн pj из первоначального множества TrainingSet входит как «донор» для получения искажённых паттернов в три дополнительных множества: Set1, Set2, Set3 для схемы Qi, поэтому очевидно, что три новых искажённых паттерна, имея одного и того же «донора», будут похожи друг на друга. Пока сеть обучена слабо, то паттерны, имеющие одного «донора» и одну схему искажения Qi, на выходном слое дают разные ошибки, что способствует обучению. Но с ростом обученности сети ошибки от таких паттернов будут почти одинаковыми и близкими к нулю. Поэтому их локальными различиями можно пренебречь, и вести статистику о правильном и неправильном распознавании паттернов, производных от pj, относительно глобальной схемы искажения Qi, чтобы в дальнейшем исключить такие паттерны из процесса обучения сети.

Для накопления статистической информации используются две матрицы: XN0X7 и 7лг0 7, где количество столбцов равно 7 - количество комбинаций искажений Qi без учёта комбинации, где ни один С-слой не имеет нейронов с РП нестандартной формы (23-1). Элементы матрицы xу и yу - целые неотрицательные числа. Если паттерн с искажениями р\ распознаётся правильно (pi - «донор» для p t, i=l..No, схема искажения Qj, j=1..7), то значение в матрице X, в строчке i (которая равна индексу «паттерна-донора» на которого накладываются искажения) и в столбце j (который равен индексу конкретной комбинации С слоёв с нестандартными РП), увеличивается на. Если он распознаётся неправильно, то значение увеличивается в матрице Y на тех же позициях.

Количество пропущенныхпаттернов за эпохуотносительно текущегоразмера обучающей выборки составшимися искажённымипаттернами 15% 20% 40% 10% Количество пропущенныхпаттернов за эпохуотносительнопервоначального размераобучающей выборки 15% 17%(0.85 100 0.2) 33.2% 6.68% Из таблицы видно, что на протяжении четырёх эпох количество анализируемых искажённых паттернов за эпоху сокращается, но это происходит только потому, что постоянно возрастает количество пропущенных паттернов (это значение выражено в процентах относительно первоначального, не редуцированного, размера обучающего множества мощностью N0+M и текущего размера множества). Как только по результатам эпохи 4 принято решение о пропуске 10% (6.68%), то за пятую эпоху будет сделано почти столько же прямых прогонов сколько и за первую, т.е. происходит «скачок». Поэтому необходимо накапливать информацию в матрицах X и Y за все предыдущие эпохи. Однако, если просто исключать из рассмотрения те прямые прогоны, которые были исключены на предыдущих эпохах, то это приведёт к слишком быстрой и, как следствие, некачественной редукции.

Количество пропущенныхпаттернов за эпохуотносительно текущего размераобучающей выборки составшимися искажённымипаттернами 15% 20% 40% Количество пропущенныхпаттернов за эпохуотносительно первоначальногоразмера обучающей выборки 15% 17% 33.2% Уже на третьей эпохе количество прямых прогонов должно составить всего 68%, но вполне вероятно, что часть паттернов, которые раньше обоснованно переставали участвовать в прямых прогонах, в результате коррекции весов, опять необходимо включить в матрицу A. Поэтому, с увеличением роста обученности, необходимо ввести условие, связанное с пропуском прямых прогонов, которое будет постоянно корректироваться и, тем самым, препятствовать слишком быстрой редукции.

Численные алгоритм редукции расширенного обучающего множества

В данной главе решена пятая частная научная задача: создан программный комплекс для распознавания изображений с камер мобильного робота. Проведены эксперименты по подбору базовых параметров для обучения СНС. Сделана оценка качества предлагаемого алгоритма синтеза параметров математической модели СНС с расширенным обучающим множеством. Сам алгоритм описан в подглаве 2.3. Проведено исследование влияния редукции на скорость обучения и качество распознавания объектов. Алгоритм редукции описан в подглаве 3.2. Для оценки качества предлагаемого метода синтеза параметров математической модели СНС с расширенным обучающим множеством проведены натурные эксперименты на стенде «Мехатроника» с возможностью технического зрения. Сделана оценка ошибки обобщения. Исследовано влияние шума на качество распознавания объектов с помощью СНС, обученной предлагаемым методом.

Разработанные методы и алгоритмы, описанные в главах 2 и 3 могут использоваться для распознавания изображений в разных предметных областях. Они были апробированы и экспериментально исследованы для решения задачи распознавания изображений с камеры мобильного робота [2] в рамках научно-исследовательского проекта с ПАО НПО «Андроидная техника» «Разработка программного комплекса распознавания изображений с камеры мобильного робота» (договор №05/АТ/2014 от 17.02.2014 г.). Аппаратной платформой послужил стенд «Мехатроника» с возможностью технического зрения [26].

Был разработан программный комплекс [45], позволяющий обучать СНС с нейронами на С-слоях, имеющих РП нестандартной формы. С помощью этого комплекса были проведены эксперименты по распознаванию объектов со стенда «Мехатроника» [56], а также эксперименты с тестовыми выборками для инвариантного распознавания изображений [53, 144, 145].

Комплекс импортируется на мобильного робота, где подключается к видеопотоку от одной или нескольких камер (обычно двух). Каждый кадр видеопотока анализируется и происходит выделение потенциально интересных мест, которые определяются как пиксельные массивы текущего кадра, изменившиеся относительно предыдущего кадра. Далее эти потенциально интересные места сжимаются или увеличиваются до размера входа или входов уже обученной СНС и происходит классификация изображений, когда каждому пиксельному массиву в соответствие ставится некоторая семантическая метка.

Процесс обучения СНС происходит отдельно во времени, но локализован он может быть, как на той же машине, где происходит распознавание, так и на другой машине, не связанной с мобильным роботом или стендом. Примеры работы комплекса приведены на рисунке 4.2 и в приложении Б. Рисунок 4.2 – Примеры работы комплекса по распознаванию изображений

Весь программный комплекс можно разбить на три части: создание выборки – первая часть, обучение сети – вторая часть, распознавание объектов – третья часть. Автором получены свидетельства о государственной регистрации программ для ЭВМ №2015614432 (от 17 апреля 2015 г) [42] и №2015614840 (от 28 апреля 2015 г.) [43], относящиеся к первой части по созданию и работы с выборкой, а также свидетельства №2015614849 (от 29 апреля 2015 г.) [46] и №2015616115 (от 29 мая 2015 г.) [47], относящиеся к третьей части: распознаванию образов.

Общий вид стенда «Мехатроника» показан на рисунке 4.3. Аппаратная часть системы технического зрения стенда «Мехатроника» представлена камерой AXIS M1054, стандартное рабочее разрешение при распознавании установлено в 320x240 пикселей (HDTV), горизонтальный угол обзора 80, допустимый диапазон внешней освещённости от 0.9 до 105 люкс, частота кадров при любом разрешении 30 кадров в секунду (H.264/M-JPEG).

Программная часть представлена импортированным комплексом для распознавания объектов. Программный комплекс системы, позволяющий распознавать объекты с камер стенда или мобильного робота, состоит из двух модулей: выделение потенциально интересных мест на кадре и распознавание выделенных изображений, переданных на вход СНС. Оболочка комплекса и алгоритм выделения мест написаны на С#, распознавание с помощью СНС реализовано на C++ и подключается в виде библиотеки к основной программе.

Рабочий вид программы представлен на рисунке 4.4. Рисунок 4.4 – Общий вид работающей программы по обучению и созданию СНС

Общая структура взаимодействия программного модуля с внешними файлами представлена на рисунке 4.5. Общая структура взаимодействия программного модуля с внешними файлами В файл «Start.txt» записывается информация необходимая для запуска процесса обучения и для характеристики некоторых его параметров: количество эпох, общие действия после каждой эпохи, название и параметры обучающей и тестовой выборки, возможность подгрузки заранее обученных параметров.

В файл «StructOfTheNetwork.txt» записывается информация необходимая для создания СНС: общее количество слоёв разных типов, детализация слоёв (их размер, количество карт, размер РП, располагающихся на этих слоях), степень связанности между C-слоем и S-слоем, а также между входом и C-слоем, стратегия концентрации, определяющую рабочие нейроны на каждом С-слое, множества РП для каждого С-слоя. В файл «TrainingParameters.txt» записывается информация, характеризующая процесс обучения: тип восприятия (бинокулярный, монокулярный), значения скорости обучения для каждой эпохи, константа для пропуска обратных прогонов в процессе обучения, количество и типы схем для искажения паттерна pi, тип перемешивания обучающей выборки, параметры редукции.

Также для программы необходимо загрузка обучающей и тестовой выборки и, возможно, файла с заранее обученными параметрами, если обучение планируется с использованием частично обученной сети.

Вывод всей информации осуществляется в файл «History.txt» и на экран. На рисунке 4.4 видно, что на экран выводится ещё и динамическая быстроизменяющаяся информация, описывающая те действия, которые в данный момент делает программа, а также ряд быстроизменяющихся параметров процесса обучения.

Эксперименты с выбором базовых параметров для СНС

Из рисунка видно, что самая лучшая ошибка обобщения получается, когда искажение происходит на всех С-слоя. Поэтому для дальнейших экспериментов для получения искажённых паттернов использовались одновременно все искажающие схемы, приведённые на рисунке 4.19. Сеть обучалась как с использованием метода синтеза параметров математической модели СНС с расширенным обучающим множеством, так и без него.

Результаты распознавания на тестовой выборке приведены в таблице 4.4. Видно, что применение предлагаемого метода позволило снизить ошибку обобщения с 2.8% до 0.6% неправильно распознанных паттернов от размера тестовой выборки. Таким образом, использование комбинаций всех искажающих схем Qi для получения новых паттернов выгоднее, чем использование какой-то одной комбинации, и позволяет снизить ошибку обобщения с 1.55% (рисунок 4.19, лучший результат) до 0.6%. В таблице 4.3 приведено сравнение полученных результатов для MNIST с результатами других авторов [156]. Лучший аналог составляет 0.8%, достигнутый с помощью СНС LeNet-5 [134].

Использование предлагаемого метода позволяет получить лучший результат по сравнению с другими методами, использующими различные типы аффинных преобразований [25, 165].

Сверточная сеть LeNet-5 (среднеквадратическая ошибка) Локально-аффинные преобразования 0.8% Сверточная нейронная сеть сизменяющимися рецептивнымиполями Локально-аффинные преобразования 0.6% Обычная сверточная нейроннаясеть без использованиянестандартных рецептивныхполей Нет искажений 2.8%

Обучение также осуществлялось с использованием численного метода редукции расширенного обучающего множества и без него. Использовался эмпирически подобранный коэффициент для редукции, равный 1.3 [59], при котором не наблюдалось падение качества распознавания на тестовой выборки, и при этом происходило достаточно большое количество пропусков прямых прогонов, не оказывающих влияние на последующее обучение сети. Результаты редукции приведены в таблице 4.4. При использовании редукции время обучения сократилось на 32%.

Для экспериментов с выборкой Small NORB использовалась СНС, имеющая структуру, показанную на рисунке 4.12.

Каждая карта С-слоя была связана со всеми предыдущими картами S-слоя или входного слоя. В качестве оценки для ошибки обучения и обобщения использовалась функция кросс-энтропии (1.7). Целевые значения для учителя выбирались равными 0 и 1. Паттерн считался распознанным, если максимально активированный нейрон на выходном слое совпадал с элементом вектора учителя, равным 1, и уровень активации этого нейрона преодолевал барьер в 0.85. Алгоритм обучения использовался такой же, как и в опыте с MNIST. Начальное значение скорости обучения () равно 0.005, через каждые 2 эпохи новое значение получалось из старого путём уменьшения на 0.001. Когда значение становилось равным значению вычитаемого, то вычитаемое умножалось на 0.1, и процесс продолжался заново. Эта стратегия обучения отличается от описанной в подглаве 4.4, так как для выбора базовых параметров не требуется обучать сеть до уровня получения лучших результатов. Часть обратных прогонов пропускалась, если текущая ошибка на выходном слое была меньше одной десятой части от общей ошибки за предыдущую эпоху, для ускорения обучения. Использовалось тоже множество РП, что и в экспериментах с MNIST. Для получение новых покрытий из данных РП, использовались два алгоритма разметки всех С-слоёв: Strategy1 и Strategy2. Для получения искаженных паттернов применялись все глобальные схемы искажения Qi. В режиме теста использовались РП только квадратной формы. Общее количество добавочных искажённых паттернов, которые генерировались каждую эпоху к первоначальным 24300, составило 5550 штук.

Коэффициент редукции равен 1.3. Остановка обучения производилась на усмотрение экспериментатора в зависимости от ошибки обобщения на тесте. Результаты распознавания на тестовой выборке приведены в таблице 4.4. Видно, что применение предлагаемого метода позволило снизить ошибку обобщения с 8.4% до 4.3% неправильно распознанных паттернов от размера тестовой выборки. Лучший аналог составляет 6.6%, достигнутый с помощью СНС LeNet-7 [137]. Результаты редукции приведены в таблице 4.4. При использовании редукции время обучения сократилось на 37%. Для экспериментов с выборкой для стенда «Мехатроника» использовалась СНС, имеющая структуру, показанную на рисунке 4.20. Рисунок 4.20 – Структура сверточной нейронной сети для экспериментов с выборкой для стенда «Мехатроника» Общее количество добавочных искажённых паттернов, которые генерировались каждую эпоху к первоначальным 240900, составило 12350 штук. Остальные параметры были такие же, как и в экспериментах со Small NORB, т.к. обе выборки пригодны для инвариантного распознавания изображений. Результаты распознавания на тестовой выборке приведены в таблице 4.4. Видно, что применение предлагаемого метода позволило снизить ошибку обобщения с 1.8% до 0.3% неправильно распознанных паттернов от размера тестовой выборки.

Результаты редукции приведены в таблице 4.4. При использовании редукции время обучения сократилось на 41%. Использование предлагаемого алгоритма редукции расширенного обучающего множества требует дополнительных расходов оперативной памяти на хранение матриц X и Y на весь период обучения СНС. Количество столбцов в каждой матрице – 7, количество строк равно количеству паттернов в первоначальной не расширенной выборке. Для экспериментов с MNIST дополнительные расходы в оперативной памяти составят 3.2 Мб (2 60000 7 4 байт), для Small NORB – 1.3 Мб (2 24300 7 4 байт), для выборки «Мехатроника» – 13 Мб (2 240900 7 4 байт).

Итоговая оценка увеличения обобщающей способности алгоритма синтеза параметров математической модели СНС с расширенным обучающим множеством и численного алгоритма редукции расширенного обучающего множества находится по формуле: где N - количество опытов, R - среднеарифметическое разностей Ai-A2, где Ai - достигнутая ошибка обобщения без предлагаемого метода синтеза математических параметров СНС или время обучения без редукции, выраженное в процентах (100%), или же ошибка обобщения лучшего аналога, А2 - это ошибка обобщения с предлагаемым методом или время обучения с редукцией, выраженное в процентах относительно времени обучения без редукции. В результате анализа экспериментов с тестовыми выборками MNIST, Small NORB и выборкой для стенда «Мехатроника» было установлено, что предлагаемый алгоритм синтеза параметров математической модели СНС с расширенным обучающим множеством улучшает в среднем обобщающую способность на 2.5% по сравнению с результатами без его использования и на 1.25% по сравнению с лучшими достигнутым аналогами. Предложенный численный метод редукции расширенного обучающего множества сокращает в среднем время обучения на 37%.