Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Аксёнов Сергей Владимирович

Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей
<
Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Аксёнов Сергей Владимирович. Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей : диссертация ... кандидата технических наук : 05.13.11 / Аксёнов Сергей Владимирович; [Место защиты: Том. политехн. ун-т].- Томск, 2008.- 154 с.: ил. РГБ ОД, 61 09-5/887

Содержание к диссертации

Введение

Глава 1. Нейронные сети для анализа двумерных образов 14

1.1. Иерархические нейронные сети встречного распространения 17

1.1.1 .Неокогнитрон и его модификации 18

1.1.2. Свертывающие нейронные сети 22

1.1.3 .Иерархическая нейронная сеть с нелинейной операцией максимум25

1.2. Порождающие статистические модели 28

1.2.1. Машина Гельмгольца 29

1.2.2. Иерархическое смешение мнений экспертов 31

1.2.3.Иерархические фильтры Калмана 33

1.3. Рекуррентные модели 36

І.З.І.Модели с латеральным взаимодействием 38

1.3.2.Модели с вертикальными обратными связями 44

І.З.З.Модели с вертикальными и латеральными обратными связями 49

1.4. Выводы 55

Глава 2 Архитектура и алгоритмы функционирования иерархической ИНС 58

2.1. Структура иерархической ИНС 58

2.1.1.Рецептивный уровень 62

2.1.2. Уровень клеток локальных ориентации с переменным рецептивным полем (простых локальных ориентации) 65

2.1.3.Уровень максимальной активности S-нейронов 68

2.1.4.Слои свертки 70

2.1.5.Общая среда и видонастраиваемые клетки 75

2.1.6.Уровень восприятия классов 83

2.2. Функционирование системы 86

2.2.1.Алгоритмы обучения сети и модификации данных 88

2.2.2.Алгоритмы ассоциативного поиска 94

2.3. Выводы 97

Глава 3 Особенности работы с многоэлементными сценами 98

3.1. Модель восходящего внимания 98

3.2. Интеграция процессов фокусирования внимания и связывания фрагментов сцены 111

3.3. Выводы 116

Глава 4 Реализация и тестирование системы 117

4.1. Проектирование и программная реализация 117

4.2. Построение экземпляра модели 125

4.2.1.Топология сети 125

4.2.2.Настройка подсистемы внимания 128

4.3. Тестирование модели 131

4.4. Выводы 140

Заключение 142

Список используемых источников

Введение к работе

Ежесекундно на сетчатку глаза человека попадает огромный поток фотонов. Этот поток несет гигантский массив зрительной информации. Однако наш вычислительный инструмент — головной мозг, успевает справляться со всей информации за очень короткое время. Современные системы распознавания пока обладают куда более скромными результатами решения проблемы анализа и интерпретации реальных сцен. К несомненному преимуществу мозга можно отнести наличие очень большого количества сверхинтегрированных обрабатывающих элементов - нейронов. Все нейроны мозга соединены между собой посредством синапсов, осуществляющих передачу данных посредством электрохимических сигналов. Однако помимо синаптической передачи информации имеет место и неспецифическое взаимодействие между нейронами, посредством которого нейрон срабатывает в результате определенной активности ассоциированных с ним, но не обладающих общим для них синапсом группы нервных клеток (это т.н. активация по химическому адресу). Данный факт указывает на взаимовлияние друг на друга не соединенных между собой нервных клеток и ещё более усложняет анализ работы всей системы.

Из упомянутого выше следует, что исследование процессов, протекающих в головном мозге при обработке сигналов из внешнего мира, ещё очень далеко до своего логического завершения. По этой причине при построении моделей искусственных нейронных сетей (ИНС) исследователи используют сильно упрощенные модели, как нейронов, так и их соединений. Решение проблемы распознавания образов на базе аппарата ИНС кажется вполне естественным. Уже реализованные на практике архитектуры ИНС успешно справляются с широким спектром задач, начиная от прогнозирования финансовых рынков и заканчивая системами анализа состояния космических кораблей. Однако в случае анализа реальных зрительных сцен разработчики архитектур и алгоритмов ИНС столкнулись с большими трудностями, связанными со спецификой этой задачи.

Формально ИНС можно определить как систему, обладающую входами и выходами, состоящую из большого числа элементарных вычислителей, соединенных односторонними каналами передачи сигнала. В процессе своей работы ИНС преобразует поданный сигнал от входов в свои выходы. Главным достоинством, полученным от биологического прототипа, ИНС является то, что они не программируются извне, а настраиваются посредством процедуры обучения. Как отмечалось выше, теоретические основы ИНС базируются на гипотетических принципах функционирования головного мозга, а методы теории способны в очень ограниченных масштабах воссоздавать процессы обработки информации, свойственные их биологическому эталону.

Около 90% всей информации, поступающей человеку, составляет зрительная информация. По этой причине именно интерпретация зрительной информации на основе ИНС имеет особый интерес в научной среде. Каким же образом мозг производит фильтрацию нежелательной информации и обрабатывает действительно только значимые для него объекты?

Следуя каноническим требованиям, прежде всего, определим актуальность исследования, его цели и задачи, а также сформулируем выносимые на рассмотрение полученные результаты.

Актуальность исследования

Существующие в настоящее время системы распознавания на базе ИНС (а именно они считаются наиболее перспективными) обладают значительным количеством недостатков. При разработке комплексов, решающих проблему интерпретации образов, особый упор делается на узнавание определенных групп образов (так, при фокусировке цифровых камер для достижения большей четкости локализуются фрагменты сцены, в которых расположены лица людей, а при сканировании текста анализируются исключительно образы, ассоциированные с тем или иным символом). Таких примеров, достаточно много. Однако пытаясь найти в литературе информацию о системах, способных к саморазвитию, расширению «кругозора», в результате получаешь крайне скудные ответы. Это объясняется крайней сложностью проектирования и реализации проектов такого класса. Ведь на самом деле процесс распознавания не состоит только в том, чтобы проверить сходство анализируемого объекта с запомненным эталоном. Это достаточно сложное взаимодействие между функционально различными подсистемами мозга.

Ошибочно также считать, что сигналы от сетчатки до терминальных корковых центров, принимающих решение, распространяются прямолинейно. Распознавание - это итеративный процесс, в котором до принятия окончательного решения не только входной образ сравниваются с эталоном, но и высшие мозговые центры генерируют гипотезы классификации объекта. Столкновение этих потоков нейронных импульсов приводит к дальнейшему уточнению характеристик образа, до тех пор, пока не произойдет согласование между этими двумя потоками.

Достаточно часто в процессе классификации случается, что мозг не содержит точного представления эталона, однако это не мешает ему правильно найти результат. Например, в мозге запомнено представление нескольких подклассов: «универсал», «седан», принадлежащих классу «автомобиль», и в поле зрения попадает объект, не имеющийся в базе, подкласса «хэтчбек». Мозг на основании того, что объект обладает определенным рядом характеристик (колеса, окна, двери и т.д.) принимает верное решение.

Другим немаловажным аспектом этой проблемы, является выделение существенных фрагментов сцены для их интерпретации. Другими словами, должна производиться селекция образов, расположенных на сцене. В противном случае, анализируется вся сцена, со всеми вытекающими последствиями полного перебора пространства решений. Примеры таких комплексов в качестве входных данных требуют практически полностью очищенные от шумов сцены, а при даже незначительных зашумлениях дают неверные результаты.

Таким образом, актуальность исследований обосновывается необходимостью разработки математического аппарата новых архитектур, алгоритмов функционирования и обучения ИНС для обеспечения более надежных результатов распознавания сложных объектов, находящихся на произвольном фоне. При этом основные усилия направлены на разработку интеллектуальной архитектуры иерархической ИНС, позволяющей анализировать только существенные компоненты входного вектора.

Теоретико-методологической основой диссертационной работы явились исследования в области компьютерного зрения, нашедшие отражение в трудах Хьюбела Д., Визеля Т., Фукушимы К., Гроссберга С, ЛеКуна Й., Райзенхубера М., Поггио Т., Карпентер Г.А., Ли Ж., Цоцос Д.К., Итти Л., Бейнке С.

Целью является разработка математической модели и программной реализации архитектуры и алгоритмов функционирования иерархических ИНС для решения задач распознавания образов, сгруппированных в произвольную сцену.

В связи с этим в диссертационной работе решаются следующие задачи:

1. Разработка математического описания архитектуры иерархической ИНС, позволяющей представить образ объекта из сцены на разных уровнях обобщенности.

2. Проектирование алгоритма настройки подсистемы распознавания иерархической ИНС.

3. Разработка механизма совместного функционирования подсистем внимания и распознавания.

4. Программная реализация разработанных алгоритмов настройки и функционирования иерархической ИНС.

В связи с этим в диссертационной работе решаются следующие задачи:

1. Разработка математического описания архитектуры иерархической ИНС, позволяющей представить образ объекта из сцены на разных уровнях обобщенности.

2. Проектирование алгоритма настройки подсистемы распознавания иерархической ИНС.

3. Разработка механизма совместного функционирования подсистем внимания и распознавания.

4. Программная реализация разработанных алгоритмов настройки и функционирования иерархической ИНС.

Методы исследования

В работе использован инструментарий теории алгоритмов, методы объектно-ориентированного проектирования и программирования, теории нелинейной оптимизации, теории распознавания образов, теории функционирования биологических нейронных систем.

Научная новизна

1. Разработана математическая модель системы распознавания связанных фрагментов образов на основе взаимодействия подсистем внимания и распознавания.

2. Предложен оригинальный алгоритм настройки иерархической ИНС с использованием механизмов обучения с учителем и без учителя.

3. Разработан алгоритм функционирования иерархической ИНС, фокусирующийся на значимых характеристик образа.

4. Предложен алгоритм выделения контрастных связанных фрагментов сцен на базе процессов сегментации и восходящего внимания.

5. Реализован программный комплекс, выполняющий поиск существенных фрагментов сцены с их последующим анализом.

Практическая ценность работы заключается в следующем:

1. Предложенные математические модели и алгоритмы обработки визуальной информации для анализа сцен позволяют эффективно решать задачи распознавания зашумленных образов, расположенных на сложном фоне. Предложен более эффективный по сравнению с существующими моделями иерархических нейронных сетей способ определения класса объекта, расположенного на сцене. Разработанные алгоритмы и их программная реализация внедрены в Научно-исследовательском институте оптики и атмосферы СО РАН.

2. Разработанная автором подсистема внимания позволяет оптимизировать вычислительные ресурсы, направив их исключительно на анализ существенных фрагментов сцены.

3. Предложенный в работе механизм взаимодействия подсистем внимания и распознавания может использоваться отдельно от всего комплекса сторонними разработчиками в собственных исследованиях обработки визуализированных сцен.

4. Отдельные модули разработанного программного комплекса имеют самостоятельное значение и могут использоваться в автономном режиме, что делает данный комплекс (подход) универсальным инструментом построения архитектур и обучения нейронных сетей для решения различных прикладных задач нейрокомпьютинга, таких как классификация, кластеризация, аппроксимация и управление.

Апробация работы

Результаты работы докладывались на: III Всероссийской научно-практической конференции «Научная сессия ТУСУР-2004». - Томск, 2004; VI Всероссийской конференции «Молодежь и современные информационные технологии». - Томск, 2006; V Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых. «Молодежь и современные информационные технологии». - Томск, 2007; XLV Международной научной студенческой конференции "Студент и научно-технический прогресс". - Новосибирск, 2007; XIII Международной научно-практической конференции студентов и молодых ученых «Современные техника и технологии». - Томск, 2007; VI Всероссийской научно-практической конференции «Инновационные недра Кузбасса. IT-технологии». - Кемерово, 2007; VI Всероссийской конференции «Молодежь и современные информационные технологии». - Томск, 2008; Всероссийской конференции «Информационные технологии в авиационной и космической технике - 2008». - Москва, 2008; XLVI Международной научной студенческой конференции «Студент и научно-технический прогресс». — Новосибирск, 2008; XIII Всероссийской научно-технической конференции «Новые информационные технологии в научных исследованиях и образовании». - Рязань, 2008; III Международной научно-технической конференции «Инфокоммуникационные технологии в науке, производстве и образовании». -Кисловодск, 2008; XV Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов», - Москва, 2008; Всероссийская научно-практическая конференция Информационные технологии в профессиональной деятельности и научной работе — Йошкар-Ола, 2008; XIV Международной научно-практической конференции студентов и молодых ученых «Современные техника и технологии». - Томск, 2008.

Основные положения, выносимые на защиту

1. Математическая модель иерархической ИНС для анализа сложных изображений, учитывающая взаимодействие процессов фиксации внимания и собственно распознавания.

2. Алгоритмы обучения и функционирования иерархической ИНС предложенной структуры.

3. Алгоритм выделения значимых фрагментов сцены подсистемой внимания.

4. Программная реализация интерпретации сцен на базе взаимодействия подсистем внимания и распознавания.

Публикации

По теме диссертационного исследования опубликовано 14 печатных работ, в том числе одна монография (в соавторстве) и две статьи в реферируемых изданиях, одобренных ВАК. Монография награждена дипломом лауреата Всероссийского конкурса Фонда развития отечественного образования «За лучшую научную книгу 2006 года».

Личный вклад автора

В опубликованных работах лично автором обоснованы причины разработки комплекса взаимодействия иерархической НС с подсистемой внимания, пояснены используемые структуры и алгоритмы функционирования разработанного комплекса, а также приведены результаты работы реализованных методов и алгоритмов на различных выборках в том числе дано сравнение с результатами группы нейросетевых моделей, решающих аналогичные задачи.

Объём и структура диссертации

Диссертация включает введение, четыре главы, заключение и список литературы, общий объём составляет 154 страницы, включая рисунки.

В первой главе представлен обзор родственных исследований, а также проанализирован опыт разработки и использования систем распознавания образов с помощью искусственных нейронных сетей.

Во второй главе предлагается архитектура иерархической НС для задач интерпретации сцен. Описываются структура и механизмы функционирования системы распознавания. Объясняются причины представления связанных фрагментов сцены на нескольких уровнях иерархии. Показаны аспекты стратегий поиска наиболее вероятного решения, а также процессов работы и обучения.

Третья глава посвящена вопросам выделения связанных контрастных фрагментов сцены подсистемой внимания, включающей модель восходящего внимания и алгоритм восходящего анализа сетью Маркова на базе метода Монте-Карло. Рассматриваются проблемы совмещения двух последних методов, а также возможные пути их решения.

В четвертой главе описывается программная реализация разработанных архитектуры и алгоритмов. Приводятся и обосновываются основные программные интерфейсы, классы и компоненты, включенные в реализацию системы взаимодействия подсистем распознавания и внимания. Рассматриваются результаты работы системы в сравнении с существующими аналогами.

Свертывающие нейронные сети

Генерация всех возможных комбинаций компонент и характеристик входного вектора - достаточно простой процесс, однако, с вычислительной точки зрения, крайне неэффективный. Размеры ИНС, хранящей все такие эталоны, просто огромны, а эти сети реально могут использоваться для решения весьма ограниченного класса задач с небольшой размерностью входного вектора. Справедливо также следующее утверждение [3]: чем больше параметров нейронной сети могут быть адаптированы к решению определенной задачи, тем меньше будут размеры сети. Пример иерархических ИНС, способных к полной адаптации, - класс свертывающих нейронных сетей, предложенных ЛеКуном в [49] .

Свертывающая ИНС представляет собой частный случай многослойного персептрона, однако нейроны в такой сети упорядочены в группы, между которыми прослеживается строгая иерархия. По этой причине обучение модели можно произвести алгоритмами, основанными на вычислении градиента. Самый простой путь обучения — популярный метод наискорейшего спуска [23].

Возможны также другие алгоритмы обучения, основанные на распространенных методах QuickProp [17], [89], RPROP [75] и более сложных, основанные на ньютоновских и квазиньютоновских методах [23].

Разработчики архитектуры свёртывающей ИНС LeNET—5 [50], использованной для распознавания рукописных символов, мотивировали свое техническое решение следующими причинами: — обучение полносвязного многослойного персептрона инвариантного к положению, зашумлению и трансформации образа возможно, однако представляет собой достаточно длительный и трудоёмкий процесс, т.к. необходимо сгенерировать огромное число эталонов с различными видами трансформаций, расположенных в разных частях входной плоскости; - полносвязная ИНС игнорирует топологию входного образа: компоненты входных обучающих векторов в значительной степени коррелируют друг с другом. Локальные корреляции, имеющие место среди близко расположенных компонент, есть главный инструмент для успешной классификации входного образа. Общий вид свёртывающей ИНС LeNET-5 представлен на рис. 1.05. Отбор Свертка Свертка

Перед использованием LeNET-5 входной образ должен быть приблизительно нормализирован в размерах и отцентрирован. Каждый слой ИНС состоит из карт свойств. Назначение этих карт аналогично назначению плоскостей когнитрона: выделение локальных характеристик образа и свёртка распознанных характеристик. Применение карты свойств позволяет выделить локальную характеристику и указать её местоположение на карте. Данная операция эквивалентна свертке, поэтому данная сеть названа с вертывающей.

Как только локальная характеристика образа попадает в слой свертки, её точное расположение становится менее важным. На первый план выходит положение выделенной характеристики относительно других выделенных свойств. Точное расположение характеристики является несущественным для идентификации образа по причине возможных вариаций одного и того же образа.

Простой путь уменьшения точности кодирования локальной характеристики картой свойств есть уменьшение пространственного разрешения карты. Данный процесс выполняется в так называемых слоях локальных характеристик, осуществляющих усреднение и выделение характеристик, уменьшение разрешения карты свойств и уменьшение чувствительности выхода к позиционным сдвигам и зашумлению.

Конструктивно ИНС LeNET-5 состоит из семи слоев и входной плоскости. Первые пять слоев LeNET-5 составляют чередующиеся слои свертки и выделения локальных характеристик. Заметим, что с редукцией разрешения карт свойств повышается их количество в последующих слоях.

Обратимся к недостаткам архитектуры. Наличие огромного числа синаптических связей равно, как и способ обучения, основанный, на методе наискорейшего спуска, требуют колоссальных вычислительных затрат в виде большого числа итераций обучения.

В работе [8] предложен подход к организации свертывающей ИНС, в котором первый слой свертки заменен на слой, нейроны которого осуществляли фильтрацию с помощью фильтра Габора. Такая сеть производила выделение небольших частей входного образа, подавляя значительные шумы уже на первом этапе, далее функционирование сети совпадало с LeNET-5.

Как отмечалось выше, модель разрабатывалась для оценки изолированных символов и показала впечатляющие результаты при оценке нормализованных одиночных символов, однако использование сети для оценки объектов реального мира, дополнительно требует трудоёмкую сегментацию объекта. Разработчики LeNET-5 предложили расширенную версию сети LeNET-5, названной ИНС пространственного перемещения (SDNN) [50] . В данной сети предлагается использование вместо последних двух слоев одну карту свойств. Модель обучается распознавать цифры по их контексту.

Поскольку положения и размеры символа необходимы для генерации желаемых выходов, для обучения были использованы трехсимвольные блоки с пробелами, ограниченные двумя символами. После определения наиболее похожих эталонов необходимо добавление заключительного этапа обработки для слияния одинаковых символов и подавления шумов.

Иерархическое смешение мнений экспертов

Разработчики иерархического фильтра Калмана произвели оптимизацию такого типа для трехслойной сети. На вход сети (Слой 0) поступали три называемых фрагмента образа, проходили через центрирующий фильтр и взвешивались гауссовым окном. Уровень 1 содержит три идентичных модуля оценки предсказания. На уровне 2, один модуль оценки предсказания получает входной вектор от всех трех нижестоящих модулей.

Нейроны уровня 1 обладают рецептивными полями, схожими с рецептивными полями Габора для выявления локальных ориентации образа. Такие нейроны имеют сходство с простыми нейронами области VI. Выходы нейронов уровня 2 получены комбинацией характеристик уровня 1 и обладают более сложными рецептивными полями.

Рао и Баллард продемонстрировали, что нейроны уровня 1 обладают устанавливающимся поведением, что объясняется предсказательным кодированием. Поскольку более длинные линии более вероятны в естественных изображениях, чем короткие, отклики селективно-ориентирующих клеток сильнее для коротких линий внутри своих рецептивных полей, чем для более длинных линий, которые могут быть предсказаны в вышестоящем модуле.

Предложенная Рао и Баллардом схема кодирования представляет собой эффективный способ взаимодействия между уровнями зрительной системы. Уменьшается избыточность, потому что при обработке производится посылка только части сигналов, еще не известных получателю.

Основная задача нейронных сетей встречного распространения заключается в реализации преобразования входного вектора х в выходной у = f(x), в то время как результат рекуррентных архитектур нейронных сетей определяется не только значением входа, но и текущим состоянием системы.

Рекуррентные вычисления гораздо мощнее, чем модели встречного типа. Если перед нейронной сетью встречного распространения с одним скрытым слоем стоит задача аппроксимации некоторой функции на замкнутом пространстве, то при линейном увеличении размерности входного вектора количество скрытых нейронов увеличивается экспоненциально. В отличие от них рекуррентные модели конечных размеров способны эмулировать машину Тьюринга за линейное время [85] .

С другой стороны, с повышением вычислительных возможностей возрастают и издержки. Каждый обрабатывающий элемент системы может использоваться не только более одного раза, но и на каждой итерации работы системы. В этом случае скорость функционирования рекуррентной модели значительно снижается на машине последовательного типа. Другая проблема заключается в более сложном поведении рекуррентной системы. Вследствие нелинейной динамики параметры системы могут изменяться в направлении, отличном от замыслов разработчиков. При проектировании таких систем следует подавлять возможные осцилляции, вышедшую из-под контроля возрастающую активность, конвергенцию к ложным аттракторам и хаотическое поведение, если таковые не являются желательными.

Несмотря на эти трудности, рекуррентные модели нейронных сетей используются во многих реальных приложениях. Ядро теории рекуррентных нейронных сетей составляет концепция энергетических функций и аттракторов. Такие модели особенно популярны в моделях ассоциативной памяти, позволяющих устанавливать взаимосвязи между данными разной природы, а также производить восстановление неполных или зашумленных данных [69]. Другое применение рекуррентных нейронных сетей находится в области пространственно-временного анализа образов, например- в области анализа текущей видеоинформации и распознавания речи [70]. Реализованный алгоритм распространения доверия Перла [71] может быть применен к графическим вероятностным моделям, содержащим циклы [20]. Такие схемы передачи сообщений успешно использовались для декодирования кодов коррекции ошибки. Кроме того, рекуррентные модели с успехом применяются для решения задач комбинаторной оптимизации [86].

Для практического использования полносвязные рекуррентные сети не подходят ввиду огромного количества настраиваемых параметров. Поэтому в реальных задачах используются модели со специфическими рекуррентными соединениями.

Уровень клеток локальных ориентации с переменным рецептивным полем (простых локальных ориентации)

Латеральное взаимодействие представляет собой самый простой тип взаимовлияния нейронов, расположенных внутри карт свойств неиросетевои архитектуры. Считается наиболее вероятным, что нейроны зрительных путей упорядочены таким образом, что самое интенсивное взаимодействие между ними происходит благодаря латеральным связям. Кроме этого латеральное взаимодействие используются в нескольких алгоритмах обработки изображений.

Так, например, совместимость между распознанным примитивом и его соседним окружением есть базис методики релаксационной маркировки [79]. Релаксационная маркировка применяется для связывания границ и решения задач сегментации.

Другой пример использования латерального взаимодействия в обработке изображения — анизотропное рассеивание [72], позволяющее сглаживать образ процессами рассеивания, зависящими от локальной интенсивности градиента. Это позволяет выполнять сглаживание в направлении к границам образа .Таким образом, анизотропное рассеивание -процесс анализа зашумленного входного изображения, для получения кусочно-линейного образа.

Модели с латеральным взаимодействием достаточно хорошо освещены в литературе, далее рассмотрены несколько из них. Линейные пороговые нейронные сети с локальным возбуждением и глобальным торможением

В числе самых простых моделей латерального взаимодействия присутствуют модели с глобальным торможением. Такие сети могут, например, осуществлять динамику алгоритма «победитель забирает все». В работе [26] рассматриваются нейронные сети с возбуждающими линейными пороговыми нейронами и одним тормозящим нейроном, вычисляющим сумму активностей. возбуждающих нейронов. После активации возбуждающих нейронов, только один из них может сохранить свою активность посредством самовозбуждения. Этот нейрон обладает максимальным входом. Выходы остальных нейронов становятся равными нулю вследствие влияния глобальной обратной связи, понижающей активность нейронов ниже порога активационной функции.

Поведение данной сети становится более сложным, если возбуждающие нейроны соединены напрямую между собой, а не через тормозящий нейрон. Разработчик такой модели сконструировал электронную микросхему [25], схематично приведенную на рис. 1.09, состоящую из кольца нейронов с локальными возбуждающими соединениями. Единственный нейрон этой сети вычислял среднюю активность этих нейронов и производил их торможение. Математически состояние сети определяется: + xi = [bi + YljWljx]]+, (1.11) где [и]+ = max (и, 0), W — симметричная матрица весов, Ь- входной вектор, х— выходной вектор.

Анализ подобной сети показал существование одновременно цифровой селекции и аналоговой чувствительности. Авторы модели обнаружили два типа подмножеств сигналов нейронов в сети. Активность запрещенных множеств не постоянна, в то время как постоянная активность допустимых множеств может быть сохранена сетью. Было показано, что все подмножества допустимых множеств также допустимы, а все супермножества запрещенных множеств запрещены.

Локальные возбуждающие соединения расширяют множество активных нейронов в динамике «победитель забирает все» от одного нейрона к группе последовательных нейронов. В такой сети, существует линейная зависимость между амплитудой максимума сигнала в сети уровнем однородности фонового входа.

Если более одного нейрона получают внешний вход, то нейронная сеть помещает максимум активности на место наиболее сильного стимула. Данная сеть также показывает запаздывающее поведение. Выбранные стимулы выигрывают соревнование, хотя другой нейрон получает больший вход. Если разница между этими стимулами превышает порог, то максимум активности переходит к более сильному стимулу.

Построение экземпляра модели

Во второй и третьей главах описаны принципы функционирования системы анализа двумерных образов. Здесь обсуждается реализация предлагаемой модели, а также приводится анализ результатов тестирования работы системы.

В описании математической модели был зафиксирован порядок следования слоев ИНС, но не конкретизировалось данные о количестве плоскостей для каждого уровня. Известно, что возможности системы по запоминанию объектов пропорциональны количеству обрабатывающих модулей на каждом уровне. Сеть большего размера способна локализовать больше локальных характеристик, а, следовательно, выявлять больше отличительных особенностей образа, если сравнивать её (сеть) с ИНС более компактной. Однако отсутствие точно заданной структуры расширяет область применения модели. Особенности задачи распознавания для конкретного случая определяют требования к архитектуре. Очевидно, что ширина внутренних (расположенных не на границе) локальных ориентации образов задает величину в S-клеток. Другими словами, если обучающая выборка является репрезентативной, то компоненты этих сегментов обуславливают топологию ИНС.

Для тестирования модели были подготовлены обучающие наборы связанных сегментов человеческих лиц, животных (панда, тигр) и пластмассовых изделий (детские игрушки и упаковка). Путем многократного тестирования были подобраны оптимальное количество и размеры плоскостей на уровнях ИНС. В табл.4.2 приведена информация о полученных размерах и количестве плоскостей в каждом слое иерархической ИНС.

Помимо фиксации числа плоскостей в слоях необходимо обозначить параметры нейронов, выраженные аргументами фильтров, в подуровнях локальных ориентации в слоях простых и сложных характеристик. Использующиеся в экспериментах значения приведены в табл.4.3.

Как отмечалось выше, рецептивное поле в математической модели имеет прямоугольную форму. При построении экземпляра сети все рецептивные поля обладают одинаковым значением ширины и высоты (т.е. квадратные) а для расчета значения Rf используется выражение (2.08). Напомним про пластичность Rf, выражающуюся в том, что величина параметра изменяется в зависимости от размеров обрабатываемого фрагмента. Для этого процесса можно еще использовать термин первичного, или восходящего, автоматического масштабирования.

Для синаптических весов a(C, ,fi,Q, b(C,Q, Uj в качестве первоначальных значений выбираются случайные положительные числа близкие к нулю. Значения d(V, f) устанавливаются согласно (2.13). Весовые коэффициенты wk устанавливаются после обучения слоя сложных характеристик. В качестве начальных Wj используются значения активностей слоя сложных характеристик (это делается с расчетом приближения к целевым состояниям и повышения качества обобщения при последующем обучении).

Похожие диссертации на Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей