Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритмы обработки и анализа изображений иерархической временной сетью Болотова, Юлия Александровна

Алгоритмы обработки и анализа изображений иерархической временной сетью
<
Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью Алгоритмы обработки и анализа изображений иерархической временной сетью
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Болотова, Юлия Александровна. Алгоритмы обработки и анализа изображений иерархической временной сетью : диссертация ... кандидата технических наук : 05.13.01 / Болотова Юлия Александровна; [Место защиты: Нац. исслед. Том. гос. ун-т].- Томск, 2013.- 162 с.: ил. РГБ ОД, 61 13-5/896

Содержание к диссертации

Введение

1 Анализ существующих биологически подобных моделей зрительного восприятия 15

1.1 Особенности биологической зрительной системы 15

1.2 Отображение биологических особенностей неокортекса в моделях распознавания объектов на изображениях 20

1.3 Модель иерархической временной памяти 26

1.4 Преимущества и недостатки модели 40

1.5 Цель и задачи исследования 42

1.6 Основные результаты и выводы по главе 1 43

2 Модификация модели ивп для задачи распознавания объектов на изображениях 45

2.1 Применение генетического алгоритма для подбора настроечных параметров сети 46

2.2 Выбор наилучшей структуры сети 51

2.3 Обучение сети 53

2.4 Распознавание в сети 76

2.5 Предобработка изображений 79

2.6 Моделирование саккадных движений 82

2.7 Основные результаты и выводы по главе 2 82

3 Программное обеспечение для распознавания объектов на изображениях иерархической временной сетью 84

3.1 Разработка ПО для задачи распознавания объектов на изображениях 84

3.2 Приложение, реализующее генетический алгоритм 89

3.3 Библиотека фильтров Габора 92

3.4 Библиотека сети ИВП з

3.5 Распараллеливание отдельных частей программы 114

3.6 Программа распознавания статических изображений 115

3.7 Программа распознавания объектов в видеопоследовательности GestureRecognition 120

3.8 Основные результаты и выводы по главе 3 125

4 Тестирование и применение разработанных алгоритмов и программных средств для распознавания объектов на изображениях 126

4.1 Описание тестируемых выборок 126

4.2 Параметры сети 130

4.3 Параметры для фильтра Габора 132

4.4 Тестирование сети 132

4.5 Основные результаты и выводы по главе 4 140

Заключение 141

Обозначения 143

Список сокращений

Введение к работе

Актуальность работы. Задача распознавания объектов на изображениях является одной из востребованных в современной информационной науке и инженерии. Ее решение требуется, например, для обеспечения общественной безопасности (системы видеонаблюдения), улучшения качества медицинского обслуживания (анализ медицинских снимков), для исследования труднодоступных объектов и территорий (анализ космических снимков) и окружающей среды (распознавание лесных пожаров), а также для помощи людям с ограниченными возможностями (распознавание жестов). На сегодняшний день предложено достаточно много алгоритмов распознавания. Постепенно они находят свое применение в системах, используемых в производственной и социальной сфере, однако достигнутые результаты все еще далеки от возможностей зрительной системы человека и требуют доработки и улучшения.

В процессе эволюции методов и средств решения задачи распознавания объектов на изображениях происходит развитие алгоритмов, в частности, основанных на биологическом подобии структуры и функциональных особенностях мозга. Алгоритмы, работающие по принципам, заложенным самой природой, обладают большей гибкостью и универсализмом.

Нейронные сети, генетические алгоритмы и модель автоассоциативной памяти были последовательными успешными биологически-подобными разработками в данной области. Их особенность заключается в частичном воспроизведении структуры неокортекса (новой коры головного мозга, осуществляющей высший уровень координации работы мозга). К основным недостаткам нейронных сетей относится непрозрачность формирования результатов анализа, неоднозначность при выборе структуры сети. При использовании алгоритма с обратным распространением ошибки, как правило, применяемого для обучения нейронных сетей, не существует гарантии, что сеть может быть обучена за конечное время. Таким образом, вопрос о создании новых методов распознавания, обеспечивающих прозрачность работы и инвариантность к различным видам искажений, остается открытым.

Исследуемая и модифицированная в диссертационной работе модель иерархической временной памяти (ИВП), впервые описанная в работах Дж. Хокинса, основана на следующих принципах функционирования мозга.

  1. Однообразность операций на различных уровнях анализа информации.

  2. Иерархичность структуры сети ИВП.

  3. Иерархичность восприятия окружающей среды. Каждый воспринимаемый объект представляется как совокупность составляющих его элементов, расположенных в определенной пространственной зависимости.

  4. Использование времени в качестве «учителя». Зрительная система воспринимает сигналы с течением времени. Изображения, поступающие на сетчатку последовательно друг за другом, т.е. в близкие моменты времени, воспринимаются как составляющие элементы одного объекта.

  5. Одним из аспектов модели ИВП является «запоминание», т.е. сохранение уникальных характеристик входных данных.

  6. Универсальность модели. Возможно распознавание различных видов данных, которые подвержены изменениям с течением времени.

  7. Использование вероятностных причинно-следственных алгоритмов. Математически модель ИВП описывается в терминах сети Байеса.

  8. Использование обратной связи для прогнозирования и удаления шумов.

Вышеперечисленные принципы ранее встречались и в других подходах, таких как сверточные нейронные сети, цепи Маркова, модель HMAX и др., однако особенность модели ИВП заключается в их синтезе.

Модель иерархической временной памяти была реализована и апробирована ее создателями на задачах распознавания объектов. Сейчас она находится в начальной стадии развития и работает на простых бинарных изображениях. Несмотря на это за счет биологического подобия модель обладает большим потенциалом, пока еще полностью не раскрытым в ее исследованиях и приложениях.

На основании всего выше изложенного, можно сделать вывод об актуальности исследования и модификации модели иерархической временной памяти в рамках решения задачи распознавания объектов на изображениях.

Теоретико-методологической основой диссертационной работы явились исследования в области компьютерного зрения и интеллектуального анализа данных, нашедшие отражение в трудах С. Хайкина, Дж. Хокинса, Д. Джорджа, Д. Малтони, Б. Бобьера, Я. Лекуна, И.А. Шевелева, К. Фукушимы, И. Арела, Й. Бенджио, Ю.Р. Цоя.

Целью диссертационной работы является модификация существующих и разработка новых алгоритмов анализа данных для модели иерархической временной памяти, способных повысить ее эффективность при решении задач распознавания объектов на изображениях.

Исходя из цели диссертационной работы, можно выделить следующие основные задачи:

    1. Исследование существующих алгоритмов анализа данных для модели

    ИВП.

      1. Модификация существующих и разработка новых алгоритмов для модели ИВП, позволяющих повысить эффективность ее работы.

      2. Реализация библиотек и программ модифицированной модели ИВП для распознавания объектов на статических изображениях и видеопоследовательностях.

      3. Апробация реализованной модели на задачах распознавания символов и жестов.

      Методы исследования. Для решения поставленных задач используется аппарат скрытых моделей Маркова, сетей Байеса, теории вероятностей и математической статистики, методы цифровой обработки изображений, нечеткой логики, матричных вычислений, вычислительной математики, технологии программирования, а также компьютерные эксперименты для оценки эффективности разработанных алгоритмов.

      Научную новизну полученных в диссертации результатов определяют следующие положения.

          1. Впервые предложенный эволюционный способ автоматической настройки параметров иерархической временной сети, позволивший повысить точность распознавания объектов на изображениях и видео.

          2. Оригинальный способ дополнительной кластеризации пространственных центров в процессе их формирования в сети иерархической временной памяти, ускоряющий процесс распознавания в 1,6 раза.

          3. Новый алгоритм временной группировки, отличающийся от исходных тем, что основан на объединении пространственных центров с учетом их внут- ригрупповых связей, что позволяет эффективнее формировать временные группы и, благодаря этому, увеличить точность распознавания объектов иерархической временной сетью на 3 %.

          4. Впервые предложенный способ модификации модели иерархической временной памяти, заключающийся в создании матрицы буферизации входных данных (STM), частично замещающий процесс создания обучающих последовательностей и позволяющий ускорить процесс обучения сети.

          5. Оригинальный способ предобработки изображений, основанный на выделении границ объектов фильтром Габора, расширяющий возможности сети иерархической временной памяти для работы с полутоновыми и цветными изображениями.

          Научную ценность работы представляет вклад в развитие модели иерархической временной памяти, заключающийся в предложенном эволюционном способе настройки параметров иерархической временной сети; в способе дополнительной кластеризации пространственных центров, реализованном с целью увеличения скорости работы сети; в новом алгоритме временной группировки, основанном на объединении пространственных центров с учетом их внутригрупповых связей, увеличивающем точность распознавания сети; в способе предварительной обработки полутоновых и цветных изображений фильтром Габора.

          Практическая значимость. Разработанные в диссертации методические, алгоритмические и информационные средства предназначены для использования в системах безопасности, видеонаблюдения, видеоконтроля и обработки изображений.

          Реализованная в ходе диссертационной работы сеть иерархической временной памяти предназначена для решения задач распознавания объектов на изображениях и видеопоследовательностях. Предложенные в работе модификации алгоритмов исходной модели ИВП позволяют увеличить точность и скорость распознавания объектов на изображениях и видео.

          Апробация реализованной сети ИВП осуществлялась на задачах распознавания стилизованных цифр, символов и жестов на статических изображениях и в видеопоследовательностях.

          Реализация результатов работы. Методы, алгоритмы и программы, разработанные в диссертационной работе, использовались при выполнении работ по гранту РФФИ № 09-08-00309 «Создание программного комплекса автоматизированной обработки изображений и распознавания образов на основе применения искусственных нейронных сетей, регуляторных сетей и эволюционных алгоритмов» (2007-2009 гг.); в проекте «Продвижение и коммерциализация инновационной технологии по обработке изображений на базе эволюционных и нейроэволюционных вычислений» («Microsoft Бизнес-Старт» Фонда содействия развитию малых форм предприятий в научно-технической сфере 2009-2011 гг.); в проекте «Создание комплексных технологий распознавания объектов на изображениях на основе применения моделей зрительного восприятия и методов вычислительного интеллекта», поддержанном грантом РФФИ № 12-08-00296 (2012-2014 гг.).

          Степень достоверности результатов проведённых исследований. Достоверность полученных результатов подтверждена логическими построениями, основанными на математическом аппарате сетей Байеса и Марковских процессов, корректностью методик исследования и проведенных расчетов, многочисленными экспериментами, проводимыми на различных тестовых задачах, и согласованностью результатов диссертации с результатами, полученными другими авторами.

          Внедрение работы. Результаты работы внедрены в Томском политехническом университете на кафедре вычислительной техники при подготовке специалистов по магистерской программе «Компьютерный анализ и интерпретация данных» по курсу «Методы интеллектуальной обработки и анализа изображений».

          Часть программных средств передана в Федеральную службу по интеллектуальной собственности, патентам и товарным знакам (Роспатент) (номер государственной регистрации 2012612230).

          Основные положения, выносимые на защиту:

                1. Предложенный способ эволюционной настройки параметров иерархической временной сети позволяет автоматически определять значения параметров сети для успешного распознавания объектов на изображениях и видео.

                2. Способ дополнительной кластеризации пространственных центров в процессе их формирования в иерархической временной сети позволяет ускорить процесс распознавания в 1,6 раза.

                3. Алгоритм формирования временных групп, основанный на объединении пространственных центров с учетом их внутригрупповых связей, позволяет эффективнее создавать временные группы и увеличить точность распознавания объектов иерархической временной сетью на 3 %.

                4. Способ модификации модели иерархической временной памяти, заключающийся в создании дополнительной матрицы буферизации входных данных (STM), позволяет упростить процесс создания обучающих последовательностей и ускорить процесс обучения сети.

                5. Способ предобработки изображений, основанный на выделении границ объектов фильтром Габора, позволяет расширить возможности иерархической временной сети, и перейти от обработки битовых изображений к обработке полутоновых и цветных изображений.

                6. Разработанное программное обеспечение на основе иерархической временной сети позволяет успешно распознавать объекты на изображениях и видео.

                Апробация работы. Основные результаты работы обсуждались и доказывались на следующих симпозиумах, конференциях и семинарах: 12-я Международная конференция «Цифровая обработка сигналов и ее применение» (Москва, 2010); XLVIII, XLIX Международная научная конференция «Студент и научно-технический прогресс» (Новосибирск, 2010 и 2011); VIII, IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2010 и 2011); VIII Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2011); Международная научно-практическая конференция «Интеллектуальные информационно - телекоммуникационные системы для подвижных и труднодоступных объектов» (Томск, 2010); Научно- практический семинар «Современные технологии образования и научных исследований в ВУЗах Франции и России» (Париж, 2010); XVII Международный симпозиум «Оптика атмосферы и океана. Физика атмосферы» (Томск, 2011); XIX Всероссийский семинар «Нейроинформатика, ее приложения и анализ данных» (Красноярск, 2011); Седьмой международный форум по стратегическим технологиям IFOST (Томск, 2012).

                Публикации. Основное содержание диссертации отражено в 14 работах, в том числе 3 статьи в изданиях из перечня ВАК [1 - 3], 1 статья в рецензируемом журнале, 9 докладов на Всероссийских и Международных и конференциях и одно свидетельство об официальной регистрации программы распознавания символов иерархической временной сетью для ЭВМ.

                Личный вклад. В диссертации использованы только те результаты, в которых автору принадлежит определяющая роль. Постановка задач диссертационного исследования выполнена автором совместно с научным руководителем, д.т.н., профессором Спицыным В.Г. Основные теоретические и практические результаты, представленные в диссертации, получены лично автором.

                Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 137 наименований. Общий объем работы составляет 162 страницы машинописного текста, иллюстрированного 59 рисунками и 51 таблицей.

                Отображение биологических особенностей неокортекса в моделях распознавания объектов на изображениях

                Площадь коры головного мозга примерно равна 2200 см2. Кора образована нервными клетками - нейронами. На площади 1 мм2 содержится около 100000 нейронов. Общее число нервных клеток в коре головного мозга составляет порядка 100-300 млрд. [23].

                Примерно 90 % коры занимает неокортекс - «новая кора», которая впервые появилась у млекопитающих. Неокортекс отвечает за функции восприятия, речи, мышления, прогнозирования, наличие или отсутствие способностей к чему-либо [23]. Таким образом, решая задачу воспроизведения функций «естественного интеллекта», следует обращать внимание на структуру и принципы работы неокортекса [132, 133]. 1.1.1 Структурные особенности неокортекса

                В 1978 г. Верной Маунткастл опубликовал работу под названием «Организующий принцип функционирования мозга» [106]. Он заметил, что зоны коры, отвечающие за зрительное восприятие, осязание, управление двигательной активностью, речь и т.д. внешне схожи между собой. Было сделано предположение, что из внешнего структурного подобия этих зон следует их функциональное подобие: зоны всех органов чувств и моторные зоны действуют по одному и тому же алгоритму.

                Это предположение, впоследствии, подтвердилось следующим экспериментом. Профессор Пол Бачирит разработал устройство, переводящее зрительную информацию в тактильные ощущения. Устройство создавало слабое покалывание на языке сообразно яркости пикселей на картинке, снимаемой видеокамерой. При помощи него слабовидящий человек учился «видеть» через ощущения языка. Апробация показала хорошие результаты: испытуемый смог обойти препятствия, спуститься вниз по лестнице и разглядеть контуры таблички, висящей на двери [23].

                В своей работе [106] Маунткасл выдвинул гипотезу о колонковой организации неокортекса: за конкретный образ реального мира (лицо знакомого, известный афоризм, образ цветка) в неокортексе отвечает вертикальная колонка нейронов. Одна такая колонка содержит порядка 10—10 нейронов, дендриты которых проходят через всю высоту колонки.

                Исследование возникающих импульсов в коре головного мозга при активации различных органов чувств показало, что существуют отдельные области, отвечающие за речь, осязание, зрительное и слуховое восприятие. Кроме того, процесс функционирования в пределах одной области подчинен четкой иерархической зависимости с присутствием обратных связей: низшие зоны коры головного мозга поставляют информацию в высшие зоны и наоборот [23].

                Первичные сенсорные зоны, в которые информация поступает из окружающего мира, являются низшими функциональными зонами [124, 125]. Эти области анализируют простейшие примитивы. Зрительная информация проникает в кору головного мозга через наиболее изученную первичную зрительную зону VI. Эта зона позволяет распознавать примитивы объектов первого уровня (прямые под различными углами наклона) [25]. Каждый нейрон зоны VI привязан к своему рецептивному полю, которое является очень ограниченным по сравнению с общим полем зрения. Таким образом, нервные клетки самой нижней зоны VI ничего не знают о людях, книгах или других объектах, которыми «мыслит» человек, они оперируют только простейшими их составляющими [135].

                Выходная информация из зоны VI поступает на вход зоне V2, оперирующей объектами второго уровня (углы и пересечения прямых). Зона V3 реагирует на движение и глубину, некоторые ее нейроны имеют цветовую чувствительность. Зона V4 содержит достаточно много нейронов, чувствительных к цвету, и нейронов, отвечающих за пространственное зрение. Зона МТ, скорее всего, связана с анализом движения [25].

                Выбор наилучшей структуры сети

                Пространственное объединение необходимо для фильтрации и компрессии входных данных и их первичного обобщения.

                Как и тестирование сети, обучение проходит в два этапа. Первым этапом является формирование пространственных центров в узлах. Задачей этого этапа является сохранение уникальных входных векторов, так называемых пространственных центров. Так как, в зависимости от обучающей выборки, количество различных входных векторов может стремиться к бесконечности, необходимо сохранить наиболее распространенные или усредненные центры.

                Входными данными для узла нижнего уровня являются значения пикселей закрепленной за ним области изображения. Они представляются в виде бинарного вектора Х , содержащего информацию о наличии границы в данной точке или ее отсутствии. Входными данными для узлов второго и более верхних уровней тоже являются бинарные векторы. Процесс их формирования будет описан ниже. Для оценки степени различия между текущим входным вектором и уже сохраненными пространственными центрами в узле используется формула евклидова расстояния [32, 69]: dt2= I {Xf-cy)2, 7=1 где Njim х- - размерность вектора Х , Xf -j-я компонента входного вектора, Cj—j-я компонента текущего пространственного центра с,.

                Для сопоставления вводится максимальное возможное отклонение от центра - maxDistance. Если d maxDistance, то считается, что такой центр уже присутствует в памяти узла. В противном случае в узле сохраняется новый пространственный центр. Качество обучения узла напрямую зависит от выбора параметра maxDistance. Чем меньше его значение, тем больше различных центров будет найдено. Если maxDistance = О, то каждый уникальный входной вектор будет считаться отдельным пространственным центром. Если maxDistance будет слишком велико, то разные входные векторы будут рассматриваться как один, что впоследствии снизит результат распознавания. Таким образом происходит кластеризация входных векторов, в результате чего в узле сохраняются уникальные пространственные центры.

                Как было описано выше, на первом этапе обучения в узле сохраняется множество пространственных центров С={с„ i=l..Nc}, состоящее из уникальных входных векторов, описывающих пространственное расположение составных частей объекта изображения.

                После того как вся обучающая выборка была рассмотрена, сеть переходит в режим тестирования сохраненных центров. На вход снова подается видеопоследовательность изображений. На этот раз каждому входному вектору во время t в узле ставится в соответствие наиболее коррелирующий с ним пространственный центр с,.

                Учитывая значение активного центра во время t—\, можно отследить, сколько раз один пространственный центр следовал за другим. Для хранения этой информации формируется матрица смежности ТАМ. Она представляет собой квадратную матрицу, строки которой соответствуют выбранным пространственным центрам во время t, а столбцы - выбранным пространственным центрам во время t-\. Значение элемента матрицы ТАМ на пересечении ряда активного центра с, во время t и столбца активного центра сх.\ во время f-І увеличивается на 1 (рисунок 1.6).

                По матрице ТАМ строится цепь Маркова, где номера пространственных центров являются вершинами графа, а количество их следований друг за другом - весами ребер. После того, как обучающий сигнал закончился, из вершин цепи Маркова формируются временные группы. В одну временную группу отбираются вершины, соединенные ребрами с наибольшими весами. На рисунке 1.7 приведен пример цепи Маркова, состоящей из 5 пространственных центров. В результате выделились 2 временные группы: g\ и g2. Центры, выделенные белым цветом (с2, с3), объединены в группу #ь серым цветом (сь с4. с5)-в группуg2 35

                Ключевым элементом в работе сети, объединяющим этапы пространственного и временного анализа, является матрица PCG{C\G), столбцы которой соответствуют пространственным центрам, а строки - временным группам. Если какой-либо из центров не содержится в определенной временной группе, то на пересечении соответствующего столбца и строки матрицы PCG(c,\gj) стоит «О», иначе этот элемент матрицы содержит относительную нормированную вероятность, рассчитываемую по формуле: где seen(c, I gj) - число появлений центра с, во входном сигнале, при условии, что он входит в группу gj [66]. Формирование матрицы PCG{C\G) является заключительным этапом обучения узла. В дальнейшем матрица PCG(C\G) понадобится, когда вся сеть будет переключена в режим распознавания.

                После того, как все узлы текущего уровня были обучены, уровень переходит в режим распознавания. На этот раз в каждом узле первого уровня входному вектору ставится в соответствие наиболее коррелирующий с ним пространственный центр с„ а затем выбирается временная группа, которой принадлежит центр - победитель gJ% Выходной информацией из узла будет бинарный вектор X , его размерность равна количеству временных групп в узле. На месте выбранной временной группы — победителя X (gj) ставится «1», а на месте остальных групп - «О». После этого выходные векторы из нескольких соседних узлов конкатенируются и отправляются на вход узлу - родителю следующего уровня (рисунок 1.8)

                Обучение узла верхнего уровня сети частично производится с учителем. Сохранение пространственных центров осуществляется аналогично узлам промежуточных уровней [49, 100], а при объединении их в группы, каждому входному вектору ставится в соответствие заранее определенная категория изображения. В этом случае каждая группа верхнего узла однозначно соответствует определенному классу объектов. Таким образом, количество групп в узле верхнего уровня равно количеству распознаваемых категорий [65].

                Приложение, реализующее генетический алгоритм

                Формирование входного вектора для узлов нижнего уровня происходит путем разбиения исходного изображения на отдельные области и передачи вектора, сформированного из значений пикселей текущей области изображения закрепленному за ней узлу. Выходным значением узла любого уровня является вектор вероятностей соответствия входа существующим в узле временным группам.

                Формирование входного вектора для узла промежуточного уровня происходит путем конкатенации выходных векторов его дочерних узлов предыдущего уровня: Х =[Х\ , X-f,...}.,„}. Таким образом, размерность вектора Л равна сумме размерностей выходных векторов всех его дочерних узлов. Размерность выходного вектора узла равна числу временных групп в данном узле

                На этом этапе происходит формирование вектора у — условной вероятности соответствия входного вектора существующим пространственным центрам узла: у[і\ = р(Х \СІ),І = 1..ПС. Значение у[г] может быть рассмотрено как уровень активации г -го пространственного центра в текущем узле, при условии, что на вход ему был подан вектор Х .

                Есть некоторые различия при подсчете вероятности в зависимости от номера уровня. Для узлов нижнего уровня входной вектор Х представляет собой вектор значений пикселей с закрепленной части изображения. В этом случае значение y[i] отражает пространственную «схожесть» двух патчей изображений, представленных входным вектором и текущим пространственным центром с„ которая может быть рассчитана по формуле Гаусса:

                В узле промежуточного уровня входной вектор /Г представляет собой вектор условных вероятностей принадлежности входного вектора соответствующим группам его дочерних узлов. В этом случае значение y[i] рассчитывается как произведение вероятностей групп дочерних узлов, входящих в соответствующий пространственный центр с, данного узла:

                Эта нормализация не повлияет на дальнейшую работу сети [101]. 2.4.1.3 Тестирование временных групп

                На этом этапе формируется вектор вероятностей принадлежности входного вектора существующим временным группам узла. Каждый элемент g\j] этого вектора интуитивно может быть рассмотрен как уровень активации группы gj в ответ на входной вектор и получен по следующей формуле:

                Верхний уровень сети состоит только из одного узла. Узел работает как классификатор, рассчитывая вероятность соответствия входного вектора каждой из сохраненных на этапе обучения категорий.

                Формирование входного вектора происходит аналогично узлам промежуточных уровней (раздел 2.4.1.1), то есть путем конкатенации выходных векторов всех его дочерних узлов. Дочерними узлами в данном случае являются все узлы предыдущего уровня.

                Тестирование пространственных центров происходит аналогично узлам промежуточных уровней (раздел 2.4.1.2). Вычисление условной вероятности соответствия входного вектора категориям (уровень активации класса wp j=\..nw) рассчитывается по следующей формуле: где равенство р{1 \ Cj,Wj) = p(X \ с,) выполняется, так как знания о классе w} не влияют на оценку соответствия вектора Г пространственному центру с,. Расчет апостериорных вероятностей принадлежности входного вектора существующим категориям согласно теореме Байеса проведен на основе выражения:

                До сих пор сети ИВП обучалась и тестировалась на бинарных изображениях стилизованных цифр. Если при работе с бинарными изображениями на вход подавались непосредственно значения цвета пикселей изображения, то для работы с полутоновыми и цветными изображениями предполагается провести их предварительную обработку [6, 7, 19]. Так как узлы нижних уровней сети (подобно зрительной коре) оперируют границами объектов, в качестве предобработки цветных изображений было решено выделить граничные линии объектов с их ориентациями. Для этого были выбраны фильтры Габора, одни из самых распространенных фильтров в области обнаружения границ [98, 99]. Особенностью фильтров Габора и их преимуществом в сравнении с другими фильтрами является возможность выделения границ не только заданной ориентации, но и ширины. Кроме того, выходные изображения границ, найденных фильтрами Габора, повторяют форму рецептивных полей простых клеток (simple cells) в коре человеческого мозга [18, 83].

                Перед подачей в функцию фильтра входное изображение обрезается по краям до ближайшего квадратного размера и масштабируется кратно 32x32 пикселям (масштаб задается пользователем: 32x32, 64x64, 96x96), после чего оно преобразуется в полутоновое. Вычисляются 4 карты со значениями фильтров Габора. Каждая карта содержит информацию о границе определенной ориентацией: 0, я/4, я/2, Зя/4. Если в данной точке изображения найдена граница, то значение карты в этой точке равно 1, иначе 0. Таким образом, исходное полутоновое или цветное изображения приводится к бинарному изображению границ.

                Было исследовано 2 варианта подачи карт на входы сети. В первом случае четыре полученных карты суммируются. Суммарная карта подается на вход сети ИВП (рисунок 2.13). Этот алгоритм позволяет определить только наличие или отсутствие границы в точке. Таким образом, информация об угле наклона границы теряется. Во втором случае было решено не объединять карты границ, а подавать их на вход четырем различным сетям. На этапе обучения в каждой сети входной карте ставится в соответствие категория объекта. Во время тестирования принятие решения о принадлежности объекта к определенному классу принимается по результатам голосования всех четырех сетей.

                Параметры для фильтра Габора

                Предобработка входных данных осуществляется только перед подачей на узлы нижнего уровня. Узлы второго и третьего уровня принимают на вход векторы из индексов групп-победителей узлов предыдущего уровня.

                Режим обмена информацией предполагает обучение одного узла уровня на всей обучающей выборке и последующее копирование его содержимого во все остальные узлы данного уровня (раздел 2.3.3.3). Нижний уровень всегда обучается в режиме «обмена информацией». Промежуточный уровень обучается в данном режиме при работе с изображениями из выборок «Numenta-м» и «Numenta», на остальных выборках промежуточный уровень обучается в обычном режиме. Верхний уровень всегда обучается в обычном режиме.

                Значение maxQCentersNum — определяет количество сохраняемых пространственных центров в узле при обучении. Результаты апробации показали, что эта переменная значительно влияет на качество распознавания. Кроме того, ограничивать число сохраняемых пространственных центров неявно можно с помощью переменной thrDistance, определяющей разброс в степени схожести центров.

                Значение параметра thrDistance = 0 на уровнях 2 и 3. Это означает, что каждый уникальный паттерн будет сохранен как новый пространственный центр. Понятие параметра thrDistance на 2-ом и 3-ем уровне отличается от значения этого параметра на 1-м уровне: фактически на первом уровне расстояние между паттернами рассчитывается по формуле Гаусса, а в узлах 2-го и 3-го уровня - расстояние равно числу несовпадений в соответствующих индексах временных групп.

                Переменная transШопМетогу определяет число предыдущих шагов, которые учитываются при формировании матрицы ТАМ. Чем выше уровень, тем больше инвариантность, следовательно, значение переменной transitionMemory увеличивается с увеличением номера уровня.

                Параметр groupMaxSize определяет максимальный размер временной группы. Алгоритм временной группировки определяет алгоритм временной группировки (алгоритмы рассмотрены в разделе 2.3.3.5). tempGrBord - граничная степень связности центров внутри группы, определяется для алгоритмов временной группировки.

                Коэффициенты для фильтра Габора: размер окна фильтра, /0, и р были подобраны опытным путем, исходя из размера изображения и ширины искомых границ. Значения ах, ту были рассчитаны по соответствующим формулам (раздел 2.5). Значения используемых в работе коэффициентов приведены в таблице 4.2. Коэффициенты фильтров Габора для выборки печатных символов приведены в 1-й строке таблицы 4.2. Коэффициенты фильтров Габора для выборки MNIST приведены во 2-й строке таблицы 4.2. содержат результаты распознавания выборок «Numenta-м» и «Numenta», «Печатные символы с фоном», MNIST и «Жесты». Во всех случаях сеть была обучена тремя различными алгоритмами временной группировки: Greedy, АНС и МТС. В колонке «Детализация» содержится информация об обученных уровнях сети. Ы, L2, L3 — номера соответствующих уровней; пс - среднее количество пространственных центров в узле; ns -среднее количество временных групп в узле; о.в. — обучающая выборка; т.в. -тестовая выборка.

                Выборки Алгоритмвременнойгруппировки Точность распознавания, % Время (чч:мм:сс) - Детализация о.в. т.в обучения тестирования Numenta-м, 8 классовОбучающаявыборка:100 изображенийТестовая выборка: 1761 изображение Greedy 100 76 00:22:29 00:01:33 1:п„= 139, =

                В главе 2 рассматривались два способа обучения сети ИВП на изображениях, предобработанных фильтром Габора (раздел 2.5.1.1). В первом случае предобработанные изображения представлялись в бинарном виде, где «1» - граница объекта (без учета ориентации), «О» - отсутсвие границы. Результаты распознавания сети в этом случае описаны в верхней строке таблицы 4.5. Во втором случае с помощью фильтра Габора находились границы отдельно по каждой ориентации (0, я/4, Зтт/4, ті/2), в результате на выходе получалось 4 бинарных изображения по четырем искомым ориентациям, где каждый пиксель принимает значение «1» - на границе объекта текущей ориентации, «О» - отсутствие границы текущей ориентации [4].

                Полученные 4 изображения подавались на вход четырем сетям ИВП. Окончательный результат распознавания определялся «голосованием». Результаты второго способа обучения приведены в нижней строке таблицы 4.5.

                Таким образом, разделение исходных данных по различным ориентациям увеличило результат распознавания тестовых изображений на 2,7 %.

                База MNIST обучалась и тестировалась также с предобработкой фильтрами Габора, с размером скользящего окна 1 пиксель. Размер окна был подобран опытным путем [44]. При таком размере окна применение фильтров Габора превращается в операцию, подобную бинаризации. При этом результат фильтрации не зависит от искомой ориентации.

                В данном разделе исследуется влияние моделирования саккадных движений на результат распознавания.

                Формирование саккад происходит следующим путем: объект на исходном изображении смещается «по спирали» на 1 пиксель, количество смещений соответствует числу саккад. Каждое полученное таким образом изображение подается на вход сети. Общий результат рассчитывается путем «голосования» (рисунок 4.9).

                Похожие диссертации на Алгоритмы обработки и анализа изображений иерархической временной сетью