Введение к работе
Актуальность
Обработка и анализ изображений являются одной из наиболее востребованных областей применения математического моделирования и численных методов. В последнее время особую актуальность приобрело нейросетевое моделирование обработки визуальной информации в системах биологического зрения. Адаптивная резонансная теория (APT) является одним из последних крупных достижений в области создания нейросетевых моделей, действующих по принципу подобия биологическим когнитивным процессам. Основными элементами АРТ-сетей являются полные двудольные графы синапсов (рис.1), в весах которых хранятся кластеры запомненных изображений.
Входное бинарное изображение (X)
Рис. 1. Простейшая АРТ-сеть, состоящая из одного полносвязного классификатора (слоев СР, СС и весов Wtj), а также модуляторов сброса-принятия (МСП), сравнения (МС) и
распознавания (MP). Усиливающие связи показаны стрелками, тормозящие - «булавами».
Все чаще от алгоритмов обработки массивов изображений требуется человекоподобные навыки, такие как анализ структуры, направление внимания и возможность ассоциирования образов друг с другом. Добавление таких навыков в APT актуально как для её развития, так и для развития машинного зрения.
Практически все разработки APT моделируют многие важные аспекты восприятия. В области моделирования внимания следует отметить модель СААРТ, способную «замечать» в изображениях-кандидатах только искомый объект и «не реагировать» на остальное. Однако в реальных биологических системах реализуется не только внимание, ответственное за подавление фона. В частности, существуют также механизмы внимания, направляемого в соответствии с моделями реальности, например, в соответствии со структурой знакомых объектов. Такое внимание можно назвать сознательным. Оно соответствует нашим попыткам «увидеть» знакомую структуру в воспринимаемом изображении и является примером влияния высокоуровневого анализа изображений на низкоуровневое восприятие. Моделирование подобных процессов в биологических системах до сих пор не производилось ни в рамках APT, ни в рамках вычислительной нейрофизиологии.
Сформулируем некоторые задачи, актуальные для моделирования в рамках APT. В заданном потоке входных изображений {Оі}'і11и при заданном пороге их
различимости р0 (уровне внимания), целевая нейросеть СВАК должна быть
способна самостоятельно осуществлять следующие процессы:
Ш. Классификация объектов (изображений) в соответствии с запомненными ранее классами ({Ot }^f — {Kt }'~^к ).
П2. Коррекция классов по мере поступления в них новых объектов, а так же создание новых классов для объектов, малопохожих на ранее увиденные
атег^і^кіг').
ПЗ. Создание структурных и ассоциативных связей между запомненными классами (как типа «часть-целое», так и типа «две половины одного целого»
П4. Моделирование интроспективного «обдумывания» (возбуждения зрительной памяти для структурирования запомненных объектов {К.}1^к — A ={(Ki,KJ}'^~=1 к). П5. Направление внимания (выборочное «подчеркивание» частей изображения в соответствии с усвоенными структурными связями (A): Po^ Pi (А) ;
В 90-х годах XX века были предложены АРТ-сети, моделирующие запоминание и классификацию образов в виде процессов П1-П2. Однако моделирование структуризации образов и сознательного внимания (ПЗ-П5) осталось за рамками исследований. Моделирование ПЗ-П5 актуально как для развития APT, так и как новый метод анализа изображений, обладающий большой степенью самостоятельности.
Назовём моделью сознательного внимания и ассоциативной классификации (СВАК) нейросеть, осуществляющую П1-П5. Модель состоит из нейросетевой архитектуры; переменных, представляющих визуальную информацию; а также психологических законов, формализованных в виде алгоритмов изменения синаптических весов. В частности, полученная зависимость силы ассоциации от числа повторений
A{tN)=A0 ^]и=0 Z~n в комбинации с забыванием Эббингауза-Стронга A(t)=A-
Blogz(t), обеспечивает процесс обучения разработанных нейроансамблей ассоциативного внимания (НАВ). Моделирование нейрофизиологической обратной связи со стороны зрительной памяти (влияющей как на синтез «осознанности» ощущений, так и на феномен «внутреннего» или «интроспективного» видения) порождает архитектуру и процесс обучения разработанных нейроансамблей сознательного внимания (НСВ).
Множество переменных, представляющее визуальную информацию, строится с помощью биоподобного фасеточного метода, также разработанного в процессе диссертационного исследования.
Цель и задачи исследования
Целью работы является математическое моделирование механизмов внимания в процессах распознавания, классификации и анализа структуры изображений, разработка численных алгоритмов для целевой модели, а также создание комплекса нейросетевых программ, реализующих эти алгоритмы.
Назовем целевую нейросеть нейросетью сознательного внимания и ассоциативной классификации (СВАК-нейросетью - см. рис. 2 далее). Поставленная цель определяет следующие основные задачи.
Задача 1. Исследование предмета моделирования (стадий обработки и психологических моделей внимания в системах биологического зрения -рис.2) и соответствующее структурирование процесса обработки визуальной информации - как временное (на стадии), так и архитектурное (на подсети). Задача 2. Формализация, выбор структурных элементов и математическое моделирование на их основе подсетей, соответствующих задаче 1. Задача 3. Разработка логической структуры целевой модели (нейросети СВАК), в том числе: архитектуры и функциональности (численных алгоритмов) всех подсетей задачи 2; биоподобного представления визуальной информации; методов соединения структурных элементов в нейроансамбли, возбуждающиеся при ассоциативном и сознательном внимании. Задача 4. Реализация нейросети СВАК в виде комплекса программ на основе разработанных численных алгоритмов. Тестирование его способности к автоматическому структурированию объектов, а также выполнения условий устойчивости работы комплекса программ.
Задача 5. Проверка адекватности математической модели СВАК на основе сравнения с психологическими когнитивными экспериментами. Задача 6. Применение СВАК для решения практических задач обработки изображений (поиск и сегментация по эталону, создание тримапа для матирования, вычисление свойств материала по изображению микроструктуры). Научная новизна
Разработан биоподобный метод фасеточного представления визуальной информации, упрощенно моделирующий сетчатку, обоснован (Теорема 1) и впервые применён для решения некоторых задач обработки изображений.
Создана математическая модель процессов сознательного внимания и ассоциативной классификации, реализованная в виде нового типа нейросетевой архитектуры на базе APT и алгоритмов изменения её весов. Доказаны новые АРТ-теоремы о функционировании данной архитектуры.
Предложены и численно реализованы алгоритмы работы нейроансамблей ассоциативного и сознательного внимания, т.е. новый метод соединения структурных элементов APT в единую нейросеть, впервые моделирующую как ассоциативное и сознательное внимание, так и процесс интроспективной структуризации запомненных объектов.
Разработан программный комплекс, реализующий математическую модель сознательного внимания и ассоциативной классификации для её применения в решении некоторых задач обработки изображений (создание автоматического тримапа, поиск и сегментация объекта по его эталонному изображению, вычисление свойств материала по изображению его микроструктуры ).
Для последнего приложения разработан также новый численный метод оценки проницаемости пористого материала по анализу изображений его срезов.
Практическая значимость полученных результатов. Практические приложения разработанного метода были запатентованы и использованы в коммерческих и научно-исследовательских проектах.
Основные результаты приложения «поиск и сегментация объекта по его эталонному изображению» были выполнены автором во время работы в научно-исследовательском центре фирмы Самсунг, запатентованы и применены в рамках разрабатываемой фирмой Самсунг системы интернет-торговли.
Основные результаты приложения «вычисление свойств материала по изображению его микроструктуры» были выполнены автором в научно-исследовательском центре фирмы Корнинг. Соответствующие результаты были оформлены в виде материалов для служебного пользования и применены в рамках проекта фирмы Корнинг по созданию высоко-технологичных пористых материалов.
Разработанная в процессе диссертационного исследования математическая модель СВАК, а также результаты сравнения работы комплекса программ СВАК с психологическими экспериментами распознавания, классификации и анализа структуры изображений были использованы в дипломных исследованиях факультета психологии РГПУ им. А.И.Герцена.
Апробация и опубликованность результатов. Основные положения и результаты диссертационной работы докладывались и обсуждались на: Международной конференции компьютерной графики и машинного зрения Графикой, Россия, Н.Новгород (2001); Международной конференции Искусственного интеллекта ИАИ, Украина, Кацивели (2002, 2004); International Conference EpsMsO, Aphens, Greece, (2005); Modeling and Simulation IAESTED conference, Beijing, China, (2007), а так же на научных семинарах: Visual processing lab seminar в научном центре фирмы Самсунг (Samsung Advanced Institute of Technology), Giheung-gu, S.Korea, (2001); Modeling&Simulation meetings в научных центрах фирмы Корнинг: Corning-SP, USA и Corning-CSC, Санкт-Петербург (2004, 2007); Семинаре машинного зрения и компьютерной графики МГУ, Москва (2006, 2008); Computational neurophysiology seminar, Los-Alamos National Lab, Los-Alamos, NM, USA (2008); Семинаре секции «Кибернетика» Дома Ученых СПб (2009); Семинаре кафедры компьютерного моделирования и многопроцессорных систем факультета прикладной математики - процессов управления СПбГУ (2009).
Все новые результаты, представленные в диссертационной работе, получены автором самостоятельно. Реализация программного комплекса на некоторых типах ЭВМ была проведена совместно со специалистами в области аппаратного и программного обеспечения ЭВМ. В публикациях с соавторами вклад соискателя определяется рамками излагаемых в диссертации результатов. Руководители проектов принимали участие в постановке задач, оценке промежуточных и конечных результатов.
Благодарности. Выражаю благодарность старшему научному сотруднику Джи-Юнгу Киму и руководителю проекта Чанг-Ионгу Киму (Samsung Advanced Institute of Technology), а также старшему научному сотруднику Олушу Боратаву и руководителю проекта Филиппу Барту (Corning Incorporated) за поддержку данных исследований, предоставление необходимых материалов, постановку ряда задач и плодотворное сотрудничество.
Публикации. По материалам диссертации опубликовано 12 печатных работ, список которых приведен в конце автореферата. Из них 1 статья опубликована в издании, рекомендованном ВАК .
Структура и объём диссертации. Диссертационная работа состоит из введения, четырёх глав, заключения, библиографического списка и девяти приложений. Работа изложена на 226 страницах машинописного текста, включая 59 страниц приложений. Библиографический список содержит 249 наименований.