Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Пирамидальное распознавание изображений на основе бинарных структур Колебанов, Сергей Викторович

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Колебанов, Сергей Викторович. Пирамидальное распознавание изображений на основе бинарных структур : диссертация ... кандидата технических наук : 05.13.17.- Нижний Новгород, 1998.- 163 с.: ил. РГБ ОД, 61 00-5/414-4

Введение к работе

Актуальность ТеМЫ ,'::...

Одним из наиболее существенных результатов научно-технической революции является широкая компьютеризация практически всех областей человеческой деятельности. Бурное развитие средств вычислительной техники привело к тому, что значительные объемы научно-технической, общественной, социально-политической информации, в т.ч. и в виде изображений, переносятся в память ЭВМ и становятся доступными широкому кругу пользователей.

Зрительная система не только занимает важнейшее место в процессе обмена информацией между человеком и окружающим миром, но также оказывает значительное влияние на образ мышления и формирование представлений человека об окружающем мире. Соответственно важнейшей является задача создания систем технического зрения, позволяющих машине эффективно воспринимать, обрабатывать и хранить зрительные образы, т.е. сделать естественным и удобным общение между человеком и машиной, машиной и внешней средой.

В настоящее время наиболее эффективными зрительными системами являются естественные системы, в которых реализованы глубинные законы информационных преобразований в Природе. Пристальное изучение естественных зрительных систем и выявление принципов их работы способно привести к созданию качественно новых методов обработки изображений и, как следствие, к построению машин с архитектурой, отличной от архитектуры Дж. фон Неймана.

С одной стороны, проблема построения эффективного (для распознавания) описания структуры объекта, представленного в виде изображения, в настоящее время продолжает оставаться актуальной. С другой стороны, предложена перспективная теория распознавания изображений - теория активного восприятия изображений. Эта теория базируется на достоверно известных и подтвержденных многочисленными нейрофизиологическими и электрофизиологическими исследованиями фактах работы естественных зрительных систем. На данный момент в рамках теории разработаны теоретические основы анализа и синтеза изображений. В то же время необходимо дальнейшее развитие предложенных принципов обработки изображений "вглубь": разработка алгоритмов распознавания изображений в конкретных предметных областях; изучение эффективности работы этих алгоритмов в условиях шумов различной природы и интенсивности; проведение исследований по сравнению эффективности работы вновь полученных и уже имею-

щихся алгоритмов распознавания изображений; разработка методик описания эталонных объектов и процедур обучения распознаванию. В представленной научной работе рассматривается одно из направлений развития предложенных в теории активного восприятия принципов обработки изображений - поиск бинарной структуры полутонового изображения. Таким образом, от практически неограниченного множества полутоновых изображений производится переход к достаточно малочисленному множеству бинарных образов. Эти образы можно использовать в качестве элементов построения более сложных структур, применив аппарат алгебры изображений, системы продукций или теорию графов.

Цель работы

Цель работы состоит в повышении эффективности обработки изображений на основе разработки новых алгоритмов анализа, синтеза, описания и распознавания, базирующихся на теории активного восприятия изображений.

Достижение поставленной цели связано с решением следующих задач:

  1. разработка общей методики поиска бинарной структуры и двутонового изображения для произвольного полутонового изображения; классификация бинарных структур;

  2. разработка (на основе общей методики) алгоритма поиска бинарной структуры, приемлемого по временным и аппаратурным затратам;

  3. разработка принципов построения многоуровневого, в виде пирамиды, описания изображений на основе бинарных структур; построение детальных процедур анализа и распознавания изображений с помощью бинарных структур;

  4. разработка на базе метода активного восстановления алгоритмов распознавания изображений инвариантно к местоположению объекта в поле зрения, размеру, углу поворота, уровню яркости объекта и фона, растяжению или сжатию по горизонтали и вертикали;

  5. исследование возможных погрешностей пирамидального описания, вызванных дискретным представлением изображения, и их учет в процессе распознавания;

  6. создание программного обеспечения, реализующего ввод изображения, построение пирамидального описания, создание базы эталонных объектов, распознавание указанного изображения на данной базе эталонов, обучение по указанной выборке объектов, вывод изображений, а также разработка ряда вспомогательных утилит;

7) реализация предложенных математических приемов, вычислительных процедур, программного обеспечения при решении практических задач распознавания образов и анализа сцен.

Научная новизна

В рамках теории активного восприятия изображений введены понятия классов, эквивалентных по бинарной структуре, меры подобия структуры двух изображений; определено понятие бинарной структуры полутонового изображения.

Разработан ряд алгоритмов бинаризации произвольного изображения в зависимости от критерия оптимальности. Проведен сравнительный анализ этих алгоритмов, и выработан окончательный алгоритм поиска для указанного полутонового изображения его бинарной структуры и ближайшего в пространстве описания двутонового изображения, основанный на методе угловой бинаризации по минимуму евклидова расстояния между векторами описаний. Предложена методика быстрого поиска угла, наиболее близкого по направлению к заданному, позволившая ускорить алгоритм поиска бинарной структуры изображения примерно в 580 раз. Таким образом, разработан подход, позволяющий от практически неограниченного множества полутоновых изображений перейти к достаточно малочисленному множеству бинарных образов.

Разработаны алгоритмы распознавания изображений, инвариантные к местоположению объекта в поле зрения, размеру, углу поворота, уровню яркости объекта, растяжению или сжатию по горизонтали и вертикали, основанные на методе активного восстановления.

Произведено исследование процесса перехода области пикселов в ее визуальную массу, на котором базируется получение массива структурных элементов. Исследована погрешность габаритного описания, обусловленная дискретным характером представления изображения, получены формулы абсолютной, относительной и максимальных погрешностей.

Разработаны алгоритмы анализа и кодирования изображений с помощью бинарных структур. Выработана архитектура базы данных для хранения бинарных структур и работы с ними, .предложена общая организация системы распознавания изображений на базе бинарных структур.

Практическая ценность

На базе алгоритмов анализа и распознавания изображений с помощью бинарных структур разработана методика пирамидального распознавания

алфавитно-цифровых символов для формирования электронной базы данных, хранящей сведения о пациентах лечебного учреждения, их профилактических прививках и медицинских отводах от прививок. Разработаны алгоритмы распознавания изображений инвариантно к местоположению объекта в поле зрения, размеру, углу поворота, уровню яркости объекта и фона, растяжению или сжатию по горизонтали и вертикали в рамках теории активного восстановления.

Разработано программное обеспечение, предназначенное для решения ряда практических задач по вводу-выводу изображения, построению его пирамидального описания, формированию базы эталонов и обучению по предъявленной выборке объектов, распознаванию указанного изображения на имеющейся базе эталонов с помощью разработанных алгоритмов. Для ускоренной работы с бинарными структурами создана специальная база, хранящая их атрибуты и реализующая скоростной доступ к записям. Данное программное обеспечение эффективно решает задачу автоматизированного ввода информации с бумажного носителя в ЭВМ.

Внедрение полученных результатов в лечебных учреждениях позволило соответствующему медперсоналу сократить временные затраты на формирования первичной информационной базы, хранящей сведения о профилактических прививках пациентов, и избавиться от значительной части рутинной и трудоемкой работы.

Апробация работы

Основные положения и результаты диссертационной работы докладывались на следующих конференциях, семинарах и научных сессиях:

Научно-техническая конференция факультета радиоэлектроники и технической кибернетики, посвященная 80-летию НГТУ (Нижний Новгород, 1997 г.);

Восьмая Всероссийская конференция "Математические методы распознавания образов" (Москва, 1997 г.);

Научно-техническая конференция факультета информационных систем и технологий, посвященная 80-летию Нижегородской радиолаборатории (Нижний Новгород, 1998 г.);

Пятьдесят третья научная сессия Российского научно-технического общества радиотехники, электроники и связи им. А.С.Попова, посвященная Дню радио (Москва, 1998 г.);

Международная научно-техническая конференция "Нейронные, реля-торные и непрерывнологические сети и модели" ("Neural, relator, continuous-logic systems and models") (Ульяновск, 1998 г.);

- Научно-техническая конференция "Применение математического моделирования для решения задач в науке и технике" (Ижевск, 1998 г.);

Областная конференция "Компьютерные технологии в информатизации здравоохранения Нижегородской области" (Нижний Новгород, 1998).

Публикации

По материалам диссертации опубликовано 10 научных работ.

Структура, объем и содержание работы

Диссертация состоит из введения, четырех глав, заключения, списка используемой литературы, включающего 133 наименований, и 1 приложения. Основная часть работы содержит 101 страниц машинописного текста, 35 рисунков и 2 таблицы.

Похожие диссертации на Пирамидальное распознавание изображений на основе бинарных структур