Введение к работе
Актуальность ТеМЫ ,'::...
Одним из наиболее существенных результатов научно-технической революции является широкая компьютеризация практически всех областей человеческой деятельности. Бурное развитие средств вычислительной техники привело к тому, что значительные объемы научно-технической, общественной, социально-политической информации, в т.ч. и в виде изображений, переносятся в память ЭВМ и становятся доступными широкому кругу пользователей.
Зрительная система не только занимает важнейшее место в процессе обмена информацией между человеком и окружающим миром, но также оказывает значительное влияние на образ мышления и формирование представлений человека об окружающем мире. Соответственно важнейшей является задача создания систем технического зрения, позволяющих машине эффективно воспринимать, обрабатывать и хранить зрительные образы, т.е. сделать естественным и удобным общение между человеком и машиной, машиной и внешней средой.
В настоящее время наиболее эффективными зрительными системами являются естественные системы, в которых реализованы глубинные законы информационных преобразований в Природе. Пристальное изучение естественных зрительных систем и выявление принципов их работы способно привести к созданию качественно новых методов обработки изображений и, как следствие, к построению машин с архитектурой, отличной от архитектуры Дж. фон Неймана.
С одной стороны, проблема построения эффективного (для распознавания) описания структуры объекта, представленного в виде изображения, в настоящее время продолжает оставаться актуальной. С другой стороны, предложена перспективная теория распознавания изображений - теория активного восприятия изображений. Эта теория базируется на достоверно известных и подтвержденных многочисленными нейрофизиологическими и электрофизиологическими исследованиями фактах работы естественных зрительных систем. На данный момент в рамках теории разработаны теоретические основы анализа и синтеза изображений. В то же время необходимо дальнейшее развитие предложенных принципов обработки изображений "вглубь": разработка алгоритмов распознавания изображений в конкретных предметных областях; изучение эффективности работы этих алгоритмов в условиях шумов различной природы и интенсивности; проведение исследований по сравнению эффективности работы вновь полученных и уже имею-
щихся алгоритмов распознавания изображений; разработка методик описания эталонных объектов и процедур обучения распознаванию. В представленной научной работе рассматривается одно из направлений развития предложенных в теории активного восприятия принципов обработки изображений - поиск бинарной структуры полутонового изображения. Таким образом, от практически неограниченного множества полутоновых изображений производится переход к достаточно малочисленному множеству бинарных образов. Эти образы можно использовать в качестве элементов построения более сложных структур, применив аппарат алгебры изображений, системы продукций или теорию графов.
Цель работы
Цель работы состоит в повышении эффективности обработки изображений на основе разработки новых алгоритмов анализа, синтеза, описания и распознавания, базирующихся на теории активного восприятия изображений.
Достижение поставленной цели связано с решением следующих задач:
-
разработка общей методики поиска бинарной структуры и двутонового изображения для произвольного полутонового изображения; классификация бинарных структур;
-
разработка (на основе общей методики) алгоритма поиска бинарной структуры, приемлемого по временным и аппаратурным затратам;
-
разработка принципов построения многоуровневого, в виде пирамиды, описания изображений на основе бинарных структур; построение детальных процедур анализа и распознавания изображений с помощью бинарных структур;
-
разработка на базе метода активного восстановления алгоритмов распознавания изображений инвариантно к местоположению объекта в поле зрения, размеру, углу поворота, уровню яркости объекта и фона, растяжению или сжатию по горизонтали и вертикали;
-
исследование возможных погрешностей пирамидального описания, вызванных дискретным представлением изображения, и их учет в процессе распознавания;
-
создание программного обеспечения, реализующего ввод изображения, построение пирамидального описания, создание базы эталонных объектов, распознавание указанного изображения на данной базе эталонов, обучение по указанной выборке объектов, вывод изображений, а также разработка ряда вспомогательных утилит;
7) реализация предложенных математических приемов, вычислительных процедур, программного обеспечения при решении практических задач распознавания образов и анализа сцен.
Научная новизна
В рамках теории активного восприятия изображений введены понятия классов, эквивалентных по бинарной структуре, меры подобия структуры двух изображений; определено понятие бинарной структуры полутонового изображения.
Разработан ряд алгоритмов бинаризации произвольного изображения в зависимости от критерия оптимальности. Проведен сравнительный анализ этих алгоритмов, и выработан окончательный алгоритм поиска для указанного полутонового изображения его бинарной структуры и ближайшего в пространстве описания двутонового изображения, основанный на методе угловой бинаризации по минимуму евклидова расстояния между векторами описаний. Предложена методика быстрого поиска угла, наиболее близкого по направлению к заданному, позволившая ускорить алгоритм поиска бинарной структуры изображения примерно в 580 раз. Таким образом, разработан подход, позволяющий от практически неограниченного множества полутоновых изображений перейти к достаточно малочисленному множеству бинарных образов.
Разработаны алгоритмы распознавания изображений, инвариантные к местоположению объекта в поле зрения, размеру, углу поворота, уровню яркости объекта, растяжению или сжатию по горизонтали и вертикали, основанные на методе активного восстановления.
Произведено исследование процесса перехода области пикселов в ее визуальную массу, на котором базируется получение массива структурных элементов. Исследована погрешность габаритного описания, обусловленная дискретным характером представления изображения, получены формулы абсолютной, относительной и максимальных погрешностей.
Разработаны алгоритмы анализа и кодирования изображений с помощью бинарных структур. Выработана архитектура базы данных для хранения бинарных структур и работы с ними, .предложена общая организация системы распознавания изображений на базе бинарных структур.
Практическая ценность
На базе алгоритмов анализа и распознавания изображений с помощью бинарных структур разработана методика пирамидального распознавания
алфавитно-цифровых символов для формирования электронной базы данных, хранящей сведения о пациентах лечебного учреждения, их профилактических прививках и медицинских отводах от прививок. Разработаны алгоритмы распознавания изображений инвариантно к местоположению объекта в поле зрения, размеру, углу поворота, уровню яркости объекта и фона, растяжению или сжатию по горизонтали и вертикали в рамках теории активного восстановления.
Разработано программное обеспечение, предназначенное для решения ряда практических задач по вводу-выводу изображения, построению его пирамидального описания, формированию базы эталонов и обучению по предъявленной выборке объектов, распознаванию указанного изображения на имеющейся базе эталонов с помощью разработанных алгоритмов. Для ускоренной работы с бинарными структурами создана специальная база, хранящая их атрибуты и реализующая скоростной доступ к записям. Данное программное обеспечение эффективно решает задачу автоматизированного ввода информации с бумажного носителя в ЭВМ.
Внедрение полученных результатов в лечебных учреждениях позволило соответствующему медперсоналу сократить временные затраты на формирования первичной информационной базы, хранящей сведения о профилактических прививках пациентов, и избавиться от значительной части рутинной и трудоемкой работы.
Апробация работы
Основные положения и результаты диссертационной работы докладывались на следующих конференциях, семинарах и научных сессиях:
Научно-техническая конференция факультета радиоэлектроники и технической кибернетики, посвященная 80-летию НГТУ (Нижний Новгород, 1997 г.);
Восьмая Всероссийская конференция "Математические методы распознавания образов" (Москва, 1997 г.);
Научно-техническая конференция факультета информационных систем и технологий, посвященная 80-летию Нижегородской радиолаборатории (Нижний Новгород, 1998 г.);
Пятьдесят третья научная сессия Российского научно-технического общества радиотехники, электроники и связи им. А.С.Попова, посвященная Дню радио (Москва, 1998 г.);
Международная научно-техническая конференция "Нейронные, реля-торные и непрерывнологические сети и модели" ("Neural, relator, continuous-logic systems and models") (Ульяновск, 1998 г.);
- Научно-техническая конференция "Применение математического моделирования для решения задач в науке и технике" (Ижевск, 1998 г.);
Областная конференция "Компьютерные технологии в информатизации здравоохранения Нижегородской области" (Нижний Новгород, 1998).
Публикации
По материалам диссертации опубликовано 10 научных работ.
Структура, объем и содержание работы
Диссертация состоит из введения, четырех глав, заключения, списка используемой литературы, включающего 133 наименований, и 1 приложения. Основная часть работы содержит 101 страниц машинописного текста, 35 рисунков и 2 таблицы.