Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы анализа текстур на изображении Шевяков Сергей Борисович

Методы анализа текстур на изображении
<
Методы анализа текстур на изображении Методы анализа текстур на изображении Методы анализа текстур на изображении Методы анализа текстур на изображении Методы анализа текстур на изображении
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Шевяков Сергей Борисович. Методы анализа текстур на изображении : диссертация ... кандидата технических наук : 05.13.17.- Нижний Новгород, 2002.- 154 с.: ил. РГБ ОД, 61 03-5/497-5

Содержание к диссертации

Введение

ГЛАВА 1. Применение модели пирамидальноро описания к текстурным изображениям 12

1.1. Исходные положения 12

1.1.1. Понятие текстуры 12

1.1.2. Однородные и регулярные структуры 14

1.1.3. Тексел 17

1.2. Анализ состояния проблемы анализа текстур 19

1.2.1. Проблема отыскания тексела при определении формы по текстуре 19

1.2.2. Анализ текстур зрительной системой человека 25

1.2.3. Некорректность задач обработки Изображений по Адамару 27

1.2.4. Активное восприятие сенсорной информации 29

1.3. Информационная модель пирамидального описания 3 7

1.4. Цели и задачи 40

ГЛАВА 2. Информационные модели анализа Фекстур

2.1. Особенности применения и-пирамиды с учетом геометрии поля зрения 43

2.2. Формализация стандартных методов анализа сигналов под задачу анализа текстур 46

2.2.1. Обнаружение изображения 47

2.2.2. Различение изображений 48

2.2.3. Оценка параметров изображений 49

2.2.4. Фильтрация изображений 50

2.2.5. Разрешение изображений, как сигнала и Распознавание изображений 50

2.3. Задача обнаружения текстуры 52

2.3.1. Постановка задачи 53

2.3.2. Коэффициент однородности 54

2.3.3. Метод сдвига поля зрения 57

2.3.4. Метод сужения/расширения поля зрения 59

2.3.5. Обобщение методов 62

2.4. Задача выделения и измерения прямоугольного тексела 63

2.4.1. Постановка задачи 64

2.4.2. Информационная модель решения задачи 66

2.4.3. Алгоритм выделения элементарного блока... 67

2.4.4. Количество текселов на планигоне 68

2.5. Выделение границ текстур 71

2.5.1. Постановка задачи 72

2.5.2. Информационная модель решения задачи 73

2.5.3. Алгоритм выделения границ 76

2.6. Выводы 77

ГЛАВА 3. Информационная модель активного управления полем зрения 78

3.1. Тремор поля зрения 78

3.1.1. Понятие тремора 78

3.1.2. Чувствительность планигона 80

3.1.3. Способ повышения чувствительности планигона 81

3.2. Дрейф поля зрения 84

3.2.1. Понятие дрейфа 84

3.2.2. Поиск точки на линии пересечения текстур 85

3.2.3. Выделение линии пересечения текстур 87

ГЛАВА 4. Практическое приложение разработанных методик 92

4.1. Обнаружение пятен на электронно-лучевых трубках 93

4.2. Обнаружение дефектов на движущемся металлопрокате в реальном масштабе времени 95

4.3. Активный многоуровневый видеосенсор 98

Заключение 101

Библиографический список 103

Введение к работе

Актуальность темы

Современные универсальные вычислительные системы достигли такого высокого уровня быстродействия, которого, казалось бы, должно быть достаточно для решения большинства задач, имеющих практическую значимость. Однако существует целый ряд проблемных областей, где требования к необходимой скорости вычислений остаются далеко не удовлетворенными и вряд ли вообще могут быть удовлетворены универсальными средствами. Одной из таких областей является машинное зрение.

Машинное зрение - это быстроразвивающееся междисциплинарное направление с широкими задачами и перспективными целями, которое охватывает вопросы как науки, так и техники. Согласно наиболее широкому определению, к машинному зрению относится все, что помогает «осмысливать» двумерные данные.

В настоящее время развитие радиоэлектроники и кибернетики позволяет реализовать с их помощью многие процессы обработки информации, традиционно выполняемые человеком. Процесс распознавания зрительных образов, как направление в машинном зрении, является необходимым во многих областях производственной деятельности. В прошлом веке уже сложились базовые принципы формализации процесса и построения систем распознавания [20, 21, 26, 47, 58, 61, 75, 76], и сейчас дальнейшее развитие исследований в этой области представляется чрезвычайно важным.

Вопросы распознавания изображений, анализа текстур получили фундаментальное развитие в работах научных коллективов Вычислительного центра РАН, Института систем обработки изображений РАН, Института проблем передачи информации РАН, Института прикладной математики и кибернетики при Нижегородском университете, кафедры вычислительной техники при Нижегородском техническом университете и др. Значительный вклад в решение проблем распознавания образов внесли Р.Вайчи, П.Берт, А.Л.Горелик, Р.Дуда, Н.Г.Загоруйко, В.Кантони, В.В.Кондратьев, С.Левиальди, Д.Марр, М.Минский, Ф.Розенблатт, В.А.Утробин, Р.Фишер, П.Харт и многие другие российские и зарубежные ученые.

Характеристики физических поверхностей, которые мы видим, например форма, должны определяться по зрительной информации, получаемой из изображения.

В силу многообразия классов изображений, в общем случае меняющихся во времени, актуальной задачей является построение систем распознавания, учитываю,их особенности различных классов изображений.

Большой практической значимостью обладает распознавание текстурных изображений. Нас будет интересовать ограниченный класс текстур, которые встречаются при анализе реальных трехмерных сцен. Многие объекты, входящие в такие сцены, обладают визуально воспринимаемой фактурой наружных поверхностей - текстурой (например, предметы из дерева, камня, кожи, ткань и т.д.). Другие объекты при достаточном удалении воспринимаются зрительно как состоящие из большого числа примерно одинаковых по форме и более или менее равно- мерно распределенных элементов (например, крона дерева, травяной газон, дюны, рябь на воде и т.п.) Наконец, ряд объектов имеют характерный повторяющийся рисунок искусственного происхождения и также воспринимаются как текстуры (например, забор, лестница, стена с обоями, паркетный пол). Подобные текстурные области легко выделяются зрительной системой человека [65, 92] .

Главными составляющими любой системы распознавания являются структура описания (система признаков) и алгоритмы распознавания, включающие процедуры предварительной обработки и классификации.

В настоящее время широкое распространение получили иерархические модели описания, в частности пирамидальные [75, 76], которые ориентированы на выявление внутренней структуры изображения. Для текстурных изображений использование пирамидальных моделей описания также представляется целесообразным. Однако, необходимо учесть присущие данному классу изображений особенности, следовательно актуальной является разработка конкретной модели описания, оптимально соответствующей классу текстурных изображений.

Следует отметить, что насущной задачей для пирамидальных моделей описания является проблема выбора общего числа уровней пирамиды.

Текстурным изображениям, и/или их отдельным участкам естественным образом может быть сопоставлен некоторый коэффициент однородности. В силу этого актуальной является задача выделения подобластей однородности на изображении, которая может рассматриваться как задача сегментации. Существуют близкие по смыслу алгоритмы выделения отдельных линейных структур. Однако представляется важным решение задачи именно в вышеуказанной постановке.

При анализе произвольных изображений актуальной задачей является выделение границ между различными текстурами, что также пересекается с задачей сегментации.

Информационная избыточность [58], обусловленная регулярностью текстуры, определяет актуальность проблемы сжатия текстурных изображений. Под сжатием понимается анализ текстуры для цели выделения неделимой части текстуры, а затем, при необходимости, последующего синтеза. Сжатое изображение используется в качестве самостоятельного объекта распознавания, поэтому сжатие может рассматриваться как вариант предобработки, наряду с традиционными методами [61] . Применение распространенных методов топологического сжатия в данном случае не будет эффективным по причине сложно-составной структуры. Целесообразной является разработка способа выделения неделимого тексела.

Актуальным является практическое приложение разработанных алгоритмов анализа текстурных изображений, например, в дефектоскопии искусственно создаваемых текстур.

Цель работы

Разработка системы распознавания, оптимально пригодной для работы с текстурными изображениями. Для достижения поставленной цели необходимо решить следующие задачи:

Формализовать стандартные методы анализа сигналов под задачу анализа текстурных изображений. Анализ стандартных методов с позиций теории активного восприятия.

Разработать методы обнаружения текстуры в поле зрения. Проанализировать степень однородности исследуемого изображения, с помощью некоторого критерия.

Разработать эффективный алгоритм выделения и измерения тексела как неделимого фрагмента текстуры. Проанализировать геометрию тексела.

Разработать информационную модель выделения границ между областями с различными текстурами. Провести анализ применительно к различньм типам границ.

Разработать методы активного управления полем зрения.

Методы исследования

Для решения поставленных задач в работе использованы методы распознавания образов, теории активного восприятия, системного анализа, математического моделирования, анализа и синтеза изображений, теории групп и теории вычислительных систем.

Научная новизна

Научная новизна работы состоит в следующем:

Разработана информационная модель коэффициента однородности изображения, обеспечивающего минимально возможную вычислительную сложность.

Разработаны методы сдвига и сужения/расширения поля зрения, представляющие собой методы активного управления полем зрения.

Формализовано понятие прямоугольного тексела и разработан алгоритм его выделения. Исследованы свойства тексела и элементарного блока текстуры.

Разработана информационная модель однородности на изображении. Разработан алгоритм построения изображения однородности.

Разработаны процедуры управления полем зрения, формализующие процесс «тремора» и «дрейфа» глаза.

Практическая ценность

Реализованы в виде единой программной системы анализа текстурных изображений алгоритмы построения пирамидального описания, методов сдвига и сужения поля зрения, выделения элементарного блока, а также построения пирамиды однородности. Проведена проверка разработанного программного комплекса на множестве изображений как реальных, в том числе искаженных, так и идеальных текстурах.

Полученные результаты подтверждают эффективность методов анализа и разработанных алгоритмов.

Апробация работы

Основные положения диссертационной работы докладывались и обсуждались на: VI 1-й Нижегородской сессии молодых ученых. Технические науки. (Нижний Новгород, 2002);

IV Всероссийской научно-технической конференции молодых ученых и студентов «Современные проблемы радиоэлектроники», посвященной 107-й годовщине дня радио (Красноярск, 2002);

Научно-технической конференции факультета информационных систем и технологий Нижегородского государственного технического университета (Нижний Новгород, 2002) ;

Научно-техническом форуме «Будущее технической науки Нижегородского региона» (Нижний Новгород, 2002) ;

Публикации

По материалам диссертации опубликовано 5 печатных работ [84-88],

Структура работы

Работа состоит из введения, 4 глав, заключения, библиографического списка и приложения, содержит 111 страниц машинописного текста, 45 рисунков и 2 таблицы.

Список литературы включает в себя 98 наименований.

Анализ состояния проблемы анализа текстур

Характеристики физических поверхностей, которые мы видим, например форма, должны определяться по зрительной информации, получаемой из изображения. Существует ряд факторов, помогающих нам определить форму видимых поверхностей по одному или нескольким изображениям: полутона, текстура поверхности, контуры, движение, стереоизображения и др. В последних исследованиях было получено множество результатов, касающихся определения свойств трехмерной поверхности по характеристикам двумерного изображения. Большую часть современных исследований по машинному зрению, независящую от конкретной проблемной области, составляют работы по проблемам, связанным с подсистемами, которые можно выделить в зрительной системе человека. В этих работах рассматриваются, например, такие задачи, как определение формы по полутонам, текстуре, контурам и т.д.

Подробное исследование определения формы по текстуре проводилось различными исследователями, например, в работе [5] показывается, что естественная текстура является важным источником информации о локальной ориентации видимых поверхностей. Человек может понять форму (ориентацию) любого перспективного изображения некоторой естественной поверхности.

Для того, чтобы восстановить форму, необходимо отличать эффекты искажения, возникающие при проецировании, от свойств текстуры, на которую действуют эти искажения. Отсюда следует, что необходимо внести определенные предположения о текстуре. Проблема определения формы по текстуре для случая плоскостей широко изучалась. Можно считать, что искажения при проецировании возникают из-за следующих эффектов: эффекта расстояния (объекты в поле зрения кажутся больше, если они ближе к картинной плоскости), эффекта положения (искажение некоторого образа зависит от угла между линией наблюдения и картинной плоскостью, а этот угол зависит от положения образа на картинной плоскости) и эффекта перспективного сокращения (искажение образа зависит от угла между нормалью к поверхности и линией наблюдения).

Первые подходы к проблеме определения формы по текстуре делались давно [5] . Пытаясь развить теорию, объясняющую восприятие человеком ориентации поверхности по текстуре, предполагали, что текстура состоит из малых элементов, получивших название текселов. Конечно, эти малые элементы организуются в текстуру крайне нерегулярным неравномерным образом, и автору пришлось внести некоторые предположения о текстуре. Отдельные элементы, образующие текстуру (текселы), равномерно распределены на плоскости поверхности объекта сцены, в том смысле, что на единичной площади содержится примерно одинаковое число текселов. Другими словами, текстура равномерно распределена по плоскости в сцене. Однако при взгляде на нее (при получеНИИ изображения) плотность текстуры кажется неодинаковой, т.е. имеет градиент. Поэтому было предположили, что человек воспринимает ориентацию естественно текстурированных поверхностей по их одинаковости (равномерной плотности на плоскости сцены) и различию (градиенту текстуры на изображении), не имея нужных аналитических методов.

Продолжая этот подход, сделана попытка эвристически использовать двумерный энергетический фурье-спектр для определения градиента текстуры.

Позднее был предложен статистический подход и введено предположение о существовании «изотропии направлений», т.е. что периферические контуры фигур, составляющих правильную текстуру, имеют краевые сегменты, которые равномерно распределены по всем ориен-тациям. Используя модель ортогональных проекций, были получены формулы для наиболее вероятных оценок углов наклона и поворота.

В то же время ученые отказались от предположений о равномерной плотности, аргументируя тем, что во-первых к тому времени еще не было показано, что предположение равномерной плотности может быть положено в основу алгоритма определения ориентации поверхности в общем случае, во-вторых, даже если бы имелся алгоритм определения ориентации поверхностей, основанный на предположении равномерной плотности, для его работы необходимо было бы знание текселов. Совершенно непонятно, как отыскать текселы на изображении. Это и стало наиболее сильным аргументом против предположений о равномерной плотности.

Формализация стандартных методов анализа сигналов под задачу анализа текстур

На настоящий момент существуют достаточно хорошо формализованные модели процессов обнаружения, различения и модели принятия решения, относящиеся к стандартным этапам систем обработки сигналов.

Необходимо адаптировать эти модели к решению задач СОИ на базе теории активного восприятия, для чего введем исходные положения.

Пусть на конечном временном интервале [О, Т] принимается сигнал (t), являющийся функцией от полезного сигнала s{t, X) и помехи n{t): где вектором X = {Xlf Х2, . .. ,п) об}значаны параметры, оо которых зависит сигнал, например, частота, амплитуда, начальная фаза, период, момент появления и т.п. Предполагается, что наблюдению доступен только сигнал ((t), которые имеет вид суммы сигнала и помехи.

Исходя из методических соображений, для типовых систем обработки сигналов условно можно сформулировать пять основных задач: обнаружение сигнала, различение сигналов, оценка параметров сигналов, фильтрация сообщений, разрешение сигналов и распознавания образов [73].

Пусть не известен сам факт наличия или отсутствия сигнала s(t, А-) в исходном сигнале ад. С целью формализации задачи запишем сигнал в следующем виде: где 0 — случайная величина, могущая принимать только два значения: 0=0 (сигнал отсутствует) и 0=1 (сигнал присутствует). Требуется по наблюдаемой конкретной реализации ад на интервале [О, Т] решить оптимальным образом, присутствует или отсутствует сигнал s{t, X), т.е. необходимо оценить значение дискретного параметра 0 без анализа самого сигнала.

В соответствии с подходами TAB каждый фильтр из {FJ, і = 0..15 решает поставленную задачу, т.к. дает оценку дискретного параметра по типу «да/нет». Каждый фильтр Fx представляет собой параметр изображения %х. Например, фильтр FQ решает поставленную задачу в смысле обнаружения наличия любого изображения в поле зрения. Пусть для исследуемого поля зрения \х0 = О, это говорит об отсутствии изображения. Что касается фильтра Flf то с его помощью решается задача обнаружения градиента яркости на изображении по оси ОХ. Аналогично и каждый другой фильтр из {F.} .

Кроме этого, любой другой фильтр (маска), организованный на планигоне на базе алгебры изображений A{V) также решает задачу обнаружения сигнала. Действие всех фильтров допустимо на любом уровне и-пирамиды.

Предположим, что в наблюдаемом сигнале (t) может быть только один из двух сигналов s t, Хх) и s2{t, Х2):

Случайная величина 0 может принимать только два значения: 0 = 1 (присутствует сигнал s X,,J с вероятностью Pl и 0 = 0 (присутствует сигнал S2(t,X2j) с вероятностью р2 = 1 - Pl . Требуется по наблюдаемой реализации (t) на интервале [О, Г] вынести оптимальное решение - присутствует ли сигнал s t, Хх) или сигнал s2{t, Х2). При s2{t, Х2) = О задача различения двух сигналов переходит в задачу обнаружения. Задачу различения двух сигналов можно сформулировать для любого параметра сигнала, принимающего два значения.

Если наблюдаемый сигнал (t) представляет собой сумму помехи n{t) и одного из нескольких возможных сигналов sx{t, Хг) , s22(t ,2) , . . ., s t, Хп), тт оодобным мж ебра-зом формулируется задача различения ц сигналов. Разумеется задача различения нескольких сигналов являет-ся более общей и сложной, чем задача обнаружения и различения двух сигналов.

Используя положение TAB покажем, что существует решение задачи различения изображений. Полные группы {Pni} состоят из трех операторов {1Л} . Каждый оператор решает задачу обнаружения одного изображения, а полная группа в целом решает задачу обнаружения комбинации из трех сигналов (изображений) и, следовательно, решают задачу различения одновременно трех сигналов .

Аналогично замкнутые группы способны решить задачу различения четырех сигналов. Это утверждение верно и для более сложных фильтров на комбинациях переменных в пределах алгебры изображения A{V) .

Выделение линии пересечения текстур

Рассмотрим методы выделения границ между текстурами с максимально возможной точностью, т.е. требуется найти функцию границы fg[x, у). Рассмотрим стратегию

поиска, основанную на интерполяции функции по нескольким точкам пересечения. В общем случае для их выделения следует проанализировать изображение однородности. В результате его построения вычисляется ко- личество клеток планигона, внутри которых и проходит искомая граница.

Для изображения (рис. 2.19) количество клеток равно 4. На каждой из них требуется найти точку пересечения текстур. Затем одним из методов интерполяции следует построить функцию границы. Для увеличения точности возможно выделение дополнительных точек пересечения, с учетом которых результат будет точнее. Данный метод позволяет построить приближенную функцию границы.

Возможен и другой вариант решения поставленной задачи. Второй метод основывается на одновременном применении двух процессов активного управления полем зрения.

В данном случае, стратегия управления положением планигона может быть, например, следующей. Процесс дрейфа начинается из найденной точки пересечения границ. Поле зрения двигается по направлению нормали к первичному направлению дрейфа. На каждом шаге плани-гон подвергается тремору в направлениях перпендикулярных линии дрейфа (рис.3.9). в процессе движения планигона производится анализ изменения коэффициента однородности. Результаты, полученные во время тремора, сравниваются с результатами исходного положения планигона. Вариант, когда счиаееся ттчным ддвжением пп лиНИИ границы.

Обратный случай, когда значение коэффициента однородности на линии дрейфа меньше, чем соответствующий коэффициент во время тремора, свидетельствует о необходимости внести корректировку в направление дрейфа. Выбор корректировки поворота дрейфа зависит от максимального

Например, в случае основного движения (дрейф) по Управляемое перемещение планигона можно сравнить с движением человека по коньку крыши высотного дома. Во время движения, делая шаг вперед, требуется как минимум посмотреть влево и вправо. Также и в случае углового дома (поворота конька), требуется повернуть в нужную сторону.

При решении данной задачи, для процесса дрейфа поля зрения конечное положение (фиксация) заранее не определено. При анализе реальных текстурных изображений, с учетом шумов возможен вариант зацикливания алгоритма. Эта же ситуация возможна и в случае, если граница имеет взаимные пересечения или закольцована.

Следует предусмотреть соответствующую процедуру отслеживания подобных исключительных ситуаций. Примером может служить рекурсивный алгоритм, использующий запоминание пройденного пути и последующего его сравнения с текущим местоположением.

Данный метод позволяет с высокой степенью точности выделять функцию границ между текстурами. Точность обусловлена прохождением всей границы с использованием тремора поля зрения. Тремор используется в качестве проверки на каждом следующем шаге.

Таким образом, благодаря активному управлению полем зрения, становится возможным более точно выделить линию границы между различными текстурами. Стратегия поиска не отличается для границ различных типов .

Обнаружение дефектов на движущемся металлопрокате в реальном масштабе времени

В процессе производства металлопроката существует актуальная задача быстрой отбраковки изделий. Задача осложняется высокой скоростью движения полотна.

Предлагаемый аппарат состоит из видеокамеры, направленной на движущееся полотно (рис. 4.3). Для данной задачи не требуется устанавливать камеру на подвижную основу.

Точная настройка аппарата на эталонную текстуру («чистое» полотно проката) происходит следующим образом: применив метод сужения/расширения поля зрения, необходимо выявить минимальные и максимальные значения фильтров \ii Таким образом получаются граничные амплитудные значения \ii, выходя за которые аппарат сигнализирует о присутствии дефекта текстуры в поле зрения (рис. 4.4).

Из полученного графика зависимости [іх(к) , ц4(х) , ц9(х) наглядно оидно оешение еадачи иефектоскопии применительно к движущемуся полотну металлопроката.

Благодаря минимально возможной вычислительной сложности и-преобразования (только операции сложения), при параллельной обработке результатов дефектоскопия возможна за время длительности кадра развертки видеокамеры, т.е. в реальном масштабе времени. Точность обнаружения дефекта зависит от уровня и-пирамиды.

Рассмотренные в данной главе практические приложения, в общем случае, требуют проектирования активного многоуровневого видеосенсора. Активность видеосенсора обусловлена наличием процедур активного управления полем зрения - тремором. Для работы в реальном масштабе времени требуется производить вычисления за 1 кадр развертки видеосигнала.

За время одного кадра требуется получать значения коэффициентов \х., вычисленных для уровня Q-пирамиды.

Рассмотрим структурную схему аппарата Q-преобразования видеосигнала на рис. 4.7. Данная схема построена по параллельной архитектуре.

На вход устройства подается видеосигнал, на выходе рассчитываются значения коэффициентов ц, . Дополнительно на дешифратор подаются два сигнала управления.

Тремор поля зрения может быть реализован как последовательно, так и параллельно. При последовательной реализации процесса тремора требуется одно устройство, но необходимо в зависимости от поставленной задачи управлять входом управления полем зрения. В случае параллельной реализации - требуется п устройств, каждое из которых заранее настроено на смещенное поле зрения. Второй управляющий сигнал служит для выбора уровня на Q-пирамиде и номера подуровня (1...4) .

Дополнительно предусмотрен управляющий сигнал блокировки от изменения рассчитанных коэффициентов. Данный вход позволяет сделать несинхронный обмен данными с устройством, когда требуется заблокировать результат и игнорировать изменение видеосигнала.

Похожие диссертации на Методы анализа текстур на изображении