Содержание к диссертации
Введение
1. Обзор и анализ методов распознавания 9
1.1 Введение 9
1.2 Задача распознавания образов 9
1.3 Проблема повышения качества изображения 11
1.4 Получение признаков объекта 16
1.5 Локализация объекта 18
1.6 Получение признаков объекта 19
1.7 Классификация 32
1.8 Выводы 41
2 Разработка метода расчета контрастно-частотной характеристики МФ . 43
2.1 Введение 43
2.2 Методика расчета 44
2.3 Оценка КЧХ пикселей 50
2.4 Сравнение КЧХ пикселей различной конструкции 58
2.5 Определение КЧХ МФ 65
2.6 Выводы 72
3 Разработка алгоритма распознавания объектов на изображении 73
3.1 Этапы решения задачи распознавания 73
3.2 Предварительна обработка изображения. 74
3.3 Проектирование фильтра 75
3.4 Выравнивание яркости 79
3.5 Построение вектора признаков 81
3.6 Определение признаков эталона 89
3.7 Построение классификатора по эталонам 92
3.7.1 Задача классификации 92
3.7.2 Построение классификатора 93
3.8 Применение классификатора 97
3.9 Выводы 101
4 Исследование и тестирования разработанных алгоритмов 102
4.1 Введение 102
4.2 Получение изображений 104
4.3 Обработка изображений 114
4.4 Тестирование алгоритма 117
4.5 Выводы 122
Заключение 123
Библиографический список 125q
- Проблема повышения качества изображения
- Локализация объекта
- Сравнение КЧХ пикселей различной конструкции
- Построение классификатора по эталонам
Проблема повышения качества изображения
Построение описания изображения на основе его представления с использованием признаков – самая сложная задача в процессе распознавания, так как процесс выбора признаков во многом является процедурой эвристической, зависящей от предметной области и разработчика. При этом к признакам могут предъявляться следующие группы требований [29, 58]:
1. Минимальная вычислительная сложность алгоритма определения признаков. Необходимость первого требования обусловлена тем, что разработка любой системой распознавания происходит, как правило, в рамках некоторого лимита «ценового» ресурса. Это ограничивает возможности использования ряда средств формирования признаков. Например, подобное ограничение в области распознавания изображений может отразиться на возможности использования видеоаппаратуры, регистрирующей цветные изображения либо обеспечивающей повышенную разрешающую способность. Второе требование вытекает из необходимости удовлетворения определенным временным ограничениям, накладываемым на процесс распознавания. Это требование достаточно типично для систем распознавания в реальном времени, например, для бортовых систем дистанционного зондирования, систем оперативного контроля и т.д.
2. Требование эффективности распознавания накладывает определенные ограничения на значения признаков. Для объектов различных классов значения признаков должны отличаться сильнее, чем для объектов одного класса. В то же время компактность образов, в случае ее достижимости, позволяет существенно упростить процедуру классификации и сделать ее более устойчивой.
3. Требование эффективности распознавания приводит к необходимости удовлетворения свойств устойчивости или инвариантности образа (описания) к ряду возможных искажений объекта. Кроме того, процесс регистрации сцены привносит дополнительные искажения, связанные с погрешностью приборов регистрации, изменением освещенности, шумами и т.д. На практике это приводит к изменению изображения объекта и изменению его образа в пространстве признаков. Последнее в общем случае может повлиять на результаты классификации и эффективность работы системы.
Следует отметить, что характер требований эффективности признаков, существования методов их расчета и наличия быстрых алгоритмов вычисления часто зависит от специфики решаемой задачи, а требование инвариантности для целого ряда практических задач распознавания на изображениях оказывается достаточно общим. В частности оно подразумевает все или некоторые из следующих требований: - инвариантность к шумовым и динамическим искажениям; - инвариантность к яркостным искажениям (изменению яркости и контраста); - инвариантность к изменению местоположения объекта; - инвариантность к изменению масштаба объекта; - инвариантность к изменению ориентации объекта (к повороту объекта в плоскости изображения); - инвариантность к произвольным аффинным преобразованиям; - инвариантность к изменению ракурса съемки объекта (для трехмерных объектов). Инвариантность к указанным искажениям в общем случае достигается за счет предварительного преобразования исходного изображения. В частности, первая группа искажений, связанная с шумовыми и динамическими изменениями изображения, устраняется за счет использования методов и алгоритмов восстановления, в большом количестве представлены в [29, 58, 62, 73]. Яркостные искажения, относящиеся ко второй группе, эффективно могут быть устранены за счет приведения изображения к «нормализованному» виду в [29, 58, 62, 73]. Проблема устранения геометрических искажений (изменение масштаба, ориентации, пропорций) подробно рассмотрены в [58].
После проведения процедуры нормализации всего изображения, следует установить местоположение на нём так называемых «зон интереса», в которых может располагаться объект. Правильная локализация «зон интереса» важна по следующим соображениям в [58]: любую задачу классификации для многих гипотез можно заменить несколькими простыми задачами альтернативного распознавания -обнаружения; решающее правило работает в условиях с пространственной протяженностью обрабатываемых данных, что приводит к необходимости согласования критериев и/или алгоритмов обнаружения и локализации для качественного решения задачи (рис 1.2); высокая вычислительная сложность «хорошего» алгоритма распознавания и «хороших» признаков не позволяет практически использовать их при поиске объекта по всему изображению, что приводит к необходимости применения достаточно простых решающих правил предварительной обработки, локализующей области возможного интереса, где может появиться соответствующий объект.
При локализации объектов обычно возникают следующие задачи: область, выделенная обнаружителем и относящаяся к одному объекту, как правило, является размытой и не дает конкретных координат объекта; - возможно существование несвязных областей, относящихся к одному и тому же объекту, что может привести к появлению ложного объекта; - области, соответствующие различным объектам одного и того же класса, могут быть связными — это может привести к потери объекта; - области, относящиеся к объектам разных классов, могут находиться вблизи друг друга, что может привести к потере объекта или его неверной классификации.
В [29, 58, 62, 73, 92].представлено большое количество алгоритмов, пригодных для решения задачи обнаружения. Однако вопросу локализации объектов уделено недостаточно внимания, так как часто именно вопрос взаимного расположения объектов на изображении играет ключевую роль при распознавании.
Локализация объекта
Обучаемые классификаторы, позволяют находить коэффициенты решающих функций посредством обучения по заданным множествам образов при условии, что эти множества возможно разделить с помощью решающих функций. При этом задачу можно свести к отысканию решения системы
Одним из наиболее известных представителей детерминистического подхода является перцептронный метод. Перцептронный метод основывается на использовании в качестве основы для классификатора нейронной сети, состоящей из перцептронных узлов (рис 1.20) [53, 78, 84].
Внешние элементы сети воспринимают входные сигналы. По аналогии с живыми организмами их можно рассматривать как органы чувств, внутренние или скрытые слои сети являются ассоциативными и именно они осуществляют оценку входного воздействия. Реакция системы пропорциональна сумме реакций ассоциативной части сети где Wj - вес реакции элемента, Xj - реакция г - ого элемента.
Основной задачей при проектировании нейронной сети, является определение весовых коэффициентов каждого элемента wz-, в ходе обучения на сети на тестовой выборке образов. Наибольшую известность, для решения данной задачи, получил алгоритм обратного распространения ошибки (error back-propagation algorithm) [8, 10, 16, 53, 78, 84].
При подаче на вход системы неизвестного вектора признаков, на выходе будет наблюдаться реакция R. Оценивая, например, знак реакции, можно сделать вывод о принадлежности входного вектора к одному из двух классов. Для разделения пространства признаков на большее число классов, необходимо соответственно увеличение мощности сети, т.е. количества элементов в каждом её слое.
КЧХ МФ можно определить как суперпозицию КЧХ отдельных пикселей, если принять равномерное распределение освещенности по всем пикселям (рис. 2.1). При этом также предполагаем, что функция освещения равномерно распределена по всей поверхности пикселя.
Каждый пиксель состоит из зоны, на которой возникает явление фотоэффекта – светочувствительной области, и зоны обработки сигнала («мертвой» зоны).
По сути КЧХ является спектральной характеристикой, а спектр в общем случае представляет собой распределение энергии сигнала по частотам [93], для двумерного случая, соответственно по частотам сигнала и площади. В качестве оценки «качества» пикселя примем отношение энергии попавшей на фоточувствительную зону пикселя к общей энергии, попавшей на весь пиксель, вместе с «мертвой» зоной (2.1). При определении «качества» отдельного пикселя, помимо отношения площадей светочувствительной и «мертвой» зон также следует учитывать и форму фоточувствительной зоны. F
В настоящее время наибольшее распространение получили три варианта компоновки фотоматриц (рис 2.2). Для нахождения «наилучшего», с точки зрения КЧХ, варианта компоновки матрицы необходимо определить «качество» отдельного пикселя. Для анализа различных по форме пикселей примем допущение, что контур пикселя независимо от формы фоточувствительной зоны имеет квадратный профиль одинаковой площади, а также площадь светочувствительной зоны для всех вариантов конструкции пикселя постоянна.
КЧХ пикселя базовой (квадратной) формы может быть получена аналитически, с помощью преобразования Фурье-функции, описывающей распределение прозрачности или чувствительности по площади анализатора [70, 72, 102]. Общий вид уравнения для нахождения КЧХ пикселя где EQ - функция освещенности; Сх, Су - описание контура пикселя. Так как в рассматриваемом случае размеры пикселя малы, функцию будем рассматривать как постоянную величину на всей его площади, E0 = const.
Нахождение КЧХ пикселя базовой формы не представляет существенной трудности и подробно рассмотрено в [112], однако применение данной методики для определения КЧХ пикселя произвольной формы весьма затруднительно. Для анализа пикселя произвольной формы предлагается разбить сложный контур на более простые фигуры, для которых можно определить КЧХ. В качестве таких простых частей будем использовать прямоугольные треугольники.
Такое вариант разбиения обусловлен следующими соображениями: 1. Все существующие варианты конструкции пикселей - суть правильные многоугольники (рис. 2.6), которые могут быть описаны двумя симметричными относительно оси абсцисс треугольниками. 2. КЧХ прямоугольного треугольника может быть легко найдена аналитическими методами. [7, 12, 14, 70, 72, 102]
Предложенный метод применим и для неправильных многоугольников, вокруг которого можно описать окружность, а каждую грань представить как треугольный сектор, разбитый на пару симметричных прямоугольных треугольников.
Для криволинейных контуров также применим данный подход, если рассматривать криволинейную поверхность как суперпозицию треугольников со стремящейся к нулю одной стороной.
В общем случае рассматриваем вариант когда все треугольники, на которые разбивается фоточувствительная зона пикселя, имеют различные размеры, следовательно прямоугольные треугольники, на которые они разбиваются далее также в общем случае будут иметь размеры отличные друг от друга. Принимается допущение, что некоторые размеры полученных при этом прямоугольных треугольников априори известны, а другие можно
Сравнение КЧХ пикселей различной конструкции
Для объектов, представленных на рисунке 3.12, после выполнения поворота количество найденных ключевых точек различно (рис. 13 (а) – 222, 13 (б) – 340, 13 (в) – 278, 13 (г) – 572). Исходя из этого необходимо определить некоторый диапазон значений признаков, который позволит максимально охарактеризовать эталонный объект. Распределение признаков для точек на рисунке 3.12 примет вид (рис 3.13):
Распределение признаков, представленное на рисунке 3.13, показывает, что признаки эталонного объекта укладываются в нормальный закон распределения, что свидетельствует об устойчивости метода получения признаков к преобразованию поворота. Устойчивость к масштабированию объекта достигается за счет использования изображений в разных масштабах на этапе поиска точек. Таким образом, признаки объекта, полученные с использованием предложенного метода, удовлетворяют основным требованиям.
В пространстве образов существует множество объектов распознавания Q , каждый из которых характеризуется набором признаков w: w є Q. Можно предположить, что существует некоторая неизвестная функция f(w):Q M,M = (1..m), разбивающая пространство объектов Q на т классов: Q1,Q2,...,Qm. В реальности доступно только некоторое количество наблюдаемых признаков, формирующих в свою очередь пространство наблюдений X , x(w) - вектор признаков образа w, воспринимаемых наблюдателем. Тогда можно сказать, что существует функция f(w):Q X, ставящая в соответствии каждому объекту w точку x(w) в пространстве признаков, являющаяся оценкой f(w) на основании x(w), т.е. f(w) = f(x(w)), xj = x(wj), j = 1,2,...,N - доступная информация о функциях /О) и x(w), тогда (xjjj) - множество прецедентов. Задачу классификации можно свести к построению функции f(w), минимизирующую количество ошибок распознавания. [107] Оценка качества классификации проводится на основании части множества X , которая не использовалось в процессе построения классификатора.
Полученный вектор признаков эталонного объекта сортируется для обеспечения инвариантности относительно порядка получения признаков x(w)= x(w) . Принятие гипотезы о нормальном распределение признаков (рис 14) позволяет исключить величины, значительно отклоняющиеся от среднего значения, так как данные значения с высокой долей вероятности принадлежат к шумовой составляющей и их учет при обучении классификатора может приводить к необходимости переобучения.
Структурно классификатор представляет собой направленный граф в виде дерева, каждая ветвь которого является вектором признаков. При построении дерева классификации предполагаем, что если вектор Xj, j = 1,2,...JSf содержит признаки объекта, пригодные для его классификации, то вектор yj, j=t,t + 1,... Д; t = 2,3,...,N, являющийся подвектором вектора признаков, также описывает объект. Совокупность множества подвекторов исходного вектора признаков т(Т) представляет собой дерево классификации D(T) = (Q,r,F,g), являющееся конечным автоматом с графом переходов в виде древовидной структуры, где Q 94 множество промежуточных состояний, для входного вектора у4, г начальное состояние автомата для нулевого вектора признаков, F -множество конечных состояний, g - функция переходов графа. При построении дерева для вектора признаков т(Т1) предположим, что существует дерево для вектора признаков а(Тг ). Для определения новых конечных состояний Fi необходимо рассмотреть все конечные состояния Fl . Если конечное состояние Fl не имеет перехода в состояние F1, то состояние F становится новым листом для состояния F . При этом количество конечных состояний для вектора Xj,j = \,2,...J\f равно N, а дочерние узлы корня на расстоянии одного шага содержат все уникальные состояния вектора признаков (рис 3.16). Алгоритм построения дерева классификации представлен на рисунке 3.15.
Построение классификатора по эталонам
В состав оптико-механического узла входят следующие элементы: 1 – поворотное зеркало; 2 – оправка поворотного зеркала; 3 – объектив; 4 – механическая передача; 5 – подшипник; 6 – датчики положения; 7 – многоэлементный фотоэлектронный преобразователь; 8 – привод; 9 – интерфейс связи с МПУУ.
Оптико-механический узел работает в старт-стопном режиме. В начальный момент времени с помощью датчика 6 зеркало 1 устанавливают в положение, при котором горизонталь земной системы координат параллельна короткой стороне кадра. Производится сканирование пространства, в результате которого световой пучок от объекта, отразившись от поворотного зеркала 1, попадает во входной зрачок объектива 3, после чего преобразуется в сходящийся световой пучок, который фокусируется на оптических входах многоэлементного фотоэлектронного преобразователя 7. Многоэлементный фотоэлектронный преобразователь 7 может быть выполнен в виде матричного фоточувствительного прибора. На управляющий вход многоэлементного фотоэлектронного преобразователя 7 с ЭВМ подаются управляющие сигналы. Под действием входных сигналов на выходе многоэлементного фотоэлектронного преобразователя формируется видеосигнал, который передается в ЭВМ.
Важно, чтобы входной зрачок объектива располагался как можно ближе к поворотному зеркалу. Поэтому серийно выпускаемые ТВ-объективы в данном случае не всегда могут быть использованы. Кроме того, производители объективов, как правило, не указывают положение входного зрачка в конструкции объектива, что не позволяет заранее оценить возможность его применения.
Наиболее подходящими являются объективы с вынесенным входным зрачком. Однако среди серийно выпускаемых ТВ-объективов таких практически нет. В связи с этим был выбран наиболее подходящий из серийно выпускаемых объективов для телекамер типа LM16JCAG компании KOWA (Япония).
Для работы фотоэлектронного преобразователя выбранного типа на базе CMOS-матрицы ОМУ должен обеспечивать старт-стопный режим работы, который иллюстрируется временной диаграммой, приведенной на рисунке 4.13.
Модуль загрузки эталонного изображения позволяет получать предварительно подготовленное эталонное изображение, для обеспечения инвариантности к повороту, дополнительно формирует из загруженного изображения серию изображений, при этом каждое последующее изображение повернуто относительно предыдущего на угол в 15 градусов. Модуль определения вектора признаков, рассчитывает вектор признаков для группы эталонов, отсекая при этом значения, выходящие за пределы границ нормального распределения. Полученный вектор добавляется в дерево классификации при помощи модуля построения классификатора. Модуль определения «зон интереса» осуществляет поиск областей на изображении, наиболее близких к одному из векторов признаков классификатора, при помощи функции окна переменного размера. Пусть функция окна f (x, y) изображения I(x, y):
Модуль распознавания объектов определяет положение и размер окон с максимальной степенью сходства, при этом предпочтение отдается областям с большим размером. На рисунке 4.6 представлен результат поиска объекта типа окно, рассмотренного в главе 3, цифры указывают на степень схожести области с эталоном. При этом выделены только те области, где сходство с эталоном составляет более 0.5. Необходимо отметить, что для представленного примера классификатор содержал только 1 эталонный объект, представленный на рисунке 3.11. Размер изображения 360 на 360 пикселей. Объект будет отнесен к найденным, если отклик функции поиска будет составлять не менее 0.75.
Критерием для тестирования метода будет его способность к распознаванию объектов на изображении при частичном отсутствии искомого объекта на изображении, а также для изображений, снятых с различных ракурсов.
Часто искомый объект на изображении может быть представлен только частично. Это может быть связано с попаданием на передний план другого объекта, который частично перекрывает требуемый объект, попаданием части самого искомого объекта за границу кадра, действиями различных внешних помех, например, посторонних источников излучения. В связи с этим встает вопрос о способности предложенного алгоритма найти и классифицировать объект на изображении при неполной информации о нём.
На тестируемом изображении, представленном на рисунке 4.3, объект имеет размер 32х16 пикселей. Результаты распознавания для перекрытия объекта на 20% представлены на рисунке 4.7 а,б.