Содержание к диссертации
Введение
Глава 1. Обзор методов распознавания человеческих лиц для решения задачи поиска изображения по фотороботу 15
1.1. Аспекты физиологического восприятия человеческого лица 15
1.2. Выбор подходов к распознаванию для реализации биометрического поиска изображений человеческих лиц по фотороботу 21
1.3. Выводы и результаты 3 5
Глава 2. Метод биометрического поиска на основе стохастической геометрии и функционального анализа 37
2.1. Обоснование выбора метода 37
2.2. Описание пространства признаков, используемых для решения задачи поиска изображений 41
2.2.1. Trace-функционалы (Т-функционалы) 41
2.2.2 диаметральные функционалы (Р-функционалы) 72
2.2.3. Круговые функционалы (О-функционалы) 75
2.3. Функционалы, применяемые для формирования триплетных признаков поиска информации 77
2.4. Исследование свойств инвариантности к масштабным преобразованиям изображений объекта 84
2.5. Выводы и результаты 98
Глава 3. Техническая реализация поиска портретных изображений по фотороботу 99
3.1. Архитектура поисковой системы 99
3.2. Пример расчета триплетных признаков в дискретном виде . 103
3.3. Работа поисковой ситемы 123
3.4. Основные модули системы 133
3.5. Взаимодействие основных объектов поисковой системы 134
3.6. Взаимодействие главного и вспомогательного окон поисковой системы 136
3.7. Программная реализация модулей основных окон приложений 137
3.7.1. Описание модуля обмена данными 139
3.7.2. Программная реализация модуля применения функционалов 140
3.7.3. Программная реализация модуля сканирования 142
3.7.4. Программная реализация модуля сегментации 143
3.8. Выводы и результаты 145
Глава 4. Экспериментальное исследование системы поиска портретных изображений по фотороботу 146
4.1. Объекты экспериментального исследования 146;
4.2. Оценка информативности признакового пространства 146
4.3. Упорядочение изображений 154
4.4. Экспериментальные результаты 163
4.5. Сравнение с существующими системами 170
4.6. Выводы и результаты 175
Основные результаты и выводы 176
Литература 179
Справка о внедрении 188
- Выбор подходов к распознаванию для реализации биометрического поиска изображений человеческих лиц по фотороботу
- Описание пространства признаков, используемых для решения задачи поиска изображений
- Пример расчета триплетных признаков в дискретном виде
- Оценка информативности признакового пространства
Введение к работе
Актуальность проблемы. В настоящее время на передний план теоретической информатики выдвигается проблема поиска информации по изображениям. Наряду с общетеоретическим значением, она исключительно важна для приложений в таких областях, как геология, аэрокосмические исследования, медицина, криминалистика.
Актуальность данной темы усилилась в связи с настоятельной необходимостью осуществлять биометрический поиск в больших базах
данных изображений. Решение этой актуальной задачи имеет большое
социальное значение в связи с растущим в мире криминалом и терроризмом.
Для задач сравнения лиц, их поиска и, в общем портретной идентификации, характерна значительная вариабельность биометрических параметров, обусловленная различием форм, уровнем яркости, наличием фоновых шумов изображений на фотоснимках. В этих условиях придать большую устойчивость и надежность автоматического поиска изображений лиц позволяет опора на большое количество признаков распознавания. Применение теории распознавания образов, основанной на стохастической геометрии, позволяет осуществить формирование большого количества признаков распознавания. Экстракция необходимых признаков распознавания с учетом анатомии портретного изображения даёт возможность достаточно надежно решать эту актуальную задачу.
Цель диссертационной работы. Разработка методов поиска биометрической информации в базе данных на основе признаков, базирующихся на стохастической геометрии; построение программной системы для реализации процедуры поиска портретных изображений.
Поставленная цель достигается решением следующих задач: реализация процедур предварительной обработки цветных
фотографических изображений для приведения к бинарному виду;
М-5
реализация процедуры сегментации бинарного изображения человеческого лица с целью выделения наиболее информативных областей;
построение трейс-преобразований биометрических изображений как источника формирования поисковых признаков нового класса, со структурой в виде композиции трех функционалов — триплетных признаков;
выбор функционалов, обеспечивающих получение триплетных признаков распознавания портретных изображений;
определение решающего правила поиска биометрической информации;
разработка алгоритма поиска изображений по фотороботу;
разработка программной системы для поиска изображений по фотороботу;
экспериментальная проверка эффективности алгоритма поиска изображений по фотороботу.
Объектом исследования является биометрический поиск изображений человеческих лиц по фотороботу.
Предмет исследования составляют математические методы распознавания человеческих лиц и их программная реализация.
Методы исследования. При решении поставленных задач применены теория распознавания образов, теория признаков распознавания образов, базирующаяся на стохастической геометрии и функциональном анализе, методы теории вероятностей, математической статистики, цифровой обработки изображений.
Проверка эффективности предложений, исследованных в диссертации, проводилась на разработанных математических моделях и по результатам работы программной системы, осуществляющей поиск реальной биометрической информации.
Научная новизна работы:
Впервые предложено для построения системы биометрического поиска использовать математический аппарат стохастической геометрии, дающий возможность достигнуть высокую эффективность информационного поиска.
Впервые предложены новые конструктивные поисковые признаки, имеющие структуру в виде композиции трех функционалов (триплетные признаки). Благодаря такой структуре возможно получение большого количества поисковых признаков, что позволяет получить высокую гибкость и интеллектуальность поисковой системы, а также упростить решающие правила.
Предложено определение триплетных признаков по областям -изображения соответствующим элементам человеческого лица, что позволило повысить надежность биометрического поиска.
Разработан алгоритм биометрического поиска на основе стохастической геометрии, позволяющий достичь поставленной в работе цели.
Разработана программная система интеллектуального биометрического поиска фотоизображений по фотороботу, что позволило автоматизировать этот процесс.
Практическая ценность. Предложенные в диссертации методы и
программная система позволяют автоматизировать процесс поиска таких
биометрических объектов, как человеческие лица, по составленному
субъективному портрету (фотороботу). Разработанный алгоритм,
базирующийся на методах стохастической геометрии, даёт возможность
осуществить поиск изображений лиц по фотороботу с опорой на большое
і количество признаков, что повышает гибкость и надежность поиска.
Диссертационная работа осуществлялась по трем программам РФФИ и
Минобразования.
Реализация и внедрение результатов.
Результаты исследований используются при работе 2 полка милиции УВО при ГУВД по г. Москве.
Основные положения, выносимые на защиту:
Обоснование целесообразности построения системы биометрического поиска как обучающейся системы (класса «обучения с учителем»).
Обоснование целесообразности использования математического аппарата стохастической геометрии для решения задачи биометрического поиска.
Новые конструктивные поисковые признаки, имеющие структуру в виде композиции трех функционалов (триплетные признаки).
Повышение надежности биометрического поиска с помощью определения триплетных признаков по областям соответствующим элементам человеческого лица.
Реализация алгоритма биометрического поиска на основе стохастической геометрии.
Реализация программной системы интеллектуального биометрического поиска фотоизображений по фотороботу.
Апробация работы. Основные положения диссертации докладывались на следующих научных конференциях:
2-й ^ Международная конференция молодых ученых и студентов «Актуальные проблемы современной науки» (г. Самара, 2001),
6-й Международная конференция «Распознавание образов и анализ изображений: новые информационные технологии» РОАИ-6-2002 (г. Великий Новгород, 2002),
Международная научно-техническая конференция «Математические методы в экономике» (г. Пенза, 2002),
Международная конференция по мягким вычислениям и измерениям SCM* 2002 (г. Санкт-Петербург, 2002),
Международная научная конференция «Интеллектуализация обработки информации» ИОИ-2004 (Крым, г. Алушта, 2004).
По итогам работы на 2-й Международной конференции молодых ученых и студентов «Актуальные проблемы современной науки» в г. Самара, 2001 г. был награкден грамотой за лучшую работу.
Публикации. По теме диссертационной работы опубликовано 16 печатных работ, включая 7 статей, 9 тезисов докладов, из них 1 статья опубликована в журнале, аккредитованном ВАК.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 97 наименований. Общий объем диссертации 187 с, в том числе 177 с. основного текста, 7 с. списка литературы, 72 таблицы, 59 рисунков.
і СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность выбранной темы; сформулирована научная проблема, дана общая постановка решаемых задач, приведено краткое содержание диссертационной работы.
В первой главе дан обзор методов распознавания человеческих лиц для решения задачи поиска изображений по фотороботу. Существуют научные школы, рассматривающие распознавание человеческих лиц в тесной связи с физиологией зрительного восприятия: научная школа НИИ нейрокибернетики имени А.Б. Когана Ростовского университета (Шапошников Д.Т., Головань Ю.Ф., Литовченко Е.В., Гусанова В.И., Калинин К.В., Петрушан М.В., Самарин А.И.), научная школа Института автоматики РАН (О. Белоцерковский, А. Глазунов). В работах этих научных коллективов решается задача улучшения поиска и распознавания слабоконтрастного объекта, которым является человеческое лицо.
Согласно психофизической теории восприятия и распознавания при восприятии изображения человеческих лиц происходит независимое выявление отдельных частей портрета, т.е. выделение групп структурных элементов или организованных структур. При этом процесс носит многосвязный характер, структура управления им имеет обратные связи.
Вышеуказанные физиологические процессы восприятия человеческих лиц дают возможность сделать в первой главе вывод о том, что построению системы поиска изображений по фотороботу в наибольшей степени соответствует модель распознающих систем с обучением (обучение с учителем). Кроме того, установлено, что перемещение глаза носит стохастический характер с фиксацией на области наибольшей информативности (глаза, нос, рот, овал лица, причем именно в такой последовательности). Рассматриваемый процесс зрительного восприятия, на наш взгляд, имеет аналогию с развиваемыми в диссертационной работе методами поиска биометрической информации на основе методов стохастической геометрии.
Также в работе рассмотрены известные методы получения признаков изображений. Обоснована целесообразность применения методов, базирующихся на стохастической геометрии. В работе проводится аналитический обзор методов распознавания образов: рассматривается исторически одним из первых появившийся персептронный (Ф. Розенблат) метод распознавания зрительной информации, позже получивший мощное развитие в нейронных сетях (А. Г. Ивахненко, Т. Кохонен, С. Гроссберг); методы, основанные на анализе контуров (X. Фримен, Я. А. Фурман) и топологическом описании; интегральные методы, связанные со спектральными отсчетами и другие интегральные методы; структурный подход (К. Фу, Т. Павлидис, И. Б. Мучник).
Многие из вышеупомянутых методов оказались непригодны для решения Задачи поиска биометрической информации. Так рассмотренные структурные методы не обеспечивают инвариантность к группе движений и линейных деформаций изображений. Искусственно придать им это свойство можно лишь ценой больших вычислительных затрат.
Многие интегральные методы свободны от этого недостатка. Однако большинство методов узко специализированы и используют незначительную часть информации об объектах. Например, метод моментов использует
только функцию яркостной интенсивности точки, не включает в распознающие инварианты информацию об окрестностях точек. Метод дескрипторов Фурье пригоден лишь для распознавания контурных изображений.
Теория распознавания образов, основанная на стохастической геометрии, включающая теорию триплетных признаков и новое геометрическое трейс-преобразование изображений, позволяет избежать этих недостатков за счет большого числа новых конструктивных признаков распознавания. Поэтому для решения задачи биометрического поиска была выбрана эта теория.
Во второй главе содержится описание алгоритма биометрического поиска, представлено применение методов стохастической геометрии для формирования поисковых признаков распознавания, имеющих характерную структуру в виде композиции трех функционалов.
В работе, на основании анализа физиологических принципов восприятия
и распознавания человеческих лиц, была построена система биометрического
поиска изображений человеческих лиц по эскизу или фотороботу, по типу
і обучение с учителем. Во второй главе описаны следующие этапы работы
системы:
1. Обучение, целью которого является формирование признаков, их
предварительный анализ, выдвижение гипотезы об их информативности и
выбор решающего правила.
2. Поиск изображения лица по эскизу или фотороботу и идентификация.
Режим обучения. Путем генерации триплетных признаков каждого
портретного изображения, хранящегося в базе данных, был построен набор
поисковых триплетных признаков, число которых в данном случае достигает
I 1080. Эти признаки вычислялись в режиме обучения для 100 портретных
изображений и для 10 образцов фотороботов, причем вычисления
осуществлялись по всем перечисленным выше областям наибольшей
информативности.
Результаты вычислений в режиме обучения показали, что значения некоторые триплетных признаков попадают в непересекающиеся или частично пересекающиеся множества значений признаков. Эти признаки обеспечивают наиболее важную информацию об изучаемых изображениях, их следует использовать при построении решающей функции. Остальные признаки считают малоинформативными, их влияние при принятии решения в системе снижается с помощью весовых коэффициентов.
Режим обучения. Путем генерации триплетных признаков каждого портретного изображения, хранящегося в базе данных, был построен набор поисковых триплетных признаков, число которых в данном случае достигает 1080. Эти, признаки вычислялись в режиме обучения для 150 портретных изображений и для 15 образцов фотороботов, причем вычисления осуществлялись по всем перечисленным выше областям наибольшей информативности.
Результаты вычислений в режиме обучения показали, что значения некоторых триплетных признаков попадают в непересекающиеся или частично пересекающиеся множества значений признаков. Эти признаки обеспечивают наиболее важную информацию об изучаемых изображениях, их следует использовать при построении решающей функции. Остальные признаки считают малоинформативными, их влияние при принятии решения в системе снижается с помощью весовых коэффициентов.
Режим поиска. Процесс поиска в системе строится следующим образом: выбирают в первую очередь те портретные изображения, которые имеют наименьшее расстояние между двумя наборами поисковых признаков для фоторобота и анализируемого изображения. Эти расстояния характеризуют степень близости. Далее происходит упорядочение всех изображений по выбранному критерию близости.
Как уже упоминалось выше, в режиме обучения были выбраны весовые коэффициенты для каждого из поисковых признаков, чтобы снизить влияние
малоинформативных поисковых признаков и усилить влияние высокоинформативных. Это позволяет повысить надежность поиска.
Кроме того, в системе предусмотрена возможность в автоматическом режиме определять компактность наборов точек поисковых признаков и их разнесённЬсть в пространстве поисковых признаков, позволяющая системе самостоятельно оценивать информативность триплетных признаков.
Далее во второй главе рассмотрены этапы преобразования информации для реализации биометрического поиска.
Предварительная обработка изображений. Поскольку в процессе поиска приходится сравнивать черно-белое изображение фоторобота с изображением лиц из базы данных, необходима предварительная обработка изображений с целью приведения их к бинарному виду. Исходные цветные фотографические портреты переводятся в черно-белые специальной процедурой бинаризации, описанной в главе 3.
Сегментагщя. На этом этапе происходит выделение (разбиение изображения) наиболее информативных областей: глаза, нос, рот, овал лица и др. В данном случае применен разработанный автором метод, основанный на рекурсивной функции заливки заданным цветом произвольной замкнутой области изображения. Описание и результаты применения метода приведены в главе 3.
Вычисление триплетных признаков. Сканирование решеткой параллельных прямых изображения для его Трейс-преобразования, получения цирка, а затем и вычисление триплетного признака.
Третья глава содержит описание программной реализации алгоритма биометрического поиска на основе стохастической геометрии, включающий предварительную обработку информации, его сегментации, формирование геометрических трейс-преобразований изображений, и вычисление по ним триплетных признаков, решающие процедуры, а также осуществлена проверка работоспособности полученных во второй главе функционалов, используемых для вычисления поисковых триплетных признаков в среде
\
MathCAD. Система биометрического поиска была выполнена в виде автономных модулей. При написании основных модулей применялся объектно-ориентированный подход и использовалась библиотека визуальных компонент C++ Builder'а.
Четвертая глава содержит исследование решающего правила, согласно которому оценивается, как анализируемое изображение соотносится с фотороботом. Анализируется информативность признакового пространства, характер ошибок распознавания, реализации решения задач сравнения и поиска, а также исследуются результаты работы решающего правила на релевантность. Кроме того, полученные параметры разработанной системы сравниваются полученные результаты с зарубежными аналогами по результатам исследований проекта Feret.
і ГЛАВА 1. ОБЗОР МЕТОДОВ РАСПОЗНАВАНИЯ ЧЕЛОВЕЧЕСКИХ ЛИЦ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ПОИСКА ИЗОБРАЖЕНИЯ ПО ФОТОРОБОТУ
1.1. Некоторые аспекты физиологического восприятия
человеческого лица с
Распознавание человеческих лиц является наиболее естественным направлением биометрии, ибо именно так люди распознают друг друга.
МоЛно добавить, что для идентификации с помощью других видов биометрии необходимо специальное оборудование и специальные процедуры. Они требуют от человека чтобы он занял определенное положение относительно чувствительного элемента и простоял несколько секунд. Их применение оправдано в банковской сфере и режимных предприятиях для ограничения доступа к конфиденциальной информации. Однако можно привести примеры, когда лучше всего подходят технологии распознавания лиц. Так в статье Алекса (Сэнди) Пентланда и Танзима Чаудхари [59] рассказывается, что для магазина, в котором узнают своих постоянньїх клиентов, для информационного киоска, который вас «помнит», или здания, которое «знает», кто в нем живет, нужно совсем другое. Там же, делается вывод о том, что ненавязчивость распознавания лиц лучше всего подходит для создания интеллектуальных систем нового поколения (распознавание происходит на расстоянии, не задерживая и не отвлекая человека). Эти технологии, как правило, пассивны (не требуют специального уровня освещенности), они не ограничивают пользователя в свободе перемещений, к тому же потребляют мало энергии и недороги.
Существуют научные школы, рассматривающие распознавание человеческих лиц в тесной связи с физиологией зрительного восприятия: научная школа НИИ нейрокибернетики имени А.Б. Когана Ростовского университета (Шапошников Д.Т., Головань Ю.Ф., Литовченко Е.В., Гусанова В.И., Калинин К.В., Петрушан М.В., Самарин А.И.), научная
школа Института автоматики РАН (О. Белоцерковский, А. Глазунов). В работах этих научных коллективов решается задача улучшения поиска и распознавания слабоконтрастного объекта, которым является человеческое лицо.
Согласно психофизической теории восприятия и распознавания движение глаз представляет собой сложную картину и состоит из нескольких форм движений:
нистагмы;
отдельные саккады;
инверсионные нистагмы;
синусоидальные колебания низкой частоты (0,25-0,8 Гц, М=0,45 Гц) и большой амплитуды (до 50-60; М=39,2, 6=2,9);
медленные апериодические повороты глаз и другие формы движения, которые при произвольной смене объекта фиксации выражены наиболее ярко.
Формы движений глаз ориентированы вдоль оси инверсии ретинального образа, а порядок чередования типов глазодвигательной активности выглядит случайным. Причем перемещение изображения играет огромную роль в сенсорной функции зрительной системы. Если изображение на сетчатке тем или иным способом стабилизировано, видимый ^эбраз бледнеет и исчезает. Причины этого еще до конца не выяснены. Однако оказывается, что через некоторое время человек снова начинает видеть целое или отдельные части стабилизированного изображения. При длительном наблюдении весь образ или его фрагменты поочередно то угасают, то появляются вновь. Такая фрагментация образа (поочередное угасание и восстановление его отдельных частей) зависит от характера и содержания изображения, они проиллюстрированы на рис. 1.1.1 из работы А. Глазунова [60].
Рис. 1.1.1. Стабилизированные образы обычно угасают, как показано на этом рисунке. Остающиеся видимые части тгрофиля - это всегда осмысленные элементы или группы элементов (лицо, верхняя половина лица и т. д.)
В известной мере эти наблюдения подкрепляют теорию нейронных ансамблей, согласно которой для реализации способности к восприятию необходим опыт: тот или иной образ воспринимается в результате комбинаций отдельных следов в мозге, образовавшихся там ранее усвоенным элементам.
Из этого следует важный вывод: при восприятии изображения на первый пл,ан выступает независимое поведение отдельных частей фигуры, т.е. выделение групп структурных элементов или организованных структур. Вышесказанный физиологический процесс распознавания больше всего соответствует модели распознающих систем с обучением, схема которой приведена в главе 2, а ее подробный анализ в главе 3.
Основная роль движения глаз состоит в перемещении оси зрения так, чтобы изображение пристально рассматриваемого объекта (или части объекта) всегда оказывалось в центральной части сетчатки, в зоне наилучшего зрения (фовеа). Именно в этой зоне имеется наибольшая плотность^ цветочувствительных рецепторов (колбочек). Здесь же располагаются рецептивные поля тонических корковых нейронов, анализирующих форму и т.п.
Один и тот же объект сначала обнаруживается, первично обрабатывается периферией с передачей полученной информации в мозг по «быстрому» каналу, а затем, после скачка, он исследуется более детально (если это необходимо) путем размещения изображения в зоне
17 і
фовеа. Детальная информация в этом случае передается в мозг уже по «медленному» каналу. При фиксации какого-либо участка изображения зрительной системой обрабатывается не только этот участок (проецирующейся на фовеа), но и получаемая с периферии информация, необходимая для расчета следующего скачка. Это также позволяет сделать вывод о целесообразности применения обучающей системы с учителем для таких поисковых систем, которые используют модель распознавания лица. .
Тем не менее, данный процесс не столь очевиден. Дело в том, что, как показано в вышеупомянутой работе А. Глазунова, глаз фиксирует основные фрагменты слабоконтрастного изображения, которые обычно рассматриваются как информативные признаки описания изображения и которые в дальнейшем используются в формальных логических утверждениях. В [60] экспериментально исследуется траектория движения глаза при рассматривании изображений. Установлено, что перемещение глаза носит стохастический характер с фиксацией на области наибольшей информативности (глаза, нос, рот, овал лица, причем именно в такой последовательности). Это демонстрирует рис. 1.1.2, приводимый в вышеупомянутой работе.
Рассматриваемый процесс зрительного восприятия, на наш взгляд, имеет аналогию с развиваемыми в диссертационной работе методами поиска биометрической информации на основе методов стохастической геометрии. В частности, можно предположить, что при распознавании мозг реализует геометрическое трейс-преобразование изображений и формирует эффективные конструктивные признаки распознавания.
w *Ш\
Рис. 1.1.2. Запись движения глаза при свободном рассматривании фотографии Особенности восприятия слабоконтрастных изображений зрительным трактом человека заключаются также в том, что в процессе узнавания мозг выступает как активная распознающая система (с проверкой^ правильности решений). Этапами распознавания при этом могут быть: выделение признаков, предварительный анализ, выдвижение гипотезы, проверка гипотезы - сличение изображений с эталоном, взятым из памяти. Поэтому принцип активного распознавания должен закладываться на этапе первичного проектирования систем кибернетического видения слабоконтрастных объектов, в частности при распознавании человеческих лиц. Так, в работе [87], как и в любой задаче анализа целевых изображений и распознавания образов на подстилающем фоне биометрическая идентификация лица показана последовательная реализация алгоритмов сегментации лица (целевого объекта), алгоритмов его признакового описания - формирования эталона и алгоритмов распознавания, построенных на формировании меры близости текущего описания и эталонного. В зависимости от условий, учитываемых при создании системы распознавания, реализация этих трех алгоритмических этапов может быть осуществлена разными способами. В целом предполагается, что система распознавания должна устойчиво функционировать в условиях линейных преобразований изображения, ограниченных ракурсных трансформаций объекта распознавания и в
определенном диапазоне изменений условий освещения, связанных с расположением источника света.
В этой работе инвариантность к условиям освещения была получена автоматически при переходе от яркостного массива изображения к массиву «дальностей» в системах идентификации с использованием трехмерных моделей. Там же однако отмечается то, что последующие операции распознавания в трехмерном пространстве с вычислительной позиции сильно усложняются, а с алгоритмической - сопоставление объемных образов при линейных и ракурсных изменениях, не становятся проще.
В [87] рассматриваются все три этапа процедуры распознавания лиц с использованием алгоритмов, ассоциированных результатами исследований психофизиологических механизмов зрительного восприятия высших животных и человека. В частности, в качестве первичных признаков выбраны ориентированные перепады яркости градиентного препарата, изображения [89]. Организация обработки зрительного потока подобна организации преобразований, осуществляемых сетчаткой глаза — неоднородность разрешения по полю зрения и объединение участков поля зрения в радиальные рецептивное поля. Описание образа осуществляется путем его активного рассматривания - формирования последовательности точек фиксации «взгляда» [88]. Тогда авторы этой работы, добиваются того, чтобы происходило сравнение не изображения с изображением, а описание с описанием.
Таким образом анализ восприятия и распознавания человеческого лица с позиции физиологии позволяет придти к следующим выводам.
Особенностью физиологического восприятия изображения человеческого лица является выделение областей наибольшей информативности. Эти области обычно рассматриваются как источник информативных признаков описания изображения и в дальнейшем
используются в формальных логических утверждениях.
Вышерассмотренному физиологическому процессу распознавания больше всего соответствует модель распознающих систем с обучением, которую мы и предполагаем использовать в диссертационной работе (модель класса «обучения с учителем»).
Перемещение глаза носит стохастический характер с фиксацией на области наибольшей информативности (глаза, нос, рот, овал лица, причем именно в такой последовательности), что имеет аналогию с примененными в данной работе методами поиска биометрической информации на основе методов стохастической геометрии. Речь идет в первую очередь о новом геометрическом преобразовании, связанном со сканированием изображений по сложным траекториям и теории триплетных признаков.
1.2. Выбор подходов к распознаванию для реализации биометрического поиска изображений человеческих лиц по фотороботу
Исторически одним из первых методов автоматического распознавания зрительной информации был метод, реализованный в персептроне Розенблатта и получивший мощное развитие в нейронных сетях [42, 50].
Персептрон — это устройство, состоящее из отдельных элементов, соединенных в единую сеть. Часть из них (S-элементы) способна реагировать на сигналы, поступающие из внешней среды. Множество таких элементов принято называть сетчаткой или рецепторным полем. S-элементы случайным образом соединены с ассоциативным слоем А-элементов, имеющим фиксированную структуру. Каждое конкретное свойство исследуемого объекта получают в ходе преобразования сигналов, поступающих от S-элементов.
Случайность связей S-элементов и А-элементов обеспечивает возможность использования персептрона для решения различных задач
распознавания. Однако при этом нет гарантии, что выбранные фрагменты окажутся эффективными для решения поставленной задачи. Кроме того, для решения сравнительно простых задач узнавания с приемлемой надежностью нужно большое число А-элементов.
Дальнейшее развитие этой идеи было связано с улучшением характеристик персептрона. Например, предлагалось изменять пороги неэффективных А-элементов и формировать в процессе обучения для каждого А-элемента не один, а несколько весовых коэффициентов соответственно числу классов задачи, увеличивать число слоев распознающей машины.
Другой подход к распознаванию, исторически появившийся одновременно с персептронным, связан с описанием границы исследуемых объектов..
2. Топологическое описание. Изображения считают плоскими графами, во
внимание принимают только их внешние и внутренние контуры [74, 75].
Эталонные и распознаваемые изображения описывают с помощью
топологических инвариантов (например, фиксируя число линий,
сходящихся в каждой точке, - индексы точек - в результате обхода
контуров изображения в определенном порядке). Задача распознавания
сводится к установлению гомеоморфности предъявленного изображения с
одним из эталонных.
Тако
е описание нечувствительно к сильным деформациям изображения, включающим все преобразования подобия. Недостатком его является слабая помехозащищенность, а также недостаточность описашія для надежного опознавания (топологически неразличимы, например, русские буквы А и Я или Г, 3, Л, М, П, С и цифры 1, 2, 3, 5, 7, или 6 и 9).
3. Прослеживание границы. Реализация этого метода предполагает
выполнение полного обхода контура, начиная с некоторой произвольной
точки. При этом реализуется алгоритм, последовательно определяющий
смежные точки, лежащие на границе. Запись направления движения вдоль
границы от каждой текущей точки к последующей представляет собой одномерное описание проекции объекта, содержащее информацию о его форме [37, 62]. По описанию границы определяют площадь, периметр, центр площади, охватывающий прямоугольник. Для определения формы изображения используют инвариантные относительно преобразования подобия соотношения:
* xl-bh/S> х2 =h/b, х3 = LJ4s, х4 - LIК х$ = L/b,
где b, h - меньшая и большая стороны минимального по площади прямоугольника, описанного вокруг изображения; S, L — площадь и периметр изображения соответственно [65, 66].
При необходимости число вычисляемых свойств изображения может быть увеличено. Для этого увеличивают число сторон описанного вокруг изображения многоугольника минимальной площади с заданными углами при вершинах или используют значения длин сторон описанного прямоугольника при различных фиксированных его положениях относительно минимального по площади описанного прямоугольника.
Недостаток этого подхода состоит в необходимости осуществления дополнительных процедур. Метод оказывается неработоспособным, если на границе присутствуют резкие скачки контрастности, поэтому ему должна предшествовать операция сглаживания. При определении связности объекта можно повторно обнаружить уже отслеженную границу, во избежание этого «отмечают» всё точки уже просмотренной границы.
Кроме того, получаемое с помощью перечисленных свойств описание обладает слабой помехозащищенностью, и разделительные возможности признаков весьма ограничены. (Фигуры, имеющие одинаковую площадь и периметр, в пространстве этих свойств неразличимы.)
4. Нахождение модулей спектральных отсчетов. Метод позволяет
определять инвариантные к вращению свойства объекта исследования [13,
80].
Изображение формируется в памяти ЭВМ в виде матрицы с двумя градациями яркости 0 и 1. Сформированный в дискретных координатах массив f(x,y) подвергается дальнейшей обработке. По нему вычисляется центр формы изображения, в который переносится начало координат. Затем изображение преобразуют из декартовых координат в полярные координаты:
k f(x,y)-*F(
Р є {0,...,/?-1}
где (р -дискретный угол, р - число дискретов угла.
Для вычисления инвариантов функция F(cp) преобразуется в спектральную
форму по базису Крестенсона:
1 Й ~>п
<) = - L ^(0 єхрО'—ар)
Р .-0 р
где со - дискретная частота, ср = 0,...,р~1.
В качестве характеристик, инвариантных к вращению, используются
модули спектральных отсчетов «KuO^v^)^). Угловое положение объекта
определяется по комплексным значениям спектральных отсчетов.
Недостатком метода считают относительную сложность вычислительной процедуры, которая ограничивает число дискретов изображения.
5. Интегральное описание изображений (описание с помощью моментов
Мцр (а, р = 0,1,2,...)). Моменты, вычисленные в прямоугольной или полярной
системах координат, могут быть использованы в качестве описания
исследуемых объектов. Общие выражения для вычисления моментов
имеют вид:
maJJ=))B(x,y)xayfidxdy
1. - і , где В(х,у) - функция яркости изображения
в прямоугольной системе координат, а, Р — порядок момента;
2. jup= \AppB(p,(p)dpdcp, где B(p,(p) — функция яркости изображения в
о о
полярной системе координат, р — радиус-вектор точки контура, проведенный из центра тяжести фигуры, р — показатель степени момента, Rmax — расстояние от центра тяжести фигуры до максимально удаленной точки контура [3, 11, 14].
Возможность применения такого описания обоснована следующей теоремой: последовательность {р(а,В)} моментов изображения однозначно определяется его функцией яркости В(х,у) и, наоборот, В(х,у) однозначно определяется последовательностью {р(а,В)}.
Какие моменты наиболее целесообразно вычислять и с какой точностью, как правило, определяют экспериментально.
К достоинствам интегрального описания изображений относят сравнительную простоту его получения, легкость наращивания ансамбля свойств, высокую помехозащищенность, особенно при использовании моментов нечетных порядков.
6. Методы распознавания образов зрительной природы, основанные на интуитивном подходе [3, 11, 20].
а) Для получения описания изображение располагают на квадратной
сетчатке, ка которую накладывают четыре (или более) пересекающиеся
линии. Значения свойств xt представляют собой расстояния вдоль этих
линий от краев «сетчатки» до первых пересечений с контуром
изображения. Разновидность этого описания - использование в качестве
значений свойств расстояний от некоторой окружности до контура
изображения.
б) Сетчатка размером 12x30 элементов разбивается на 20
прямоугольников. Для каждой части изображения, попавшей в
прямоугольник, определяются свойства, являющиеся результатом
арифметических или логических операций.
К достоинствам этих методов относят простоту получения значений свойств и легкость автоматизации процедуры наращивания их количества, к недостаткам - слабую помехозащищенность и малую информативность каждого отдельного признака.
Общим для всех перечисленных выше методов является то, что изображение рассматривается как нечто целое, характеризуемое набором чисел, описывающих зачерненность всех его точек. Иная позиция реализуется в методе, получившем название лингвистического или структурного [41, 54, 72].
7. При лингвистическом подходе изображение рассматривается состоящим из ряда частей, в качестве которых выступают геометрические характеристики изображения. Первоначально производится выделение этих характеристик, затем составляется логическое описание изображения, в котором элементами являются характеристики формы частей изображения и характеристики взаимного расположения этих частей.
Совокупность геометрических характеристик изображений и множество правил их соединения представляют собой некий специальный язык. С его помощью выражаются отличия или сходства классов изображений (образов). Словарь такого языка составляют геометрические характеристики, а грамматику - правила построения описаний из этих характеристик.
Многие из вышеописанных методов непригодны для решения задачи распознавания биометрической информации, так как не обладают инвариантностью по отношению к группе движений и линейным деформациям изображений. Результаты распознавания этими методами зависят от поворотов, перемещений и масштабных искажений изображений. Из интегральных методов такими свойствами - отсутствием инвариантности - обладают персептронные методы. Придание инвариантности описаниям распознаваемых объектов, полученным с
помощью структурных методов распознавания, требует больших вычислительных затрат.
Существуют некоторые интегральные методы, обладающие инвариантностью по отношению к группе движения и линейным деформациям изображений объектов. Однако эти методы узко специализированы и используют незначительную часть информации об объектах.' Например, метод моментов использует только функцию яркостнои интенсивности точек и не включает в распознающие инварианты информацию об окрестностях точек. Метод дескрипторов Фурье пригоден только для распознавания контурных изображений.
На основании вышесказанного для распознавания такой биометрической информации как лица были выбраны методы распознавания, базирующиеся на стохастической геометрии. Эти методы позволяют конструировать большое количество признаков распознавания изображений, в том числе инвариантных к группе движений и линейным деформациям изображений, что способствует упрощению системы распознавания и повышению качества ее работы.
8. Методы распознавания, основанные на стохастической геометрии. Следуя теории распознавания, основанной на стохастической геометрии [28, 67, 68], получение признаков изображений осуществляется в несколько этапов.
Сканирование. В данном методе сканирование осуществляется путем пересечения изображения, расположенного на сетчатке, некоторыми геометрическими объектами (прямыми, отрезками, окружностями, дугами окружностей, ломаными и т.д.) с целью получения определенной информации о нем. Перечисленные объекты представляют собой сложные траектории сканирования. Вид объектов, их число, а также характер расположения в плоскости изображения зависят от цели исследования [67].
В частности, при сканировании объектов случайными прямыми получаемый результат характеризует геометрические параметры объектов
распознавания и не зависит от их ориентации и расположения на плоскости. Реализацию такого вида сканирования осуществляют с учетом следующих фактов.
Как показано в [33, 56, 67], реализация сканирования по траекториям, представляющим собой случайно распределенные геометрические элементы, требует четкого определения множества данных элементов и задания меры на этом множестве. Задачи, связанные с геометрическими вероятностями, не являются определенными до тех пор, пока не задана вероятностная мера.
Прямую линию на плоскости определяют полярными координатами точки пересечения этой прямой с перпендикуляром, проведенным к ней из начала. В этом случае уравнение прямой записывается в виде xcosa-rysmu = р Параметры р и в рассматривают как координаты прямой, тогда параметрическое пространство Q есть двумерное пространство координат (р, в). В этом случае с точностью до постоянного
М{Е) = множителя мера ::~ Е является единственной инвариантной
относительно трансляций, вращений и отражений. (Пуанкаре было
к доказано, что dpdO - это единственный дифференциальный элемент,
который остается инвариантным относительно группы движения
плоскости.)
После нахождения М(Е) указывают распределение параметров р и в
для конкретизации определения «случайная» прямая. Если поле
изображения считается бесконечным, то величина р может принимать
неограниченно большие значения и равномерное распределение задать
нельзя. Поскольку при сканировании нас интересуют только прямые
пересекающие сетчатку, можно ограничиться рассмотрением лишь
подмножества плоскости (р, в), которое им соответствует, и задать
равномерное распределение на этом подмножестве. При этом следует
учесть, что мера множества прямых, пересекающих ограниченное множество, равна длине его границы.
В Случае программной реализации процесса сканирования исследуемые изображения представляют в одном из графических форматов. Это позволяет рассматривать каждое из них расположенным на некоторой «виртуальной» сетчатке, исключая из использования техническое устройство [31, 32, 77].
Геометрические характеристики изображений. Когда случайная прямая / пересекает изображение, их взаимное расположение можно характеризовать некоторым числом g. Проводя серию случайных бросаний прямой на плоскость, получают выборку для случайной величины g. Далее можно определять какую-либо эмпирическую характеристику п случайной величины g. При некоторых условиях характеристика п может иметь явный геометрический смысл. Например, в качестве критериев распознавания можно использовать следующие формулы [56, 67]:
1. Некоторое выпуклое множество F содержится в ограниченном
выпуклом множестве Ф (сетчатке). Вероятность того, что случайная
прямая G пересечет F, если она пересекает Ф определяется равенством
P(F) = -i-
где LF и Lb периметры множеств Fn Ф соответственно.
Это же соотношение можно использовать, когда F не является выпуклым множеством. Для определения искомой вероятности P(F) числитель Lp полагают равным длине выпуклой оболочки множества F.
2. Если кривая гдлины L расположена на сетчатке с периметром
Ьф,
то существуют прямые, которые пересекают эту кривую по крайней мере в 21 ф точках. Это число является вероятностной оценкой длины контура.
З. Средняя длина хорды, высекаемой выпуклым множеством F из случайной прямой, равна
4Z ,
где S — площадь, L -периметр множества F.
Даны два непересекающихся множества Fj и F2 с длинами границ Lj и L2 соответственно (см. рис. 1.3.1).
Рис. 1.3.1. Критерии распознавания для непересекающихся множеств Fj и F2 4. Вероятность того, что сканирующая линия пересечет множество І7? при условии, что она пересекает Fj, определяется
L -L
/> =
следующим соотношением: Ъ , где L'/2 — длина кривой,
образованной касательными DD', СО и фрагментами границ множеств F, и F2, имеющей самопересечение в точке О, L]2 - длина кривой, образованной касательными АА', ВВ' и фрагментами границ Fj и F2, не имеющей точки пересечения.
5. Вероятность того, что случайная линия G пересечет Fj, но не
пересечет F2'.
Р = 1
L'
L»
6. Вероятность того, что случайная линия G пересечет F2, но не V -L
Р = \
пересечет Fj:
Ц2-(Ц+Ь2)
7. Вероятность того, что G разделяет Fj и F2: ^
Если множества Fj и F2 пересекаются, то в приведенных формулах надо считать, что L'i2 = Lj + L2.
* ЗО
8. Случайными прямыми сканируется некоторая область Q площадью S. Имеет место следующее равенство:
\\ gdG ~)d9\gdp = nS,
GnO*0 О О
где g — длина отрезка, являющегося частью прямой, лежащей внутри
области Q, do = ар лад _ плотность множества прямых, заданных в нормальных координатах. Предел интегрирования по в берется от 0 до к, так как ориентация отрезков не учитывается.
Однако геометрических характеристик изображений не так много, что ограничивает количество признаков, основанных на геометрических вероятностях.
Дальнейшее развитие подхода к распознаванию, основанного на стохастической геометрии, связано с совместным применением математического аппарата стохастической геометрии и функционального
анализа. С этих позиций профессором Федотовым Н.Г. и его научной
школой была разработана конструктивная теория ранее малоизученного
этапа распознавания - формирования признаков и получено большое количество признаков распознавания нового класса - триплетных признаков. Характерной особенностью триплетных признаков является их структура в виде композиции трех функционалов [28,68].
Теория триплетных признаков. В процессе формирования триплетных признаков можно выделить несколько этапов: сканирование изображения с целью получения о нем определенной информации и последующую обработку результатов сканирования.
Первоначально изображение, расположенное на входной сетчатке системы распознавания, сканируется решеткой параллельных прямых с расстоянием Ар между линиями (рисунок).
і
Рис. 1.3.2. Сканирование объекта решеткой параллельных прямых в одном из
направлений.
Взаимное положение исследуемого, изображения F и каждой сканирующей линии / характеризуют числом g, вычисляемым по некоторому правилу Т:g = T(Fпі). В качестве указанной характеристики может выступать число пересечений прямой с изображением, длина части прямой, лежащая внутри изображения, или свойства окрестности такого сечения и т. п. Отображение Т является функционалом. Функционал Т связан с естественной координатой t сканирующей линии.
В рассмотрение принимают отображения, обладающие свойством полной инвариантности. Функционал Т обладает свойством полной инвариантности, если для всех прямых и всех изображений выполняется равенство T(Fr\l) = T(F'елі'), где F - рассматриваемое изображение, / -прямая, пересекающая изображение F, F' и /' - изображение и прямая, возникающие после сдвига или/и поворота изображения F и прямой /.
Затем сканирование производится для нового значения угла,
получившего дискретное приращение Ав, решеткой линий с тем же шагом
Ар. і
Результат вычислений Т функционала зависит от двух параметров прямой рив, поэтому получаемое в результате сканирования множество чисел g = T(FЫ(р,в)) есть некоторое преобразование изображения, которое называют трейс-преобразованием {trace от английского слова
«след»), к При численном анализе трейс-преобразование принято представлять в виде матрицы или трейс-матрицы, у которой ось Ов направлена горизонтально, а ось Ор — вертикально. Элемент трейс-матрицы, стоящий на пересечении і-й строки и у'-го столбца, то есть g0 =T{Fr\l(pi,t/J))^ т^ е каждый столбец матрицы содержит значения, вычисляемые по всем прямым при одинаковом значении угла в. Если прямая / не пересекает изображение, то *№п 0 полагают равным заданному числу (например, нулю).
Рис. 1.3.3. Результат применения Т-функционала-трейс-матрица.
Как показано в [68], множество всех направленных прямых, пересекающих сетчатку, в топологическом смысле не что иное, как лист Мебиуса. Обычная евклидова мера dpc/в листа Мебиуса инвариантна к сдвигам И| поворотам, поэтому плотность распределения всякой функции, заданной на листе Мебиуса, в данном случае функции изображения, не зависит от указанных преобразований. Таким образом, если изображение F претерпевает сдвиг и/или поворот, эти изменения будут отражены в его Trace-матрице.
Согласно рассматриваемой теории, после заполнения трейс-матрицы продолжается формирование триплетного признака. С помощью диаметрального функционала Р обрабатываются столбцы трейс-матрицы. Результатом этой обработки является появление набора чисел, которые для удобства .восприятия и последующего анализа представляют в виде периодической кривой (цирка), сдвиг которой пропорционален повороту исходного изображения.
Рис 1.3.4. Результат применения Р-функщюнала — цирк.
После этого к полученному набору чисел (цирку) применяют круговой функционал 0, .что приводит к появлению некоторого числа -признака изображения 11(F).
Таким образом, признак исследуемого изображения обладает
структурой в виде композиции трех функционалов
11(/-; = У о г о і (і< п l{p,U))^ где j, _ вышеописаннЬщ функционал, связанный с естественной координатой t сканирующей линии 1(р, в), Р -диаметральный и 0 — круговой функционалы, связанные с нормальными координатами сканирующей линии, соответственно рив. Благодаря такой структурек признаков в рамках описанного подхода возможно получение большого числа новых конструктивных признаков распознавания, причем их формирование осуществляется в режиме автоматической компьютерной генерации.
Таким образом, рассмотрение структурных методов показало, что они не обеспечивают инвариантностью к группе движений. Искусственно придать им это свойство можно ценой больших вычислительных затрат.
Для обеспечения инвариантности по отношению к группе движения и линейным деформациям изображений объектов при распознавании образов необходимо применять интегральные методы. Однако, большинство методов узко специализированы и используют
незначительную часть информации об объектах. Например, метод моментов использует только функцию яркостной интенсивности точки, не включает в распознающие инварианты информацию об окрестностях точек. Метод дескрипторов Фурье пригоден лишь для распознавания контурных изображений. Теория распознавания образов, основанная на стохастической геометрии, включающая теорию триплетных признаков и новое геометрическое трейс-преобразование изображений, позволяет избежать этих недостатков за счет большого числа новых конструктивных признаков распознавания. Поэтому для решения задачи биометрического поиска была выбрана эта теория.
1.3. ВЫВОДЫ И РЕЗУЛЬТАТЫ
1. При разработке поисковой системы представляется
целесообразным учитывать особенности физиологического
восприятия изображения человеческого лица.
2. Самой важной из особенностей физиологического процесса
является выделение глазами некоторых групп структурных
элементов (областей наибольшей информативности), которые
обычно рассматриваются как источники информативных признаков
описания изображения и в дальнейшем используются в формальных
логических утверждениях. Такой процесс распознавания больше
всего соответствует модели обучающихся распознающих систем
(клгса «обучения с учителем»).
Перемещение глаза носит стохастический характер с фиксацией на области наибольшей информативности (глаза, нос, рот, овал лица, причем именно в такой последовательности), что имеет аналогию методами поиска биометрической информации на основе методов стохастической геометрии.
Многие из рассмотренных в обзоре методов непригодны для решения задачи поиска биометрической информации, так как не
обладают инвариантностью по отношению к группе движений и
линейным деформациям изображений. Результат распознавания
такими методами зависит от поворотов, перемещений и масштабных
преобразований изображений фотоснимков. Придание
инвариантности описаниям распознаваемых объектов, полученных с помощью структурных методов распознавания, требует больших вычислительных затрат.
5. Существуют некоторые интегральные методы, обладающие
инвариантностью по отношению к группе движения и линейным
деформациям изображений объектов. Однако эти методы узко
специализированы и используют незначительную часть информации
об объектах. Например, метод моментов использует только функцию
яркостной интенсивности точки, не включает в распознающие
инварианты информацию об окрестностях точек. Метод
дескрипторов Фурье пригоден лишь для распознавания контурных
изображений. і
6. Проведенный анализ методов распознавания и
предварительные эксперименты позволяют прийти к заключению, что наиболее перспективной для решения данной задачи является теория распознавания образов, основанная на стохастической геометрии, включающая теорию триплетных признаков и новое геометрическое трейс-преобразование изображений.
Выбор подходов к распознаванию для реализации биометрического поиска изображений человеческих лиц по фотороботу
Исторически одним из первых методов автоматического распознавания зрительной информации был метод, реализованный в персептроне Розенблатта и получивший мощное развитие в нейронных сетях [42, 50].
Персептрон — это устройство, состоящее из отдельных элементов, соединенных в единую сеть. Часть из них (S-элементы) способна реагировать на сигналы, поступающие из внешней среды. Множество таких элементов принято называть сетчаткой или рецепторным полем. S-элементы случайным образом соединены с ассоциативным слоем А-элементов, имеющим фиксированную структуру. Каждое конкретное свойство исследуемого объекта получают в ходе преобразования сигналов, поступающих от S-элементов.
Случайность связей S-элементов и А-элементов обеспечивает возможность использования персептрона для решения различных задач распознавания. Однако при этом нет гарантии, что выбранные фрагменты окажутся эффективными для решения поставленной задачи. Кроме того, для решения сравнительно простых задач узнавания с приемлемой надежностью нужно большое число А-элементов.
Дальнейшее развитие этой идеи было связано с улучшением характеристик персептрона. Например, предлагалось изменять пороги неэффективных А-элементов и формировать в процессе обучения для каждого А-элемента не один, а несколько весовых коэффициентов соответственно числу классов задачи, увеличивать число слоев распознающей машины.
Другой подход к распознаванию, исторически появившийся одновременно с персептронным, связан с описанием границы исследуемых объектов.. 2. Топологическое описание. Изображения считают плоскими графами, во внимание принимают только их внешние и внутренние контуры [74, 75]. Эталонные и распознаваемые изображения описывают с помощью топологических инвариантов (например, фиксируя число линий, сходящихся в каждой точке, - индексы точек - в результате обхода контуров изображения в определенном порядке). Задача распознавания сводится к установлению гомеоморфности предъявленного изображения с одним из эталонных.
Прослеживание границы. Реализация этого метода предполагает выполнение полного обхода контура, начиная с некоторой произвольной точки. При этом реализуется алгоритм, последовательно определяющий смежные точки, лежащие на границе. Запись направления движения вдоль границы от каждой текущей точки к последующей представляет собой одномерное описание проекции объекта, содержащее информацию о его форме [37, 62]. По описанию границы определяют площадь, периметр, центр площади, охватывающий прямоугольник.
При необходимости число вычисляемых свойств изображения может быть увеличено. Для этого увеличивают число сторон описанного вокруг изображения многоугольника минимальной площади с заданными углами при вершинах или используют значения длин сторон описанного прямоугольника при различных фиксированных его положениях относительно минимального по площади описанного прямоугольника.
Недостаток этого подхода состоит в необходимости осуществления дополнительных процедур. Метод оказывается неработоспособным, если на границе присутствуют резкие скачки контрастности, поэтому ему должна предшествовать операция сглаживания. При определении связности объекта можно повторно обнаружить уже отслеженную границу, во избежание этого «отмечают» всё точки уже просмотренной границы.
Кроме того, получаемое с помощью перечисленных свойств описание обладает слабой помехозащищенностью, и разделительные возможности признаков весьма ограничены. (Фигуры, имеющие одинаковую площадь и периметр, в пространстве этих свойств неразличимы.).
Возможность применения такого описания обоснована следующей теоремой: последовательность {р(а,В)} моментов изображения однозначно определяется его функцией яркости В(х,у) и, наоборот, В(х,у) однозначно определяется последовательностью {р(а,В)}.
Описание пространства признаков, используемых для решения задачи поиска изображений
Для описания каждого портретного изображения строится известный набор переменных - множество триплетных признаков, число которых в данном случае достигает 1080 шт. Множество возможных значений всех переменных является множеством непрерывных или дискретных числовых значений. Для генерации триплетных признаков в системе использовались следующие функционалы.
Приведенные во этой главе формулы вычисления функционалов имеют непрерывный характер. Для их реализации на компьютере необходимо их представление в дискретном виде. Пример такого расчета функционалов в дискретном виде приведен главе 3, где осуществлено приведение в дискретный вид, а также расчет и проверка работоспособности полученных функционалов в среде MathCAD 8.
Далее будут приведены примеры, когда для распознавания изображения достаточно уже одного первого трейс-преобразования, осуществляемого с помощью Т-функционалов из вышеперечисленного списка.
Согласно аргументации, приведенной в главе 1 для всех изображений лиц целесообразно производить структурный анализ биометрических элементов портретного изображения (расположение глаз, носа, овала лица, определение контуров подбородка, усов) в автоматическом или полуавтоматическом режиме. И уже для каждого элемента в отдельности выполнить процесс сканирования и вычисления вышеперечисленного набора триплетных признаков.
Достижение целей проводимого исследования предполагает сопоставление бинарных изображений для организации поиска биометрической информации по фотороботу. Для этого проведем анализ портретного изображения, что поможет нам эффективнее выполнить экстракцию признаков. Предварительный анализ исследуемых изображений позволил сделать следующие заключения: 1. В основной своей массе фотографические изображения подготовлены в одном ракурсе - вид спереди (анфас). 2. При фотосъемке все фотографические изображения получены таким образом, чтобы исключить повороты и движения головы. Однако допускаются небольшие наклоны и мимические движения, повороты портретного изображения. 3. Все исследуемые объекты содержат уникальную биометрическую информацию, конфигурация и метрика которой могут быть различными. 4. На бинарном изображении однозначно можно определить как -основную биометрическую информацию (форму глаз, ушей, носа, губ, подбородка и т.п.), так и специфическую (наличие и форма усов, бороды, родимых пятен, рубцов, шрамов и т.д.). 5. Портретные изображения различаются геометрическими параметрами и взаимным расположением элементов 6. Предъявляемые для анализа и распознавания изображения принадлежат разным лицам: одной персоне соответствует одно портретное изображение. 7. Портретные изображения фотороботов составляются оператором субъективно с помощью программы для их составления.
Определим трейс-преобразование областей наибольшей информативности согласно терминологии, принятой в [96]. Эти области будут соответствовать элементам человеческого лица. При выделении этих элементов на изображении будем руководствоваться методикой портретной экспертизы из криминалистики.
Для начала приведем примеры областей наибольшей информативности, которые различимы с помощью одного лишь трейс-преобразования. Рис. 2.2.1. Линия роста волос: а - прямая, б - дугообразная, в - извилистая, г-ломаная, д - М-образная, е - ассиметричная. Ниже приведены примеры трейс-преобразования линии роста волос, осуществляемого с помощью Т-функционалов из вышеперечисленного списка.
В приведенной выше таблице функционалы Т5 и Т6 для прямой линии роста волос отличаются от других трейс-преобразований, практически все функционалы (Ті, Т2, Тз, Т4, Т7 и Тя) выделяют дугообразную линию роста волос среди прочих трейс-преобразований линий роста волос. С помощью функционалов Т5 и Т8 можно особо выделить трейс-преобразования для извилисто линии роста волос. Функционал Т5 позволит выделить ломаную линию роста волос, а Т8 - М-образную. Хорошо чувствительны к асимметричной линии роста волос трейс-преобразования, полученные с помощью функционалов Т5, Т6, Т7, Tg.
В этой таблице функционалы Тз и Т, квадратной конфигурации лица отличаются от других трейс-преобразований, практически все функционалы (Т], Т5, Т6, Т8) выделяют круглую конфигурацию лица среди прочих трейс-преобразований конфигурации лица. С помощью функционалов Ті и Тк можно особо выделить трейс-преобразования для прямоугольной конфигурации лица. Для ромбовидной конфигурации лица хорошо чувствителен лишь трейс-преобразование, полученное с помощью функционала Ть
В этой таблице показано, что в зависимости от длины бровей хорошо различают человеческие лица функционалы Т5 и Т6.Тгасе-преобразования, полученные с помощью перечисленных функционалов, имеют совершенно различный для всех трех случаев внешний вид.
Пример расчета триплетных признаков в дискретном виде
Для реализации процедуры вычисления триплетных признаков на компьютере необходимо осуществить перевод приведенных во второй главе функционалов в дискретный вид, а также расчёт и проверка работоспособности полученных функционалов. Для этой цели необходима математическая программное обеспечение, позволяющее записать расчёт с помощью математических формул. В качестве такой среды был выбран і MathCAD 8. Поэтому все функции, приведенные в этом расчете, такие как coisQ — количество столбцов в матрице, rowsQ - — количество строк в матрице, round{) - округление до целого, meanQ — среднее арифметическое, medianQ - медиана, min() - наименьшее значение, тах{) - наибольшее значение и др. являются обозначениями выбранной среды.
Пусть w - ширина изображения, и w := cols{F)f для выбранного изображения: w = 57 . ДдЯ доступа к пикселам по оси абсцисс в изображении, введем переменную х := "Л- w 1. Далее, если h - высота 103 изображения, и п - rows(F) для выбранного изображения: 368 . Для доступа к пикселам по оси ординат в изображении, введем переменную .у :=0,1../2-1.
Для того чтобы выполнить трейс-преобразование, необходимо черно-белое изображение представить в виде бинарной матрицы со значением 0 -для белого цвета пиксела и 1 — для черного цвета пиксела. Т.е. для всех (у,х) необходимо преобразование вида:
Как показывает практика, одного трейс-преобразования недостаточно для различения изображений. Приведем еще один пример расчета трейс-функционала. В качестве трейс-функционала выберем число пересечений, высекаемых изображением F на сканирующей линии.
Далее, приведем примеры расчета некоторых из диаметральных і функционалов для дальнейшей обработки третьего трейс-преобразования. В качестве первого примера выберем нахождение суммы всех элементов р-го столбца трейс-матрицьг. внешний вид цирка которого показан ниже:
Данные таблиц 3.2.1-3.2.15 представляют собой поисковые триплетные признаки, которые можно использовать для организации поиска изображений, путем сопоставления (сравнения) с соответствующими триплетными признаками других изображений. Каким образом это происходит, подробно описано в главе 4.
Работа с системой поиска изображений в неупорядоченной БД изображений по эскизу (фотороботу) выполнена в виде системы получения и анализа признаков изображений, как самого объекта поиска (фоторобота), так изображений из базы данных, в которой осуществляется поиск. Методика получения признаков изображений основана на вышеописанной процедуре сканирования исходного изображения геометрическими объектами.
Формирование бааы данных, представленных в виде изображений Ґ с добавлением всех изображений в открытой гвгже (по выбираемому шаблон) Ґ" перезаписать все изображения в открытой папке fno текущему шаблон] перемписоть текущее изображение БалакинЬтр Барсу с bmp Бурцев bmp Горелов, bmp Губанов bmp Жуков bmp Жуков2Ьтр Казанцев, bmp Каменск oe bmp ЛабькинЬггр Лапшин bmp ЛутаееЬтр МезеновЬтр Морганов bmp Небайкин bmp Пеганов bmp Пуэарин bmp
Биометрическая поисковая система «Капкан» В качестве сканирующего объекта выбрана решетка параллельных прямых линий с фиксированным шагом Ар и равномерным поворотом с дискретом Ав (см. рис. 3.3.2), так как это упрощает (следовательно, ускоряет) процедуру получения признаков изображения. Модуль вычисления триплетных признаков. Собственно поиск по фотороботу, представленному в виде бинарного изображения, в неупорядоченной БД цветных изображений осуществляется в несколько этапов. Сначала изображения из БД предварительно обрабатываются с целью получения бинарного образа. Для качественного сравнения изображений из БД с искомым эскизом (фотороботом) реализована процедура бинаризации (см. рис. 3.3.3) полутонового изображения (если изображение цветное, то из него полутоновое получается как композиция трех компонент цветов - RoGoB) на основе нелинейной фильтрации и анализа цветовых слоев изображения.
Предварительная обработка нужна, так как сегментация изображения может производится и над фотороботом, и над портретным изображением. Поэтому необходимо приведение всех портретных изображений к бинарному виду.
Оценка информативности признакового пространства
Результаты вычислений показывают, что значения некоторых признаков попадают в непересекающиеся или частично пересекающиеся интервалы. Эти признаки обеспечивают наиболее важную информацию об изучаемых изображениях, их следует использовать при построении решающей функции.
Для оценки информативности пространства признаков используется подход, основу которого составляет гипотеза компактности [24, 61]. Из нее следует, что для хорошего распознавания образов желательно, чтобы расстояник между своими точками каждого образа были малыми, а расстояния до точек других образов по возможности большими [69, 73]. На основании сказанного информативность пространства признаков тем больше, чем больше величина:
Определяя компактность точек каждого образа и разнесённость образов в пространстве характеристик согласно приведенному алгоритму, мы можем модифицировать наше решающее правило, чтобы программа могла сама оценивать информативность триплетных признаков. Для предлагаемых количественных критериев, определяющих отличие изображения от фоторобота, введем в качестве весовых коэффициентов і величину min{J) для каждой пары изображений в БД. Выбирая те значения полученных величин, которые превышают единицу, используемые при рассмотрении набора признаков, мы можем выбрать достаточно информативные из них.
Рассмотрим на 5 примерах изображений для того, чтобы показать, как производиться оценка эффективности. Ниже, в таблице 4.2.1, приведены исходные данные с результатами предварительной обработки и сегментации.
Выберем трейс-преобразование Т5 (см. п. 2.2.1) для описания общей конфигурации лица в соответствии с полученными из главы 2 данными (см. анализ таблицы 2.2.2). Для наглядности примера возьмем один диаметральный Pi и небольшой список круговых функционалов (0, з и 6) из всего списка функционалов приведенного в главе 2 (п.п. 2.2.2 и 2.2.3). В таблице 4.2.2 приведены результаты вычислений триплетных признаков.
Для полученных триплетных признаков необходимо выбрать весовые коэффициенты. Это может сделать или оператор в режиме обучения, или программная система в соответствии с гипотезой компактности. Для последнего случая, если значения признака принять за расстояние между точками сопоставляемых образов, то необходимо сначала определить величину разнесённости образов так, как это показано выше, т.е. средним расстоянием между точками образа.
Процесс поиска в данной системе основан на том, чтобы предложить эксперту для рассмотрения в первую очередь те портретные изображения, которые имеют некоторую наименьшую количественную характеристику для определения степени близости к задаваемому субъективному портрету. Таким образом, можно говорить о некотором процессе упорядочения изображений по критерию близости к объекту поиска.
В предлагаемой диссертационной работе было рассмотрено 100 субъективных портретов для 1020 различных изображений. Каждое изображение из БД и фоторобот, участвующий в поиске, описываются набором триплетных признаков, которые перечислены в предыдущем параграфе. Обозначим множество образов b,ai,...,ai...,aN, где b - изображение фоторобота, N — количество изображений в БД (в нашем случае 7V=1020), а весь набор переменных для описания множества объектов, триплетных признаков: 77/,..., Щ,...,Пп, где п — количество триплетных признаков (/7=1080). Получаем следующую таблицу данных v={x ,y } (см. таблицу 4.3.1.):
Согласно выбранному выше критерию R, используемого для упорядочивания изображений в зависимости от степени близости к выбранному фотороботу, необходимо найти среднее значение триплетных признаков для каждой комбинации функционалов. Результаты такого вычисления приведены в таблице 4.3.3.
Все изображения из примера упорядочены в порядке возрастания критерия R, мы получили список, в начало которого попали самые похожие на фоторобот изображения.
В режиме обучения оператор может вмешиваться во все этапы применения решающего правила, начиная с оценки информативности поисковых триплетных признаков областей наибольшей информативности и заканчивая вычислением оценочного критерия.
В качестве примера, можно привести следующий режим поиска: по приведенному выше фотороботу необходимо провести поиск только по области рта.
Все изображения из примера также упорядочены в порядке возрастания критерия R, мы получили список, в начало которого попали самые похожие на фоторобот изображения, причем разница между R, больше, чем в редыдущем случае.
Такой интерактивный режим возможен при небольших базах данных -порядка 1000 изображений. Он очень затратный по времени, но точность распознавания выше. Если изображений на порядок больше 10000, то целесообразней применять только аналитические формы оценки информативности и применения решающего правила описанных выше.
Ниже, предлагается таблица 4.4., где показаны полученные результаты работы системы поиска биометрической системы для выбранного решающего правила для двух БД изображений.
Разработанная в данной работе интеллектуальная программная система для анализа, сравнения И организации процедуры поиска биометрической информации по фотороботу на основе моделей стохастической геометрии показала высокую надежность поиска на массиве 1020 реальных изображений. Была Осуществлена экспериментальная проверка эффективности разработанного метода поиска биометрической информации по фотороботу с помощью программной системы по реальным данным. Совокупность изображений в БД разбита на две группы по критериям качества, предъявляемым к фотографическим изображениям. К I группе отнесены изображения с хорошим качеством и более высоким разрешением, ко II группе с худшим качеством и более низким разрешением.
Разработанной системы поиска биометрической информации, кроме того, что являемся распознающей системой, может рассматриваться и как поисковая система. Причем в качестве искомых документов выступать изображения в базе данных, а в качестве поисковых запросов — фотороботы. Тогда можно оценивать эффективность систему поиска биометрической информации с помощью оценок, применяемым к документальным информационно-поисковым системам (ИПС) и по этим показателям проводить сравнительный анализ аналогичных продуктов.
В [97] показано, что для оценки эффективности достаточно рассмотреть лишь функцию документальной ИПС, состоящую в том, чтобы в ответ на информационный запрос выделять из некоторого множества документов (поискового массива) такие, которые соответствуют этому запросу. Принадлежность документа к классу документов, подлежащих выдаче в ответ на данный информационный запрос, определяется на основании его релевантности, которая и является основой для оценки эффективности документальных ИПС. Но релевантность, — понятие субъективное. Оно представляет собой, в сущности, психологическую реакцию потребителя на конкретный результат работы ИПС. Опыт показывает, что в зависимости от условий места и времени даже один и тот же потребитель по-разному оценивает релевантность документов, выданных одной и той же системой в ответ на один и тот же информационный запрос.