Содержание к диссертации
ВВЕДЕНИЕ 5
1 РАЗРАБОТКА ЧИСЛЕННЫХ МЕТОДОВ И МОДЕЛИ ДЛЯ ПОИСКА
ДОКУМЕНТАЛЬНЫХ ПОРТРЕТНЫХ ИЗОБРАЖЕНИЙ 17
1.1 ПОСТАНОВКА ЗАДАЧИ ПОИСКА личности по ФОТОИЗОБРАЖЕНИЮ ЛИЦА 17
1.1.1 Задача поиска личности по портретному изображению как задача поиска изображений по содержанию 19
1.1.2 Задача поиска личности по фотоизображению лица как задача распознавания 23
1.1.3 Критерии качества классификации и поиска, принятые в работе 25
1.2 МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ЛИЦА И ЕЕ ПОСТРОЕНИЕ 29
1.2.1 Описание математической модели лица 30
1.2.2 Метод построения математической модели лица 32
1.2.3 Экспериментальные исследования метода построения математической модели лица 39
1.2.4 Нормализация изображения и выделение области изображения для расчета признаков 41
1.3 МЕТОД ОТБОРА ИНФОРМАТИВНЫХ ПРИЗНАКОВ НА ЦИФРОВЫХ ИЗОБРАЖЕНИЯХ 43
1.3.1 Предварительный отбор информативных признаков (первый этап отбора) 46
1.3.2 Формирование множеств информативных признаков (второй этап отбора) 50
1.3.3 Окончательный отбор признаков (третий этап отбора) 51
1.3.4 Применение разработанного метода 52
1.4 ДВУХЭТАПНЫЙ ЧИСЛЕННЫЙ МЕТОД ПОИСКА ИЗОБРАЖЕНИЙ В БАЗЕ ДАННЫХ
НА ОСНОВЕ СОВМЕСТНОЙ КЛАССИФИКАЦИИ 56
1.4.1 Исследуемые классификаторы 57
1.4.2 Процедура совместной классификации как способ повышения эффективности поиска 65
1.4.3 Двухэтапный метод поиска изображений в базе данных как способ повышения скорости поиска
1.5 ОБЩЕЕ ОПИСАНИЕ ИНФОРМАЦИОННОЙ ТЕХНОЛОГИИ ПОИСКА 77
1.6 Выводы и РЕЗУЛЬТАТЫ 79
2 ЧИСЛЕННЫЙ МЕТОД СОПОСТАВЛЕНИЯ ПОРТРЕТНЫХ ИЗОБРАЖЕНИЙ НА ОСНОВЕ ОЦЕНКИ ПАРАМЕТРОВ ИХ ГЕОМЕТРИЧЕСКИХ ПРЕОБРАЗОВАНИЙ 81
2.1 ОБЗОР МЕТОДОВ ОЦЕНКИ ПАРАМЕТРОВ РАССОГЛАСОВАНИЯ ИЗОБРАЖЕНИЙ 81
2.2 РАЗРАБОТКА МЕТОДА ОЦЕНКИ ПАРАМЕТРОВ ГЕОМЕТРИЧЕСКОГО РАССОГЛАСОВАНИЯ, ОСНОВАННОГО НА ПРЕОБРАЗОВАНИИ ФУРЬЕ
2.2.1 Теоретическое обоснование метода 84
2.2.2 Описание метода 87
2.2.3 Влияние маски на эффективность работы метода 90
2.2.4 Выбор способа интерполяции при переходе к логарифмически-полярной системе координат 94
2.3 МОМЕНТНЫЙ МЕТОД ОЦЕНКИ ПАРАМЕТРОВ ГЕОМЕТРИЧЕСКОГО
РАССОГЛАСОВАНИЯ 98
2.4 ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ МЕТОДОВ ОЦЕНКИ ПАРАМЕТРОВ
ГЕОМЕТРИЧЕСКОГО РАССОГЛАСОВАНИЯ 100
2.5. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ МЕТОДА СОПОСТАВЛЕНИЯ ПОРТРЕТНЫХ ИЗОБРАЖЕНИЙ 103
2.6. Выводы и РЕЗУЛЬТАТЫ 104
3 АРХИТЕКТУРА И РЕАЛИЗАЦИЯ ЭКСПЕРИМЕНТАЛЬНОГО ПРОГРАММНОГО КОМПЛЕКСА АНАЛИЗА ДОКУМЕНТАЛЬНЫХ ПОРТРЕТНЫХ ИЗОБРАЖЕНИЙ 106
3.1 РАЗРАБОТКА СЕРВЕРНОЙ ЧАСТИ ПРОГРАММНОГО КОМПЛЕКСА 107
3.1.1 Функции, выполняемые серверной частью программного комплекса 107
3.1.2 Состав и назначение компонентов серверной части программного комплекса 108
3.1.3 Подсистема взаимодействия с клиентской частью программного комплекса 109
3.1.4 Логика обслуживания клиентских запросов 115
3.1.5 Реализация логики обслуживания запросов со стороны СУБД.. 118
3.1.6 Генерация отчетов 120 3.1.7 Основные динамически подключаемые библиотеки 120
3.2 РАЗРАБОТКА КЛИЕНТСКОЙ ЧАСТИ ПРОГРАММНОГО КОМПЛЕКСА 121
3.2.1 Подсистема взаимодействия с серверной частью программного комплекса 124
3.2.2 Подсистема взаимодействия с устройством ввода 124
3.2.3 Очередь запросов к серверу 124
3.2.4 Основные динамически подключаемые библиотеки 125
3.3 РАЗРАБОТКА МОДЕЛИ ДАННЫХ ЭКСПЕРИМЕНТАЛЬНОГО ПРОГРАММНОГО
КОМПЛЕКСА АНАЛИЗА ДОКУМЕНТАЛЬНЫХ ПОРТРЕТНЫХ ИЗОБРАЖЕНИЙ 125
3.3.1 Логическая модель данных программного комплекса 125
3.3.2 Физическая модель данных программного комплекса 129
3.4 Выводы и РЕЗУЛЬТАТЫ 130
ЗАКЛЮЧЕНИЕ 131
ПРИЛОЖЕНИЕ 1. РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ КЛАССИФИКАТОРОВ-ЭКСПЕРТОВ 141
ПРИЛОЖЕНИЕ 2. РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ КЛАССИФИКАТОРА-СЕЛЕКТОРА 147
ПРИЛОЖЕНИЕ 3. ДОКУМЕНТЫ, ПОДТВЕРЖДАЮЩИЕ ИСПОЛЬЗОВАНИЕ РЕЗУЛЬТАТОВ ДИССЕРТАЦИИ 153
Введение к работе
Диссертация посвящена разработке численных методов и программного комплекса обработки и анализа документальных портретных изображений.
Актуальность темы
В настоящее время в связи с бурным развитием информационных технологий и их применением в различных сферах жизнедеятельности общества все более широкое распространение получают автоматизированные системы идентификации личности по биометрическим данным. Важное место среди подобных систем занимают системы распознавания личности по изображению лица, получаемого с использованием сканирующей, фото- и видеоаппаратуры. Актуальность более узкой задачи - идентификации личности по изображению лица на документальной фотографии обусловлена растущими потребностями автоматизации обработки видеоинформации в следующих областях деятельности: пограничный паспортный -контроль, регистрация пассажиров на авиарейсах, внутренний или наружный видеоконтроль с целью обеспечения безопасности, контроль доступа с целью предотвращения несанкционированного доступа, поиск разыскиваемых лиц и т.д.
Среди первых компьютерных систем распознавания лиц наиболее известной является система Т.Кохонена (Т. Kohonen) из Технологического университета Хельсинки [68]. Она продемонстрировала, что распознавание выровненных (по геометрии) и нормализованных (по яркости) изображений можно выполнить с помощью простой нейронной сети. Сеть, которую использовал Кохонен, вычисляла описание лица, аппроксимируя собственные вектора матрицы автокорреляции изображения. Эти собственные вектора получили название «собственных лиц» (Eigenface). Однако система Кохонена не нашла практического применения, поскольку базировалась на точном выравнивании и нормализации изображений. И в последующие годы предпринимались многочисленные попытки реализации подобных информационных технологий распознавания лиц с использованием различных нейросетевых методов. Удалось сделать несколько систем, успешно работавших с небольшими базами данных выровненных изображений [21, 69]. Но не было ни одной эффективной реализации для более жизненной ситуации - крупномасштабной базы данных изображений, в которой расположение и размеры лиц неизвестны. Кроме того, существенным препятствием для практического применения указанных систем являлась очень высокая вычислительная сложность алгоритмов получения "собственных лиц".
Ситуация изменилась, когда М. Кирби (М. Kirby) и Л. Сирович (L. Sirovich) из Университета Брауна [67] ввели алгебраическую операцию, упростившую вычисление «собственных лиц». Кроме того, они показали, что для достаточно полного описания ("аккуратного" кодирования) тщательно выровненных и нормализованных изображений нужно не более 100 собственных лиц. М. Турк (М. Turk) и А. Пентланд (A. Pentland) из Массачусетского технологического института [76] продемонстрировали, что остаточную погрешность, которая возникает при кодировании фрагментов изображения с помощью собственных лиц, можно использовать для обнаружения лиц в неупорядоченном естественном изображении, для определения точного расположения и размера лица. Затем они показали, что объединение методов обнаружения, локализации и распознавания, основанных на "собственных лицах", обеспечивает решение задачи распознавания лиц в режиме реального времени, при этом на среду (условия) распознавания накладываются лишь минимальные ограничения. Когда стало очевидно, что комбинация простых методов распознавания позволяет найти весьма эффективные информационные технологии и создать системы, действующие в реальном времени, интерес к распознаванию лиц стремительно вырос.
К 1993 году было заявлено о существовании нескольких методов и алгоритмов, правильно решающих задачу распознавания лиц в условиях наблюдения с минимальным числом ограничений. Чтобы выявить их реальный потенциал, агентство DARPA (Defense Advanced Research Projects Agency) и Исследовательская лаборатория армии США (Army Research Lab) инициировали исследовательскую программу FERET (Face Recognition Technology) [34, 37-39, 55, 60, 61, 78, 81], целью которой являлась оценка эффективности предложенных методов и алгоритмов, а также стимулирование развития лучших из них. В работе [48] указано, что в ходе реализации программы FERET три алгоритма продемонстрировали самый высокий уровень точности распознавания для больших баз данных (1200 человек) в наиболее сложных для распознавания условиях тестирования:
- алгоритм, разработанный в Университете Южной Калифорнии [88], который осуществляет распознавание лица путем "гибкого сравнения графов" (Elastic Graph Matching);
- алгоритм Университета штата Мэриленд [41], использующий дискриминантный анализ;
- алгоритм, созданный в Media Laboratory Массачусетского технологического института [73], который основан на методе собственных лиц с использованием моделирования наружности и моделирования отличий.
К настоящему времени разработано множество методов распознавания личности по фотоизображению лица, которые могут быть разделены на три группы[51]:
Глобальные методы, которые основаны на вычислении и использовании признаков изображений, характеризующих область лица в целом. Сюда могут быть отнесены уже упомянутые "собственные лица" (метод главных компонент) [28, 77], "фишеровские лица" (Fisherfaces) или метод линейного дискриминанта Фишера [32, 28], метод опорных векторов [57], генетические алгоритмы [70, 71], нейросетевые методы [13,29-31].
Локальные методы, основанные на выделении признаков локальных областей изображения, соответствующих деталям лица: глазам, носу, рту [43, 83, 86]. Примерами таких подходов являются: гибкое сравнение графов (см., например, [64, 40]), использование скрытых Марковских моделей (Hidden Markov Models), самоорганизующиеся карты признаков (Self-organizing Feature Maps) [29, 68, 69, 31].
Гибридные методы, сочетающие в себе оба подхода, указанных выше. В методах этой группы анализируется как все лицо в целом, так и локальные признаки [27, 43, 48, 65, 75, 83, 86], что, вероятно, в наибольшей степени соответствует человеческому восприятию.
Изучению различных аспектов проблемы распознавания личности по изображению лица посвящены труды В.В. Старовойтова, Н.Г. Федотова, М. Кирби (М. Kirby), Т. Кохонена (Т. Kohonen), А. Пентланда (A. Pentland) Л. Сирович (L. Sirovich), М. Турка (М. Turk) и других российских и зарубежных ученых.
В настоящее время известен ряд программных систем, предназначенных для распознавания личности, наиболее известными из которых являются:
- системы автоматической идентификации и верификации людей компании "ZN Vision Technologies" [2];
- система распознавания лиц FaceTools компании Viisage [85, 56].
- система распознавания лиц Facelt компании Identix [25, 35, 36, 53, 54];
- система распознавания лиц FaceVACS компании Cognitec [52].
По понятным причинам, использованные в этих системах математические методы и вычислительные алгоритмы не раскрываются, если они и описываются в научных публикациях, обзорах и на web-сайтах фирм-разработчиков, то только в самых общих чертах или в рекламном плане.
Несмотря на заметные успехи в области создания систем распознавания лиц остаются нерешенные проблемы, связанные с чувствительностью алгоритмов к различным искажающим факторам, таким как смена освещения, изменение позы и выражения лица, окклюзия (частичное закрытие лица или попадание в тень). Однако в задаче идентификации личности по документальной фотографии эти факторы присутствуют в меньшей степени, чем, например, в системах видеонаблюдения и т.п.
Необходимо также отметить, что широкое распространение подобных систем ограничивается следующими факторами:
• чрезвычайно высокая стоимость систем, трудности с сопровождением и поддержкой,
• закрытость архитектуры систем,
• отсутствие достоверных показателей эффективности распознавания и зачастую рекламный характер таких показателей,
• закрытость используемых технологий, а также методов и алгоритмов, входящих в их состав.
Учитывая указанные факторы, а также тот факт, что при решении задачи анализа документальных портретных изображений есть возможность в полной мере учесть специфику именно рассматриваемого класса изображений, разработку информационной технологии и программного комплекса анализа документальных портретных изображений следует считать целесообразной.
Настоящая диссертационная работа посвящена разработке численных методов и программного комплекса обработки и анализа документальных портретных изображений. Разработанные методы могут быть применены при решении задач идентификации и поиска личности по портретным изображениям на документах. Разработанный программный комплекс позволяет решать задачу контроля документов для идентификации личности.
Исследования по тематике диссертации были поддержаны грантами Российского фонда фундаментальных исследований: проекты № 06-01-00616-а, 07-07-97610-р_офи и в рамках российско-американской программы "Фундаментальные исследования и высшее образование" (CRDF Project RUX0-014-SA-06). Цель и задачи исследований
Целью диссертации является автоматизация процесса идентификации личности по изображению лица на документах. Для достижения этой цели в диссертации решаются следующие задачи.
1. Разработка математической модели лица и метода ее построения.
2. Разработка метода отбора информативных признаков для поиска изображений.
3. Разработка численного метода поиска изображений в базе данных.
4. Разработка численного метода сопоставления изображений.
5. Разработка архитектуры и реализация экспериментального программного комплекса обработки и анализа документальных портретных изображений.
6. Проведение экспериментальных исследований, подтверждающих эффективность разрабатываемых методов.
Методы исследований
В диссертационной работе используются методы математического анализа, теории вероятностей и статистического анализа, теории цифровой обработки сигналов и изображений, теории распознавания образов, теории оптимизации.
Научная новизна работы
1. Предложена математическая модель лица, предназначенная для быстрого выделения информативной области на документальных портретных изображениях. Разработан метод построения (определения параметров) этой модели на основе анализа локальных статистических характеристик изображений.
2. Разработан трехэтапный метод отбора информативных признаков, основанный на автоматическом выборе информативных точек на полях признаков, процедурах присоединения-отбрасывания, построении субоптимальных пар "система признаков - классификатор".
3. Разработан двухэтапный численный метод поиска изображений в базе данных, включающий в себя предварительную селекцию изображений-претендентов и последующую классификацию отобранных изображений с использованием набора классификаторов-экспертов и классификатора-агрегатора.
4. Разработан численный метод сопоставления портретных изображений, основанный на оценке геометрического рассогласования изображений по их спектрам, представленным в логарифмически-полярных координатах.
5. Разработана архитектура экспериментального программного комплекса обработки и анализа документальных портретных изображений.
Практическая ценность работы
Разработанные методы открывают возможности для повышения эффективности решения задач идентификации и поиска личности по портретным изображениям на документах. Разработанный программный комплекс позволяет решать задачу контроля документов для идентификации личности.
Реализация результатов работы
Результаты диссертации использованы при выполнении ряда госбюджетных и хоздоговорных НИР в Институте систем обработки изображений РАН, Самарском государственном аэрокосмическом университете и ОАО «Самара - Информспутник», что подтверждено актами внедрения.
Апробация работы
Основные результаты диссертации докладывались на следующих конференциях: - 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL 2007), г. Переславль-Залесский, Россия, 2007;
- 8-ой Международной конференции «Распознавание образов и анализ изображений: Новые информационные технологии» (8h International Conference on Pattern Recognition and Image Analysis: New Information Technologies - PRIA-8-2007), г. Йошкар-Ола, 2007;
13-ой Всероссийской конференции «Математические методы распознавания образов», Ленинградская обл., г. Зеленогорск, 2007;
- Научно-технической конференции с международным участием «Перспективные информационные технологии в научных исследованиях, проектировании и обучении» (ПИТ-2006), г. Самара, 2006;
- Всероссийском семинаре по моделированию, дифракционной оптике и обработке изображений, г. Самара, 2006;
- Международной конференции «Second IASTED International Multi-Conference «Automation, Control, and Information Technologies. Software Engineering» (ACIT-SE). г. Новосибирск, 2005;
7-ой Международной конференции «Распознавание образов и анализ изображений: Новые информационные технологии» (7h International Conference on Pattern Recognition and Image Analysis: New Information Technologies - PRIA-7-2004), г. Санкт-Петербург, 2004;
- 2-ой летней школе молодых ученых по дифракционной оптике и обработке изображений, г. Самара, 2004;
- VI международной конференции "Распознавание образов и анализ изображений: новые информационные технологии" (РОАИ-6-2002), г. Великий Новгород, 2002.
Публикации
По теме диссертации опубликовано 19 работ, в том числе 6 статей в ведущих рецензируемых научных журналах и изданиях, определенных Высшей аттестационной комиссией. Ниже в тексте диссертации ссылки на работы автора помечены звездочками ( ). Работы [15 , 16 , 17 , 18 , 74 ] выполнены автором единолично. В работе [6 ] автору принадлежит разработка метода отбора информативных признаков. В работе [8 , 49 ] автору принадлежит формальное описание модели лица и разработка метода ее построения. В работе [19 ] автору принадлежит разработка и описание методов представления и поиска изображений. В работах [4 , 7 , 5 , 20 , 44 , 45 , 46 , 47 , 59 , 50 ] автору принадлежат разработка архитектуры программных комплексов и программных систем. Во всех указанных работах автору принадлежат программная реализация и экспериментальные исследования методов и алгоритмов.
Структура диссертации
Диссертация состоит из введения, трех разделов, заключения, списка использованных источников и трех приложений. Она изложена на J40 страницах машинописного текста (без приложений), содержит 43 рисунка, 23 таблицы, список использованных источников из 88 наименований.