Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Компьютерный метод локализации лиц на изображениях в сложных условиях освещения Пахирка, Андрей Иванович

Компьютерный метод локализации лиц на изображениях в сложных условиях освещения
<
Компьютерный метод локализации лиц на изображениях в сложных условиях освещения Компьютерный метод локализации лиц на изображениях в сложных условиях освещения Компьютерный метод локализации лиц на изображениях в сложных условиях освещения Компьютерный метод локализации лиц на изображениях в сложных условиях освещения Компьютерный метод локализации лиц на изображениях в сложных условиях освещения
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Пахирка, Андрей Иванович. Компьютерный метод локализации лиц на изображениях в сложных условиях освещения : диссертация ... кандидата технических наук : 05.13.01 / Пахирка Андрей Иванович; [Место защиты: Сиб. аэрокосм. акад. им. акад. М.Ф. Решетнева].- Красноярск, 2011.- 106 с.: ил. РГБ ОД, 61 11-5/2544

Содержание к диссертации

Введение

ГЛАВА 1 Анализ методов и систем локализации и распознавания лиц 9

1.1. Классификация существующих методов локализации лиц 10

1.1.1. Эмпирические методы 11

1.1.2 Методы, инвариантные к особенностям лица 12

1 1.3. Методы сравнение с шаблоном 18

1.1.4 Методы моделирования изображения лица 19

1.2 Классификация существующих методов распознавания лиц 22

1.2.1 Методы распознавания на основе локальных особенностей 23

1.2.2 Методы распознавания на основе общего представления лица

1.3 Анализ существующих систем локализации и распознавания лиц 35

1.4 Выводы по главе 42

ГЛАВА 2 Нелинейное улучшение изображений, локализация и распознавание лиц 44

2.1 Предварительная обработка 45

2.1.1 Определение региона движения 46

2.1.2 Метод нелинейного улучшения изображения 47

2.2 Локализация и распознавание лиц 58

2.2.1 Цветовая сегментация кожи 58

2.2.2 Нахождение антропометрических точек 64

2.2.3 Распознавание лиц 67

2.3 Выводы по главе 74

ГЛАВА 3 Построение экспериментальной комплексной системы улучшения изображений с последующей локализацией и распознаванием лиц 76

3.1 Структурная схема комплекса локализации и распознавания лиц с нелинейным улучшением изображения 76

3.2 Описание основных модулей системы EFLR 77

3.3 Результаты экспериментальных исследований 82

3.4 Выводы по главе 86

Заключение 88

Библиографический список

Введение к работе

Актуальность работы. Задача локализации лиц имеет множество приложений в таких областях, как биометрия, организация видеоконференций, системы машинного зрения в робототехнике, интеллектуальные системы безопасности и контроля доступа и т.п. Технология идентификации личности на основе изображения лица, в отличие от использования других биометрических показателей (отпечаток пальца, радужная оболочка глаза), не требует физического контакта с устройством и с учетом стремительного развития цифровой техники, является наиболее приемлемой для массового применения.

За последние годы было предложено множество различных алгоритмов обработки, локализации и распознавания лиц такие, как нейронные сети, собственные лица, цепи Маркова и т. д. Все системы распознавания лиц делятся на две широкие категории: системы, использующие 2D изображения, и системы, применяющие 3D изображение лиц. При использовании баз данных 2D лиц на качество распознавания влияют положение лиц на изображении и световые условия, в то время как 3D изображения лиц призваны снять эти ограничения, но получение 3D изображений производится с помощью специальных устройств. К тому же такие системы требуют, чтобы объект был неподвижен несколько секунд в течение сканирования, что является недопустимым для систем, работающих в реальном режиме времени (интерфейс человек компьютер, объектно-ориентированная компрессия видеоданных, видеонаблюдение и т. д.)

Задача локализации лиц людей является сложной ввиду нескольких основных причин: лицо - это динамический объект, имеющий высокую степень изменчивости, например, по форме лица и цвету кожи; различные условия освещенности, определяющиеся типом, направлением и количеством источников света; частичное перекрытие лиц другими объектами сцены; необходимость локализации и распознавания лиц, имеющих произвольные положения в пространстве. В настоящее время наиболее активные разработки в сфере локализации и распознавания лиц проводятся университетами Carnegie Mellon University, University of Texas, University of Wisconsin-Madison, University of Illinois, Michigan State University, Florida State University, California Institute of Technology, The Rockefeller University (США), Cambridge, Cardiff University, University of Manchester, Queen Mary University (Англия), Institute of Automation, Chinese Academy of Sciences, Nanjing University (Китай), University of Muenster, Karlsruhe Institute of Technology, University of Siegen, Ruhr-Universitat Bochum (Германия), The University of Queensland (Австралия), Vienna University of Technology (Австрия), University of Sao Paulo (Бразилия), McGill University, University of Ottawa (Канада), University of Zagreb (Хорватия), University of Oulu (Финляндия). Среди российских учреждений, занимающихся данной тематикой

можно отметить ФГУП «ГосНИИ Авиационных систем» (Желтов С.Ю., Визильтер Ю.В.), Московский государственный университет (Местец-кий Л.М., Крылов А.С.), Санкт-Петербургский государственный университет информационных технологий, механики и оптики, Ярославский государственный университет и ряд других организаций.

Целью диссертационной работы является повышение качества локализации лиц в системах видеонаблюдения и контроля доступа при наличии сложных условий освещения.

Поставленная цель определила необходимость решения следующих задач:

-Провести анализ существующих методов локализации и распознавания лиц, а также подходов к построению алгоритмов улучшения изображений и систем распознавания лиц.

Усовершенствовать метод улучшения изображений на основе сжатия динамического диапазона изображений, позволяющий скомпенсировать тени и засвеченные области.

Разработать метод локализации лиц на изображении или видеопоследовательности в различных цветовых пространствах с выделением биометрических признаков лица на основе методов цветовой сегментации кожи.

- Разработать алгоритм нормализации положения лица на основе ан
тропометрических точек с последующим распознаванием на основе метода
главных компонент в сложных условиях освещения.

- Создать экспериментальный программный комплекс по предвари
тельной обработке изображений, локализации и распознаванию лиц (для
статических изображений и видеопоследовательностей) и провести экспе
риментальные исследования.

Область исследования. Работа выполнена в соответствии с пунктами 5 «Разработка специального математического и программного обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации» и 12 «Визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации» паспорта специальностей ВАК (технические науки, специальность 05.13.01 -системный анализ, управление и обработка информации).

Методы исследования. При выполнении диссертационной работы использовались методы теории обработки информации, методы идентификации объектов, теория математической морфологии, методы аналитической геометрии, методы объектно-ориентированного программирования.

Научная новизна диссертационной работы состоит в следующем:

1. Усовершенствован метод нелинейного улучшения цветных изображений с модифицированной функцией коррекции яркости и настраиваемым пороговым значением, позволяющий выравнивать яркость не только в теневых, но и в засвеченных участках изображения.

  1. Разработан метод локализации лиц и выделения антропометрических точек с использованием цветовой информации и учетом подстройки коэффициентов для различных цветовых пространств, позволяющий выполнять более точную сегментацию регионов кожи.

  2. Разработан алгоритм нормализации положения лица по антропометрическим точкам с последующим распознаванием. Реализующая алгоритм программа работает с видеопоследовательностью в реальном режиме времени.

Практическая значимость. Предложенные в диссертационной работе методы и алгоритмы предназначены для практического применения в системах видеонаблюдения и контроля доступа. На основе диссертационных исследований разработана библиотека программных модулей для создания систем обработки, локализации и распознавания изображений лиц.

Реализация результатов работы. Разработанная программа «Локализация лиц, (FaceDetection)» зарегистрирована в Российском реестре программ для ЭВМ г. Москва, 16 февраля 2009 г. (свидетельство №2009611010), а также программа «Нелинейное улучшение изображений (Nonlinear image enhancement)» зарегистрирована в Российском реестре программ для ЭВМ г. Москва, 31 марта 2010 г. (свидетельство №2010612360)

Разработанные алгоритмы и программное обеспечение используются в ООО «Клиент-Сервис» (г. Красноярск), а также в учебном процессе при проведении занятий по дисциплинам «Интеллектуальная обработка данных», «Теоретические основы цифровой обработки изображений» в Сибирском государственном аэрокосмическом университете им. академика М. Ф. Решетнева (СибГАУ).

Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на всероссийской конференции «Техническое зрение в системах управления» (Москва, 2011), 11 и 12 международной конференции и выставке «Цифровая обработка сигналов и ее применение» (Москва, 2009, 2010), всероссийской научно-практической конференции «Молодежь и современные информационные технологии» (Томск, 2009), X всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2009), IX международной научно-технической конференции «Кибернетика и высокие технологии XXI века» (Воронеж, 2008), всероссийской научной конференции молодых ученых «Наука Технологии Инновации» (Новосибирск, 2008), всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Решетневские чтения» (Красноярск, 2006, 2007 гг.), всероссийской конференции творческой молодежи, посвященной дню космонавтики «Актуальные проблемы авиации и космонавтики» (Красноярск, 2007), а также на научных семинарах лаборатории систем цифровой обработки изображений СибГАУ.

Публикации. По результатам диссертационного исследования опубликовано 18 печатных работ, из них 4 статьи в изданиях, рекомендованных ВАК для публикации результатов диссертационных исследований, 12 тезисов докладов, 2 свидетельства, зарегистрированных в Российском реестре программ для ЭВМ.

Структура работы. Работа состоит из введения, трех глав, заключения, библиографического списка. Основной текст диссертации содержит 106 страниц, изложение иллюстрируется 26 рисунками и 8 таблицами. Библиографический список включает 132 наименования.

Методы моделирования изображения лица

Локализация лиц на изображении является первым шагом при построении автоматической системы распознавания лиц и поэтому оказывает влияние на качество распознавания и производительность системы в целом. В идеале детектор лиц должен находить все лица, присутствующие на статическом изображении или видеопоследовательности, независимо от их позиции, масштаба, ориентации, условий освещения, возрастных характеристик и выражений лиц.

Локализация лиц - это задача классификации изображений по двум классам (лицо, не лицо). Поэтому многие техники, разрабатываемые для распознавания лиц, также могут применяться и для их локализации, но при этом они требуют больших вычислительных затрат. Методы локализации лиц разделяются на четыре основные категории: - эмпирические методы (основанные на человеческом опыте о том, как должно выглядеть лицо человека); - методы, инвариантные к особенностям лица (целью данных методов является нахождение особенностей изображения лица инвариантных к поло жению, точке обзора или условиям освещения); -методы сравнения с шаблоном (используют несколько стандартных шаблонов для описания целого лица или его отдельных частей); - методы моделирования лица (модели, обучаемые на наборе варьи руемых изображений лиц, впоследствии используемые для локализации).

Данное разделение является условным, некоторые методы могут относиться сразу к нескольким категориям. Рассмотрим особенности методов локализации и распознавания лиц, относящихся к различным категориям.

Данные методы разрабатываются на основе правил, получаемых из личного опыта исследователя о представлении лица человека [123]. Это простейшие правила, описывающие отношения между особенностями (антропометрическими точками) лица. Отношения между ними представляются как расстояния и положения.

Основной проблемой данных методов является сложность перевода человеческого опыта в определенный набор правил, и как следствие, если правила являются строгими, некоторые из изображений лиц будут пропущены, если правила носят обобщающий характер, то могут выявляться ложные обнаружения лиц.

К данному типу методов относиться метод локализации лиц, предложенный Kotropoulos С. и Pitas I. [76]. Их метод определяет положение лица, используя горизонтальные и вертикальные проекции яркости пикселов 1(х,у) изображения т п, определяемые как: где HI определяет левую и правую границу положения лица, VI определяет положение рта, губ, бровей, носа и глаз. Данная техника тестировалась на изображениях лиц с одинаковым фоном из европейской базы данных «ACTS M2VTS» [112]. Эксперименты показали процент обнаружения лиц равный 86.5%. Однакоданный алгоритм не способен находить несколько лиц на изображении и не работает при смене фона изображения.

Усовершенствованием метода проекций является метод, предложенный Liu С. и WechslerH. [89]. Первым шагом данного метода является перевод полутонового изображения с помощью оператора Лапласа в бинарную карту границ. Далее по горизонтальным и вертикальным проекциям карты границ определяется возможное положение глаз. В дальнейшем используется генетический алгоритм для исключения ложных положений глаз и дополнительные правила определяющие наличие других антропометрических точек при нахождении глаз. Процент обнаружения лиц данного метода составляет 94% для набора из 100 изображений с простым фоном и 89% для набора из 100 изображений со сложным фоном [90].

Основным достоинством эмпирических методов является простота описания антропометрических точек лица и их взаимоположения, использованием определенных правил. Данные методы показывают хорошие результаты локализации для не зашумленных изображений, содержащих не более одного лица. Основным недостатком является сложность представления человеческого опыта в виде набора правил.

Для локализации лиц данная группа методов использует нахождение инвариантных особенностей лиц [48,64,65,123]. Большинство данных методов работают по упрощенной схеме: после нахождения одного признака лица делается заключение о присутствии лица на изображении. Такие компоненты как изображения бровей, рта, глаз, носа находят с помощью детектора гра ниц. На основе полученных признаков строится статистическая модель, описывающая отношения компонентов с последующей проверкой на наличие лица на изображении.

К одним из таких методов относится сравнение с графом {Random Labelled Graph Matching), который представил Leung Т.К. [80]. Расположение антропометрических точек лица рассматривается как случайный граф, каждый узел которого соответствует компоненту лица, а длины дуг расстояниям между соответствующими антропометрическими точками. Так как все люди имеют различные расстояния между антропометрическими точками, длины дуг формируются как случайный вектор с присоединенными вероятностными распределениями. Расположение кандидатов для различных компонент лица рассчитывается на основе техники сравнения с шаблоном. Изображение сворачивается с использованием фильтра Гаусса с различной ориентацией и масштабом. Расстояния между компонентами лица формируются как гауссово распределение с ковариационной оценкой, получаемой из тестовых данных. Компоненты лица сопоставляются с кандидатами, если они располагаются «близко» к ожидаемой области, «близость» определяется ковариационной оценкой. Наибольший процент обнаружения лиц составил 86% для базы лиц с 150 изображениями. При использовании только фронтальных изображений лиц процент локализации достигает 95% [80,107].

Методы распознавания на основе общего представления лица

На практике захватываемые цифровыми устройствами изображения зачастую отличаются от тех, которые видит наблюдатель. Это происходит из-за того, что устройство захвата получает физические значения световых данных, в то время как нервная система наблюдателя обрабатывает эти данные. Например, человек может четко видеть детали, как в глубоких тенях, так и в сильно освещенных областях, в то же время устройство захвата получит данную сцену со слишком темными тенями или засвеченными областями. Чело век легко воспринимает сцены с широким диапазоном световых интенсивно-стей (HDR, high dynamic range, широкий динамический диапазон), при этом отношение между максимальной и минимальной яркостью превышает возможности устройства захвата или отображения.

Человек, наблюдая HDR сцену, локально адаптирует каждую ее часть, благодаря чему может рассматривать детали в плохо освещенных областях также хорошо, как и в ярко освещенных. Для цифровых устройств HDR сцена требует сжатия, из-за чего захватываемое изображение зачастую теряет детали в плохо или ярко освещенных областях. Для устройств захвата это решается путем комбинирования изображений, снятых с разной экспозицией (технология HDR в фотографии), в результате, которого получается единое изображение, содержащее все детали из всех исходных изображений, как в тенях, так и в освещенных областях. Однако остается проблема отображения данных изображений на цифровых устройствах, обладающих существенно меньшим диапазоном яркостей [21].

В данной работе для улучшения изображения применяется алгоритм Multi-Scale Retinex - MSR, имитирующий визуальную систему человека. МЖ-алгоритм сжимает динамический диапазон изображения с сохранением (увеличением) локального контраста в плохо и ярко освещенных областях [20, 36].

Классический многомерный МЖ-алгоритм является взвешенной суммой одномерных SSR-алгоритмов (Single-Scale Retinex) для различных масштабов. Одномерная выходная функция і-го цветового канала R,(x,y,a) вычисляется следующим образом: Rt(xy,G)4og{It(xy)}Aog{F(xy,a) IJ(xy)} , (2.2) где I,(x,y) - входная функция z-ro цветового канала по координатам х ку; а масштабный коэффициент; знак « » обозначает свертку функций; F(x,y,o) -гауссиан, определяемый как F(x,y,G)=KQ ix2+y2y2 . (2.3) При этом коэффициент К выбирается таким образом, чтобы выполнялось условие jj F{x,y,a)dxdy = \ , (2.4) где Q y - множество пикселов, принадлежащих всему изображению. Тогда многомерная выходная функция г-го цветового канала Кщ(х,у,\у,(у) определяется как /7 = 1 где w=(whw2,...,wm), т=\,2,..,,М - весовой вектор одномерных выходных функций г -го цветового канала R,(x,y, j); а=(и\,а2і...,(Уп), n=\,2,...,N — вектор /V масштабов одномерных выходных функций. При этом wn = 1 Размерность п=1 вектора масштабов обычно выбирается не меньше 3. В различных источниках приводятся разные рекомендуемые значения масштабов, в данных экспериментах они составили 15, 90, 180. Весовой вектор w, как правило, имеет элементы с равными значениями.

Однако классический алгоритм MSR приводит к искажению цвета изображения, т. к. значение каждой цветовой составляющей пиксела (например, в .RGS-пространстве) заменяются отношением ее исходного значения к среднему значению данной цветовой составляющей окружающих пикселов. Су ществуют несколько решений данной проблемы. Так, некоторое улучшение результатов наблюдается при переходе в другие цветовые пространства с явным разделением яркостной и оттеночной составляющих (HIS-, HSV-, HSL-пространства). Однако лучший эффект достигается при использовании модели нормализованного разделения яркостной составляющей и оттеночной составляющей. Дополнительная обработка выполняется в соответствии с выражением: R Ml(x,y,yv,cy,b)=RMl{x,y, v,a) r,(x,y,c) , (2.6) где rt(x,y,b) - нормализованная яркость. Она определяется по формуле: + с Ir,{x,y,c) = log i=i (2.7) где с - коэффициент, выбираемый из середины диапазона значений [0...255], с=100-Ы25.

Применение логарифмической функции в М&К-алгоритме делает детали изображения более различимыми в теневых областях, чем в засвеченных областях. Чтобы сделать детали различимыми в засвеченных областях можно применить логарифмическую функцию к инвертированному изображению. Построим модифицированную логарифмическую функцию L(I(x,y)), зависящую от порогового значения 77?, выбираемого пользователем. Функция L(I(x,y)) состоит из прямой и обратной логарифмических функций (логарифм по основанию десять), объединяемых в точке М:

Метод нелинейного улучшения изображения

Метрика для цветового пространства YCbCr, для которой распределение цвета кожи представлено на рис. 2.6, определяется как (Y, Cb, Cr) is classified as skin if: %0 Cb \45and (2.14) 140 Cr 190, где значения Y,Cb,Cr принадлежат интервалу [0, 255]. После проведения ряда экспериментов были выбраны именно эти два цветовых пространства, т. к. они показали наивысший процент распознавания пикселов кожи для изображений, получаемых с веб-камеры (см. глава 3) YCbCr

Применение метрик (выражения (2.12)—(2.14)) позволяет с высокой точностью осуществлять сегментацию кожи для изображений с нормальными условиями освещения. Чтобы повысить точность сегментации кожи на изображениях с различными условиями освещения, осуществим нелинейное улучшение данных изображений (см. пункт 2.1). На рис. 2.7 представлены примеры сегментации кожи при различных условиях освещения без применения и с применением нелинейного улучшения изображений. Сегментированное изображение бинаризуется с использованием порогового значения (рисунок 2.8 в). При пороговой бинаризации присвоение значения выходному элементу выполняется по формуле: Qihj) 0, если I(i,j) Th, 1, если I{i,j) Th, (2.15) где I(i,j) - значение яркости элемента исходного изображения; Q(i,j) -значение бинарного изображения; Th - значение порога. Бинаризованное изображение подвергается морфологической обработке (сжатие с последующим расширением) (рис. 2.8 г).

Примеры сегментации кожи при различных условиях освещения: а) входные изображения, б) выделенные участки кожи, в) входные изображения после улучшения, г) выделенные участки кожи для изображений после улучшения В морфологических алгоритмах участвуют цифровые изображения, заданные функциями J{x,y) и Ь(х,у), где f{x,y) - исходное изображение, а Ь(х,у) - изображение примитива. Тогда операция расширения/по Ъ определяется как: {fmb)(s,t)=max{f[s-x,t-y)+b(x,y)\(s-x,t-y)eD/,(x,y)eDb} , (2.16) где Dj и Dh - области определений изображений /и Ъ соответственно, s и t — сдвиги координат по осям Хи Y. Аналогичным образом определяется операция сжатия /по Ь: {fBb){s,t)=min{f{s+x,t+y)-b(x,y)\(s+x,t+y)eD/,(x,y)eDh} , (2.17) где Dj и Db - области определений изображений/и b соответственно, $и(-сдвиги координат по осям X и Y. В качестве примитивов в операциях расширения и сжатия используются маска с апертурой 3x3, в результате чего разъединяются плохо связанные регионы и удаляются регионы малого размера (шум). Данные операции могут осуществляться последовательно несколько раз для более эффективного разъединения слабосвязанных областей (выбираются эмпирическим путем для соответствующих примитивов операций).

Пример морфологической обработки регионов кожи с последующей маркировкой связных областей: а) входное изображение, б) выделенные участки кожи, в) бинаризованное изображение, г) морфологическая обработка, д) маркировка связных областей Исследования показали, что в среднем необходимо выполнить три операции сжатия и расширения. Далее производится маркировка связных областей (рис. 2.8 д), после чего в каждой области ищутся антропометрические точки (глаза, нос, губы).

Найденные и обработанные регионы кожи выделяются прямоугольными областями (рис. 2.9 б). Происходит наложение этих областей на первоначальное изображение. Далее рассматриваются данные области и отбрасываются лишние, в соответствии с определенными правилами.

Пример выбора регионов кожи для дальнейшей обработки: а) маркированные связанные области, б) выделенные регионы кожи, в) удаление регионов с низким содержанием пикселов кожи, г) удаление небольших регионов

Отбрасываются области кожи, в которых количество пикселов кожи ниже 70% от общего количества пикселов региона (рис. 2.9 в) и области кожи, содержащие малое количество пикселов, в соответствии с выбираемым пороговым значением, которое задается исходя из разрешения изображения и экспериментальных данных (рис. 2.9 г).

Глаза людей содержат участки белого цвета и участки, которые значительно темнее регионов кожи. Поэтому для выделения предполагаемых областей глаз можно использовать как яркостную, так и оттеночную информацию. Для локализации глаз используем метрику в цветовом пространстве YCrCb, «карта глаз» (ЕуеМар) определяется через оттеночные компоненты О и СЬ данного цветового пространства: ЕуеМар = \СЪ2) + (f J + {Cb/Cr)\ (2.18) где значения Сг, СЬ принадлежат интервалу [0, 255], Сг инвертированное значение (255 - О). Создание данной метрики для нахождения «карты глаз» базируется на том условии, что области глаз обычно имеют высокие значения голубой оттеночной компоненты СЬ и низкие значения красной оттеноч-ной компоненты Сг. Для проверки того, что найденная область является глазом, вводится два радиуса Ri и г2, которые выбираются в зависимости от размера предполагаемого региона лица. Берется контрольное количество пикселов на расстояниях Ri и г2 от центра предполагаемой области глаза. Радиус г2 описывает внутреннюю область глаза, Ri внешнюю. Контрольные пикселы на расстоянии Ri должны содержать определенное количество пикселов кожи, задаваемое пользователем, также как и контрольные пикселы на расстоянии г2 должны содержать определенное количество пикселов, не относящихся по цвету к коже.

На рис. 2.10 показано применение метрики (выражение (2.18)) для всего изображения, в то время как в самом алгоритме нахождения предполагаемых областей глаз, данная метрика применяется к выделенным и обработанным регионам кожи (см. п. 2.2.1).

Описание основных модулей системы EFLR

Приведем краткое описание основных модулей системы EFLR {«Enhanced Face Localization and Recognition», v. 1.26).

Модуль нелинейного улучшения изображений.

Данный модуль помимо нелинейного улучшения изображений осуществляет функции устранение шумов на основе медианной фильтрации, а также определяет область движения в кадре с целью уменьшения размеров зоны интереса. Входное изображение поступает в модуль нелинейного улучшения (рис. 3.2), по компонентам цветового пространства рассчитывается яркостная составляющая пикселов (полутоновое изображение). Далее к изображению применяется три уровня гауссова размытия с заранее заданными параметрами а={ 15, 90, 180}, каждое размытое изображение сохраняется и вычитается из оригинального изображения в логарифмическом масштабе, а затем прибавляется к изображению-аккумулятору.

Затем происходит преобразование изображения-аккумулятора от логарифмического масштаба к динамическому диапазону изображения с использованием средней яркости изображения-аккумулятора и корректирующего коэффициента, выбираемого экспериментальным путем. Восстанавливаются цветовые компоненты пространства RGB.

Входное изображение г Определение области движения ч г Устранение шумов 1 Преобразование RGB в YCbCr 1 1 Применение MSR к Y компоненте 1 Сг компонента Си компонента

Преобразование YCbCr в MSR RGB У Изображение с коррекцией освещенности Рисунок 3.2 - Схема работы модуля нелинейного улучшения изображения На рис. 3.3 показан пример применения модифицированного метода нелинейного улучшения изображений и оригинального метода, используемого в растровом редакторе изображений «GIMP»

Примеры нелинейного улучшения изображений: а) входное изображение, б) изображение с применением модифицированного метода улучшения, в) изображение с применением оригинального метода улучшения в редакторе «GIMP» На основе данного модуля была построена программа «Нелинейное улучшение изображений {Nonlinear image enhancement)», которая зарегист рирована в реестре программ для ЭВМ и позволяющая осуществлять улучшение изображений [36].

Схема работы модуля локализации лиц На вход модуля подаете улучшенное цветное изображение, для которого осуществляется цветовая сегментация кожи. Для сегментации кожи применяется ряд определяющих правил (метрик) в цветовых пространствах YCbCr и нормализованном RGB. Цвет кожи служит признаком присутствия лица на изображении. Полученные регионы кожи подвергаются морфологической обработке (сжатие с последующим расширением). Далее отбрасываются регионы малого размера и регионы, содержащие количество пикселов кожи ниже заданного порогового значения, определяемого экспериментальным путем. Каждый регион исследуются на наличие предполагаемых областей глаз с помощью метрики в цветовом пространстве YCbCr, после нахождения областей глаз, определяются их центры и осуществляется поворот региона лица, относительно центра прямой соединяющей центры областей глаз. После поворота с помощью геометрической модели лица, выполняется, выборка необходимой нам части изображения лица, которая масштабируется к заданным размерам и подается на вход модулю распознавания лиц. На основе данного модуля локализации была построена программа «Локализация лиц (FaceDetection)», которая зарегистрирована в реестре программ для ЭВМ и позволяющая осуществлять локализацию лиц на цветных изображениях и видеопоследовательностях.

Модуль распознавание лиц.

Модуль распознавания осуществляет распознавание лиц на основе метода главных компонент. Процесс распознавания осуществляется в два этапа: этап обучения и этап непосредственного распознавания. На этапе обучения из обучающей выборки формируется база данных. Для этого собираются статистические данные этой выборки: изображения лиц приводятся к векторному виду, данные векторы центрируются, вычитанием из каждого среднего вектора, центрированные векторы объединяются в матрицу данных, из которой формируется ковариационная матрица; для ковариационной матрицы рассчитываются собственные значения и векторы, собственные векторы сор тируются от большего к меньшему в соответствии с их собственными значениями; собственные векторы объединяются в собственное пространство, далее каждый центрированный вектор из обучающей выборки умножается на собственное пространство, полученные векторы сохраняются в базу данных; размерность каждого такого вектора соответствует количеству изображений в обучающей выборке. На этапе распознавания входное изображение, получаемое с выхода модуля локализации лиц, преобразуется в вектор, центрируются, вычитанием среднего вектора обучающей выборки и проецируется в собственное пространство обучающей выборки; далее полученный вектор сравнивается с каждым вектором из базы данных с помощью евклидовой метрики.

Для тестирования сегментации кожи применялся ряд метрик в различных цветовых пространствах с использованием Caltech Face Database, база фронтальных лиц Калифорнийского технологического института, включающая 450 изображений (896x592) двадцати семи людей при различном фоне, условиях освещенности и выражениях лиц. Результаты сегментации кожи в различных цветовых пространствах с разными определяющими правилами приведены в табл. 3.2-3.4. Результаты отнесены на четыре категории: - Корректно принятые (КП), пикселы, относящиеся к коже и удовлетворяющие пороговым значениям - Корректно отклоненные (КО), пикселы, не относящиеся к коже и не удовлетворяющие пороговым значениям. - Ложно принятые (ЛП), пикселы, не относящиеся к коже, но удовлетворяющие пороговым значениям. - Ложно отклоненные (ЛО) пикселы, относящиеся к коже, но не удовлетворяющие пороговым значениям. Таблица 3.2 Определение пороговых значений для сегментации кожи в цветовом пространстве HSV

Похожие диссертации на Компьютерный метод локализации лиц на изображениях в сложных условиях освещения