Содержание к диссертации
Введение
1 Задача обнаружения лица 12
1.1 Обзор существующих методов 13
1.1.1 Методы эмпирического распознавания 14
1.1.2 Краткий обзор методов моделирования изображения лица 18
1.1.3 Сравнение методов первой и второй категории . 27
1.2 Обнаружения лица с помощью цветовой сегментации . 30
1.2.1 Цветовая сегментация областей кожи на изображении 31
1.2.2 Обработка результатов цветовой сегментации для обнаружения лица 37
1.2.3 Несовершенство существующих методов 43
1.2.4 Предлагаемые методы обнаружения лиц на изображениях 47
1.3 Заключение 58
2 Распознавание антропометрических точек лица человека на изображении для построения моделей виртуальной ре альности 61
2.1 Постановка задачи 62
2.2 Предлагаемый алгоритм распознавание антропометрических точек лица 63
2.2.1 Обнаружение положения глаз 65
2.2.2 Точное обнаружение цен гра зрачков и радиуса радужной оболочки 68
2.2.3 Обнаружение точных контуров глаз 71
2.2.4 Обнаружение прямоугольника губ 77
2.2.5 Обнаружение контура носа 79
2.2.6 Обнаружение контура подбородка и щек 83
2.3 Заключение 87
3 Управление курсором "мыши" с помощью движений голо вы и мимики пользователя 89
3.1 Описание задачи 89
3.2 Уточнение постановки задачи 91
3.3 Общая архитектура системы 93
3.4 Трансляция положения маркеров в сигналы перемещения курсора 96
3.5 Распознавание положения маркеров на изображении . 98
3.5.1 Выделение областей маркеров по цвету 99
3.5.2 Выделение областей маркеров по яркости 100
3.5.3 Распознавание областей, относящихся к маркерам . 102
3.6 Автокалибровка яркостной сегментации 105
3.7 Автоадаптация яркостной сегментации 108
3.8 Автоматическое определение потери отслеживаемых регионов 109
3.9 Определение положении губ ПОЗЛО Заключение 112
4 Распознавание антропометрических точек лица в видеопо токе низкого разрешения в реальном времени 113
4.1 Постановка задачи 113
4.2 Предлагаемый алгоритм распознавание антропометрических точек лица в видеопотоке 115
4.2.1 Выделение области лица 115
4.2.2 Выделение линии бровей 116
4.2.3 Выделение положения рта 118
4.2.4 Положения ноздрей 122
4.3 Заключение 123
5 Основные результаты работы 124
Литература
- Обработка результатов цветовой сегментации для обнаружения лица
- Предлагаемый алгоритм распознавание антропометрических точек лица
- Трансляция положения маркеров в сигналы перемещения курсора
- Предлагаемый алгоритм распознавание антропометрических точек лица в видеопотоке
Введение к работе
Объект исследования и актуальность темы.
В настоящее время вычислительная техника используется во многих областях человеческой деятельности, являясь удобным и многофункциональным инструментом решения широкого круга задач. Однако, при работе с ЭВМ человек вынужден использовать средства взаимодействия, слабо адаптированные к возможностям человеческого восприятия и ограничивающие способности человека к обмену информацией. Основная цель усовершенствования и развития интерфейса человек-компьютер заключается в организации обмена информацией с ЭВМ таким образом, чтобы:
• Снизить время освоения программных и аппаратных средств;
• Снизить уровень ошибок при передаче информации;
• Сделать работу с ЭВМ возможной для людей, не имеющим возможности пользоваться традиционными средствами интерфейса;
• Снизить утомляемость, увеличить субъективное удовлетворение пользователя от работы;
Для достижения поставленных целей необходимо применение средств взаимодействия, более полно использующих коммуникативные способности человека. Человек наделен большим количеством возможностей воспринимать и передавать информацию: зрение, слух (в т. ч. устная речь), жесты и движения, мимика, осязание и др. Во взаимодействии человека и ком- + , ныотера существуют два информационных потока:
• управляющие команды и данные, передаваемые компьютеру для обработки;
• результаты вычислений и другая информация, представляемая компьютером пользователю.
Распространенный в настоящее время человеко-машинный интерфейс использует зрение, как основной канал представления информации пользователю, отображая данные в виде условных знаков на экране компьютера. Воспринимать информацию естественными для человека способами (распознавать речь, жесты, мимику и т.д.) современные средства интерфейса практически не в состоянии.
Лицо человека является важным источником информации при общении между людьми. Выражение лица, мимика, артикуляция при разговоре, движения головой являются удобным, естественным и, что важно, необременительным способом передачи информации. Неспособность компьютера с одной стороны воспринять, а с другой стороны воспроизвести столь естественные для человека способы общения затрудняет передачу и восприятие информации при работе с ЭВМ.
Для того, чтобы "научить" компьютер распознавать и реагировать на движения головы, мимику, изменение выражения лица, направление взгляда, требуются устойчивые алгоритмы анализа и распознавания изоб-ражеиия лица человека.
Для представления вычислительной системы в качестве партнера, имитирующего аспекты человеческого общения, и превращения взаимодействия пользователя с вычислительный системой в естественное общение с виртуальным персонажем, используются так называемые агенты виртуальной реальности. Для их обозначения в литературе принят термин "аватары" (avatars). Агентами виртуальной реальности могут быть модели реально существующих людей, управляемые другими пользователями, или виртуальные актеры, управляемые компьютером. Использование таких агентов в системах виртуальной реальности и аудиовизуальных интерфейсах позволяет организовать общение пользователя с системой наиболее естественным образом и облегчить ему освоение. Это особенно актуально для пользователей, не являющихся профессионалами в области информационных технологий.
В рамках данной диссертационной работы будут рассмотрены следующие задачи:
1. Обнаружение и выделение лица на изображении и в видеопотоке.
2. Распознавание антропометрических точек лица на изображении и в видеопотоке.
3. Управление курсором "мыши" с помощью движений головой и мимики пользователя.
Решение двух первых задача является необходимым условием для создания интеллектуальных интерфейсов, распознающих и реагирующих на движения головой и изменение выражения лица пользователя. Решение второй задачи также необходимо для автоматизированного построения фотореалистичных моделей лиц для интерфейсов, использующих агентов виртуальной реальности. Решение третьей задачи делает возможным ис- 4 . пользование компьютера людьми, неспособными использовать традицион ные средства интерфейса но состоянию здоровья.
Использование в системах построения интерфейса накладывает дополнительные условия и требования на методы, которые могут использоваться для решения этих задач, а именно:
• Высокая скорость работы (в ряде случаев - реальное время);
• Функционирование на изображениях низкого (порядка 320x240 пикселей) и среднего (порядка 640x480 пикселей) разрешения;
• Устойчивость к уровню шума, характерному для недорогих бытовых видеокамер, подключаемых к компьютеру.
и» , Цели работы
1. Разработать методы обнаружения и выделения лица на изображении низкого разрешения (порядка 320x240 пикселей) и высокого уровня шума (характерного для бытовых видеокамер), работающие в реальном времени;
2. Разработать алгоритм автоматического выделения антропометрических точек лица (контуров глаз, зрачков, бровей, носа, подбородка, рта) на фронтальной фотографии среднего разрешения (порядка 640x480 пикселей) для построения фотореалистичных моделей виртуальной реальности;
3. Разработать алгоритм управления курсором "мыши" с помощью движений головы и мимики пользователя;
4. Разработать алгоритм автоматического определения положения ан- 4/ тропометрических точек лица в видеопотоке низкого разрешения в реальном времени.
Научная новизна работы
Разработанные алгоритмы обнаружения и локализации лица человека на основе цветовой сегментации кожи обладают значительно большей устойчивостью обнаружения, сохранив скорость существующих методов.
Предложенные алгоритмы выделения антропометрических точек лица на изображении и в видеопотоке обладают более высокой устойчивостью и точностью распознавания, нежели описанные в литературе аналоги.
Разработан новый алгоритм управления курсором мыши с помощью движений головы и мимики пользователя. Алгоритм предоставляет воз- к. можпость гибкой настройки метода трансляции движений головы в пере мещения курсора, что предоставляет возможность настройки интерфейса на индивидуальные особенности пользователя с нарушениями двигательного аппарата.
Практическая значимость и реализация
Разработаны и доведены до реализации методы и алгоритмы решения нескольких актуальных задач машинного зрения и обработки изображений. Программные реализации описываемых в диссертации методов удовлетворяют требованиям и ограничениям, сформулированным при постановке задач. 1 Реализована система управления компьютером для детей, страдаю щих ДЦП. Система успешно прошла экспериментальную проверку и используется в ряде детских учебных учреждений. По заказу Министерства
Образования РФ на основе данной системы создан ряд тренажеров и вспо- // могательных программ для организации дистанционного обучения.
На основе разработанных алгоритмов обнаружения и локализации лица и его антропометрических точек на изображении построена система автоматизированного создания фотореалистичных 3D моделей головы по фотографиям. Система разрабатывалась в лаборатории Компьютерной Графики и Мультимедиа кафедры АСВК факультета ВМиК МГУ им. М.В. Ломоносова по заказу Samsung Advanced Institute of Technology.
Апробация работы и публикации
Результаты работы докладывались и обсуждались на:
• 6-ой международной конференции по машинному зрению Asian Conference on Computer Vision (ACCV) 2004, Jeju, Korea, Январь 2004;
• 13-й международной конференции но компьютерной графике и машинному зрению GraphiCon 2003, Россия, Москва, 2003;
• 12-й международной конференции по компьютерной графике и машинному зрению GraphiCon 2002, Россия, Нижний Новгород, 2002;
• 3-ей международной конференции "Цифровая обработка информации и управление в чрезвычайных (экстремальных) ситуациях" ЦОИУЧС 2002, Беларусь, Минск, 2002;
• 10-ой всероссийской конференции "Математические методы распознавания образов-10" (ММРО-10), Россия, Звенигород, 2001;
V,
• семинаре по компьютерной графике и машинному зрению Ю.М. Ба яковского (ф-т ВМиК МГУ);
• научно-исследовательском семинаре но автоматизации ирограммиро- V-/ вашій иод руководством проф. М. Р. Шура-Бура (ф-т ВМиК МГУ).
Основные результаты работы изложены в 7-й научных публикациях /16/, /84/, /83/, /82/,/81/, /5/, /б/. Системы, в которые внедрены разработанные методы, защищены российскими и международным патентами.
Структура работы
Диссертации состоит из четырех глав и введения.
Первая глава посвящена задаче обнаружения и локализации лица на изображении и в видеопотоке. В ней производится краткий обзор существующих алгоритмов обнаружения лица и описываются предлагаемые автором алгоритмы решения этой задачи.
Вторая глава посвящена описанию разработанных алгоритмов авторе, матического распознавания антропометрических точек лица на фронтальных изображениях для построения трехмерной модели головы человека по набору фотографий.
В третьей главе описываются построение системы, реализующей управление передвижением курсора и срабатывания кнопки "мыши"нри помощи движений головы и мимики пользователя, регистрируемых видеокамерой.
Четвертая глава описывает алгоритмы распознавания и отслеживания перемещении антропометрических точек лица в видеонотоке низкого разрешения (порядка 320x240 пикселей).
Обработка результатов цветовой сегментации для обнаружения лица
Среди эмпирических методов обнаружения лица получили широкое раснространение методы, использующие цветовую сегментацию областей кожи. Причина этой популярности состоит в том, что использование цвета кожи как признака для обнаружения лица сочетает в себе несколько важных преимуществ: Малая вычислительная сложность и, как следствие, высокая скорость обработки; Устойчивость к изменению ориентации и масштаба лица; Устойчивость к изменению освещения (за исключением цветного); Устойчивость к изменению выражения лица и частичного перекрытия лица другим объектом сцены. К недостаткам этого метода можно отнести: Потенциальная возможность ложного обнаружения предметов с цветом, близким к цвету кожи; Зависимость от цветового баланса камеры и цвета освещения. Вышеперечисленные достоинства обнаружения лиц по цвету делают использование характерного цвета кожи как признака для распознавания весьма привлекательным, даже несмотря на имеющиеся недостатки. Учитывая высокую скорость обработки цветовой информации, процедура обнаружения лиц с помощью цвета кожи часто используется как первый шаг в обнаружении лиц для сужения области поиска лиц на изображении, перед тем как применяется более сложный алгоритм анализа изображения. При таком использовании этого метода относительно высокая вероятность ложного обнаружения не так страшна.
Обнаружение лиц но цвету кожи производится обычно в два этапа: 1. выделение пикселей, близких но цвету к коже; 2. поиск лиц на изображении с использованием априорного знания о структуре человеческого лица. От того, насколько точно будут определены на изображении области, относящиеся к коже, в значительной мере зависит точность конечного результата.
Цветовая сегментация является распространенной техникой, применяемой в различных задачах анализа изображений. Сегментация является предварительным этапом функционирования любой системы обработки изображений, так как позволяет упростить последующий анализ однородных областей изображения, их яркостиых, цветовых и геометрических характеристик. Сегментацию можно рассматривать как начальный этап построении формального описания сцены, качество выполнения которого во многом определяет успех решения задачи распознавания изображений, интерпретации и идентификации объектов сцены. Цветовая сегментация означает разделение изображения на области по цветовым признакам. Конкретная техника сегментации сильно различается от задачи к задаче - в некоторых случаях требуется разделить изображение па области однородного (в смысле некоторой метрики) цвета, в других же нужно найти области с определенным, известным заранее цветом (как при сегментации кожи).
Цвет, как известно, есть не физическое свойство объекта, а свойство человеческого восприятия, поэтому строгого математического определения понятия "цвет кожи" ие существует, что представляет собой некоторую трудность при построении систем но автоматического распознавания кожи. В компьютерном представлении изображения цвет пикселя задается в качестве координат в некотором цветовом пространстве. Психологи установили, что в глазе человека присутствует три типа светочувствительных клеток, настроенных на различные распределения энергии по видимому спектру. Исходя из этого факта любой цвет, воспринимаемый человеческим глазом, можно представить в виде трехмерного вектора. Подробнее о различных цветовых пространствах и о природе и свойствах цветового восприятия можно прочитать в /59/, /2/.
Результатом цветовой сегментации кожи должен быть набор областей изображения, близких по цвету к человеческой коже. Обнаружение таких областей дает дополнительный признак для локализации лица на изображении. Еще в ранних работах по автоматическому обнаружения областей кожи было замечено, что цвет кожи занимает достаточно компактную область в большинстве цветовых пространств, и что даже достаточно простым набором неравенств /34/ можно отделить область цвета кожи от остального пространства достаточно эффективно, чтобы использовать это разделение для обнаружения кожи на изображениях.
Поскольку, как уже было сказано, цвет объекта есть свойство восприятия человека, то единственным источником исходных данных для конструировании и обучении алгоритма автоматического обнаружения областей кожи по цвету является набор тренировочных изображений, на каждом из которых вручную выделяются области, относящиеся к коже.
Колориметрия, компьютерная графика и стандарты сжатия и передачи видеосигнала дали жизнь большому количество различных цветовых пространств. Выбор признакового пространства может значительно сказаться на характеристиках использующего его классификатора. Значительная часть существующих цветовых пространств была применена к задаче распознавания кожи в надежде найти пространство, позволяющее получить классификатор с наилучшими характеристиками. Авторы экспериментировали с различными пространствами в надежде добиться максимальной компактности и связности области, соответствующей оттенку кожи в данном пространстве, и получить хорошую разделясмость цвета кожи и нс-кожи. Нужно сказать, что часто эксперименты с выбором цветового пространства носили достаточно бессистемный характер, и лишь относительно небольшое число авторов приводило в своих работах строгие обоснования справедливости выбора используемого пространства (/87/, /86/, /54/, /68/).
В некоторых системах цветовая информация используется совместно с информацией, полученной от других источников. Так, например, в /17/, при отслеживании лица на последовательности кадров лицо находится, как пересечение области цвета кожи и движущегося ноля. В /30/ цветовая сегментация используется совместно с нейросетевыми и стерео детекторами.
Предлагаемый алгоритм распознавание антропометрических точек лица
Для представления вычислительной системы в качестве партнера, имитирующего аспекты человеческого общения, и превращения взаимодействия пользователя с вычислительный системой в естественное общение с персонажем виртуальной реальности, используются так называемые агенты виртуальной реальности. Для их обозначения в литературе принят термин "аватары" (avatars). Агентами виртуальной реальности могут быть модели реально существующих людей, управляемые другими пользо G2 вателями, или виртуальные актеры, управляемые компьютером. Использование таких агентов в системах виртуальной реальности и аудиовизуальных интерфейсах позволяет организовать общение пользователя с системой наиболее естественным образом и облегчить ему освоение работы с системой. Это особенно актуально для пользователей, не являющихся профессионалами в области информационных технологий.
Для достижения ощущения погружения в виртуальную среду требуются высококачественные фотореалистичные модели. Особенно требовательным человеческий глаз становится, когда речь заходит о моделях виртуальных персонажей. Человек очень чутко (часто неосознанно) замечает неестественности в облике " людей", что вызывает подсознательный дискомфорт. В настоящее время создание высококачественной модели человеческого лица по фотографиям является задачей большой трудоемкости и требует серьезного опыта в трехмерном моделировании и творческих (художественных) способностей и навыков. Для того, чтобы сделать эту задачу решаемой для рядового пользователя, требуется значительная автоматизация процесса. По всему миру ведутся исследования, направленные па максимальную автоматизацию процесса создания моделей без ущерба качества и реалистичности результата. Для автоматизированного создания 3D модели по фотографии необходимым является распознавание антропометрических точек лица для последующей адаптации трехмерной модели к индивидуальным особенностям лица. Большинство существующих систем автоматизированного построения модели головы но фотографиям используют ручное выделение антропометрических точек лица на изображениях. Алгоритмы, разработанные автором, и построенная на их основе система распознавания антропометрических точек лица позволяет в значительной степени автоматизировать этот процесс.
Исходными данными для алгоритма является фронтальная фотография, на которой изображения лица должно быть не менее 300 пикселей в ширину. Ориентация головы в плоскости изображения должна быть приблизительно вертикальной. К условиям сьемки выдвигается требование обеспечения достаточной четкости и контрастности области лица (по субъективным ощущениям фотографа). Первым шагом в распознавании антропометрических точек лица является обнаружение координат центров глаз внутри области лица. Большинство описываемых в литературе методов опираются па предположение, что область зрачка и радужной оболочки резко отличается но своим яркостным характеристикам и цветовому распределению от окружающей их области белка глаза и кожи. Подобные методы используют интегральные проекции /18/, морфологическую фильтрацию /14/ и карту областей резкого изменений /98/ полутонового изображения лица. Часть методов используют резкое отличие цвета глаз от цвета кожи как признак для обнаружения глаз /91/ /32/. Как показали проведенные испытания, использование перечисленных признаков приводит к серьезным ошибкам в обнаружении в большом количестве случаев. Анализ областей резких изменений яркости требует хорошей карты краев изображения, построение которой является весьма непростой задачей, поскольку операторы выделения краев чрезвычайно чувствительны к шуму
После обнаружении приблизительных координат центров глаз производится поиск точных координат центра зрачка и точного контура глаза (включая контур радужной оболочки и контуры век). Поиск центра зрачка производится различными методами в зависимости от условий освещения изображения. Рассматривая задачу получении трехмерной модели головы. наиболее вероятными (и существенно отличающимися) условиями освещения являются равномерное (случай хорошо освещенного помещения) и доминирующее фронтальное освещение (в результате фотовспышки). В случае доминирующего фронтального освещения вблизи центра зрачка образуется яркий и четко локализованный блик. Его центр можно принять, как достаточно точное приближение координаты центра зрачка. Для обнаружения координат центрального блика используется многоступенчатая проверка обнаружения пикселей, соответствующих блику внутри зрачка.
Точные контуры глаз являются весьма ценной информацией для построении высококачественной 3D модели лица по фотографии. Распространенной методикой для обнаружения контуров глаз является использование деформируемых контурных моделей /46/, использующих большие значения модуля градиента яркости изображения в качестве признака границы глаза и кожи /94/, /43/, /92/, /49/. Однако, использование деформируемых моделей в качестве инструмента и градиента яркости в качестве признака приводит к определенным проблемам. Использование резких переходов яркости изображения, обнаруживаемых с помощью анализа градиента яркости, в большом количестве случаев не может привести к устойчивому обнаружению. Изображения глаз содержат значительное количество резких изменений яркости, не относящихся к контурам глаз, в то время как сама линия контура может быть представлена слабо и прерывисто. Подобпые трудности заставляют исследователей использовать достаточно сложные наборы дополнительных условий к методам, основанным на градиенте изображения /43/, /92/.
Деформируемые контурные модели /46/, будучи мощным инструментом анализа изображений, так же не лишены недостатков. Для получения удовлетворительных результатов требуется аккуратная формулировка энергии модели и инициализация модели, близкая к финальной конфигурации (естественно, неизвестной заранее). Поскольку выделение объектов с помощью деформируемых моделей есть сведение задачи распознавания к задаче многомерной оптимизации, то проблема локальных минимумов стоит весьма остро, особенно учитывая сложное и неочевидное воздействие параметров энергии модели на характер деформации. Часто приходится выстраивать достаточно сложную многошаговую процедуру постепенного уточнения контура /43/, /92/ для того, чтобы избежать выбора нежелательного локального оптимума энергии в качестве контура выделяемого объекта.
Трансляция положения маркеров в сигналы перемещения курсора
Организация управления компьютером с помощью жестов и мимики пользователя, регистрируемых видеокамерой, является одной из важнейших тем исследований в области построения естественного интерфейса человек-компьютер. Множество лабораторий по всему миру занимаются разработкой методов устойчивого распознавания жестов и мимики человека в видеоиотоке. Большинство современного прикладного программного обеспечения снабжено графическим интерфейсом (Graphical User Interface, GUI), поэтому большая часть взаимодействия пользователя с программными средствами сводится к управлению с помощью курсора "мыши". Соответственно, создание системы, способной перемещать курсор мыши, реагируя на естественные для человека действия (жесты, повороты головы, изменения направления взгляда), в значительной степени ускорит работу с компьютером и сделает ее более комфортной и менее утомительной.
Обычно перемещение курсора стараются связать с направлением взгляда и поворотом головы. Причина состоит в том, что движения головой и изменения направления взгляда для человека (даже с нарушениями двигательного аппарата) необременительны и интуитивно связаны с указанием области пространства, в которой будет производится действие. Часть исследовательских прототипов и коммерческих систем /29/, /80/, /60/, /36/, /26/ используют направление взгляда пользователя для указания положения курсора на экране. Такое решение завораживает почти магическим "послушанием" компьютера и является единственно возможным, когда человек страдает тяжелыми нарушениями двигательного аппарата. Но с ним связаны и определенные сложности.
Согласно исследованиям /96/, проведенным в ряде лабораторий по созданию естественного интерфейса, взгляд используется человеком для обозначения области "фокуса внимания", а не для совершения действий. Движения глаз зачастую происходят неосознанно, и использование направления взгляда как инструмента для управления курсором ведет к заметному дискомфорту в использовании такого интерфейса. Для действий по управлению компьютером (выбор меню, нажатие кнопок, и т.д.) значительно больше подходят движения, совершаемые человеком осознанно. Поэтому в ряде систем управления курсором (например, /97/) направление взгляда используется для задания приблизительной области на экране, в район которой нужно переместить курсор, а точное указание положения курсора и совершаемое действие производится с помощью "мыши". В случае, когда пользователем системы является человек, не имеющий возможности использовать обычные средства интерфейса, управление курсором лучше связать с движениями головой.
Другая трудность с использованием направления взгляда заключается в усложнении задачи анализа изображения лица и более высоким требованиям к точности распознавания антропометрических точек лица. Существующие исследовательские прототипы и коммерческие системы решают задачу распознавания, используя инфракрасную подсветку липа и камеры, чувствительные в ИК диапазоне /60/, /29/. Для трансляции положения зрачков в положение точки на экране используются различные способы -заранее откалиброванная стереопара камер /26/, гауссовский процесс /28/ и др.
Другая значительная часть существующих систем используют положение и поворот головы для управление курсором /80/, /36/. В литературе описано большое количество исследовательских систем определения положения и поворота головы с помощью распознавания характерных черт лица /91/, /12/. Однако, несмотря на достигнутые значительные продвижения в области автоматического распознавания, существующие методы не дают достаточной устойчивости к различным условиям освещения и индивидуальным особенностям внешности пользователя. Поэтому подавляющее большинство коммерческих систем управления компьютером с помощью видеокамеры опираются на использование подсветки в инфракрасном диапазоне для облегчения обнаружения наклеек-маркеров, располагаемых на лице или голове пользователя.
Требовалось спроектировать и реализовать систему, реализующую управление передвижением курсора и срабатывания кнопки манипулятора типа "мышь" с помощью отслеживания направления взгляда и мимики пользователя. Целью такой системы является предоставление людям с нарушениями работы двигательной системы достаточно комфортного способа общения, не отнимающего много сил (так как многие из них с большим трудом владеют письменной и устной речью), а также создание на ее основе тренажеров и обучающих программ для детей. Необходимость подобной системы обусловливается тем, что обучение с помощью общепринятых методов детей, страдающих, например, церебральным параличом, крайне затруднительно, поскольку сам процесс речи и письма отнимает у ребенка столько сил и требует такой концентрации, что ребенок очень быстро устает и собственно процесс обучения отходит па второй план. Обязательным требованием к системе являлась необходимость корректной работы в операционной системе Microsoft Windows 98-2000 параллельно с общепринятыми средствами управления курсором (клавиатура, "мышь"). Это необходимо для того, чтобы оператор системы (учитель, врач) мог при необходимости управлять и корректировать процесс работы пользователя. Распознавание направления взгляда и мимики должно осуществляться с использованием изображения, получаемого с недорогой видеокамеры (так называемой web-камеры). Изображения, получаемые с нее, характеризуются низким разрешением (порядка 320x200), высоким уровнем шума и невысокой четкостью. Кроме того, система должна функционировать на компьютере невысокой вычислительной мощности, оставляя достаточно вычислительных ресурсов для работы пользовательских приложений. Важной особенностью системы является то, что целевыми пользователями являются дети с нарушениями опорно-двигательного аппарата. Это означает, что пользователи системы самостоятельно, скорее всего, не смогут справиться со сбоями системы. С другой стороны, перед началом сеанса работы с системой приемлемо использование ручной инициализации и подстройки системы под особенности текущего сеанса оператором (врачом, учителем). Следовательно, во-первых, необходимо добиться максимальной устойчивости распознавания и снизить до минимума вероятность сбоя системы во время сеанса, и во-вторых, можно рассчитывать на использование ручной настройки системы в начале сеанса.
Предлагаемый алгоритм распознавание антропометрических точек лица в видеопотоке
Для того, чтобы освободить пользователя системы управления компьютером, описанной в третьей главе, от необходимости использовать дополнительные маркеры для работы, требуются устойчивые алгоритмы обнаружения и распознавания лица в видеопотоке. Под обнаружением и распознаванием в данном случае подразумевается отслеживание перемещения лица и его антропометрических точек.
Рассматривая задачу распознавания в видсонотоке для построения человеко-машинного интерфейса, следует ориентироваться на недорогие бытовые видеокамеры, характеризующиеся достаточно невысоким качеством изображения и низким разрешением (порядка 320x200 пикселей). Помимо этой особенности, у задачи распознавания в видсонотоке есть как минимум три существенных отличия от задачи обработки статического изображения: обработка и распознавание изображения должно происходить в реальном времени; во многих случаях инициализация отслеживания производится извне алгоритма другими методами (например, вручную), и первый кадр (или несколько кадров) обрабатываемого видеопотока можно рассматривать, как тренировочные для методов отслеживания, и использовать их для накопления статистики; можно использовать положение черт лица на предыдущих кадрах для предсказания вероятного их положения на текущем кадре.
В литературе данной задаче уделяется серьезное внимание /12/, /78/, /13/, /93/, /79/, /75/, /70/, /17/. Методы, применяемые для ее решения, как и в случае обнаружения лица, можно разделить на две категории: использующие эмпирическое распознавание, и основанные на моделировании изображений характерных черт. Учитывая жесткие требования но времени обработки, предпочтение отдается методам первой категории и простейшим методом второй (не обладающим большой вычислительной сложностью). Несмотря на большое разнообразие методов, описанных в литературе, и успехи, достигнутые в этой области, устойчивость предложенных алгоритмов и разработанных прототипов по прежнему недостаточна для построения промышленной системы. В данной главе автор описывает свой вклад в построение системы распознавания черт лица в видеопотоке в реальном времени.
Конечной целью распознавания черт лица в видеопотоке для построения интерфейса человек-компьютер является реализация управления курсором с помощью изменения положения головы пользователя относительно камеры. Как уже отмечалось в третьей главе, исследования /9G/ показали, что использование направления взгляда для управления компьютером менее предпочтительно, нежели использование движений головой. Для ре 115 ализации управлення по ориентации и движениям головы пользователя, достаточно определить ориентацию головы относительно камеры в трехмерном пространстве, то есть необходимо знать проекции четырех точек, не лежащих в одной плоскости в трехмерном пространстве. В качестве таких точек были выбраны две в районе глаз и бровей, одна в нижней части лица (рот), и одна в области носа (не лежащая в плоскости глаз и рта). Такой выбор точек связывает их с характерными чертами лица и разносит их достаточно далеко на изображении, что дает положительный эффект при определении ориентации головы по проекциям точек. Для определения положения черт лица не требуется такой высокой точности и подробности распознавания, как в случае построения трехмерной модели головы. Учитывая это, а также невысокое качество изображения и низкое разрешение кадров видеопотока, генерируемого недорогими видеокамерами, методы, разработанные для решения этой задачи, нацелены на устойчивое распознавание положения точек, без дополнительных деталей.
Выделение области лица на текущем кадре производится с помощью метода статистических моментов для выделения областей цвета кожи на изображении (см. главу 1). Результатом применения этого метода является обнаруженная эллиптическая область лица. Дальнейшие действия построены в предположении, что область лица уже выделена.
Обычно, системы отслеживания черт лица в видеопотоке фокусируются на определении положения глаз на изображении. Положение глаз может быть важно для автоматического определения ориентации головы относительно камеры и для вычисления направления взгляда (там, где это требуется). Однако, если пользователь носит очки (что является скорее правилом для пользователей ЭВМ, чем исключением), определение положения глаз значительно усложняется из-за бликов стекол. По результатам испытаний, линии бровей были выбраны, как источник информации о двух антропометрических точках, обладающих более устойчивыми признаками распознавания, нежели глаза.
После рассмотрения всех пикселей изображения лица выбирается линия бровей с параметрами (р ,0 ), соответствующими наибольшему значению счетчика. Использование варианта преобразования Хафа, компенсирующего дискретності» разбиения фазового пространства, дает повышенную но сравнению с традиционным алгоритмом устойчивость распознавания. Еще одним важным отличием приведенного алгоритма от традиционного преобразование Хафа является встроенный в алгоритм механизм "штрафования" (шаг 4) нежелательных конфигураций обнаруживаемого объекта. Обнаружение линии бровей дает две из требуемых четырех точек лица.
В литературе описываются различные методы отслеживание положения губ. Часто, алгоритмы распознавания опираются на то, что губы представляют собой более темную область, нежели окружающая их кожа /79/, однако, использование исключительно яркостной информации (игнорируя цвет) негативно сказывается на устойчивости обнаружения. Заранее обученный (на наборе тренировочных изображений) цветовой классификатор также является распространенным способом обнаружения области губ по цвету /73/. Использование цветовой информации для распознавания представляется более предпочтительным, по использование обученного заранее классификатора осложняет использование метода и таит в себе опасность резкого ухудшения распознавания в случае, когда условия получения изображений становятся далеки от характеристик тренировочных изображений.