Содержание к диссертации
Введение
ГЛАВА 1. Сравнительный анализ известных моделей и систем распознавания жестов человека 12
1.1. Постановка задачи 12
1.2. Классификации жестов человека 13
1.3. Выбор базового алфавита жестов 16
1.4. Основные модели распознавания жестов 32
1.4.1. Скрытые Марковские модели 33
1.4.2. Нейронные сети 38
1.4.3. Байесовые сети 39
1.4.4. Другие модели 41
1.5. Системы распознавания жестов 43
1.6. Выводы 51
ГЛАВА 2. Захват и отслеживание области интересов на сложном фоне 53
2.1. Постановка задачи 53
2.2. Алгоритм захвата и отслеживания основанный на анализе перемещения области интересов 55
2.3. Алгоритм захвата и отслеживания основанный на анализе цвета области интересов 60
2.4. Алгоритм захвата и отслеживания областей интересов, основанный на последовательном выделении объектов по перемещению, цвету и кластерам 65
2.5. Оценка вычислительной сложности алгоритма захвата и отслеживания областей интересов, основанного на последовательном выделении объектов по перемещению, цвету и кластерам 74
Стр. 2.6: Алгоритм захвата и отслеживания областей интересов, основанный; на параллельном каскадном детекторе с использованием характерных. признаков Хаара. 76
2.7. Оценка вычислительной сложности алгоритма захвата и отслеживания областей интересов- основанного на параллельном
каскадном* детекторе с использованием характерных признаков Хаара. 87
2Я: Выводы. '..' ...89
ГЛАВА 3. Нечеткая модель распознавания динамических жестов : 90
3;1-. Постановка задачи; 90
3.2. Принципы выполнения динамических жестов и формирования их моделей . 91
33. Распознавание динамических жестов с использованием Модели, основанной на нечетких конечных; автоматах и грамматиках' 96
'33U. Основные понятия и определения '.. ..т...96
33;2. Нечеткие конечные автоматы и грамматики ...98
3:4. Выводы : ... 104
ГЛАВА 4. Мультимодальное агрегирование в задачах распознавания. 105
4.1. Постановка задачи. 105
4.2. Агрегирование модальностей с помощью операторов Суджено и Шоке 108
4.3. Мультимодальное распознавание на основе операторов агрегирования Суджено и Шоке... 111
4.4. Мультимодальное распознавание сцен, определяемых.жестами 117
4.5. Выводы 126
ГЛАВА 5. Программная реализация и апробирование системы распознавания динамических жестов 127
5.1. Постановка задачи 127
5.2. Архитектура системы распознавания жестов 129
5.3. Эксперимент 1. Нахождение порогового значения разности интенсивностей пикселей 131
5.4. Эксперимент 2. Нахождение времени работы алгоритма захвата и отслеживания областей интересов, основанного на последовательном выделении объектов по перемещению, цвету и кластерам 133
5.5. Эксперимент 3. Нахождение оптимального числа слоев каскада для алгоритма захвата и отслеживания областей интересов, основанного на параллельном каскадном детекторе 135
5.6. Эксперимент 4. Сравнение алгоритмов захвата и отслеживания областей интересов 137
5.7. Эксперимент 5. Нахождение надежности распознавания жестов, выполненных одной рукой одним человеком 145
5.8. Эксперимент 6. Нахождение надежности распознавания жестов, выполненных двумя руками, по очереди одним человеком 147
5.9. Эксперимент 7. Нахождение надежности распознавания жестов, выполненных одной рукой различными людьми 149
5.10. Выводы 151
Заключение и общие выводы 153
Литература
- Выбор базового алфавита жестов
- Алгоритм захвата и отслеживания основанный на анализе цвета области интересов
- Принципы выполнения динамических жестов и формирования их моделей
- Агрегирование модальностей с помощью операторов Суджено и Шоке
Введение к работе
Актуальность темы. Анализ поведения человека (его голоса, жестов, эмоций и т.п.) с помощью методов компьютерного зрения сегодня является одним из актуальнейших направлений, востребованных в самых различных областях применения. Среди таких областей можно назвать следующие:
медицина, где по поведению человека можно судить о состоянии его здоровья,
безопасность, где по поведению" можно судить о намерениях человека совершить неправоправные действия,
управление, например, автомобилем или тренажером, где в зависимости от поведения выбирается тот или иной режим движения,
в быту, для предоставления людям, имеющим, например, дефекты речи возможности общаться с компьютером или другим оборудованием с помощью доступного ему поведения,
в робототехнике, для естественного общения с роботами и т.д.
В данной работе используется только один тип поведенческих возможностей человека, а именно жесты.
В настоящее время разработка и исследование человеко-машинных интерфейсов, основанных на распознавании образов и визуальном представлении мультимедийной информации, становится передним краем в развитии современного математического и программного обеспечения. Перед разработчиками подобных интерфейсов ставится задача использования естественных для человека способов общения с компьютерами с помощью жестов, голоса, мимики и других модальностей. Жесты являются особенно перспективными для построения интерфейсов управления программным и аппаратным обеспечением компьютеров, роботов, позволяют расширить возможности интерфейса для людей с дефектами слуха и речи.
В связи с этим, актуальность темы диссертации с теоретической точки зрения диктуется необходимостью разработки методов, моделей и алгоритмов
захвата, отслеживания: и распознавания жестов, совершаемых человеком в реальном времени, в частности руками; пригодных для создания* интерфейса управления работой компьютера с их помощью.
Актуальность темы с прикладной точки зрения; определяется
необходимостью создания программных систем, способных обеспечить с
помощью жестов интерфейс с персональным компьютером: В', реальном
времени, используя только видеокамеры. А
Объект исследования: методы; алгоритмы и программы, захвата, отслеживания и распознавания жестов человека.
Предмет исследования: типы жестов;; структурашетодов.<-ш алгоритмов захвата, отслеживания^, распознавания-динамических. жестов, их взаимосвязь, сложность, надежность, устойчивость, позволяющие распознавать динамические жестьг в .реальном времени.
Цель работы*; и задачи исследований. Целью работы является разработка общей методологии? захвата;, отслеживания? и; распознавания динамических жестов: человека, совершаемых руками, включая модели, методы и алгоритмы, теоретическое и экспериментальное: обоснование работоспособности этой методологии в реальном времени^ с: высоким уровнем; надежности для создания работоспособных человеко-машинных интерфейсов.
Для реализации этой цели были поставлены следующие задачи:
Осуществить сравнительный аналитический обзор существующих методов захвата, отслеживания и распознавания динамических жестов человека.
Провести классификацию жестов/ выполняемых человеком и выбрать алфавит динамических жестов, пригодный для* создания человеко-машинного интерфейса для управления компьютером.
3.. Разработать вычислительно эффективный алгоритм захвата и
отслеживания'кисти человека на сложном фоне; 4. Разработать вычислительно эффективную модель и алгоритм
распознавания: динамических жестов человека.
Разработать методологию мультимодального распознавания сцен, определяемых динамическими жестами.
Провести эксперименты по оценке надежности и работоспособности системы в реальном времени, подтверждающие теоретические результаты.
Методы исследования. Основной задачей при планировании исследования было гармоничное сочетание теоретических проработок и экспериментальных проверок. Надежность, устойчивость и достоверность полученных алгоритмов и моделей проверялась на специально подготовленной доверительной выборке. Методы исследований базировалась на статистическом анализе и математическом моделировании, теории нечеткой логики и нечетких множеств, методах объектно-ориентированного программирования и разработки интеллектуальных систем, теории распознавания образов.
Научная новизна. Разработана новая комплексная методология захвата, отслеживания и распознавания динамических жестов в видеопотоке. В рамках этой комплексной методологии получены следующие новые результаты.
Разработан алгоритм захвата и отслеживания кисти человека в видеопотоке на сложном фоне, обладающий более высокой надежностью и устойчивостью работы по сравнению с известными из литературы аналогами.
Разработан алгоритм и вычислительно-эффективная модель для распознавания жестов, основанная на нечетких конечных автоматах, сложность распознавания с помощью которой составляет 0(тп), где т -количество нечетких автоматов используемых для распознавания, п -количество состояний нечеткого конечного автомата.
Разработана методология мультимодального распознавания сцен, определяемых жестами, с использованием нечетких операторов агрегирования. Методология позволяет повысить надежность распознавания жестов за счет использования дополнительных источников информации,
8 учесть степень важности каждой модальности, непосредственно в процессе иерархического распознавания сцен.
В работе предложен алфавит жестов, позволяющий широко использовать его в различных приложениях для создания интерфейсов человек-компьютер;
Экспериментально показано, что предложенная архитектура системы распознавания динамических жестов* позволяет с высокой степенью надежности^ распознавать в реальном- времени1 жесты независимо от индивидуума.
Практическая значимость и. реализация. На основе разработанных алгоритмов создано программное обеспечение захвата и отслеживания и распознавания'жестов, позволяющее-использовать его1 в различных человеко-машинных интерфейсах на основе жестов. Материалы* работы используются.в* учебном процессе кафедры информационных систем^ и. телекоммуникаций МГТУ им. Н.Э. Баумана в курсе «Обработка изображений-віинформационных системах».
Программное обеспечение реализовано на персональном компьютере. Для захвата' и отслеживания кадра используется Web-камера. Программы системьь написаны на. языке программирования C++ в объектно-ориентированной нотации. Документация программной реализации удовлетворяет требованиям, предъявляемым к программнымпродуктам ГОСТ 19.105-78.
Система имеет следующие характеристики:
Скорость работы в реальном'времени (15 кадров в секунду).
Устойчивость к шуму, характерному для недорогих, «домашних» видеокамер (Web-камер).
Функционирование с кадрами низкого 320 х 240 пикселей/8 бит, и среднего 640 х 480 пикселей/8 бит качества.
Программный модуль распознавания жестов прошел
экспериментальную проверку в системе обеспечивающий: интуитивный
9 интерфейс между человеком и телевизором j разработанной в соответствии с
генеральным соглашением;между МГТУ им. Н.Э. Баумана и компанией.«NXP
Semiconductors founded Публикации. Основные результаты работы изложены в семи научных публикациях^ [1, 3^ 13, 14, 15, 50- 51], изних в журналах по списку ВАК - Г. Апробация результатов работы: Презентация; научных исследований^ в> области интуитивного интерфейса, для:инженеров компании Philips, 10.072006, Россия, г. Москва: Доклад по результатам научно-исследовательского? проекта1 в соответствии с: генеральным; соглашением, 19:12.2006, Нидерланды,. . г. Эйндховен.! 3; 2-й всероссийской, конференции* «Теория* динамических, системе в приоритетных направленияхнауки итехники»; 25;06:2007, Россия, г. Ижевск. 4. 23-й международной конференции робототехника :и заводы будущего GARS.&FOF 07, 17.08.2007, Колумбия^. Богота-5; 2-й международной конференции «Системный» анализа информационные технологии» САИТ-2007,10.09.2007, Россия^ г. Обнинск. 6. 30-й; конференции молодых ученых и специалистов ИППИ РАН «Информационные технологии и системы» ИТиС-2007, 18.09.2007, Россия, г. Звенигород. . 7. 16-й международной конференции.- в. Центральной Европе 'по компьютерной графике, визуализации: и- компьютерному зрению WSGG08, 06.02:2008-Чехия, г. Пльзень. Структура и объем; работы. Диссертационная- работа состоит из введения, пяти глав, заключения и списка литературы, занимающих 165 страниц текста, в том числе1 41 рисунок на 35 страницах, 13 таблиц на 21 странице, список литературы на 11 страницах. В первой главе проведен обзор существующих классификаций и алфавитов жестов, наиболее часто используемых при общении, как здоровых людей, так и имеющих проблемы со здоровьем. Выбран алфавит базовых жестов и принципов жестикуляции для надежного распознавания. Проведен анализ популярных математических моделей используемых при распознавании жестов. Проанализированы достоинства и недостатки современных систем распознавания жестов. Во второй главе проведен анализ основных алгоритмов захвата и отслеживания жестов. Описаны разработанный алгоритм захвата и отслеживания кисти человека на сложном фоне, основанного на последовательном выделении объектов по перемещению, цвету и кластерам и алгоритм, основанный на параллельном каскадном детекторе, с использованием характерных признаков Хаара. Выполнена оценка* вычислительной сложности разработанных алгоритмов. В третьей главе исследуются принципы формирования и математического описания эталонных жестов. Предлагается и обосновывается новая математическая модель распознавания жестов. В четвертой главе описывается разработанная методология" мультимодального распознавания сцен, определяемых жестами, с использованием нечетких операторов агрегирования. В пятой главе рассматривается архитектура системы распознавания динамических жестов, результаты работы которой не зависят от индивидуума. Описываются эксперименты по оценке устойчивости и надежности работы системы как при захвате и отслеживании жестов, так и при их распознавании. Научные положения, выносимые на защиту: Итоги сравнительного анализа моделей и методов распознавания динамических жестов. Алгоритм захвата и отслеживания кисти человека на сложном фоне. Нечеткая модель для распознавания динамических жестов, основанная на нечетких конечных автоматах и алгоритм распознавания динамических жестов с использованием этой модели. Методология мультимодального распознавания сцен, определяемых динамическими жестами, с использованием нечетких операторов агрегирования. Архитектура системы распознавания жестов человека и экспериментальные результаты работы системы на доверительных выборках. Рассмотренные в предыдущем параграфе классификации относятся к жестам, которые назовем естественными. Эти жесты присущи человеку от природы или выработаны человечеством в процессе эволюции. В классификаторах описывается, как выглядят те или иные жесты, какие из них лучше использовать в том или ином случае, для того, чтобы с высокой степенью адекватности определять смысл жеста и, как следствие, правильно реагировать на него. Психологи утверждают, что для правильного понимания смысла выполняемого естественного жеста необходимо знать характеристики: 1. совершающего жест (мужчина, женщина, возраст); 2. собеседника, которому жест адресован, 3. ситуации, в которой жест совершается, 4. предшествующих жестов, 5. среды, в которой жест совершается, 6. аналогов текущего жеста, 7. эффекта, достигаемого текущим жестом. Следует отметить, что все эти характеристики связаны со знанием свойств окружающей среды, в которой жест совершается, или, как часто говорят, со знанием контекста, сопутствующего жесту. Однако, на сегодняшний день не существует какой-либо формализованной теории, позволяющей однозначно трактовать смысл известных жестов с учетом контекста даже среди групп людей, относящихся к одному этносу, одной культуре, одинаково образованных и т.п., не говоря уже о разных культурах и цивилизациях. Многие культуры один и тот же жест интерпретируют совершенно по-разному. Например, по сравнению с русскими частота жестикуляции (количество жестов, совершаемых в единицу времени) у западноевропейцев выше, но жесты западноевропейцев занимают меньше пространства, чем жесты русских, так как они жестикулируют с прижатыми к корпусу локтями [12]. Жесты западноевропейцев вообще не вторгаются в персональное пространство собеседника. В отличие от русской традиции преобладают симметричные жесты. Рукопожатие менее длительно, чем русское, и жесты делаются полусогнутой рукой, а не вытянутой, как в России. Преобладают жесты около лица и головы, а у русских - у груди и вокруг тела. В разных культурах понимание смысла одного и того же жеста требует знакомства с этими культурами. Приехав в чужую страну и увидев знакомый жест в исполнении аборигенов, человек расшифровывает его согласно своей национально-культурной традиции, однако жест может иметь совсем иной смысл, нежели тот, к которому он привык. Например, в России поднятый вверх большой палец руки означает похвалу, а в Бангладеш — это вульгарный жест. Существует другой класс жестов, которые будем называть искусственными. Например, известен язык жестов международного дактильного алфавита слепоглухих (рис. 1.1). Этот язык жестов кодирует символы латинского алфавита. На рис. 1.1 стрелками изображено направление движений исполнения жеста, цифрами - порядок их исполнения [16]. Число искусственных жестов, которые создаются для тех или иных целей, в принципе бесконечно. В соответствии с целями диссертации задача создания формального языка жестов, т.е. языка порождаемого формальной грамматикой и тем более имеющего формальную семантику не ставилась. Для достижения главной цели диссертации достаточным является выбор только алфавита жестов, выполняемых руками, и решение задачи последующего их распознавания для целей управления. При этом к жестам (алфавиту жестов) предъявлялись следующие основные требования: а. они должны иметь понятное описание выполнения для пользователя как простые известные геометрические фигуры или буквы латинского алфавита; б. они должны допускать выполнение одной рукой как одно непрерывное движение; в. они должны отличаться от жестов, используемых в обычном общении людей. Bv таблице 1 приведен выбранный алфавит жестов;. Жесты, соответствующие- этому алфавиту," будем называть - манипулятивными. Єтрелка указывает направление движения руки при выполнении жеста. Столбцы таблицы Г соответствуют в порядке слева направо номеру, названию и условному обозначению; жеста (и? описанию манипулятивных жестов; удовлетворяющих требованию а). Удовлетворение алфавита манипулятивных жестов требованиям б) и в) очевидно. Манипулятивные. жесты являются динамическими; жестами; то есть, при их выполнении? кисть выполняет движение во времени пространстве. Помимо- указанных; выше: требований при выборе алфавита жестов руководствовались также следующими соображениями: Алфавит создан; с целью» обеспечения; интерфейса человек, компьютер илифобот. Минимальный1 набор таких команд задается,манипулятором?типа; «мышь»: вверх, вниз,, вправо, влево;, выполнить: Первые- четыре; команды кодируются, соответственно жестами №1;г4; .. последняя-: команда может, быть выполнена; любым удобным пользователю, жестом из? представленного алфавита; Помимо.того; что с помощью первых четырех динамических жестові естественно передавать пространственные команды управления;, жесты, поворот (жест 13), разжать (жест 12);- удобно использовать для управления роботом [50]. Кроме этого, в алфавит были добавлены жесты из алфавита жестов глухонемых (рис. 1.1); которые удовлетворяют требованиям б) и в); это жесты: Буква N, Буква. Р Буква М; Буква Z, Буква W. В- соответствии с калькулирующим языком глухонемых, где слова выполняются, по; буквам; эти? жестовые буквы могут быть использованы как-начальные буквы некоторых команд: интерфейса, например: Make-сделать, No-отменить. А также, данные; жесты наравне с жестом Вверх-вниз: и Волна, распознаются- во многих системах распознавания:; динамических жестов, потому что используются в языках глухонемых, как одни из базовых движений [81, 82, 59; 60 101]. Параметры цветы кожи человека являются основными характерными признаками открытых частей человеческого тела [7, 42, 99, 115]. С помощью информации о цвете кожи можно решить как задачу захвата области интересов ОЬ,(х,у) в кадре I,(V,W), так и задачу отслеживания областей интереса Ob,(X„Y), Obnl(Xl4,Ylt,),..., Ob„k(X„hYl4) в последовательности кадров НУ,W), It+1{V,W),..., iuv,Ю Цвет — это перцептивное явление, которое связано со спектральными особенностями электромагнитного излучения в видимых длинах волны, попадающих на сетчатку глаза или светочувствительный элемент видеокамеры [30]. Для того чтобы описать в компьютере цвета некоторым стандартным образом используются цветовые пространства. Цветовое пространство - это система представления цветов в компьютере. Большинство видеокамер используют цветовое пространство RGB (красный-зеленый-синий). Другие цветовые пространства могут быть преобразованы в RGB. При представлении каждого параметра г, g, b 8 битами, значения параметров будут изменяться в диапазоне 0 до 255. Однако цветовое пространство RGB для решения задачи захвата и отслеживания области интересов обладает рядом недостатков: в RGB, тройка «красный (г) , зеленый (g), синий (Ь)» представляет не только цвет, но и яркость; в RGB существует большая корреляция между параметрами г, g, b; цветовое пространство RGB неоднородно по восприятию для человека. В данном случае под яркостью (интенсивностью) понимается количественная характеристика цвета, определяющая степень различия одинаково насыщенных оттенков, относимых к одному и тому же цвету. Если соответствующие элементы в двух точках, \Гь gi, bi] и [г2, g2, Ъ2\ являются пропорциональными: то они имеют одинаковый цвет, но разную яркость. Насыщенность показывает степень, близости данного цвета к некоторой части спектра электромагнитного излучения оптического диапазона. В [115] доказано, что цвета кожи разных людей намного больше отличаются по яркости, а не по цвету. Поэтому, чтобы выделить характерный признак присущий большинству людей, требуется явно получить значения цвета пикселя. Обычно это достигается за счет перехода из RGB в другие цветовые пространства. Это может быть цветовое пространство (г, g), где цвета r,g называются "чистыми цветами" или как будет рассмотрено в нашем случае цветовое пространство HSV, где трехпараметрический способ задания цветовых характеристик представляет собой: цвет-насыщенность-яркость [99]. Параметр Н характеризует преобладающий основной цвет (длину волны, преобладающую в электромагнитном излучении) и изменяется от 0 до 360, параметр насыщенности S характеризует близость к тоновой волне и-изменяется1 от 0 до 1, параметр Охарактеризует яркость пикселя. Кроме того, используются и другие цветовые пространства: CIE XYZ [112], YCbCr [55], L a b [94], HACS [70]. Выведем общую процедуру, для всех цветовых пространств, создания распределения цвета кожи кисти. Оригинальной идей данной процедуры является сокращение области распределения цвета кожи в выбранном цветовом пространстве до необходимого минимума за счет удаления значений параметров цвета, связанных с перепадами освещения. Это достигается путем нахождения средних значений параметров цвета, выбранного цветового пространства, в интерактивном режиме. Процедура создания распределения цвета кожи состоит из следующих шагов: 1. Взять ряд кадров I,(V,W), It4{V,W),... , I„k{V,W) включающие изображение кисти человека в интерактивном режиме. 2. Выбрать области с цветом кожи Ob,(X„Yi), Obltl(Xl4)Yl4),..., Ob„k(X„k,Y„k), например изображение "ладонь". 3. Найти среднее значение распределения цвета кожи в данной области, в выбранном цветовом пространстве. Рассмотрим алгоритм захвата и отслеживания области интересов основанный на распределении цвета кожи человека, полученного с помощью данной процедуры (рис. 2.4). Сначала кадрIt{V,W) полученный из видеопотока преобразуется в цветовое пространство HSV. Затем значения пикселей I,{v,w) входного кадра I,(V,W) проверяются на принадлежность распределению цвета кожи человека. Если значение пикселя Ifaw) принадлежит распределению цвета кожи, то пиксель заносится в область интереса Ob,(X,Y). В данном случае область интереса Ob,(X, Y) будет иметь форму объекта, захват которого осуществляется алгоритмом. Например, для лица область интереса Ob,(X,Y) в некотором кадре I,(V, W) может иметь эллипсоидную форму. Последовательное применение захвата области интереса Ob,(X,Y) к входным кадрам I,(V,JV), Іні(У,Ю --- Ii+k(y,W), решает задачу отслеживания объекта, если он изменил свое местоположение в кадре. Рассмотренный алгоритм позволяет успешно захватывать и отслеживать лицо и руки человека с различных позиций и ракурсов. Но в качестве основного алгоритма захвата и отслеживания области интересов Ob,(X, Y) для распознавания жестов, данного алгоритма недостаточно. Так как, с помощью алгоритма существует возможность захватить статический объект фона как область интереса Obt(X,Y), из-за совпадения цвета объекта и цвета человеческой кожи. Поэтому, данный алгоритм используется только как один из шагов основного алгоритма захвата и отслеживания, рассматриваемого в параграфе 2.4. Анализ жестикуляции человека, проведенный в первой главе, позволяет сформулировать следующие принципы выполнения и формирования моделей динамических жестов: 1. Жест - это заранее обусловленная траектория перемещения какой-либо части человеческого тела (например, кисти) в эвклидовом пространстве. 2. Одинаковые жесты имеют схожую траекторию и выполняются одной и той же частью человеческого тела. 3. Траектория перемещения части человеческого тела, выполняющей жест, непрерывна. 4. Скорость перемещения части человеческого тела, выполняющей жест, может оставаться неизменной или изменяться непрерывно. 5. Часть человеческого тела, выполняющая жест в каждый момент времени может находиться только в одной точке траектории ее перемещения. 6. Различные части человеческого тела выполняют различные жесты и в один и тот же момент времени их траектории перемещения не должны пересекаться. Метод формирования моделей динамических жестов, выполняемых кистями человека, включает два этапа: а) захват и отслеживание областей интересов Ob,(XuYi), содержащих перемещающиеся во времени t кисти и построение траекторий перемещения кистей человека, выполняющих жест; б) формирование по этим траекториям эталонных и распознаваемых моделей жестов. Алгоритмы захвата и отслеживания областей интересов Ob,(X„Yi), содержащих перемещающиеся во времени t кисти, рассмотрены в предыдущей главе. При построении распознаваемой модели жест выполняется однократно, а при построении модели эталонного жеста один и тот же жест выполняется многократно. Траектории перемещения каждого повторяемого жеста при этом могут не совпадать. Так, например, если каждая траектория перемещения имеет вид буквы «Z», то при повторении жеста будем иметь множество траекторий, показанных не рисунке 3.1. По осям х и у здесь откладываются координаты пикселей кадров. Каждое множество траекторий имеет свои характерные признаки. Для множества траекторий на рис. 3.1, имеющих вид буквы «Z», имеется участок траекторий, примерно параллельных оси х и получаемых при перемещении кисти слева направо, затем участок траекторий, получаемых при перемещении кисти сверху вниз примерно под 45 к оси х, и затем опять участок траекторий, параллельных оси х и получаемых при перемещении слева направо. Обобщено траектории перемещения повторяемых жестов, имеющих вид буквы «Z», можно представить в виде графа, показанного на рисунке 3.2. Вершина 1 этого графа объединяет множество точек (координат) траектории, принадлежащих началу траекторий, вершины 2 и 3 соответствуют множествам точек перегиба траекторий, вершина 4 объединяет множество точек- концов траекторий., дуги графа указывают на направление движения центра тяжести объекта по траекториям. Этот граф может служить основой для построения эталонной модели-жеста. Первая задача этапа формирования по траекториям эталонных моделей жестов, заключается в формальном (алгоритмическом) определении точек траекторий перемещения, которые должны быть отнесены к каждой вершине графа, чтобы можно; было в дальнейшем использовать его для: создания эталонных моделей жестов и последующего распознавания. Воспользуемся для решения» этой задачи следующим известным алгоритмом четкой-: кластеризации, чаще . всего называемым алгоритмом, кластеризации с-средних [ 10]. Множество точек траектории перемещения:, относящихся- к одной . вершине,называются кластером. Число точек кластера обозначим Ж Каждый кластер включает множество наборов значений характерных признаков ум, Ук2,—, "ы. Каждый: набор характерных признаков /, уи,--, У km образует точку ,( =1,.., ЛО вs/и-мерном пространстве. В основе алгоритма кластеризации с-средних лежит метод целевой функции. Целевая функция (критерий) создается таким образом, чтобы: 1) Минимизировать расстояние между точкой в кластере и центром кластера, 2) Максимизировать расстояние между центрами кластеров; Один из таких критериев известен как сумма квадратичных ошибок внутри класса, использующая евклидовую норму для характеристики расстояния. Этот критерий обозначается J(U, v), где U есть разбиение всех точек на кластеры (непересекающиеся подмножества точек, объединение которых совпадает с исходным множеством точек, разбиваемым на кластеры). Параметр v, есть вектор кластерных центров (множество кластерных центров), соответствующих разбиению U. Прежде, чем переходить к рассмотрению общей процедуры мультимодального агрегирования, рассмотрим процедуру формирования множества Y, и процедуру распознавания отдельным алгоритмом / с помощью функции //(д). В общем случае исходными для агрегирования являются / алгоритмов, / =1,..., т, использующих скрытые модальности. Нас не интересуют эти скрытые модальности и способы их агрегирования. Мы используем только результат работы каждого из этих алгоритмов, рассматривая его как источник новой отдельной модальности (сигнала) Yt, / = 0,. ..,т и функции принадлежности (yIJ),yIJeYl,i = 0,...,m, 1=0,...,пг Нашей задачей является агрегирование модальностей Yt,i = 0,...,m. Для того, чтобы сформировать множество Yf и функции принадлежности м(уУі) Уиіє, і = — т J) = 0 - п, каждый алгоритм проходит предварительную обработку в соответствии со следующей процедурой 1. Шаг 1. Задается совокупность пустых множеств Yk =0,к =\,...,К. Шаг 2. Для каждого эталонного объекта к, к=\,..., К, используя скрытые от нас модальности, формируется своя эталонная модель Gk,k =1,...,К. Шаг 3. Для распознаваемого объекта по тем же принципам и модальностям формируется модель G. Шаг 4. Модель G сравнивается с каждой моделью Gk,k=l,...,K, в результате чего вычисляется множество отсчетов {у),У ,—,у?}, характеризующих близость модели G соответственно к моделям G,\к =1,...,К. Шаг 5. Формируются множества Yfvyf, к =1,...,К, которые принимаются за новые множества Ytk. Если множества Ytk перестают изменяться, то осуществляется переход к шагу 6 (могут использоваться и другие критерии перехода к шагу 6). В противном случае процедура начинается с шага 2. Шаг 6. Множества Y объединяются, в результате чего получается к множество y;=Jy; , которое упорядочивается (если оно числовое, то упорядочивание осуществляется по возрастанию) и его элементы индексируются / = 1,...,777,./,=0,...,77,, в результате чего получается множество У, {уУі є / = 1,...,777, і =0,...,77,} . На множестве Yt задается функция принадлежности ju(y0), ytJ eYt ,/ = 1,...,/77, j = 0,...,/?,. Распознавание по любому отдельному алгоритму / с помощью функции ц(уц) может быть осуществлено в соответствии со следующей процедурой 2. Шаг 0. С помощью процедуры 1 осуществляется формирование множества Y, и функции принадлежности мІУ Уи, eY, i-0,...,т, j, = 0,...,77,. Шаг 1. Для каждого эталонного объекта к, к=\,,..,К, используя скрытые от нас модальности, формируется своя эталонная модель G, ,k =1,..., АГ. Шаг 2. Для распознаваемого объекта по тем же принципам и модальностям формируется модель G. Шаг 3. Модель G сравнивается с каждой моделью Gf,k=\,...,K, в результате чего вычисляется множество отсчетов {y),y ,...,yf}czYi, характеризующих близость модели G соответственно к моделям G,\&=1,...,AT. Шаг 4. Модель G считается совпадающей с той эталонной моделью G для которой значение //О, ),где у, У, максимально. Таким образом, функция принадлежности //( , ),где yf &Y, оценивает близость распознаваемой модели к соответствующей эталонной. Нашей задачей является агрегирование модальностей Ytii = \,...,m, для повышения надежности распознавания. Таким образом, общая процедура 3 агрегирования модальностей с помощью операторов Суджено или Шоке будет следующей. Шаг 1. Для каждой модальности (сигнала) Yt, /=1,...,/ выбрать значение g( )e[0,l], как степень важности модальности Yf. Значения g(Yt) могут быть установлены экспертом, получены в результате наблюдений или каким-либо другим путем. Шаг 2. Найти значение X, используя уравнение (4.7). Шаг 3. Для распознаваемого объекта по каждому алгоритму / = 1,...,/и и для каждого к = \,...,К вычислить множество функций принадлежности КУ Х У) Є 5 i=l,...,m. с помощью процедуры 2. Шаг 4. Для каждого k = l,...,K упорядочить множество функций МУ ) таким образом, чтобы (укл) fi(ykh) ... /j(ykJ,jne{l,...,m} Шаг 5. Для каждого к = \,...,К вычислить рекурсивно значения нечетких мер я( ),где б = {7Л,..., YJ, /=1,...,/я , используя формулу (4.8). Шаг 6. Вычислить для всех к = 1,..., К значения операторов Ак = Акс (или А - Лш ) Распознаваемый объект считается совпадающим с тем эталонным объектом, для которого значение Ак = Акс максимально. Рассмотрим пример распознавания человека по изображению его верхней части тела с помощью приведенной процедуры 3 [51]. Для распознавания человека использовались три алгоритма распознавания: Скрытая Марковская модель (СММ), Алгоритм определения цвета (АОЦ), Алгоритм нахождения соотношений (АНС). В алгоритме 1 используется модальность (множество отсчетов) Yx={yXji = PiJt-0 1 = 0,..., ), которая получается с помощью сформулированной в параграфе 4.3 процедуры, используя эталонные СММ Gxk,k=\,...,K. Этим СММ соответствуют вероятности Рхк,к=\,...,К распознавания с помощью этих моделей эталонных лиц, на которых происходило обучение моделей. Для вновь распознаваемого лица, используя те же модальности и модели Gxk,k=\,...,K, вычисляются вероятности Qx\k-\,...,K его распознавания с помощью моделей G . Множество отсчетов yf = Pf-Qf, k = 1,...,К вычисляется, как разность вероятностей PfnQf. На множестве Y{ ={ylA = Р1л QiA\j\ =0,...,л,} задается функция принадлежности v(y\j )J\ =0,...,щ. Ее график показан на рисунке 4.1а, из которого видно, чтоВыбор базового алфавита жестов
Алгоритм захвата и отслеживания основанный на анализе цвета области интересов
Принципы выполнения динамических жестов и формирования их моделей
Агрегирование модальностей с помощью операторов Суджено и Шоке
Похожие диссертации на Разработка и исследование методов захвата, отслеживания и распознавания динамических жестов