Содержание к диссертации
Введение
ГЛАВА 1. Архитектура интеллектуального мультимодального интерфейса 15
1.1. Постановка задачи 15
1.2. Определение интеллектуального мультимодального интерфейса
1.2.1. Пользовательские интерфейсы информационных систем 17
1.2.2. Эволюция пользовательских интерфейсов 21
1.2.3. Виды пользовательских интерфейсов 24
1.2.4. Принципы топологии пользовательских интерфейсов 28
1.2.5. Интеллектуализация пользовательского интерфейса 30
1.3. Архитектура интеллектуального мультимодального интерфейса 33
1.3.1. Архитектура интерфейса 33
1.3.2. Типы анализаторов ситуаций 41
1.3.3. Прототипирование интерфейсов 45
1.4. Аналитический обзор технологий разработки систем интеллектуального взаимодействия 48
1.4.1. Технология Gaia 48
1.4.2. Технология MaSE 50
1.4.3. Технология UML 52
1.4.4. Технология, основанная на теории графов (ТОТГ) 54
1.4.5. Технология, основанная на образцах (ТОО) 55
1.4.6. Технология, основанная на компонентах (ТОК) 56
1.4.7. Технология IDEF8 58
1.5. Выводы 61
ГЛАВА 2. Декларативно-процессная технология разработки 64
2.1. Постановка задачи 64
2.2. Определение процесса 65
2.2.1. Последовательное выполнение действий 68
2.2.2. Параллельное выполнение действий 68
2.2.3. Разветвление выполнения действия 69
2.2.4. Синхронизация выполнения действий 69
2.2.5. Слияние выполнения действий 70
2.3. Этапы формализованной разработки 71
2.3.1. Основные принципы технологии 71
2.3.2. Концептуализация 74
2.3.3. Структуризация 75
2.3.4. Бихевиоризация 76
2.3.5. Конкретизация 78
2.3.6. Спецификация 80
2.3.7. Реализация 2.4. Проверка функциональной правильности проекта ИМИ 82
2.5. Нахождение эквивалентности проектов ИМИ 85
2.6. Композиция проектов ИМИ 87
2.7. Оптимизация проекта ИМИ 89
2.8. Свойства ИМИ 2.8.1. Основные свойства 92
2.8.2. Дополнительные свойства 96
2.8.3. Проверка свойств проекта ИМИ 100
2.9. Принципы недетерминированной разработки ИМИ 103
2.10. Выводы 109
ГЛАВА 3. Формирование моделей восприятий в процессе спецификации 111
3.1. Постановка задачи 111
3.2. Захват и отслеживание на основе анализа изменений кадров в видеопотоке 114
3.3. Захват и отслеживание на основе анализа цвета 117
3.4. Захват и отслеживание на основе анализа изменений в кадрах, цвета и кластеризации 121
3.5. Захват и отслеживание на основе характерных признаков Хаара 127
3.6. Выводы 134
ГЛАВА 4. Нечеткое распознавание отношений в процессе спецификации 135
4.1. Постановка задачи 135
4.2. Отношения на восприятиях
4.2.1. Отношения на макросрезах 138
4.2.2. Отношения на макротрендах 141
4.2.3. Отношения на макротрендах и макросрезах
4.3. Процессные модели представления восприятий и поведений 148
4.4. Нечеткое процессное распознавание отношений 151
4.5. Выводы 156
ГЛАВА 5. Мультимодальное агрегирование в процессе спецификации 157
5.1. Постановка задачи 157
5.2. Операторы агрегирования 160
5.3. Агрегирование в распознавании объектов по трендам 162
5.4. Агрегирование в распознавании объектов по срезам 164
5.5. Распознавание ситуаций с использованием нечетких операторов агрегирования 167
5.6. Выводы 173
ГЛАВА 6. Распознавание жестовых модальностей 174
6.1. Постановка задачи 174
6.2. Классификация жестов человека 175
6.3. Алфавиты искусственных жестов 179
6.4. Модели распознавания
6.4.1. Скрытые Марковские модели 183
6.4.2. Нейронные сети 187
6.4.3. Байесовые сети 189
6.4.4. Другие модели
6.5. Анализ жестовых интерфейсов 192
6.6. Построение моделей динамических жестов 196
6.7. Распознавание отдельного жеста 205
6.8. Выводы 207
ГЛАВА 7. Программная реализация 208
7.1. Постановка задачи 208
7.2. Инструментарий программной реализации 209
7.3. Программная реализация технологии 214
7.3.1. Визуальный язык представления процессов 214
7.3.1. Архитектура программной системы 218
7.4. Результаты экспериментов 222
7.5. Выводы 238
Заключение и общие выводы 240
Литература 243
- Эволюция пользовательских интерфейсов
- Параллельное выполнение действий
- Захват и отслеживание на основе анализа цвета
- Процессные модели представления восприятий и поведений
Введение к работе
Актуальность темы. В период с 2002 по 2003 год объединенным исследовательским центром IPTS Европейской Комиссии в сотрудничестве с Европейской научной и технологической обсерваторией ESTO был разработан проект «IPTS/ESTO Science & Technology Road Mapping», посвященный решению трех вопросов:
Какие основные социальные задачи стоят перед Европой?
Какие новые информационные технологии могут быть использованы для решения этих задач?
Как решать указанные социальные задачи с помощью новых информационных технологий?
Основными целями проекта было прогнозирование политики исследований и разработок на европейском уровне посредством создания так называемых проблемных технологических дорожных карт (планов развития) вплоть до 2025 года. В частности, в проекте было рассмотрено направление развития под названием Ambient Intelligence {AmI - окружающая интеллектуальность). Понятие «Ambient Intelligence» характеризует видение будущего информационного общества как совокупности всеобъемлющих и всюду проникающих компьютеризации, коммуникативности и интеллектуальности мультимодального пользовательского интерфейса, как это определено IST AG.
Развитие окружающей интеллектуальности нацелено на разработку и реализацию таких технологий, которые обеспечат улучшение качества человеческой жизни в условиях естественного взаимодействия человека с окружающей средой. Это естественное взаимодействие (интерфейс) предполагает наличие трех факторов:
а) воздействие человека на состояния внешней среды с помощью
естественных для него модальностей (речи, жеста, мимики, сигналов мозга и
т.п.);
б) адекватную реакцию среды на воздействия человека интуитивно
понятным для него образом;
в) интеллектуальность окружающей среды, состоящую в способности
понимать ею смысл и значение человеческих мультимодальных воздействий
на нее, накапливать знания о человеке путем наблюдений за процессом
взаимодействия, совершенствовать на их основе процесс взаимодействия и
качество ответных реакций.
К настоящему времени прошло уже более десяти лет с тех пор, как было анонсировано направление окружающей интеллектуальности, написано множество цитируемых статей на эту тему (Aarts Е., Alcaniz М., Rey В., Cook D.J., Augusto J.C., Jakkula V.R., Tistarelli M., Schouten В., Abate A.F., Marsico M., Riccio D., Tortora G., Hagras H., Callaghan V., Colley M., Clarke G., Pounds-Cornish A., Duman H., Shadbolt N., Emiliani P., Stephanidis C, Issarny V.,
Sacchetti D., Tartanoglu F., Sailhan F., Chibout R., Lvy N., Talamona A.),
выполнено значительное число финансовоемких научно-исследовательских
проектов (MonAMI, Persona, CompanionAble, Florence, Netcarity, universAAL,
Caalyx-MV, Llm, Air Lab, Philips HomeLab), подтверждающих
плодотворность выбранного направления. Тем не менее, ключевая задача –
создание интеллектуальных мультимодальных интерфейсов, не решена. На
эту тему также написано много статей (Грибова В.В., Гриф М.Г., Вежневец
В.П., Карпов А.А., Липатов А.А., Сергеев С.Ф., Стефанюк В.Л., Ронжин А.Л.,
Фархадов М.П., Sharma R., Maybury M.T., Kono Y., Dumas B., Lalanne D.,
Sharon L., Lisowska A., Armstrong S., Moreau B., Ren J., Gutierrez M., Thalmann
D., Vexo F., Azra A.N., Cohen P.R., Boeck J., Dowell J., Shmueli Y., Shinjo H.,
He F.), но общей технологии разработки интеллектуальных
мультимодальных интерфейсов не создано. Этим и объясняется
чрезвычайная актуальность диссертационной работы, которая является пионерской среди работ, посвященных созданию такой технологии.
Объект исследования: технология, модели, методы и программы интеллектуальных мультимодальных интерфейсов.
Предмет исследования: структура формализованной разработки интеллектуальных мультимодальных интерфейсов, сущность методов технологии, их теоретическое обоснование, взаимосвязь, сложность, надежность и экспериментальное апробирование.
Цель работы и задачи исследований. Целью работы является
создание декларативно-процессной технологии интеллектуальных
мультимодальных интерфейсов (ИМИ), позволяющей формализовано разрабатывать ИМИ для решения современных задач окружающей интеллектуальности.
Для достижения этой цели были поставлены и решены следующие задачи:
-
Выполнить сравнительный аналитический обзор существующих технологий разработки систем интеллектуального взаимодействия.
-
Создать декларативно-процессную технологию формализованной разработки ИМИ.
-
Разработать свойства ИМИ.
-
Разработать вычислительно эффективный метод захвата и отслеживания модальностей в видеопотоке в ИМИ.
-
Разработать вычислительно эффективный метод распознавания отношений в ИМИ.
-
Разработать вычислительно эффективный метод распознавания ситуаций в ИМИ.
-
Провести экспериментальное апробирование надежности, устойчивости и быстродействия методов ИМИ. Методы исследования. Методы исследований базировалась на теории,
искусственного интеллекта, математической логике, теории процессов,
нечетких исчислениях, теории цифровой обработки изображений и распознавания образов, теории пользовательского интерфейса, статистическом анализе и математическом моделировании, методах объектно-ориентированного и логического программирования, методах разработки программного обеспечения.
Научная новизна. Главной особенностью результатов диссертации с точки зрения новизны является декларативно-процессный иерархически организованный подход к разработке ИМИ, в основе которого, с одной стороны, лежит теория автоматизированного логического проектирования дискретных управляющих систем, развитая в работах В.В. Девяткова, а с другой стороны теория параллельных взаимодействующих процессов, развитая в работах Р. Милнера. В результате симбиоза этих теорий в диссертационной работе разработана новая комплексная декларативно-процессная технология разработки ИМИ, включающая набор новых методов и позволяющая осуществлять формализованную поэтапную иерархическую разработку ИМИ, начиная с формулировки требований и заканчивая программной реализацией. Основными не имеющими аналогов чертами этой декларативно-процессной технологии разработки ИМИ являются следующие возможности:
Экспертное формальное описание ИМИ как совокупности иерархически организованных параллельных взаимодействующих последовательностных процессов на визуальном языке представления процессов или на адекватном ему символьном языке процессных выражений.
Экспертная формулировка свойств ИМИ в виде множества утверждений на языке временной модальной логики и их проверки, с помощью методов дедуктивного логического вывода.
Автоматическая проверка функциональной правильности ИМИ, композиционных, оптимизирующих и эквивалентных преобразований формальных описаний ИМИ с целью достижения требуемых характеристик.
Автоматическое по результатам наблюдения за пользователями и средой и экспертное формирование процессных моделей мультимодального пространственно-временного поведения объектов, как внешних по отношению к среде, так и внутренних.
Автоматическое и экспертное распознавание внешних и внутренних пространственно-временных отношений объектов и ситуаций в процессах ИМИ по результатам наблюдения за пользователями и средой.
Результаты экспериментального апробирования разработанных методов, подтверждающих их высокую эффективность и возможность использования для ИМИ реального времени.
Практическая значимость и реализация. На основе декларативно-процессной технологии разработки ИМИ, включающей набор новых методов и осуществляющей формализованную поэтапную иерархическую разработку ИМИ создано интегральное программное обеспечение, которое позволяет решать основные задачи диссертационной работы. На созданное программное обеспечение получены три Свидетельства (№2011615168, №2012617544, №2015617781) Российской Федерации о государственной регистрации программ для ЭВМ, а также патент (№2422878) Российской Федерации.
Программное обеспечение прошло экспериментальную проверку в программно-аппаратном комплексе «Intelligent TV» компании «NXP Semiconductors founded by Philips», в программно-аппаратном комплексе «VTOL IT» компании «Ситисофт», в программно-аппаратном комплексе «ПУО» НПЦ «Спецтехника», в программно-аппаратном комплексе «BioPlux» компании «Plux», в программном комплексе «ВАГШ» компании «РусБИТех».
Исследования по теме диссертационной работы проводились при поддержке грантов: Президента РФ МК-3013.2010.9, Стипендии Президента РФ СП-687.2013.5, РФФИ №13-07-92694 и в рамках НИР: Хоздоговор №528-2066434.2006-2008, Темплан Минобрануки РФ №1.32.11, Госзадание №8.1415.2011-2013, Госзадание №1204.2014-2016.
Материалы диссертационной работы используются в учебном
процессе кафедры информационных систем и телекоммуникаций МГТУ им.
Н.Э. Баумана в курсах «Протоколы и интерфейсы информационных
систем», «Цифровая обработка изображений», «Мультиагентные
интеллектуальные системы».
Публикации. Основные результаты работы изложены в семидесяти научных публикациях, из них в журналах по списку ВАК – 23, публикации, индексируемые Scopus – 7. По теме диссертационной работы опубликована монография, три учебных пособия.
Апробация результатов работы. Результаты диссертационной работы
были доложены на 25 конференциях и научных семинарах, в том числе:
семинаре для инженеров компании Philips (Эйндховен, 2006), 2-й
международной конференции «Системный анализ и информационные
технологии» САИТ07 (Обнинск, 2007), 16-й международной конференции в
Центральной Европе по компьютерной графике, визуализации и
компьютерному зрению WSCG08 (Пльзень, 2008), всероссийской
конференции Интеллектуальные системы-09 в рамках ИКТМР-09
(Дивноморское, 2009), 12-ой национальной конференции по искусственному
интеллекту с международным участием КИИ10 (Тверь, 2010), 5-х
Поспеловских чтениях по искусственному интеллекту (Москва, 2011), 6-ой
международной научно-практической конференции интегрированные
модели и мягкие вычисления в искусственном интеллекте (Коломна, 2011),
14-ой международной научно-технической конференции по системному
анализу и информационным технологиям SAIT (Киев, 2012), 6-ой
международной конференции по биомедицинским электронным
устройствам Biodevices (Барселона, 2013), 7-й международной научно-практической конференции по новым информационным технологиям в образовании (Екатеринбург, 2014), научном междисциплинарном семинаре МГТУ им. Н.Э. Баумана Экобионика (Москва, 2015).
Структура и объем работы. Диссертационная работа состоит из введения, семи глав, заключения, списка литературы, приложения, занимающих 278 страниц текста, в том числе 57 рисунков на 28 страницах, 7 таблиц на 6 страницах, список литературы из 323 источников на 30 страницах, приложение на 6 страницах.
Научные положения, выносимые на защиту:
-
Декларативно-процессная технология разработки ИМИ как совокупности иерархически организованных параллельных взаимодействующих последовательностных процессов.
-
Свойства ИМИ в виде множества утверждений на языке временной модальной логики.
-
Метод автоматического по результатам захвата и отслеживания модальностей в видеопотоке и экспертного формирования процессных моделей в ИМИ.
-
Метод автоматического и экспертного распознавания внешних и внутренних пространственно-временных отношений объектов в процессах ИМИ по результатам наблюдения за пользователями и средой.
-
Метод автоматического и экспертного распознавания внешних и внутренних ситуаций с использованием нечетких операторов агрегирования в процессах ИМИ по результатам наблюдения за пользователями и средой.
-
Результаты экспериментального апробирования разработанных методов, подтверждающих их высокую эффективность и возможность использования для ИМИ реального времени.
Эволюция пользовательских интерфейсов
Сегодня, основные исследования технологий окружающей интеллектуальности направлены на создание пользовательских интерфейсов для информационных систем, особенно массового и бытового применения, которыми может пользоваться любой человек вне зависимости от возраста, пола, образования [92, 95, 135, 222, 235, 169, 58]. Разработчики этих интерфейсов уверены [1, 2, 52, 54, 101, 105, 106], что вместо того чтобы обучать человека пользованию информационной системой нужно создавать интерфейсы, которые достаточно интуитивны, чтобы легко и естественно взаимодействовать с пользователями. Для разработки и реализации подобных «безбарьерных» систем, исследователи используют большое разнообразие технических инструментов: виртуальную реальность, мультиагентные и сетевые технологии, логические вычисления, распознавание образов и модальностей.
В системах группового управления пользовательский интерфейс играет особенно важную роль. Для анализа и управления сложными объектами требуется оперативное принятие решений за приемлемое время целой команды ответственных лиц. Для этого необходимо обеспечить быстрый доступ к большим объемам информации и иметь технологию, допускающую выработку скоординированных решений.
Однако использование этой информации с помощью традиционных пользовательских интерфейсов требует длительного обучения всех участвующих в процессе анализа и принятия решений, и часто этот интерфейс не столько помогает, сколько мешает коллективной работе команды, отвечающей за принятие решений [53, 287]. Традиционные интерфейсы, в основном, используют такие средства как монитор, мышь, клавиатура, причем жестовые и голосовые модальности, то есть способы взаимодействия, с помощью которых пользователь системы общается со своим напарником, передавая ему информацию о ситуации, в традиционных интерфейсах совершенно не учитываются. Существующие геопространственные информационные технологии также не поддерживают групповой работы, и в настоящее время нет ясного научного взгляда на то, как различные группы должны работать в условиях ситуации, используя геопространственную информацию для сбора, обработки и принятия решения, как расширить возможности интерфейса для людей с дефектами слуха и речи.
Вопрос о том, как установить датчики, видеокамеры, микрофоны и распознавать жестовые, голосовые команды, а также ситуации, в которых происходит взаимодействие пользователей между собой и со средой, остается открытым. Проведенные в этой области исследования так и не привели пока к разработке пользовательского интерфейса, работающего в реальном времени, обеспечивающего интуитивное взаимодействие пользователя со средой посредством компьютера и позволяющего управлять возникающими ситуациями естественным образом (жестами, голосом, мимикой), используя методы искусственного интеллекта и методы распознавания образов. Причем следует отметить, что интерфейс не ограничивается только взаимодействием с персональным компьютером как со средой. Среда в технологиях окружающей интеллектуальности может быть чрезвычайно разнообразной. Это может быть виртуальная реальность, роботы, бытовые приборы и др.
В отличие от традиционных пользовательских интерфейсов, мультимодальные интерфейсы дают возможность пользователям взаимодействовать с миром посредством комбинаций модальностей, например, речи, жеста, тактильного экрана, сигналов мозга, дисплея, клавиатуры, указок, тактильных датчиков. Они обеспечивают значительную гибкость, и возможность использования более широким кругом лиц, чем когда-либо прежде. Особо следует отметить такое преимущество мультимодального интерфейса, как его способность уменьшать вероятность ошибки, по сравнению с унимодальными интерфейсами [287, 109].
Для того, чтобы развивать мультимодальный интерфейс необходимо знание способов интеграции (агрегирования) модальностей. Учитывая сложный характер мультимодального взаимодействия со средой, для того, чтобы создать хорошую мультимодальную систему, необходимо рассмотреть каждую модальность в совокупности с другими. В хорошо разработанной мультимодальный архитектуре различные модальности дополняют друг друга и предотвращают от ошибок взаимодействия [169].
Развитие мультимодального интерфейса требует решения задач ввода модальностей и решения вычислительных задач их обработки. При этом отобранные модальности должны допускать указание как элементов геопространственных областей (посредством речи и жестов), так и указание коллективных аспектов работы группы. Решение вычислительных задач требует развития надежно работающих в реальном времени алгоритмов для слежения за людьми, распознавания динамических жестов, распознавания произносимых слов и т.п.
Особую роль в интерфейсах играет естественный язык, используемый пользователем как входная и выходная модальность [41, 92]. Средства интерфейса воспринимают речь пользователя и реагируют на нее также речевым образом. К сожалению, долгие годы исследований в этом направлении так и не привели к настоящему времени к созданию интерфейса, способного полностью взаимодействовать с пользователем на речевом уровне. Однако определенные успехи в этом направлении достигнуты [112, 97, 93].
В частности, процесс преобразования аналогового речевого тренда в последовательность цифровых значений, которые используются для распознавания и выделения фонем и слов в настоящее время достаточно развит и широко используется. В распознавании смысла слов и предложений, состоящих их этих слов, также достигнуто немало успехов. Однако, число нерешенных проблем все еще значительно. В частности, человеческая речь изобилует синтаксически неправильными высказываниями, двусмысленностями, метафорами, которые зачастую невозможно распознать без анализа контекста и знания состояния мира. Для того, чтобы корректно распознать естественную речь, необходимо увеличивать объем информации, требуемой для распознавания смысла, до такого уровня, что работа в реальном времени может стать невозможной и, следовательно, речевой интерфейс становится бессмысленным. Кроме того, при распознавании смысла слов могут быть допущены ошибки, являющиеся следствием шума, искажений аппаратуры, особенностей голоса говорящего (хрипоты, сиплости, заикания), которые не всегда удается преодолеть.
Параллельное выполнение действий
Задачей данной главы является разработка декларативно-процессной технологии формализованной разработки интеллектуальных мультимодальных интерфейсов (ИМИ). Проект ИМИ задается в формальной системе: ФС1={Я1,П1М}, где Я1 - язык параллельных взаимодействующих последовательностных процессов (в дальнейшем просто процессов), использующийся для описания проекта ИМИ, П 1 -правила на языке процессов, представляющие собой непосредственно проект ИМИ, М - дедуктивная машина вывода.
Для решения этой задачи в настоящей главе выполнено: 1. Определены понятия процессов проекта ИМИ, заданного в формальной системе ФС1. 2. Разработаны основные этапы технологии формализованного создания ИМИ. 3. Разработаны методы проверки функциональной правильности проекта ИМИ, нахождения эквивалентности проекта ИМИ, композиции и оптимизации проекта ИМИ. 4. Выделены декларативные свойства, которым должен удовлетворять разработанный ИМИ.
Таким образом, дуальность технологии разработки ИМИ, заключается в том, что в ФС1 проверяется процедурная семантика проекта ИМИ, тогда как для проверки декларативной семантики задается метаформальная система: ФС2 = {Я2,П2М2}, где Я2 - язык модальной логики, использующийся для описания свойств ИМИ, П2 - свойства ИМИ на языке модальной логики, М2 -дедуктивная машина вывода. 2.2. Определение процесса
С каждым процессом связан его алфавит восприятий и реакций Act = {а0, аи..., атА}. Каждый символ а этого алфавита именует некоторый объект, получаемый (воспринимаемый) процессом из внешней среды (восприятие процесса), выдаваемый процессом во внешнюю среду (внешняя реакция процесса) или объект, используемый процессом для внутренних нужд (внутренняя реакция процесса). Процессы действуют, воспринимая, порождая для внутреннего употребления или выдавая наружу объекты с соответствующими именами. Для того, чтобы различать типы действий будем использовать следующие обозначения: а для восприятий, !а - для внешних реакций, Ъа или просто Ъ - для внутренних реакций.
В зависимости от уровня абстракции внутренняя реакция может трактоваться по-разному. Внутренняя реакция может быть скрытым процессом, структура которого нас не интересует, и тогда это просто имя или метка места, где соответствующий процесс вызывается. Имя места можно рассматривать также как задержку на выполнение некоторого скрытого процесса или состояние процесса, которому эта реакция принадлежит и в которое процесс перешел после достижения этого места. Внутренняя реакция может вообще не употребляться или, наоборот, вводиться в определенном месте.
Для решения практических задач наряду с непараметризированными процессами и действиями используются также параметризированные, указывая в скобках после имени процесса или действия соответствующие параметры. В этом случае будем считать, что процессы оперируют не просто объектами а, но объектами с параметрами (совершают действия с параметрами) в виде а(), где - дополнительный параметр из Fa/ = {v0,v1,...,vm1}, который может обозначать сложность выполнения действия а, момент времени, в который произошло действие а, приоритет действия а, некоторый объект, признаком которого является действие а, степень принадлежности некоторому нечеткому множеству действия а и т.д.
Нитью а будем называть кортеж (конечный или бесконечный) действий афха2…ат.2ат_і , т.е. а= афха1…ат.1ат.1 . Выполнением нити называется последовательность выполнения действий в порядке их записи в нити слева направо, т. е. осуществление в порядке слева направо по порядку восприятия или реакции. Символом е обозначим пустое действие. Нить, состоящая из единственного пустого действия, называется пустой нитью.
Процессом Р называется множество нитей S, которые он может выполнять. Воспользуемся для описания множества нитей S языком регулярных выражений [212]. Если нить я = адя2… А-; конечна, то ее описание в языке регулярных выражений определяется как Р = a0.a1.a2...am2.am_1.0., все действия разделяются точками, Р - имя процесса такого, что множеству P\S) принадлежит нить все ее начала, а 0 - пустой процесс, т.е. Р(О)=0. Наличие пустого процесса после действия am.i означает конец нити а (после действия ат.! не следует никаких действий). Если процесс слишком длинный, например, Р = а[.аа2 ...аата.а1 .а2...ащ...а1.а2...а(т .0., то он может быть представлен как кортеж процессов:
Захват и отслеживание на основе анализа цвета
Рассмотренная в предыдущей главе декларативно-процессная технология формализованной разработки интеллектуальных мультимодальных интерфейсов, позволяет вручную создать проект ИМИ. Однако, в технологии на этапе спецификации процессы правил и ситуаций, могут быть сгенерированы автоматически, путем обучения разработанного ИМИ взаимодействию с пользователем конкретными модальностями. Для этого необходимо развить процессные модели представления, распознавания, агрегирования отношений и ситуаций, что будет сделано в следующей главе. Но чтобы придать интерфейсу способности анализа внешней среды необходимо вначале развить преобразователь восприятий ИМИ (раздел 1.4.1) и разработать методы формирования моделей восприятий.
Для того, чтобы решать эту задачу преобразователь восприятий должен уметь по физическому представлению восприятий различными средствами интерфейса формировать абстрактное (математическое) представление восприятий в виде моделей восприятий. Одним из самых распространенных средств интерфейса являются устройства получения цифрового изображения на основе анализа электромагнитного излучения: видеокамеры, инфракрасные сенсоры, приборы ночного видения и др. Рассмотрим процессы формирования моделей восприятий по восприятиям, получаемым от видеокамер, как наиболее типичных и востребованных в интеллектуальном мультимодальном интерфейсе. Физическое представление восприятий объекта (например, кисти человека, совершающей жест), формируемое цифровой видеокамерой в момент времени t и являющееся множеством пикселей ПЗС-матрицы (матрицы прибора с зарядовой связью) будем называть кадром. Кадр, получаемый камерой в момент времени t и имеющий по горизонтали V, а по вертикали W пикселей, обозначим It(V,W). Общее количество пикселей в кадре равно VxW. Отдельный пиксель в кадре будем обозначать It(v,w), veV, WGW. Видеопотоком будем называть последовательность кадров
Множество пикселей кадра I(V,W), очерчивающих интересующий нас объект (например, кисть руки или лицо пользователя) называется областью интересов. Множество пикселей кадра, не принадлежащих области интереса, называется фоном. Область интересов может быть прямоугольной, эллиптической, круглой или какой либо иной. Обозначим Obt(X,Y) прямоугольную область интересов, захватываемую в кадре It(V,W) и содержащую множество пикселей X по вертикали и 7 по горизонтали. Отдельный пиксель в области интересов будем обозначать ОЪ{х,у), xeX,yeY. Захватом области интересов называется выделение ее в кадре в момент времени t.
Отслеживанием области интересов называется процесс последовательного захвата в кадрах It(V,W), It+l(V,W), ... , It+n(V,W) t=ts, t+n=te областей интереса Obt{XtJt\ Obt+l{Xt+lJt+l\ ... , Obt+n{Xt+nJt+n) содержащих соответственно интересующие нас образы объекта Qt,Qt+l,...,Qt+n.
Здесь t=ts - некоторый момент начала отслеживания, а t+n=te - момент окончания отслеживания. В дальнейшем вместо словосочетания «образ объекта» будем говорить просто «объект». Центральным в задаче формирования моделей представления восприятий является обнаружение областей интереса Obt(Xt,Yt), Obt+l(Xt+l,Yt+l), ... , Obt+n(Xt+n,Yt+n) содержащих соответственно интересующие образы объекта 0/,0/+1,...,0/+и. После их обнаружения построение моделей восприятий сводится к вычислению для каждого объекта в каждый момент времени значений отсчетов и последующего построения всех моделей восприятий. Процесс обнаружения областей интереса Obt(Xt,Yt), Obt+l(Xt+lJt+l\ ... , Obt+n(Xt+nJt+n) содержащих образы объекта Є,Д+1,...,Є,+И называется захватом и отслеживанием областей интересов.
Задачей настоящей главы является разработка методов захвата и отслеживания, использующих как базовые принципы анализа: анализ изменений кадров в видеопотоке, анализ цвета объектов в видеопотоке, анализ характерных признаков Хаара, так и их комбинации.
Процессные модели представления восприятий и поведений
Поскольку модальность - это некоторая присущая человеку форма взаимодействия с интерфейсом с помощью жестов, голоса, мимики и т.п., то за этой формой стоит объект, являющийся источником модальности. Например, это может быть кисть руки или речевой аппарат человека. Восприятием преобразователя восприятий в каждый момент времени t является некоторый набор значений признаков, характеризующих состояние множества подобных объектов. Эти наборы значений будут использоваться для выявления различных ситуаций, связанных с поведением среды и пользователей. Введем дискретную шкалу виртуальных моментов времени Т = {t\teN}, такую, что разность Аґ=ґг+1 - ґг между двумя соседними отсчетами времени является константой. Определим на шкале Т временной интервал [ , ]={ ts t te). Основная идея выявления интересующих интерфейс ситуаций состоит в выявлении отношений между значениями признаков на интервале Т, начиная с некоторого начального 0-го уровня отношений. Значения отношений 0-го уровня рассматриваются как признаки следующего уровня. На этих признаках вновь выявляются значения отношений и так до тех пор, пока ситуация не будет выявлена окончательно. Отношения 0-го уровня являются количественными. Отношения последующих уровней являются качественными, но могут использовать количественные шкалы для оценки их качества. Качественные отношения позволяют характеризовать мир в естественной для человек манере на интуитивном уровне [147] и рассуждать в условиях, когда количественные признаки виртуальных объектов не требуются или невозможны [126], что особенно полезно при интеллектуальном интерфейсе.
Качественным пространственным представлениям в последнее десятилетие уделялось много внимания. Известны обзоры на эту тему [152]. Было развито много пространственных исчислений, использующих топологические [151] или позиционные рассуждения [178], а также рассуждения на интервалах [126]. Известны программные реализации этих методов пространственных рассуждений [168]. Работ, учитывающих одновременно как пространственные, так и временные изменения сравнительно немного [194, 249, 311] и, в отличие от настоящей работы, методологически они проработаны недостаточно глубоко и используют, как правило, четкое представление отношений.
Будем полагать, что каждый признак 0-го уровня какого-либо объекта 0, получаемый ИМИ в момент времени t, может принимать значение 1а1. (0,), і0 є {1,..., т0}, которое назовем отсчетом. Кортеж отсчетов Yio[Qts, 0, ] = (? о(0гs\..., 1ak(Qt )),i0 є{1,..., m0} одного признака 0-го уровня в течение нескольких подряд идущих моментов времени ts,…,te (в течение временного интервала [ts, ]) назовем трендом. Множество отсчетов K(Qt) = {?a1(Qt\...,?amo(Qt)}, принадлежащих т0 различным трендам в момент времени t назовем срезом. Кортеж срезов di(Q) = (K(Qt),...,K(Qt)) назовем потоком срезов. Совокупность трендов 2l(0)={71[0/, 0, ], Y2[Qt, J,..., 7„je J} назовем потоком трендов. Будем полагать, что каждое отношение 0 уровня и 1 объектов множества {0 ,0 ,...,0 }, задаваемое на множестве признаков уровня v u, может принимать множество значений з (0/), іиє{\,..., ти), называемых признаками уровня и или макроотсчетами. Макротрендом будем называть кортеж Y\ 0, , 0, ] = (? а, (0, ),..., а, (0, )), /„ є {1,..., ти } . Макросрезом и s е \ и s и є і будем называть множество я:(0,) = {7 (0Д...,7 (,)}. Макропотоком макросрезов будем называть кортеж Ш(&) = (к(&{),...,K(&t)) Макропотоком макротрендов будем назвать множество 51(0)={71[0, , 0J, Y2[Gt, 0J,..., Ym\ts, 0J}. 138 Задачей преобразователя восприятий является построение отношений всех уровней, необходимых для последующего построения модели представления восприятий. Для понимания сути предлагаемого подхода ограничимся отношениями 0= {Q1,Q2t} на множестве двух объектов Є1Д2. Каждый объект имеет соответственно признаки 0-го уровня ?а11(е1)=х10(),?«12(е1)=з4), М)= , 21Ю=4(), ?a22(Qt ) =.У0(), a23(Qt) = at, обозначающие соответственно координаты центров тяжести объектов в глобальной системе координат х0,у0 с центром, находящимся в левом нижнем угле кадра и углы поворота по часовой стрелке осей абсцисс локальных систем координат объектов (начало локальной системы координат совпадает с центром тяжести объекта) относительно оси х0. Центры тяжести объектов Є1, Є2 будем обозначать черными кружками (рис. 4.1). Используя признаки 0-го уровня в качестве исходных, рассмотрим наиболее типичные, отношения 1-го уровня между объектами е1,0, на срезах, макросрезах и макротрендах.