Введение к работе
Актуальность темы диссертации. Предоставление проактивных информационно-управляющих сервисов на основе анализа поведения пользователя и окружающей обстановки является основной идеей в концепции окружающего интеллектуального пространства. Одним из примеров такого пространства является интеллектуальный зал, который оснащен сетью программных модулей, активационных устройств, мультимедийных средств и аудиовизуальных сенсоров. Осведомленность зала о пространственном положении участников, их текущих действиях, роли в текущем мероприятии и их предпочтениях обеспечивает интеллектуальное управление встроенным оборудованием. На практике подобные интеллектуальные залы чаще всего функционируют в автоматизированном режиме при поддержке экспертов-операторов. Применение математического и программного обеспечения обработки аудиовизуальных данных в ходе мониторинга мероприятий в зале позволяет определить текущие положения участников, время их выступлений, этапы мероприятий и автоматизировать персонифицированную запись (протоколирование) мультимедийных данных.
Одной из целей аудиовизуального мониторинга является определение временных моментов (событий) изменения состояния (положения в пространстве и поведения) участников мероприятий, к которым относится появление нового участника в зале, выступления докладчиков и реплики сидящих в зале слушателей. При небольших совещаниях, когда все участники расположены за одним столом, эффективно использование персональных или панорамных видеокамер, увеличение же числа участников ведет к расширению пространства и повышению стоимости технических средств, необходимых для выполнения мониторинга. Другой целью аудиовизуального мониторинга является автоматическая запись и анализ аудиовизуальных данных, отражающих происходящие в зале события, для определения текущей ситуации в интеллектуальном зале. Автоматический анализ собранных многомодальных данных осложняется тем, что участники произвольно меняют положение тела, головы, направление взгляда. Для того чтобы обеспечить захват и слежение за участниками мероприятия применяются панорамные видеокамеры, PTZ (Pan/Tilt/Zoom) камеры с функциями наклона, поворота и масштабирования, массивы видеокамер и микрофонов. Нахождение источника звука с помощью массива микрофонов эффективно лишь в малых лекционных или конференц-залах. Для аудиозаписи в больших помещениях используют персональные микрофоны для всех участников или применяют систему массивов микрофонов, распределенную по всей аудитории. Совместный анализ аудио- и видеоданных, записываемых в процессе мониторинга зала совещаний, является предметом изучения в ряде текущих российских и зарубежных научных проектов. Отсутствие математических и программных средств автоматического протоколирования регламентированных совещаний на основе определения поведения участников и этапов мероприятия в интеллектуальном зале обуславливает актуальность задачи разработки средств автоматизации аудиовизуального мониторинга, решаемой в данном диссертационном исследовании.
Цель работы и задачи исследования. Основной целью диссертационной работы является разработка методов, алгоритмов и программных средств записи и анализа аудиовизуальных данных, обеспечивающих сокращение времени и затрат на поддержку проведения мероприятий за счет автоматизации процессов управления мультимедийным, аудио- и видеозаписывающим оборудованием. Для достижения поставленной цели в работе решены следующие задачи:
-
Анализ современных методов и подходов к распределенной обработке аудиовизуальных данных, записываемых в ходе мониторинга прототипов интеллектуального пространства.
-
Разработка метода автоматической регистрации участников регламентированных мероприятий в интеллектуальном зале на основе многоканальной записи и обработки аудио- и видеосигналов, полученных в ходе мониторинга зон зала.
-
Разработка метода автоматической записи выступлений участников в интеллектуальном зале, учитывающего особенности поведения пользователя на основе обработки аудиовизуальных данных.
-
Разработка прикладных программных средств аудиовизуального мониторинга и определения ситуации в интеллектуальном зале, обеспечивающих определение и слежение за перемещением участников, их регистрацию и запись выступлений в ходе мероприятия на основе многоканальной обработки аудио- и видеосигналов.
Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки аудиовизуальных сигналов, теории информации, теории множеств, статистического анализа, сегментации изображений. Компьютерная реализация разработанных алгоритмов производилась на основе объектно- ориентированного подхода.
Положения, выносимые на защиту:
-
-
Функциональная модель мониторинга интеллектуального зала на основе распределенной обработки аудиовизуальных сигналов, использующая пространственно-временную структуризацию данных о поведении участников внутри анализируемого помещения, обеспечивающая формирование мультимедийного отчета и сбор персонифицированных данных для настройки профилей участников.
-
Метод автоматизации регистрации участников мероприятия за счет применения многоэтапной процедуры бимодального анализа зон зала, позволяющий определить находящихся в нем участников и получить аудиовизуальные данные, необходимые для идентификации присутствующих.
-
Метод аудиовизуальной записи выступлений участников в интеллектуальном зале с применением бимодального подхода к определению активного диктора, обеспечивающий автоматический захват и синхронизацию аудио- и видеопотоков данных выступающего в зале участника.
-
Комплекс программных средств аудиовизуального мониторинга и определения ситуации в интеллектуальном зале, обеспечивающий обработку аудиовизуальных потоков данных от набора сетевых камер и массивов микрофонов для определения и слежения за перемещением участников, их регистрацию и запись выступлений в ходе мероприятия в интеллектуальном зале.
Научная новизна работы состоит в следующем:
-
-
-
Разработана функциональная модель мониторинга интеллектуального зала на основе распределенной обработки аудиовизуальных сигналов, отличающаяся применением пространственно-временной структуризации данных о поведении участников внутри анализируемого помещения и обеспечивающая формирование мультимедийного отчета и сбор персонифицированных данных для настройки профилей участников.
-
Разработан метод автоматизации процесса регистрации и хода проведения мероприятия, отличающийся анализом профилей участников, включающих личные данные и историю их поведения в зале, для прогнозирования ситуации и настройки программно-аппаратных средств интеллектуального зала согласно их предпочтениям.
-
Разработан метод аудиовизуальной записи выступлений участников в интеллектуальном зале, отличающийся применением бимодального способа определения активного диктора и синхронизацией аудио- и видеопотоков при их распределенной записи и обработке.
-
Создан комплекс программных средств аудиовизуального мониторинга и определения ситуации в интеллектуальном зале, обеспечивающий обработку аудиовизуальных потоков от набора сетевых камер и массивов микрофонов для определения и слежения за перемещением участников, их регистрации и записи выступлений для формирования мультимедийного отчета о мероприятии в интеллектуальном зале.
Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.
Практическая ценность работы. Разработанные методы, программные средства автоматизации записи и обработки аудиовизуальных данных, а также рекомендации по проектированию интеллектуальных залов, направленные на сокращение ресурсов, необходимых для организации, проведения и протоколирования хода мероприятий (например, совещание, лекция, семинар, заседания ученого совета, круглый стол) в зале совещаний. Предложенный программный комплект обработки аудиовизуальных данных позволяет сократить работу секретарей и видеооператоров, а также сконцентрировать внимание участников на обсуждаемых вопросах за счет автоматизации управления сенсорным и мультимедийным оборудованием.
Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: НИР Министерства образования и науки РФ «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства»,
ГК № 11.519.11.4025, 2011-2013 гг. в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно- технологического комплекса России на 2007-2013 годы»; «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК №14.740.11.0357, 2010-2012 гг.; «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем», ГК № П2360, 20112013 гг. в рамках федеральной целевой программы «Научные и научно- педагогические кадры инновационной России на 2009-2013 гг.»; гранты Комитета по науке и высшей школе Правительства Санкт-Петербурга для студентов и аспирантов № 090472, 2009 г.; № 10578, 2010 г.; №12310, 2012 г.; гранты РФФИ № 10-08-00199-а, 2010-2012; № 12-07-31128-МОЛ_а, 2012-2013; Грант Президента РФ № 16.120.11.501- МД, 2011-2012.
Апробация результатов работы. Результаты диссертационного исследования представлялись на Международной конференции по компьютерной графике и зрению «GraphiCon» (Санкт-Петербург, 2010; Москва, 2011), Международной научно- технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» OSTIS (Минск, 2011), Международной конференции «FRUCT» (Лаппеенранта, 2010; Петрозаводск, 2011), Международной конференции по Интеллектуальным пространствам «ruSMART» (Санкт-Петербург, 2010), Международном семинаре по многомодальным интерфейсам «eNTERFACE» (Амстердам, Нидерланды, 2010; Пльзень, Чешская республика, 2011); Конференции «Региональная информатика» (Санкт-Петербург, 2010); Международной конференции «Речь и Компьютер» SPECOM (Казань, 2011); XXIV Сессии Российского акустического общества (Саратов, 2011); Международной конференции GRAPP (Рим, 2012); Международной молодежной конференции «Информационные системы и технологии» (Москва, 2012).
Публикации. По материалам диссертации опубликованы 32 печатные работы, включая 9 публикаций в научных журналах, рекомендованных ВАК: «Автоматика и телемеханика», «Доклады ТУСУРа», «Автоматизация и современные технологии», «Труды СПИИРАН», «Информационно-измерительные и управляющие системы», «Journal on Multimodal User Interfaces»), получены 2 свидетельства о регистрации программ для ЭВМ и 1 патент на полезную модель в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.
Структура и объем работы. Диссертация объемом 158 машинописных страниц, содержит введение, четыре главы и заключение, список литературы (121 наименований), 14 таблиц, 23 рисунка, одно приложение с копиями актов внедрения.
Похожие диссертации на МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА АВТОМАТИЗАЦИИ АУДИОВИЗУАЛЬНОГО МОНИТОРИНГА УЧАСТНИКОВ МЕРОПРИЯТИЙ В ИНТЕЛЛЕКТУАЛЬНОМ ЗАЛЕ
-
-
-