Введение к работе
Актуальность темы диссертации. Организация совместной работы и обсуждений между территориально распределенными участниками с использованием мультимедийных Интернет-приложений и мобильных устройств становится реальной альтернативой традиционным совещаниям. Интернет- приложения для проведения телеконференций и дистанционного обучения E- meeting, E-lecture становятся всё более популярными при проведении распределенных мероприятий, вебинаров. Такие системы позволяют сэкономить на транспортных расходах, выбрать персонифицированную форму обучения, а также предоставляют удобные средства поиска и доступа к информации.
Современные системы связи и совместной работы не позволяют полностью автоматизировать процесс информационного сопровождения совещаний, поэтому большая часть работы по обслуживанию удаленных участников выполняется операторами-людьми. Кроме того, при проведении деловых встреч, заседаний, совещаний и других формальных мероприятий обязательной процедурой является протоколирование выступлений участников. Однако анализ и расшифровка аудиозаписей совещаний требует привлечения специалистов-стенографистов и занимает длительное время. Методы анализа речи и идентификации дикторов могут использоваться при автоматизации процесса выделения реплик участников совещания. Одним из перспективных способов увеличения эффективности систем анализа речи является применение параметров, полученных на основе многоканального и многомодального анализа поведения участников в зале совещаний.
Другим ограничением систем телеконференций является пропускная способность коммуникационных сетей и мультимедийные возможности клиентского устройства, которые существенным образом влияют на параметры пользовательского интерфейса и выбор информационных каналов, доступных для удаленных участников. Поэтому актуальность разработки методов и программного обеспечения аудиовизуальной обработки сигналов при сопровождении распределенных совещаний, отличающихся применением средств автоматического анализа и оценки информационной значимости передаваемого контента и обеспечивающих передачу аудиовизуального потока данных для удаленного участника и уменьшение потребляемых ресурсов мобильным устройством, не вызывает сомнений.
Цель работы и задачи исследования. Основной целью диссертационной работы является разработка методов и программно-аппаратных средств автоматической обработки аудиовизуальных сигналов, повышающих возможности удаленного участника при принятии решений и участии в дискуссиях во время распределенных мероприятий, а также снижении затрат на подготовку мультимедийных отчетных материалов. Для достижения указанной цели в работе поставлены и решены следующие задачи:
-
Анализ современных методов и программных систем сопровождения распределенных совещаний.
-
Разработка информационной модели сопровождения участников совещаний.
-
Разработка метода формирования мультимедийного контента для вывода на устройство удаленного участника мероприятия.
-
Разработка метода диаризации речи дикторов для протоколирования выступлений участников совещаний.
-
Разработка архитектуры системы сопровождения участников распределенных совещаний и генерации отчетных материалов.
-
Разработка комплекса программных средств распределенной обработки мультимедийных данных для сопровождения распределенных мероприятий.
Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки сигналов, теории множеств, теории компьютерных сетей, распознавания образов, теории объектно-ориентированного проектирования и программирования.
Положения, выносимые на защиту:
-
-
Информационная модель сопровождения участников распределенных мероприятий описывает процесс обработки многоканального аудиовизуального контента, полученного встроенными средствами зала совещаний и клиентскими устройствами, и обеспечивает отбор информационных потоков, необходимых для трансляции удаленным участникам и подготовки отчетных материалов по результатам мероприятия.
-
Метод формирования текущего мультимедийного контента, использующий анализ информационной значимости аудиовизуальных потоков, обеспечивает подготовку данных для вывода на устройство удаленного участника с учетом его программно-аппаратных характеристик.
-
Метод диаризации речи дикторов, использующий расчет спектральных и временных характеристик голосового источника речевого сигнала и анализирующий паралингвистические фонационные явления, обеспечивает временную сегментацию отрезков речи, принадлежащих одному диктору.
-
Архитектура системы сопровождения распределенных мероприятий, включающая модули анализа состояния аудио-, видео- и презентационного оборудования, формирует мультимедийный контент веб-интерфейса, необходимый для восприятия удаленным участником текущей ситуации в зале, а также генерацию отчетных протоколов по проведенным мероприятиям.
-
Программный комплекс автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по протоколу MRCPv2, обеспечивает поддержку функционирования кросс-платформенных речевых клиентских приложений.
Научная новизна работы состоит в следующем:
1. Предложена информационная модель сопровождения участников распределенных мероприятий, описывающая совместную работу средств автоматической обработки мультимедийных сигналов, записанных встроенными средствами зала совещаний и клиентскими устройствами, отличающаяся применением упорядочивания информационных потоков, необходимых для восприятия текущей ситуации в зале удаленными участниками и подготовки отчетных материалов по заранее заданным шаблонам.
-
-
-
Разработан метод формирования текущего мультимедийного контента, отличающийся использованием событийной модели анализа информационной значимости аудиовизуальных потоков для компиляции данных, используемых при трансляции и архивировании результатов мероприятия.
-
Разработан метод диаризации речи дикторов, анализирующий спектральные и временные характеристики голосового источника речевого сигнала независимо от контекста и языка, отличающийся фильтрацией фонационных паралингвистических явлений на основе комбинированного анализа стационарности речевых сегментов, обеспечивающий временную сегментацию отрезков речи, принадлежащих одному диктору, позволяющий определить число выступающих и выделить их фразы в одноканальном аудиопотоке.
-
Разработана архитектура системы сопровождения распределенных мероприятий, учитывающая состояние аудио-, видео- и презентационного оборудования и формирующая необходимый для восприятия хода дискуссии и поддержания диалога мультимедийный контент веб-интерфейса, отличающаяся адаптивностью к характеристикам клиентского устройства и применением регулярно обновляемой реляционной базой данных мероприятий с персонифицированной информацией по участникам при генерации протоколов по проведенным мероприятиям, содержащих очередность выступлений, реплики и видеозаписи участников, а также другие статистические данные по событиям, автоматически накапливаемым в ходе совещания.
-
Разработан экспериментальный образец программного комплекса автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу MRCPv2, обеспечивающий обработку архивных аудиозаписей мероприятий, а также поддержку функционирования других кросс- платформенных приложений по распределению и управлению динамическими речевыми сервисами.
Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.
Практическая ценность работы. Разработанные методы и программные средства направлены на увеличение возможностей удаленного участника при принятии решений и участии в дискуссиях во время распределенных мероприятий. Применение адаптивного к устройству пользователя способа формирования веб- интерфейса позволяет транслировать совещания на различные программно- аппаратные платформы и составлять мультимедийные отчеты распределенных совещаний в режиме реального времени, значительно сократив время ручной обработки речевых записей. Разработка сети интеллектуальных залов позволит организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал. Эффективное отображение информации и коллективное принятие решения - одни из главных достоинств ситуационных центров, поэтому разрабатываемые технологии информационного сопровождения телеконференций будут востребованы государственными министерствами и ведомствами, военными структурами, крупными корпорациями, общественно-политическими организациями, активно использующими ситуационные центры в своей работе.
Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: Министерства образования и науки РФ «Математическое и программное обеспечение автоматического анализа и распознавания разговорной русской речи и диаризации дикторов», ГК № 07.514.11.4139, 2012-2013, «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства», ГК № 11.519.11.4025, 2011-2013 гг. в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно- технологического комплекса России на 2007-2013 годы»; «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК №14.740.11.0357, 2010-2012 гг.; «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем», ГК № П2360, 20112013 гг. в рамках федеральной целевой программы «Научные и научно- педагогические кадры инновационной России на 2009-2013 гг.»; грант РФФИ № 12- 08-31520-МОЛ_а, 2012-2013; грант Президента РФ № 16.120.11.501-МД, 2011-2012. Разработанные методы, алгоритмы, программное обеспечение, а также технические решения были использованы при выполнении НИР с ОАО «Концерн «Океанприбор», а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного политехнического университета, Санкт-Петербургского государственного университета.
Апробация результатов работы. Результаты диссертационного исследования представлялись на международной конференции «FRUCT» (Санкт-Петербург, 2010; Москва, 2011), международной конференции «Региональная информатика» (Санкт- Петербург, 2010; Санкт-Петербург, 2012); международной конференции ICUMT'10 (Москва, 2010), всероссийской мультиконференции по проблемам управления МКПУ'11 (Дивноморск, 2011), международной конференции по интеллектуальным пространствам IE'12 (Гуанохуато, Мексика, 2012), всероссийской конференции «Информационные технологии в управлении» (ИТУ-2012), (Санкт-Петербург, 2012).
Публикации. По материалам диссертации опубликовано 36 печатных работ, включая 7 публикаций в научных журналах, рекомендованных ВАК: «Доклады ТУСУР», «Известия ВУЗов. Приборостроение», «Вестник компьютерных и информационных технологий», «Информационно-управляющие системы», «Автоматизация и современные технологии», «Труды СПИИРАН», получены 4 свидетельства о регистрации программ для ЭВМ и 1 патент на полезную модель в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.
Структура и объем работы. Диссертация объемом 145 машинописных страниц содержит введение, четыре главы и заключение, список литературы (125 наименований), 9 таблиц, 22 рисунка, 1 приложение с копиями актов внедрения.
Похожие диссертации на Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний
-
-
-