Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях Ронжин, Андрей Леонидович

Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях
<
Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ронжин, Андрей Леонидович. Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях : диссертация ... доктора технических наук : 05.13.11 / Ронжин Андрей Леонидович; [Место защиты: С.-Петерб. ин-т информатики и автоматизации РАН].- Санкт-Петербург, 2010.- 330 с.: ил. РГБ ОД, 71 10-5/395

Содержание к диссертации

Введение

Глава 1. Организация и особенности человеко-машинного взаимодействия в интерактивных многомодальных приложениях 18

1.1. Взаимодействие пользователя с окружающим интеллектуальным пространством 18

1.2. Специфика многомодальных интерфейсов 23

1.3. Анализ существующих интерактивных приложений с речевым и многомодальным интерфейсами 37

1.4. Основные проблемы и способы обработки речевого сигнала 53

1.5. Анализ методов дистанционной обработки русской речи 64

1.6. Выводы по 1 главе 74

Глава 2. Методы проектирования и тестирования многомодальных интерфейсов 76

2.1. Основные характеристики многомодальных интерфейсов 76

2.2. Особенности выбора многомодальных интерфейсов 85

2.3. Конфигурирование программно-аппаратных ресурсов при проектировании интерактивных многомодальных приложений 93

2.4. Основные архитектуры многомодальных приложений 105

2.5. Методика поэтапного внедрения речевых и многомодальных интерфейсов 116

2.6. Выводы по 2 главе 128

Глава 3. Методы многоканальной обработки речи и пространственной локализации диктора 131

3.1. Специфика дистанционной записи и распознавания речи 131

3.2. Метод спектрально-пространственной обработки звуковых сигналов .136

3.3. Метод определения речевой активности в многоканальном звуковом потоке 147

3.4. Выводы по 3 главе 155

Глава 4. Модель представления словаря распознавателя на базе двухуровневого морфофонемного префиксного графа 157

4.1 Методика построения двухуровневого морфофонемного префиксного графа (ДМПГ) 157

4.2 Сравнительный анализ моделей представления словаря 174

4.3 Экспериментальная проверка ДМПГ и базовых моделей представления словаря распознавателя 183

4.4 Модель декодирования речевого сигнала на базе ДМПГ 188

4.5. Выводы по 4 главе 213

Глава 5. Применение разработанных методов дистанционной обработки русской речи в многомодальных интерактивных приложениях 215

5.1. Программное обеспечение разработки многомодального интерфейса .215

5.2. Многомодальный информационно-справочный киоск 220

5.3. Управление оборудованием интеллектуального зала 237

5.4. Многоканальная система протоколирования совещания в интеллектуальном зале 258

5.5. Выводы по 5 главе 277

Заключение 281

Литература 284

Приложение 1. Анализ научно-исследовательских проектов по проблемам человеко-машинного взаимодействия, проведенных по рамочным программам Европейского сообщества FP6 и FP7 305

Приложение 2. Копии актов внедрения результатов диссертационной работы 318

Введение к работе

Актуальность темы диссертации. Появление широкого спектра компьютеризированных устройств различного назначения существенно расширяет возможности современного человека в области коммуникации, образования, бизнеса, медицины и других областей. Однако, рост сложности технологий и устройств в большинстве случаев приводит к усложнению принципов взаимодействия с пользователем. Многие современные научно-технические достижения используются не в полной мере, так часть функций оказываются доступными только ограниченному числу пользователей-специалистов. Наличие естественного способа взаимодействия сейчас является не менее важным свойством устройства, чем его функциональные возможности. Также следует учесть, что физические ограничения и личные предпочтения пользователей оказывают влияние на выбор доступного или наиболее удобного способа взаимодействия. Поэтому согласованность информационных каналов между пользователем и устройством является второй актуальной проблемой в области проектирования интерфейсов. Наконец, свойства окружающей среды, в которой происходит коммуникация, накладывают свои ограничения на способы передачи данных, и пользователь должен иметь возможность выбора информационного канала, который более устойчив в текущих условиях динамически изменяющейся ситуации.

Окружающее интеллектуальное пространство (ОИП) является новой парадигмой в области информационных технологий. Распознавание текущей ситуации, анализ поведения пользователя и удовлетворение его потребностей в ненавязчивой и практически незаметной форме является основной идеей в концепции ОИП. Применение многомодальных интерфейсов, обрабатывающих естественные для человека способы коммуникации (речь, жесты, движения тела, головы, рукописные наброски, направление взгляда, мимика и др.), обеспечивает взаимодействие между пользователями и интеллектуальными модулями, встроенными в окружающие объекты в интуитивно понятной и простой форме. Средства реализации задачи по обслуживанию пользователя остаются скрытыми, а предъявляются только конечные результаты деятельности, что концентрирует внимание человека на выполняемой задаче и создаёт эффект ненавязчивости обслуживания.

С разработкой ОИП к речевым технологиям предъявляются все более жесткие требования; в частности, система должна воспринимать речь диктора, свободно перемещающегося в помещении, то есть самостоятельно определять местонахождение источника полезного сигнала. Подавляющее большинство существующих систем распознавания речи способно обрабатывать только речь диктора, записанную с помощью микрофона-гарнитуры, расположенного непосредственно перед ртом диктора, саму же запись рекомендуется проводить в тихом, звукоизолированном помещении. Однако очевидно, что далеко не каждый пользователь готов к таким ограничениям. Для развития и внедрения речевых технологий необходимо сделать процесс записи речи максимально удобным для пользователя, прежде всего, обеспечив дистанционную запись речи в условиях фонового шума и параллельных разговоров в помещении. Кроме того, автоматическое распознавание естественной речи предполагает работу со сверхбольшими словарями, размер которых превышает несколько миллионов словоформ, поэтому разработка средств компактного хранения, быстрого поиска и своевременного отсечения маловероят-

ных гипотез в процессе декодирования является актуальной задачей, особенно для русского языка с относительно высоким уровнем флективности.

В отечественных работах наиболее активно исследуются вопросы многомодального анализа биометрических показателей для идентификации личности и состояния человека: Галунов В.И., Аграновский А.В., Бондаренко В.П., Харламов А.А. В развитие теории речевых технологий большой вклад внесли отечественные исследователи Сапожков М.А., Загоруйко Н.Г., Кедрова Г.Е., Чисто-вич Л.А., Косарев Ю.А., Потапова Р.К., Чучупал В.Я., Сорокин В.Н., Скрелин П. А. и другие.

Проблемная ситуация, рассматриваемая в диссертации, заключается в наличии несоответствия возможностей, предоставляемых существующими и перспективными аппаратно-программными средствами, соответствующими информационными технологиями, поддерживающими интерактивные многомодальные интерфейсы, и имеющимся в настоящее время научно-методическим обеспечением их использования и развития. Указанное несоответствие порождает научно-техническую проблему, суть которой состоит в необходимости разработки и реализации модельно-алгоритмического, методического, программного, технического и информационного обеспечения процессов естественного человеко-машинного взаимодействия в интерактивных многомодальных приложениях на базе многоканальной дистанционной обработки речи

Связь с государственными и международными программами. Работа выполнена в СПИИРАН (2003-2010 гг.). Основные результаты диссертационной работы получены в рамках госбюджетных научно-исследовательских программ: ФЦП «Интеграция»: проект "Аспекты устного ввода", № 326.81 (2002-2004 гг.); программы ОИТВС РАН «Новые физические и структурные решения в инфотеле-коммуникациях» проект №4.2: «Разработка методов статистической обработки речи для дикторонезависимых инфотелекоммуникационных приложений», (2003-2008 гг.); программы ОНИТ РАН «Фундаментальные проблемы разработки новых структурных решений и элементной базы в телекоммуникационных системах» проект №1.1. «Разработка средств универсального многомодального доступа для системы интерактивного телевидения» (2009-2010 гг.); Программы СПбНЦ РАН проект №2.118 «Исследование принципов многомодального взаимодействия на базе информационного киоска» (2007г.); ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы (ГК №П2360 «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем»). Работа поддержана российскими грантами: Президента РФ № МК-9351.2006.9 (2006-2008 гг.), РФФИ № 07-07-00073-а (2007-2009гг.), РФФИ № 08-07-90002-Бел_а (2008-2009гг.), РФФИ № 09-07-91220-СТа (2009-2010гг.); Правительства Санкт-Петербурга № PD04-3.17-39 (2004г.), № PD05-3.17-34 (2005г.), № 30-04/132 (2008г.), № 26-05/131 (2009г.), Фонда содействия отечественной науке (2004-2005гг.), Фонда «Научный Потенциал» №64 (2006г.). Работа поддержана грантами Евросоюза INTAS № 04-77-7404 (2005-2007 гг.), INTAS № 05-1000007-426 (2006-2008гг.), грантом Евросоюза FP7 SIMILAR NoE IST-2002-507609, (2003-2007 гг.).

Целью диссертационной работы является повышение эффективности человеко-машинного взаимодействия в интерактивных многомодальных приложениях за счет обобщения и совершенствования научно-методического аппарата, поддержки системотехнических решений, связанных с многоканальной дистанцион-

ной обработкой русской речи и разработкой на этой основе научно-обоснованных модельно-алгоритмических, программно-технических решений. Для достижения поставленной цели в работе решены следующие задачи:

  1. Анализ основных направлений в области человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов, применяемых в интерактивных информационно-управляющих системах.

  2. Разработка методологического и математического обеспечения проектирования многомодальных интерфейсов и конфигурирования программно-аппаратных средств организации человеко-машинного взаимодействия в интерактивных приложениях.

  3. Разработка методов спектрально-пространственной обработки речи и анализ конфигураций системы (массива) микрофонов с альтернативными геометрическими схемами расположения датчиков.

  4. Разработка модели компактного представления акустико-лексических структур для распознавания русской речи и методики формирования базы данных слов и их транскрипций.

  5. Разработка, тестирование и реализация программного обеспечения построения многомодальных интерфейсов для интерактивных приложений.

  6. Разработка прикладных программно-аппаратных решений с применением многомодальных интерфейсов для предоставления пользователям справочной информации в интерактивном режиме и сопровождения мероприятий в интеллектуальном зале.

  7. Обобщение и оценка результатов исследований по проблеме организации многомодального человеко-машинного взаимодействия с оценкой эффективности полученных результатов.

Объект исследования. Информационные и энергетические процессы формирования и обработки речевого сигнала на акустическом, фонетическом и текстовом уровнях, а также многомодальные способы человеко-машинного взаимодействия.

Предмет исследования. Закономерности, принципы, способы, методы, модели, алгоритмы, методики и системотехнические решения нового класса задач синтеза интеллектуальной информационной технологии и системы многоканальной дистанционной обработки речи в интерактивных многомодальных приложениях.

Методы исследования. Методы цифровой обработки сигналов, психоакустики, радиолокации, распознавания образов, статистического анализа, автоматической обработки текстов, теории графов, динамического программирования, объектно-ориентированного проектирования и программирования.

Научная новизна. Разработана совокупность оригинальных моделей, методов, алгоритмов и программно-аппаратных комплексов для исследования и обработки русской речи в интерактивных многомодальных приложениях, в том числе: 1) разработано методологическое и математическое обеспечение проектирования интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов для организации естественного взаимодействия пользователей с учетом ограничений на способы коммуникации со стороны пользователя, клиентских устройств, среды взаимодействия и предметной области предоставляемого сервиса;

  1. разработан метод анализа речевой активности, отличающийся применением антропоморфных моделей слуха, критериального оценивания уровня энергии взаимного спектра синхронизированных по времени сигналов, а также учета пространственного положения диктора при выявлении границ речи в многоканальном звуковом потоке;

  2. разработана система протоколирования речи участников телеконференций, отличающаяся использованием многоканальной распределенной системы регистрации аудиопотоков, расчета относительной энергии сигнала и его спектра и оценивания пространственного положения источника сигнала посредством трехмерной конфигурации микрофонов;

  3. предложена модель компактного представления словаря транскрипций системы распознавания русской речи на базе двухуровневого морфофонемного префиксного графа, отличающаяся применением декомпозиции транскрипций на основу и концовку с последующим объединением одинаковых последовательностей первых фонем основ в виде лексического дерева и сохранением списка уникальных транскрипций концовок;

  4. предложена методика экспертного сопровождения в процессе постепенной замены оператора автоматическим модулем обработки речи, обеспечивающая накопление реального речевого материала для адаптации системы распознавания речи;

  5. разработано программное обеспечение проектирования многомодального интерфейса, отличающееся применением модулей многоканальной обработки аудио- и видеосигналов, выполнением многопоточных задач на распределенных вычислительных ресурсах и созданием кроссплатформенных приложений, адаптивных к возможностям и текущему состоянию клиентского устройства;

  6. разработана программно-аппаратная архитектура многомодального информационно-справочного киоска, отличающаяся использованием аудиовизуальных коммуникативных каналов для имитации естественного интерфейса и организации диалога с пользователем в реальных условиях эксплуатации;

  7. разработана технологическая инфраструктура интеллектуального зала, отличающаяся применением модулей многоканальной регистрации и обработки аудиовизуальных сигналов для определения положения и слежения за пользователями, дистанционного распознавания голосовых команд, мультимедийного оповещения удаленных пользователей о ситуации внутри зала и организации распределенных мероприятий.

Обоснованность научных положений и выводов обеспечена за счет анализа состояния исследований в данной области, а также согласованностью теоретических выводов с результатами экспериментальной проверки моделей. Новизна технических предложений подтверждается полученными свидетельствами на программное обеспечение.

Положения, выносимые на защиту:

  1. Развитие методологических основ разработки интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов для организации естественного взаимодействия пользователей в интеллектуальном пространстве.

  2. Совокупность методов и алгоритмов многоканальной дистанционной обработки речи для выявления активного диктора и фильтрации полезного сигна-

ла в ограниченной зоне взаимодействия на основе локализации источника звука и фонетических закономерностей речевого потока.

  1. Симуляционные модели построения акустико-лексических структур для компактного представления словаря транскрипций системы распознавания русской речи на основе морфофонемных единиц и результаты их применения при формировании баз данных и анализе возможных конфигураций систем декодирования слитной речи.

  2. Программно-аппаратные и технологические решения, реализованные на основе разработанных методов и созданных многомодальных интерфейсов, обеспечивающие естественную коммуникацию пользователей с интерактивными информационно-управляющими приложениями.

Практическая ценность работы. Модели, методы, алгоритмы и программное обеспечение, разработанные в диссертационной работе, направлены на повышение эффективности и естественности человеко-машинного взаимодействия. Применение многомодальных интерфейсов позволяет организовать естественное взаимодействие между пользователями и интеллектуальными модулями. Средства реализации задачи по обслуживанию пользователя остаются скрытыми, а предъявляются только конечные результаты деятельности, что концентрирует внимание человека на выполняемой задаче и создаёт эффект ненавязчивости обслуживания. Разработанный многомодальный киоск является прототипом широкого спектра информационно-справочных систем самообслуживания, расположенных в бизнесцентрах, отелях, аэропортах, выставочных комплексах, ВУЗах, медицинских центрах, торговых центрах, музеях, спортивных клубах и других общественно-транспортных центрах.

Применение разрабатываемых методов обработки речи и других естественных модальностей, а также адаптивного к устройству пользователя способа формирования веб-интерфейса позволит транслировать совещания на различные программно-аппаратные платформы и составлять мультимедийные отчеты распределенных совещаний в режиме реального времени, значительно сократив время ручной обработки речевых записей. Разработка сети интеллектуальных залов позволит организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал, повысит качество образования за счет автоматизированного непрерывного контроля над каждым учащимся во время занятий.

Реализация результатов работы. Разработанные методы, программное обеспечение, а также технические решения были использованы в ходе выполнения Государственного контракта № П2360 с Федеральным агентством по образованию; договоров с компанией Telio AG, Германия, (2006-2008), компанией «NewVoice» Санкт-Петербург (2005-2007), Дрезденским технологическим университетом, Германия (2008-2009), Университетом Западной Богемии, Чехия (2003-2010), а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного университета аэрокосмического приборостроения, Санкт-Петербургского государственного политехнического университета, Санкт-Петербургского государственного электротехнического университета.

Апробация результатов работы. Результаты диссертационного исследования представлялись на Международных конференциях «Речь и Компьютер» SPE-СОМ (Санкт-Петербург 2000,2002,2004, 2006,2009, Москва 2001, 2007, Патры,

Греция 2005); Международной конференции «Региональная информатика» (Санкт-Петербург 2000,2002,2004,2006,2008); Международной научно-практической конференции «Искусственный Интеллект» (Кацивели, Крым, Украина, 2002, 2004, 2006); Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы» (п. Дивноморское 2005,2007); III Всероссийской конференции «Теория и практика речевых исследований» АРСО-2003, Москва; Международных конференциях «Распознавание образов и анализ изображений: новые информационные технологии» (Санкт-Петербург 2004, Нижний Новгород 2008); семинарах «Биометрические системы» российской секции IEEE Computational Intelligence Society, Москва, Россия, 2005, 2006; 6 европейской конференции PEVOC6, Лондон, Великобритания, 2005; Международных конференциях по человеко-машинному взаимодействию НСП (Лас-Вегас, США, 2005, Пекин, Китай, 2007, Сан Диего, США 2009); 2 Международной конференции «Автоматизация, управление и информационные технологии - 2005» ACIT-2005, Новосибирск, 2005; Международном симпозиуме SPIE Defense and Security Symposium, Орландо, США, 2005; 3 Балтийской конференции: Second Baltic Conference on Human Language Technologies HTL'2005, Таллинн, Эстония, 2005; 34 Международной филологической конференции, Санкт-Петербург, 2005; 5 Международной научной конференции «Обработка информации и управление в чрезвычайных и экстремальных ситуациях» (ОИУЧЭС2006), Минск, Беларусь, 2006; XX Сессии Российского акустического общества, Москва, 2008; 44 Международном симпозиуме «Applied Military Psychology», Санкт-Петербург, 2008; Международной конференции ICUMT-2009, Санкт-Петербург, 2009; 2 Международной конференции ruSMART 2009, Санкт-Петербург, 2009.

Публикации. По материалам диссертации опубликовано 126 печатных работ, включая 19 публикаций в ведущих научных журналах, рекомендованных ВАК, 4 свидетельства об официальной регистрации программ в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам, 1 монография, 2 главы в книгах и 1 учебно-методическое пособие.

Структура и объем работы. Диссертация содержит введение, пять глав, заключение, список литературы (235 наименований), 2 приложения. Основной материал изложен на 283 стр., включая 19 таблиц, 76 рисунков.

Специфика многомодальных интерфейсов

Разработка средств эффективного взаимодействия человека с компьютером сегодня является одним из приоритетных направлений развития искусственного интеллекта и информатики в целом. Это связано с тем, что уже сейчас вычислительная техника не используются в полной мере из-за отсутствия полноценного, привычного человеку, интерфейса для взаимодействия пользователя с компьютером. Отсутствие решения этой проблемы сдерживает развитие различных прикладных систем в телекоммуникации, медицине, образовании и повседневной жизни, поскольку вся современная техника и различные сетевые сервисы используют автоматизированные средства управления и обработки информации [59, 101].

На сегодня большинство компьютерных приложений используют графический пользовательский интерфейс, который обеспечивает весьма ограниченный способ взаимодействия: печать с помощью клавиатуры, управление виртуальными объектами курсором мыши и отображение визуальной информации в виде текста и изображений на экране монитора [56,98]. Такой способ общения заставляет пользователей адаптироваться к компьютеру и виртуальному способу общения. В результате пользователь вынужден ограничивать свои чувства и способы взаимодействия для того, чтобы получить доступ к компьютерному миру.

С развитием современных речевых технологий появилась принципиальная возможность перехода от формальных языков-посредников между человеком и машиной к естественному языку в устной форме, как универсальному средству выражения целей и желаний человека. Речевая форма диалога обладает рядом преимуществ таких, как естественность, оперативность, смысловая точность ввода, освобождение рук и зрения пользователя, возможность управления! и обработки в экстремальных условиях. Однако все эти преимущества были известны и 30 лет назад, и даже существенный прогресс в мощности компьютеров за это время так и не привел к массовому использованию речевого интерфейса. Возможно проблема в том, как пытаются его применить. Считая, что речь является наиболее естественной формой взаимодействия, многие разработчики пытались заменить все существующие средства речевым интерфейсом и заставить пользователя выполнять все функции с помощью голоса. Такое стремление оказалось не слишком результативным. Кроме того, в отличие от общепринятых интерфейсов, речь с одной стороны обладает бесспорными преимуществами, а с другой стороны накладывает ряд существенных ограничений на условия эксплуатации. Пользователь, которому предлагают речевые технологии, чаще всего, оказывается не готов самостоятельно адаптировать речевой интерфейс к решаемой задаче и необходимым для нее программно-аппаратным средствам. Поэтому существующие речевые технологии, а точнее говоря, демонстрационные версии сейчас распространяются в первую очередь с целью изучения спроса на те или иные голосовые сервисы.

Таким образом, существующие модели автоматического понимания речи пока еще значительно уступают речевым способностям человека, что свидетельствует об их недостаточной адекватности и ограничивает применение речевых технологий в промышленности и быту. Для решения глобальной проблемы человеко-машинного взаимодействия стали использовать дополнительные виды каналов передачи информации (речь, артикуляция губ, жесты, направление взгляда и т.д.). В результате начали разрабатывать так называемые многомодальные интерфейсы. Такие интерфейсы свойственны межчеловеческому общению. Здесь мы сами выбираем, какой канал, для передачи какого типа информации нам наиболее удобно использовать в данный момент. Такие интерфейсы позволяют обеспечить наиболее эффективное и естественное для человека взаимодействие с различными автоматизированными средствами управления и коммуникации.

В многомодальных системах информация от различных видео, аудио, тактильных коммуникативных каналов непрерывно отслеживается и обрабатывается, создавая реальное или виртуальное окружение, позволяющее удовлетворить желания пользователя- и оперативно адаптироваться к текущей задаче и другим прикладным аспектам. Адаптивные многомодальные системы позволят создавать новые многофункциональные устройства и обеспечат требуемую гибкость использования.персональных и мобильных систем.

В настоящее время за рубежом многомодальные интерфейсы уже используются в некоторых прикладных областях: картографических системах, системах виртуальной реальности, медицинских системах, робототехнике, web-приложениях, и т.д. Помимо этого многомодальный интерфейс может быть полезен в мобильных устройствах, где использование обычной клавиатуры невозможно. В карманных персональных компьютерах сейчас используются системы распознавания рукописного текста. Комбинирование таких систем с голосовым вводом позволит обмениваться информацией с пользователем более эффективно. Также использование многомодальных интерфейсов актуально в смартфонах (умных телефонах), в которых в настоящее время возможен раздельный ввод с помощью голоса, неэргономичной клавиатуры или сенсорного экрана. Оптимальное совместное использование этих коммуникативных каналов позволит пользователю более оперативно и надежно обмениваться информацией с такими устройствами.

В России научные исследования по данному направлению начались совсем недавно, и их успешная реализация усложняется тем, что необходимо объединять усилия различных исследовательских групп, занимающихся отдельно обработкой речи, видеоизображений, почерка, и т.д. в различных научно-исследовательских институтах. В 2003 году группа речевой информатики СПИИРАН начала фундаментальные и прикладные работы по многомодальным интерфейсам в рамках Европейского научного сообщества SIMILAR, финансируемого ЕС по программе FP6. В данной главе приводится обзор подходов к решению проблемы человеко-машинного взаимодействия, а также некоторые оригинальные результаты группы, полученные в ходе последних лет исследований. Следует обратить внимание, что главным образом здесь будут представлены методы направленные на автоматизацию средств ввода информации в компьютер, т.е. распознавание аудио, видео и других потоков данных, которые поступают от человека. При этом модули, обеспечивающие синтез речи и другие естественные модальности, являются неотъемлемой частью многомодальных интерфейсов. Кроме того, при обработке сигналов одного типа как для распознавания, так и для синтеза в большинстве случаев используются аналогичные методы, поэтому будут представлены базовые методы обработки сигналов, их применение для обработки входных модальностей, а также общие сведения и ссылки на литературу по синтезу выходных модальностей.

Исследования, посвященные распознаванию речи, лица, положения человека в окружающем пространстве, ведутся уже более полувека [2, 12, 24, 33, 39, 53, 57, 63, 74, 81, 82, 88]. Однако, системы, объединяющие различные способы ввода информации в едином интерфейсе стали разрабатываться совсем недавно. Такие интерфейсы и системы получили название многомодальных (мультимодальных) интерфейсов [196]. Многомодальные интерфейсы обрабатывают два и более объединенных пользовательских вида ввода информации - такие как речь, письменный ввод, жесты руками, взгляд, движения головы и тела совместно с мультимедийной системой вывода информации. Этот класс представляет новое направление в информатике и концепцию отказа от традиционных WIMP интерфейсов.

На рисунке 1.1 показана модель человеко-машинного взаимодействия на абстрактном уровне. Люди используют ряд выходных модальностей (или каналов) для коммуникации друг с другом, а также с компьютерами. Компьютерные входные модальности на данный момент ограничены достижениями технологий распознавания. Компьютерная система предоставляет вывод информации пользователю, выбирая одну или несколько сред вывода, которые человеческая система ввода (или каналы) интерпретирует, основываясь на способностях познания. Здесь "ввод" рассматривается как поток информации от человека к компьютеру, а "вывод" от компьютера к человеку. Если мультимедийные системы вывода информации известны и применяются уже давно (они используют одновременный вывод звука, видео, анимации, синтез речи и т.д.), то многомодальные системы ввода информации находятся еще только в начале своего развития.

Недавние успехи в обработке речи, компьютерном зрении и композиции сцен (регистрация виртуальных объектов, трехмерные образы, синтезированная речь и т.д.) позволяют сделать прорыв в области взаимодействия человека с компьютером. Параллельно с цифровой обработкой сигналов активно ведутся работы по изучению процессов мышления и коммуникации, как между людьми, так и с машиной. Моделирование задач, построение диалоговых систем осуществляется с учетом когнитивной психологии, эргономики. Это позволяет выбрать оптимальные каналы взаимодействия и способы синхронизации различных видов информации для ввода и вывода.

Многомодальное человеко-машинное взаимодействие опирается на ряд принципов:

- Пользователь управляет компьютером, используя несколько физических устройств (клавиатура, мышка, микрофон, видеокамера и т.д.).

- Для коммуникации с компьютером пользователь активизирует движение ряда своих мышц (голосового тракта, рук, глаз и т.д.)

- Информация, передаваемая компьютерными устройствами ввода, может быть обработана на различных уровнях абстракции, обеспечивая различные уровни понимания намерения пользователя

- Компьютер взаимодействует с пользователем, используя несколько устройств вывода (дисплей, динамики и т.д.)

- По этим устройствам вывода компьютер может передавать заранее подготовленные данные (файлы с изображениями, аудио файлы и т.д.) или же динамически генерируемые данные (например, генерация текста, графики, синтез речи и т.д.)

Таким образом, компьютерная система может использовать несколько информационных каналов (чувств пользователя: зрение, слух и др.) для ввода и вывода.

Конфигурирование программно-аппаратных ресурсов при проектировании интерактивных многомодальных приложений

При разработке многомодальных интерфейсов возникают новые специфические проблемы, связанные с синхронизацией, совместной обработкой и объединением многомодальной информации. В ходе проектирования многомодального интерфейса выполняется основной цикл работ, связанных с анализом: (1) способов взаимодействия модальностей, архитектур распределенных многомодальных систем, методов кодирования и хранения сигналов, средств для разработки и распространения программного обеспечения; (2) методов выбора модальностей, передачи входных потоков (речевой ввод, жестовый ввод, графический ввод), способов синхронизации модальностей, методов создания контрольных журналов многомодального взаимодействия; (3) методов оценки систем (критерии оценки, метрики, методы измерений), типов оценивания (информативность интерфейса, симулирование реальной системы человеком), разработкой экспериментов. Для оценки качества работы системы используется не только точность распознавания, но и такие свойства как помехоустойчивость к окружающим шумам и достоверность гипотезы распознавания действия пользователя. При построении многомодального интерактивного приложения необходимо определить: (1) кто его будет использовать; (2) какие возможности имеют устройства пользователя; (3) в каких условиях будет проходить взаимодействие; (4) какой тип сервиса будет предоставлять приложение. Для формализации и решения указанной задачи была предложена концептуальная модель, включающая следующие сущности: цели пользователей, сервисы, ресурсы, устройства, преобразования, естественные и искусственные сигналы, входные и выходные модальности. Приведена теоретико-множественная формулировка решаемой проблемы. Для этого введены следующие множества и отношения. Множество целей пользователей P = {P(,ie N},N = {\,...п), на удовлетворение которых направлено множество сервисов S = {Sg,ge М},М = {1,...т}, использующих информационно-коммуникационные ресурсы R = {Rk,ke С},С = {1,...с}. Множество устройств, доступных пользователю: D = {Db,beH},H = {\,..h). Множество моментов времени T-{t). Множество преобразований W = {Wf,feO},0 = {l,...o}, выполняемых в ходе предоставления сервиса над множествами потоков искусственных AS = {ASq,qe Е},Е = {\,...е} и естественных сигналов NS = {NSa ,аєи},и = {U-«}, использующихся для распознавания входных IM = {IMl,IM2,...IMN } и синтеза выходных модальностей OM={OMx,OM2,...OMNoi). Множество вариантов многомодальных интерфейсов строится путем перебора всех возможных комбинаций входных и выходных модальностей: Ш /М.ОЛ /Л/, Тривиальные варианты с отсутствием входных и/или выходных модальностей не рассматривались. Наиболее простой с точки зрения числа модальностей интерфейс включал в себя, по крайней мере, одну входную и одну выходную модальность.

Множество допустимых системотехнических решений а , включающих в себя математические модели ММ, методы МО, алгоритмы AL, техническое обеспечение АР, представлено кортежем: а = %ММ,МО,АЬ,АР)\. Учитывая, что в интерактивных системах обработка сигналов должна проводится в режиме, близком к реальному времени, вводится множество Wa , ограничивающее множество реализуемых преобразований на множестве системотехнических решений: W(a): AS{a) xNSia)xT - AS(a) x NS(a).

Также введены четыре вида ограничений (характеристик), влияющих на эффективность организации взаимодействия: (1) ограничения на способы ввода и вывода со стороны пользователя, связанные с его/ее навыками использования клиентских устройств, информационных технологий, личными предпочтениями и физическими ограничениями: UC = {UCfiiє X}; (2) ограничения на способы ввода и вывода со стороны клиентского устройства, связанные с размерами, вычислительными и сетевыми возможностями, а также аппаратной частью, реализующей сенсорные и мультимедийные функции устройства: DC = {DCj,jeY}; (3) множество ограничений среды, в которой планируется организовать взаимодействие, это: уровень шумов, физические параметры атмосферы, тип помещения, число пользователей, расстояние между пользователем и клиентским устройством, наличие доступа к сетевым ресурсам и другие: EC-{ECk,keZ}; (4) наконец, ограничения самих сервисов, связанных с предметной областью и типом обрабатываемых информационно-коммуникационных ресурсов: SC-{SC,,le V). Для решений «каждое ограничение формирует некоторое подмножество декартового произведения множеств целей, сервисов, ресурсов, устройств и сигналов: F czPaxSaxRaxDaxASaxNSa;F g cPaxSaxRaxDaxASaxNSa; F(E? c:PaxSaxRaxDaxASaxNSa;Fg) czPaxSaxRaxDaxASaxNSa.

Графическая интерпретация перечисленных ограничений, возникающих при организации взаимодействия пользователя с устройствами для доступа к информационно-коммуникационным сервисам, представлена в виде схемы на рисунке 2.3. Организовать взаимодействие представляется возможным только в том случае, если клиентские устройства находятся в зоне взаимодействия с пользователем и связи с информационно-телекоммуникационными сервисами, а их пользовательские интерфейсы соответствуют физическим возможностям и предпочтениям пользователя и могут обеспечить коммуникацию в текущих условиях окружающего пространства для решения актуальных целей пользователя.

На основе разрабатываемого в диссертации подхода производился обоснованный выбор конкретных вариантов реализаций отображений Ф ,

Окончательное решение о структуре и функциях многомодального интерфейса и программно-аппаратном обеспечении, необходимом для его реализации, принималось с учетом стоимостных затрат: а є Arg min С(сх) .

В большинстве существующих приложений для получения информации пользователь вынужден идти на компромисс между естественностью взаимодействия и функциональными возможностями сервисов/устройств. В рамках предложенной модели возможный набор естественных входных и выходных модальностей определяется на этапе проектирования интерактивного многомодального приложения.

Помимо научных проблем, разработчикам необходимо решать также и организационные вопросы, так как необходимо объединять усилия различных исследовательских групп, занимающихся отдельно распознаванием речи, графической информации, почерка, и т.д. в различных научно-исследовательских институтах. Скажем, в Европе для работы над многомодальными интерфейсами создаются объединенные научные коллективы, состоящие из ведущих Европейских лабораторий, работающих в данной области, например, SIMILAR Network of Excellence [215].

В настоящее время наибольшее распространение получили бимодальные интерфейсы. Наиболее часто используемыми и эффективными комбинациями модальностей являются такие как: речь и рукописный ввод, речь и артикуляция губ, речь и указание рукой или взглядом.

В некоторых комбинациях одна и та же семантическая информация может передаваться по разным каналам (т.е. дублироваться), что позволяет объединять ее на уровне параметрического представления (например, речь и артикуляция губ) и распознавать ее с большей точностью и устойчивостью. В других системах по разным каналам передается семантически различная информация (например, речь и жесты), которая впоследствии объединяется на уровне принятия решения.

Первые многомодальные интерфейсы, которые обрабатывали речь и жесты, основывались на структуре, в которой многомодальная интеграция происходила во время процесса разбора произнесенной фразы. Как говорилось ранее, когда пользователь говорит выражения "здесь" или "этот", система ищет синхронизированный с данным ключевым словом жестовый акт, который определяет речевую ссылку. На данный момент такие подходы еще часто используются для обработки указательных и речевых команд, но многомодальные системы должны быть способны обрабатывать и более богатые виды ввода, кроме указания: жесты, символы, графические пометки, движения губ, осмысленные выражения лица. Для поддержки функционально более богатых многомодальных систем уже разработаны общие архитектуры обработки. Некоторые из последних архитектур поддерживают различные модели многомодальной интеграции, а также интерпретацию как одномодального, так и многомодального ввода. Эти архитектуры могут применяться в системах, в которых модальности обрабатываются отдельно как альтернатива друг другу или же совместно как комбинированный многомодальный ввод.

Методика построения двухуровневого морфофонемного префиксного графа (ДМПГ)

Автоматическое распознавание естественной речи предполагает работу со сверхбольшими словарями, размер которых превышает несколько миллионов словоформ, поэтому разработка средств компактного хранения, скоростного поиска и своевременного отсечения маловероятных гипотез в процессе декодирования является крайне актуальной задачей, особенно для русского языка с относительно высоким уровнем флективности. Для компактного представления словаря транскрипций флективных языков признано эффективным разложение словоформы на сублексические единицы, так как это позволяет сократить размер словаря системы распознавания и, соответственно, повысить скорость декодирования речевого сигнала [167]. Разложение на основе статистических моделей позволяет сильнее сократить размер словаря, но увеличивает риск возникновения грамматически некорректных последовательностей сублексических единиц, которые, тем не менее, с акустической точки зрения являются наиболее правдоподобными [163].

Классической моделью словаря (слов или морфов) является структура, представляющая собой список всех словоформ и их транскрипций (рис. 4.1я). Транскрипция каждого слова представляет собой цепочку составляющих ее фонем. Модель фонемы обычно строится на основе скрытых моделей Маркова (СММ) и лево-правой модели Бэкиса. Более точное распознавание фонем достигается путем учета фонетического контекста и построения моделей Трифонов, а также применения смесей гауссовских плотностей распределения вероятностей векторов наблюдений в состояниях фонем.

С помощью СММ обеспечивается объединение моделей фонем, слов, фраз в единую структуру графа, обеспечивающего поиск лучшей гипотезы распознавания. При проектировании системы распознавания речи в зависимости от размера словаря и типа модели языка, которая используется при построении моделей фраз, меняется в основном структура (lattice) графа. Поэтому методы параметрического представления речи, методы оценки вероятности состояний, фонем, фраз остаются практически неизменными, а производится наполнение и оптимизация графа словаря декодера.

С увеличением размера словаря появляются слова с одинаковыми начальными участками, соответственно их транскрипции будут иметь одинаковые начальные фонемы. Объединяя начальные участки транскрипций, словарь преобразуется в лексикофонетическое дерево (рис. 4.16), за счет чего достигается значительное сокращение памяти [195]. Прохождение по дереву позволяет синтезировать все возможные слова из словаря. Существующие методы распознавания на основе префиксного лексико-фонетического дерева успешно применяются для английского и других языков [132, 205].

Для компактного представления словаря транскрипций в данной работе предлагается использовать декомпозирование словоформы на основу и концовку при помощи морфоанализатора [41], построенного на базе правил словообразования и словоизменения, что позволяет хранить словарь в виде префиксного дерева основ и автоматически генерировать произвольную словоформу [67, 71].

Полученное лексическое префиксное дерево имеет двухуровневую структуру, где первый уровень представляет собой граф основ, а второй -список концовок (элементы, следующие за основой, могут состоять из словообразовательных и словоизменительных суффиксов, окончания и постфикса). Данный двухуровневый морфофонемный префиксный граф (ДМПГ) наиболее компактно описывает все используемые словоформы и их транскрипции (рис. 4.1 в). Генерация ДМПГ производится по списку транскрибированных словоформ ПО, и поэтому полученный граф способен генерировать только грамматически правильные слова. Для использования данного графа в задаче распознавания слитной речи вводится обратная связь, обеспечивающая генерацию последовательности словоформ с неограниченной длиной. Строго говоря, число слов в последовательности будет зависеть от длины записанного речевого сигнала и при поступлении последней фонемы, гипотеза распознанной фразы (путь по графу) заканчивается последним начатым словом.

Предложенный способ представления словаря распознавателя, прежде всего, рассмотрим на примере представления парадигмы одного слова. Для компактного хранения и быстрого доступа к набору словоформ, производных от одной основы, используем ориентированный граф, целиком описывающий парадигму слова. Узлами данного графа являются основы и окончания. Тогда при разбиении словоформы на основу и грамматические аффиксы структура ее графа будет состоять из некоторой основы слова stem;, связанной с приемлемыми для нее грамматическими аффиксами {х \,х2,...,хн} (рис. 4.2а). Большинство слов строится посредством такого графа. Следует отметить, что в структуру заносятся только неповторяющиеся окончания, однако на этапе синтаксического анализа одно и то же окончание может соответствовать нескольким грамматическим показателям. Так, в примере на рисунке 4.26 окончание «а» служит для образования двух различных грамматических словоформ («кота» в родительном падеже и «кота» в винительном падеже).

В ряде случаев при формировании словоформ наблюдаются изменения не только в грамматических аффиксах, но и в самой основе [26]. Чтобы учесть возможные варианты чередования в основе, в структуру графа вводятся несколько вариантов основы {stemj \,stemj2,...,stemlN}. Причем для каждого варианта основы существует свой набор грамматических аффиксов из множества X (рис. 4.3а). Если для разных вариантов основ встречается одинаковый аффикс, то производится объединение соответствующих узлов. В результате один и тот же аффикс может быть соединен с несколькими основами одновременно. Примеры такого графа приведены для слов «конец» (рис. 4.36) и «идти» (рис. 4.3е). В первом примере возникает чередование второго типа с регулярным изменением в основе. Во втором примере присутствует как первый тип чередования, где различные словоформы образуются от разных основ («идти» — «шел»), так и второй («шел» — «шли»). Представленный на рис. 4.3в граф образует только личные и неопределенную формы глагола, полный же граф включает в себя и остальные вербоиды (причастия и деепричастия). При этом число основ возрастает до пяти (добавляются «шедш» и «идущ»), а число аффиксов — до 26 (добавляются «ая», «его», «ее», «ей», «ем», «ему», «ею», «ие», «ий», «им», «ими», «их», «ую», «я»).

Разработанный модуль «Диаморф» обеспечивает генерацию полной парадигмы для произвольного слова или основы из словаря [41]. С его помощью формируются все словоформы словаря. Следующим этапом при создании базы данных для декодера речи является транскрибирование всех словоформ с последующим представлением их в виде единого морфофонемного графа.

Используя правила транскрибирования, производится перевод всех возможных словоформ из графемного в фонетическое представление [30]. На рисунке 4.4 представлены три варианта графов для транскрибированного представления парадигмы слова «кот». Узлами здесь являются фонемы, а также основы и окончания. На рис. 4.4а транскрипции 10 словоформ, представленных на рис. 4.46, записаны в виде списка цепочек соответствующих фонем. Следует заметить, что в фонетической записи число вариантов основ и окончаний несколько возрастает. Например, в данном случае число основ увеличилось до трех («к-о!-т», «к-а-т», «к-а-т ») вследствие учета ударных и безударных гласных, а также мягких и твердых согласных. В разработанной модели автоматического транскрибирования текста всего используется 44 фонемы.

Многоканальная система протоколирования совещания в интеллектуальном зале

Интернет приложения для проведения телеконференций и дистанционного обучения, так называемые системы E-meeting и E-lecture, становятся всё более популярными при проведении распределенных мероприятий. Такие системы позволяют сэкономить на транспортных расходах, выбрать персонифицированную форму обучения, а также предоставляют удобные средства поиска и доступа к информации. К сожалению, современные корпоративные системы не позволяют полностью автоматизировать процесс информационной поддержки проведения совещаний, поэтому большая часть работы по сопровождению удаленных участников выполняется операторами-людьми. Другим ограничением систем телеконференций является пропускная способность коммуникационных сетей и мультимедийные возможности клиентского устройства, которые существенным образом влияют на параметры пользовательского интерфейса и выбор информационных каналов, доступных для удаленных участников.

Ключевым вопросом при дистанционной коммуникации является высокая неопределенность о ситуации в удаленной аудитории, вызванная пространственно-временными различиями [229]. Физические и психологические барьеры препятствуют удаленному участнику быстро присоединиться к дискуссии проблемы, обсуждаемой участниками внутри зала, и тем более предложить новое направление разговора. Таким образом, основная задача данного исследования состоит в разработке программно-аппаратных решений, повышающих возможности удаленного участника при принятии решений и участии в дискуссиях во время распределенных мероприятий.

В проекте Nick [123] впервые были проанализированы требования к «умным» технологиям, которые необходимы для создания интеллектуального зала совещаний (smart meeting room). В работе [207], были определены три основных типа программно-аппаратных средств, обеспечивающих интеллектуальность зала и выполняющих: (1) сбор информации о текущей ситуации в зале - восприятие; (2) обработка данных и принятие решений об изменении состояний встроенных модулей — рассуждение; (3) вывод информации, изменение условий в зале - действие.

Последующие исследовательские проекты AMI [181], CHIL [226], AMIGO [130], CALO [151] были направлены на изучение различных аспектов организации совещаний и телеконференций в «интеллектуальном окружении» (smart environment) и разработку технологий сопровождения совещаний, многомодальных броузеров, а также автоматических систем обработки и аннотирования аудио- и видеоресурсов. Сопровождение совещаний включает (полу-) автоматический обработку и вывод информации, необходимой для поддержки участия удаленного партнера в гибридном мероприятии, при котором один и более пользователей принимают участие удаленно, а остальные находятся в одной аудитории [193]. Для обеспечения аудиовизуальной поддержки удаленного участника проводятся исследования и разработка технологий автоматического выбора камеры, захватывающей наиболее важную область аудитории, переключения на вывод данных с мультимедийного проектора или «умной доски», определения микрофона текущего диктора.

Разработка средств автоматической сегментации и поиска речевой информации является актуальной задачей в связи с растущим числом мультимедийных архивов, созданием электронных библиотек, развитием социальных сетей и других Интернет технологий. Задача протоколирования дикторов (speaker diarization (SD), также известная в зарубежной литературе под названием «Who Spoke When» состоит в сегментации реплик каждого диктора в аудиосигнале и последующей группировке всех сегментов относящихся к одному диктору [187]. В первую очередь подобные технологии стали применяться при анализе телефонных разговоров, затем телевизионных новостей, а теперь основное внимание исследователей направлено на автоматическое протоколирование аудиозаписей совещаний и других мероприятий.

Для секретарей-референтов, обслуживающих мероприятия, существует следующая инструкция. Ответственным этапом является документирование совещания, т.е. запись процесса обсуждения внесенных на повестку дня вопросов. В ходе совещания и после его окончания необходимо собрать тексты выступлений, не представленные заранее. Ход совещания можно стенографировать, вести фонограмму, видеозапись, протоколировать.

Стенограмма и фонограмма-это дословная запись всего, что говорилось на совещании, т.е. всех выступлений, вопросов, ответов, реплик. При стенографировании и фонозаписи следует учитывать, что стенографистки могут не знать фамилии всех выступающих, особенно подающих реплики и задающих вопросы. При фонозаписи часто трудно определить выступающего по голосу, если он не был назван. Поэтому, несмотря на стенографирование или фонозапись, секретарь должен фиксировать фамилии всех выступающих в порядке хода совещания, что позволит установить принадлежность каждого выступления, реплики, вопроса в ходе расшифровки стенограммы или фонограммы. Для ведения стенограмм и расшифровки фонограмм требуются специальные работники: стенографистки и диктофонистки. В расшифрованные стенограммы и фонограммы, как правило, вносятся редакционные правки. Это достаточно дорогостоящий вид документирования совещаний. Его целесообразно вести лишь для наиболее важных мероприятий или в том случае, когда заранее предусматривается публикация материалов совещания. Наиболее оптимальным вариантом для оперативных совещаний является их протоколирование.

Аудиозаписи совещаний в большинстве случаев содержат спонтанную речь, затрудняющую процесс автоматической обработки в связи с наличием: (1) «перекрывающейся» речи, когда одновременно разговаривают несколько людей; (2) артефактов речи (чмокание, цокание языком) и невербальных пауз (кашель, смех); (3) коротких реплик и быстрых переходов слова от одного диктора к другому. Кроме того, на качество записи сильно влияет особенности помещения, расположение дикторов и характеристики записывающей аппаратуры [137].

Данной проблематике были посвящены европейские проекты ICSI и CHIL, а также разработан стандарт по оцениванию работы систем транскрибирования совещаний NIST RT-04S, последнюю версию которого можно найти в [187]. На данный момент существует несколько аннотированных корпусов, например ISL, AMI, ICSI, NIST, содержащих до нескольких десятков часов речи различных дикторов, записанных во время совещаний и встреч в естественной неформальной обстановке.

В процессе протоколирования SD системы выполняют ряд последовательных операций [222]. В первую очередь определяются границы речи и участки, содержащие паузы или шумы, затем проверяется, изменился ли текущий диктор, определяется пол диктора и наконец производится классификация сегмента речи среди существующих дикторов или создается модель нового диктора. В некоторых системах для повышения производительности после этапа классификации производится переобучение моделей дикторов с учетом последних поступивших речевых сегментов.

В отличие от систем аутентификация в задаче SD число дикторов заранее неизвестно, и поэтому соответствующие модели дикторов создаются и обучаются в процессе анализа аудиозаписей автоматически «без учителя». В большинстве современных систем при кластеризации сегментов речи по дикторам используются следующие критерии: отношение обобщенного правдоподобия (generalized likelihood ration (GLR) и информационный критерий Байеса (Bayesian information criterion (BIC) [177]. Недостатком данных подходов является необходимость наличия достаточного числа данных для принятия решения о кластеризации, что затрудняет их применение в режиме on-line. Также вычислительная сложность подходов возрастает экспоненциально с увеличением числа сегментов речи, использующихся при кластеризации [174].

Похожие диссертации на Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях