Содержание к диссертации
Введение
1 Глава. анализ телефонных автоматизированных систем массового обслуживания 18
1.1 Классификация и история развития телефонных асмо 18
1.2 Call и контакт-центры 20
1.2.1 Типовая архитектура 20
1.2.2 Функциональные возможности 25
1.2.3 Голосовой портал как часть контакт-центра 42
1.3 Речевые технологии 42
1.3.1 Дикторонезависимое распознавание речи 44
1.3.2 Синтез слитной речи 48
1.4 Технологии использования данных в голосовых приложениях 49
1.4.1 Стандартные технологии закрытых систем 49
1.4.2 Технологии so a, xml и web-сервисы 51
1.5 Голосовые порталы 55
1.5.1 Типовая архитектура 55
1.5.2 Технологии построения голосовых приложений — vxml, cxml и другие стандарты 57
1.5.3 Преимущества и ограничения современных голосовых порталов 61
1.6 Выводы к главе 1 63
2 Глава. Разработка системы интерактивного речевого самообслуживания с распределенными ресурсами 65
2.1 Функциональная модель системы 65
2.2 Поиск технологических решений по реализации системы 66
2.3 Типовая архитектура голосового портала на базе vxml 68
2.4 Технологическая архитектура системы асиро 69
2.4.1 Система ip телефонии 72
2.4.2 Система интерактивного речевого взаимодействия — ivr 72
2.4.3 Система голосового портала—application voice portal 73
2.4.4 Система распознавания речи 74
2.4.5 Система синтеза речи 74
2.5 Процедурные алгоритмы системы 74
2.6 Использование распределенных ресурсов для работы системы 76
2.7 Выводы к главе 2 80
3 Глава. Разработка интеллектуальных голосовых приложений и их оптимизация 82
3.1 Классификация голосовых приложений 82
3.1.1 Направленный диалог 82
3.1.2 Смешанный диалог 83
3.1.3 Естественный диалог 84
3.2 Этапы создания интеллектуальных голосовых приложений 85
3.2.1 Постановка задачи 85
3.2.2 Дизайн 86
3.2.3 Реализация 89
3.3 Создание интеллектуального голосового приложения на примере «аэрофлот-инфо» 92
3.3.1 Постановка задачи и дизайн 92
3.3.2 Состав приложения 93
3.3.3 Используемые web-сервисы 95
3.4 Описание применяемых инновационных методов, алгоритмов и технологий 97
3.5 Методы оптимизации голосового приложения 98
3.5.1 Системные методы оптимизации 99
3.5.2 Алгоритмические методы оптимизации 105
3.6 Дальнейшие шаги развития голосовых приложений 106
3.7 Выводы к главе 3 107
4 Глава. Моделирование речевых диалогов 109
4.1 Подходы к моделированию 109
4.2 Цель построения модели ill
4.3 Аналитическая модель диалогов в голосовых приложениях 111
4.3.1 Стратегия 1 — с неограниченными повторами 112
4.3.2 Стратегия 2-е ограниченными повторами 114
4.3.3 Стратегия 3 — с установкой порога распознавания 115
4.3.4 Анализ приведенных стратегий 117
4.4 Сравнительный экономический анализ 121
4.4.1 Предварительная информация 121
4.4.2 Корпоративный call-центр 122
4.4.3 Аутсорсинг услуг call-центра 126
4.4.4 Голосовая система самообслуживания 127
4.4.5 Результаты экономического анализа 130
4.5 Выводы к главе 4 132
5 Заключение 133
6 Приложения 134
6.1 Приложение 1. «аэрофлот-инфо». основные сценарии 134
6.1.1 Сценарий welcome 134
6.1.2 Сценарий schedule 136
6.1.3 Сценарий sayschedule 138
6.1.4 Сценарий flightstatus 140
6.1.5 Сценарий sayflightstatus 141
6.2 Приложение 2. «аэрофлот-инфо». дополнительные диалоги (subdialogs) 143
6.2.1 Сценарий getairport 143
6.2.2 Сценарий getdate 143
6.2.3 Сценарий saydateday 144
6.2.4 Сценарий saydatemonth ...145
6.2.5 Сценарий saynumber. 146
6.2.6 Сценарий saytimehour 147
6.2.7 Сценарий saytimeminute 148
6.3 Приложение 3. «аэрофлот-инфо». грамматики 150
6.3.1 Service .' 150
6.3.2 Airport 150
6.3.3 Date 151
6.3.4 Number 152
6.4 Приложение 4. «аэрофлот-инфо». голосовые ролики 153
7 Литература
- Функциональные возможности
- Поиск технологических решений по реализации системы
- Этапы создания интеллектуальных голосовых приложений
- Аналитическая модель диалогов в голосовых приложениях
Введение к работе
Одним из классов автоматизированных систем массового обслуживания (АСМО) являются системы обслуживания по телефону, такие как контакт-центры и системы интерактивного речевого самообслуживания, или голосовые порталы. Эти системы эффективно используются в самых разных отраслях, таких как финансовый сектор и страхование, телекоммуникации, розничные сети, государственные организации, туризм и транспорт, здравоохранение и другие [1]. В то время, как контакт-центры уже получили широкое распространение в нашей стране, использование речевых порталов еще только набирает обороты.
Основной задачей обозначенных систем является предоставление услуг, или сервисов через телефонный канал связи. На сегодняшний день существует множество информационных сервисов, доступных массовому пользователю через различные интерфейсы. Под интерфейсом при этом мы понимаем правила взаимодействия информационной (операционной) системы с пользователем [2]. Примерами таких интерфейсов могут служить компьютерные программы, такие как web-браузер, интерфейс командной строки, либо специализированные интерфейсы, такие как терминал банкомата или информационный киоск. В голосовых порталах, интерфейсом взаимодействия человека с информационной системой является речь или в более частном случае - телефонный диалог. Таким образом, автоматизированные системы массового обслуживания по телефону предназначены для предоставления аналогичных компьютерным системам услуг, но через телефонный канал взаимодействия.
Если говорить о предоставлении услуг по телефону, то их можно разделить на два основных класса [3] - автоматизированные услуги и услуги с помощью операторских центров, или call-центров. В случае call-центров, абонент общается с живым оператором, который в свою очередь
взаимодействует с необходимыми информационными системами посредством ПК и прикладных программ.
В случае автоматизированных услуг, абонент общается с системой напрямую. При этом, до недавнего времени, в качестве интерфейса взаимодействия использовался только тоновый набор, т.е. абонент выслушивал предлагаемые варианты выбора, и при помощи DTMF набора осуществлял ввод информации со своей стороны. Очевидно, такая схема не оставляла возможности реализовать целый класс приложений, таких как справка о расписании поездов или поиск ближайшего магазина. Действительно, представляется невозможным осуществить выбор города отправления и города назначения, пользуясь исключительно тоновым набором. Поэтому, появление технологий дикторонезависимого распознавания речи дало возможность решению нового пласта задач и появлению первых таких систем в России [4].
С другой стороны, постепенный процесс стандартизации во всей ИТ индустрии стал приводить к появлению унифицированных механизмов взаимодействия между информационными системами, независимо от того, какие операционные системы, серверы приложений и языки программирования они используют. Так возникла методология, которая теперь называется Сервисно-Ориентированная Архитектура [5], и базируется на стандартах web-сервисов и XML. Границей раздела в этом случае служат уже не протоколы взаимодействия, а бизнес-функции, выполняемые тем или иным web-сервисом, запрос и ответ формируются в формате XML, а протоколом, регулирующим взаимодействие является SOAP.
Необходимо также отметить и экономический эффект от использования данного класса систем. По статистике, средняя стоимость разговора, обрабатываемого в call-центре США, составляет порядка 5$, в то время как обработка разговора в системе речевого самообслуживания обходится в 0,50$, т.е. в 10 раз меньше [6, 7]. В эти оценки включаются такие расходы как зарплата персонала, аренда помещений, расходы на телекоммуникации,
программно-аппаратные комплексы. Для российского рынка наши оценки показали, что стоимость звонка для системы самообслуживания в 3,5 - 5,5 раз ниже, чем в call-центре [8]. Таким образом, данные системы позволяют существенно сократить издержки по сравнению с традиционным подходом, оставляя при этом качество обслуживания абонентов на должном уровне.
Прогресс в области компьютеро-телефонной интеграции, распознавания речи и появление стандартизированных технологий web сервисов с одной стороны, и требования рынка по оптимизации затрат на обработку вызовов с другой, представляют собой главные причины возникшего интереса к построению систем интерактивного речевого самообслуживания, в частности голосовых порталов с распределенными ресурсами.
Всё вышесказанное свидетельствует об актуальности и новизне вопросов, связанных с усовершенствованием голосовых порталов, или систем интерактивного речевого обслуживания по телефону с распознаванием речи.
Актуальность темы диссертации. Автоматизированные телефонные системы интерактивного речевого самообслуживания существенно снижают стоимость предоставления информации телефонным абонентам. Традиционным способом предоставления информации по телефону в настоящее время является центр обработки вызовов, или контакт-центр, где работают живые операторы. Такая модель работы не является эффективной при решении однотипных задач предоставления информации. Альтернативой традиционному способу является создание полностью или частично автоматических интеллектуальных речевых приложений, которые заменят всех или часть живых операторов.
Современные методы построения систем интерактивного речевого взаимодействия ограничены использованием тонового набора и работой с локальными данными, посредством доступа к базам данных. Для создания же систем, которые смогут заменить живого оператора, необходимо, во-первых, использовать дикторонезависимое распознавание речи и синтез речи, во-
вторых, научиться работать с удаленными данными, такими как web-сервисы, доступные в сети Интернет. Использование распознавания русской речи успешно апробировано российскими исследователями, в том числе и в лаборатории систем массового обслуживания ИПУ РАН, однако вопросы интеграции речевого взаимодействия с web-сервисами оставались открытыми. В частности, отсутствовали системы и методы, необходимые для построения таких речевых приложений, которые бы могли использовать web-сервпсы для ведения диалогов с абонентом в режиме реального времени.
Автоматизированная система интерактивного речевого обслуживания создана для решения важной народнохозяйственной задачи автоматизации процесса предоставления информации, полученной при помощи web-сервисов по телефону.
Цель работы. Целью работы является исследование и разработка системы интерактивного речевого. самообслуживания с диктороыезависимым распознаванием речи и доступом к удаленным ресурсам посредством web-сервисов, для повышения эффективности обслуживания по телефону. Особое внимание в работе уделено следующим проблемам:
анализу проблем и ограничений современных телефонных систем речевого самообслуживания;
разработке интерфейсов работы системы интерактивного речевого взаимодействия с web-сервисами;
аналитическому расчету длительности и вероятности успешного завершения диалога для различных сценариев их построения;
методам повышения вероятности успешного завершения диалогов;
созданию действующей системы интерактивного речевого самообслуживания с распределенной структурой.
Методы исследования. В диссертационной работе применены методы теории массового обслуживания, теории вероятностей.
Научная новизна. В результате проведенных исследований, анализа и обобщения опыта создания интеллектуальных речевых приложений получены следующие новые научные результаты:
разработана и исследована архитектура автоматизированной системы интерактивного речевого взаимодействия с распознаванием речи на основе стандартов СОА (сервисно-ориентированная архитектура), позволяющая работать с web-сервисами сети Интернет;
разработана действующая система и исследованы возможности её работы с географически распределенными компонентами;
созданы первые в России образцы интеллектуальных речевых приложений с дикторонезависимым распознаванием речи и доступом к удаленным данным посредством web-сервисов - «Аэрофлот-Инфо» и «Голосовой Портал Центробанк»;
проведены аналитические расчеты длительности и вероятности успешного завершения диалогов для различных сценариев их построения, позволяющие принимать решение об использовании той или иной стратегии в различных ситуациях.
Практическая ценность и реализация результатов работы.
Разработанная Автоматизированная Система Интерактивного Речевого Обслуживания позволяет создавать голосовые приложения, использующие удаленные информационные ресурсы, доступные через web-сервисы по открытому протоколу SOAP (Service Oriented Architecture Protocol), удаленные ресурсы распознавания и синтеза речи, доступные по открытому протоколу MRCP (Media Resource Control Protocol), и удаленную управляющую информацию, выполненную в открытом стандарте VXML (Voice Extensible Markup Language). Данный подход позволяет разделить написание логики приложения (на языке VXML) от сервисов получения удаленных данных (web-сервисы), что дает возможность создавать голосовые сервисы, аналогичные сервисам Интернет.
Разработанная система может быть использована для создания таких голосовых приложений как расписание и бронирование транспортных услуг,
службы информационных каталогов, отслеживание статуса заказа в розничных сетях, управление счетом в финансовых структурах, службы напоминаний, различные развлекательные приложения и др.
Разработанные математические модели могут использоваться для анализа и предварительного расчета характеристик речевых диалогов, таких как вероятность успешного завершения и средняя длительность.
Полученные в диссертационной работе результаты внедрены в ЗАО ТАИС, в ООО Регионтранк и в работах ИПУ РАН.
Апробация работы. Основное содержание работы докладывалось и обсуждалось на Международной конференции «Высокие технологии XXI века. VIII Международный форум», 23-26 апреля 2007г., Москва; Первой международной конференции «Управление развитием крупномасштабных систем», MLSD'2007, Москва 1-3 октября, 2007г.; Конференции «Интеллектуальные услуги в телефонных сетях. Рынок VAS. Технологии и бизнес», 24 - 25 апреля 2007, Виноградово; Международной конференции XII International Conference Speech and Computer (SPECOM'2007), 15-18 Октября, 2007г., Москва.
Основные положения, представляемые к защите:
Схемы построения речевых порталов с дикторонезависимым распознаванием речи и доступом к данным посредством web-сервисов;
Методы решения задач семантического анализа для речевых сервисов, на примере Аэрофлот-Инфо и Голосовой Портал Центробанк;
Методы увеличения вероятности успешного завершения речевых диалогов и уменьшения средней длительности диалога;
Схема повышения надежности успешного завершения речевого диалога.
Публикации По основным результатам диссертационной работы
опубликовано 8 работ, из которых 3 статьи опубликованы в ведущих
рецензируемых журналах.
Структура и объем работы. Диссертация состоит из введения, четырех глав с выводами, заключения, списка литературы и приложений. Основная часть работы изложена на 159 страницах и содержит 57 иллюстраций и 18 таблиц с данными.
Первая глава посвящена анализу телефонных автоматизированных систем массового обслуживания.
Рассмотрены три типовые архитектуры построения современных контакт-центров (Центров Обработки Вызовов) — на базе традиционной телефонии, IP контакт-центр и программное решение с CTI интеграцией. Определен и описан типовой функциональный набор контакт-центра, включающий маршрутизацию вызовов, интерактивное речевое взаимодействие, обработку обращений по различным каналам обращений (входящие/ исходящие звонки, email, fax, sms, chat, web), функциональность рабочего места оператора, функции администрирования, программирования логики работы контакт-центра, системы записи, управления качеством и управления трудовыми ресурсами. Кроме того, определено место голосовых порталов в контакт-центрах, которые выполняют функции систем интерактивного речевого взаимодействия совместно или без систем распознавания и синтеза речи.
Рассмотрены принципы работы системы дикторонезависимого распознавания речи, а также систем синтеза слитной речи. Рассмотрены принципы построения голосовых приложений стандартными средствами, а также технологии использования внешних данных в этих приложениях. Технологии стандартных систем предполагают использование встроенных модулей доступа к базам данных, в то время как использование открытых технологий построения голосовых приложений, таких как VXML, позволяет использовать web-сервисы и получать данные в формате XML. Использование web-сервисов позволяет избавиться от необходимости написания новых модулей взаимодействия с каждым источником данных.
В данной главе рассмотрена типовая архитектура построения голосовых
порталов и рассмотрены технологии построения голосовых приложений на базе стандартов VoiceXML, SALT и их сравнение, а также преимущества и недостатки двух подходов.
Вторая глава посвящена разработке системы интерактивного речевого взаимодействия - Автоматизированной Системы Интерактивного Речевого Обслуживания. Отдельное внимание уделено возможности построения таких систем с распределенными ресурсами.
В работе была определена функциональная модель системы, определен необходимый набор подсистем, состоящий из системы IP телефонии, системы интерактивного речевого взаимодействия, системы голосового портала, системы распознавания речи и системы синтеза речи.
Выбор технологий построения системы был основан на преимуществах открытых технологий, одним из определяющих факторов которых является возможность использования компонент от разных производителей и практически неограниченная гибкость и масштабируемость. Созданная система имеет в своей основе такие стандарты и технологии как:
Voice XML 2.0 - Voice Extensible Markup Language;
SRGS 1.0 - Speech Recognition Grammar Specification; SSML 1.0 - Speech Synthesis Markup;
SISR 1.0 - Semantic Interpretation for Speech; CCXML 1.0 - Call Control;
SIP: Session Initiation;
MRCP: Media Resource Control Protocol;
Web Services Architecture.
Подробно описана технологическая архитектура Автоматизированной Системы Интерактивного Речевого Обслуживания и его принцип работы.
Проведены экспериментальные исследования работы системы с распределенными ресурсами. Среди компонент, которые могут быть разнесены,
можно выделить VXML платформу, систему распознавания и синтеза речи, Web сервер (документ-сервер), источники данных. Было проведено тестирование системы, у которой VXML платформа и система распознавания и синтеза речи находилась в США на стороне провайдера услуг голосовых приложений (Voxeo Corporation), web сервер (документ-сервер) находился в сети ИПУ РАН в Москве, источники данных находились в сети Центробанка РФ, и были доступны через публичный web-сервис. Для тестирования использовалось специально разработанное голосовое приложение «Голосовой портал Центробанк», предоставляющее информацию по курсам валют, используя web-сервис Центробанка. Взаимодействие всех компонент осуществлялось по открытой сети Интернет. Результаты максимальной задержки при запросе абонента составили 2000-3000 мс, что является вполне приемлемым при использовании систем интерактивного речевого взаимодействия в телефонных сетях, таким образом, возможность использования распределенной архитектуры можно считать целесообразной, при условии соблюдения необходимого качества передачи голосового трафика.
Третья глава посвящена разработке голосовых приложений. Наряду с разработкой общей методологии создания речевых приложений было создано приложение «Аэрофлот-Инфо», предоставляющее информацию о расписании и статусе рейсов на основе информации реального времени, предоставляемой web-сервисом Аэрофлот.
В данной главе приведена классификация речевых приложений, разделяющая их на три основных класса — направленный диалог (directed dialog), смешанный диалог (mixed-initiative) и естественный диалог (natural language). Рассмотрены примеры и особенности всех трех классов, и определены области их использования.
Представлена методика создания голосовых приложений, включающая три основных фазы — постановка задачи, дизайн и реализация. Постановка задачи включает сбор требований и высокоуровневый дизайн приложения.
16 Фаза дизайна включает смысловой дизайн, дизайн речевых особенностей, стратегии обработки ошибок и создание тестовых приложений и web аналогов. Фаза реализации состоит из разработки приложения и грамматик, работы с речевым актером, тестировании и тонкой настройки.
В рамках данной работы разработано приложение «Аэрофлот-Инфо», предназначенное для:
предоставления информации о расписании рейсов компании Аэрофлот посредством голосового интерфейса (Schedule);
предоставления информации о конкретном рейсе компании Аэрофлот посредством голосового интерфейса (Flight Status).
В данной главе детально рассмотрены все фазы и этапы реализации данного приложения, использованные технологии и ноу-хау.
Отдельное внимание уделено методам оптимизации речевых приложений. Целью оптимизации является улучшение таких основных количественных показателей как вероятность успеха и длительность диалога. Среди основных методов оптимизации можно выделить алгоритмические и системные. Алгоритмические методы включают использование разных методов построения диалогов, динамическую генерацию грамматик, использование результатов n-best списков. Системные методы включают создание пользовательских фонетических транскрипций «проблемных слов», использование n-best результатов для решения проблемы «похожих слов», использование системных параметров VXML для тонкой настройки работы системы и устранение операций, утилизирующих большие мощности процессора (например предварительная компиляция грамматик). Для апробации методов оптимизации проведена серия экспериментов на специально разработанном для этого речевом приложении.
Четвертая глава посвящена моделированию работы речевых приложений, а также экономическому анализу, доказывающему целесообразность использования голосовых порталов на предприятиях.
В главе освещен системный подход к моделированию информационных систем и рассмотрена аналитическая модель речевых диалогов. Целью построения аналитической модели для различных стратегий диалогов является получение математического аппарата для принятия решений об использовании той или иной стратегии при построении речевых диалогов.
В аналитических моделях рассмотрено три сценария речевых диалогов - с неограниченными повторами, с ограниченными повторами и с установкой порога распознавания. Определены области применимости этих стратегий, а также плюсы и минусы их использования.
Помимо моделирования систем была создана экономическая модель, позволяющая сделать расчет экономической эффективности внедрения голосовых систем самообслуживания с распознаванием речи. В основе модели лежит расчет капитальных затрат на создание системы и операционных издержек. Данные для модели основаны на рыночных ценах на услуги в Москве и Московской области, РФ. Цены на оборудование и ПО, а также затраты на техническую поддержку рассчитывались для решений, основанных на продуктах ведущих мировых производителей call-центров, систем IVR, голосовых порталов, систем распознавания речи, телефонной инфраструктуры и инфраструктуры передачи данных. Результат моделирования показал, что для российских условий средняя стоимость минуты разговора с системой речевого самообслуживания в 3,5 - 5,5 раз ниже по сравнению со стоимостью минуты разговора в call-центре, что делает внедрение таких систем крайне привлекательной задачей для широкого спектра предприятий.
Функциональные возможности
Функциональные возможности такой комплексной системы как контакт-центр необходимо разбить на несколько блоков [15, 16]. Первый из них - Маршрутизация, или распределение вызовов. Под ACD функциональностью в эпоху call-центров понималось распределение вызовов внутри группы операторов по таким алгоритмам, как выбор наиболее свободного оператора (Longest Available Agent), выбор наименее загруженного оператора (Least Occupied Agent), первый свободный оператор (First Available Agent). В настоящее время говорят о маршрутизации вызовов (call routing), подчеркивая тем самым, что решение о распределении вызова на определенного оператора может приниматься на основе сложных алгоритмов. Наиболее популярными из таких алгоритмов являются: - маршрутизация на основе навыков операторов (skill-based routing)., Вызов направляется оператору, удовлетворяющему заданному критерию по набору определенных навыков; - маршрутизация с учетом приоритетов (priority routing). Маршрутизация происходит на основе данных о звонящем (в таком случае в процессе принятия решения совершается запрос во внешний источник, например в базу данных CRM системы); - маршрутизация с учетом уровня сервиса обслуживания (Service Level Routing) Для каждого сегмента абонентов определяется уровень сервиса (например маршрутизация сразу на оператора, минуя IVR, или ограничение времени ожидания в очереди для клиентов определенного уровня); - персональная маршрутизация (Last Agent/Relationship) Например система делает попытку соединить абонента с его персональным менеджером, или оператором, который последний раз обслуживал этого абонента, и только если этот оператор занят, направляет его свободному.
Каждый производитель называет такие алгоритмы по-разному, но в основе их лежит набор функциональных блоков реализованных внутри платформы контакт-центра. Как и в случае IVR систем, для маршрутизации обращений пишутся специальные приложения, или скрипты маршрутизации. Производители контакт-центров как правило предоставляют специальную среду для легкой разработки таких приложений. Среди наиболее часто востребованных функций и функциональных блоков можно перечислить следующие: - Присвоение операторам квалификаций (skills) и маршрутизация вызовов на основе этих квалификаций с учетом уровня квалификаций (competency level); - Маршрутизация на основании приоритетов, динамическое изменение приоритетов; - Маршрутизация на основе статистической информации контакт-центра (среднее время разговора, среднее время ожидания в очередях и т.д.); - Маршрутизация конкретному оператору (например персональному менеджеру) с возможностью перемаршрутизации в случае отсутствия оператора; - Информация в очереди и Музыка на удержании; - Распределение вызовов внутри группы операторов по различным схемам (LAA - Longest Available Agent, NAA - Next Available Agent, MED - Minimum Expected Delay); - Маршрутизация вызова с учетом временных параметров (день недели, время дня); - Перенаправление вызова в зависимости от времени ожидания и других условий; - Операторы для выстраивания логических цепей (if-else, goto); - Возможность заведения переменных различных типов для манипуляции данными в скриптах маршрутизации; - Возможность использования математических формул; - Изменение алгоритмов маршрутизации в режиме реального времени; - Возможность вызова подпрограмм (других скриптов) из скриптов маршрутизации, или перенаправление на другой скрипт; - Переадресация в случае неответа оператора; - Универсальная очередь (Universal Queue) для обработки всех типов вызовов - телефонных звонков, e-mail, web-запросов.
Функции воспроизведения информации для абонента и удержания в очереди как правило берет на себя IVR система, используя при этом данные из контакт-центра. Такая схема накладывает ограничения на взаимодействие IVR и подсистем контакт-центра, потому что вызов поступающий на оператора должен содержать информацию об абоненте, полученную в системе IVR. Для того чтобы передать эту информацию в контакт-центр необходимо наличие API для CTI интеграции. Вследствие этого производители контакт-центров пишут специальные модули для взаимодействия со сторонними 1VR.
Функциональность IVR. В большинстве случаев ни один контакт-центр не строится без системы интерактивного речевого взаимодействия. Системы IVR можно разделить на три подкласса, как наиболее часто разделяют их производители.
При помощи самой простой IVR системы можно создавать голосовые меню. Функциональность таких меню ограничивается возможностью перенаправить вызов на ту или иную группу операторов, в зависимости от набранного абонентом значения.
Поиск технологических решений по реализации системы
На практике реализовано множество систем, решающих различные задачи с использованием распознавания речи.
Например, система в DIHANA Project [36], реализована на базе модульной технологии, в основе которой лежит ядро - communication manager, который управляет работой следующих модулей: ASR, модуль семантического анализа, менеджер диалога, менеджер запросов в БД и TTS.
Другим примером подобной системы является система персональный секретарь КТН Connector [37], которая решает задачи планирования встреч и докладов. Система также использует модульную архитектуру, внешние системы ASR, TTS и менеджер диалогов. В качестве стыка с телефонией используется Skype API, позволяющий принимать звонки из закрытой сети IP телефонии Skype [38, 39].
Большинство систем с распознаванием речи, использующихся для предоставления телефонных сервисов обладают следующими недостатками:
Закрытые протоколы взаимодействия между компонентами. Например между телефонной компонентой и IVR, между ASR и IVR, между модулем управления диалогом и внешними источниками данных;
Ограниченные возможности масштабирования. Закрытые системы, как правило устанавливаются на один сервер, дальнейшее расширение которого требует установки точно такой же системы, что приводит к необходимости параллельного администрирования нескольких систем;
Ограниченные и не стандартизированные возможности по построению логики речевых приложений, или диалогов. Как правило модули разработки голосовых сценариев реализуются компанией производителем IVR, и имеют закрытый код;
Отсутствие возможности построения распределенных систем с разделенными компонентами, такими как ASR, TTS, IVR, телефонная часть, источники данных.
Для создания АСИРО было принято решение максимально возможно использовать открытые технологии и стандарты, для того чтобы превзойти описанные выше ограничения. Это обусловило выбор компонент решения. Среди стандартов и технологий необходимо выделить следующие:
VXML 2.0 - Voice Extensible Markup Language [30, 31] -VoiceXML разработан для создания голосовых меню, использующих синтез и распознавание речи, тональный набор DTMF, запись разговора из диалога, и других телефонных функций. Основная цель стандарта обеспечить доступ к web информации в системах интерактивного речевого взаимодействия;
SRGS 1.0 - Speech Recognition Grammar Specification [40] -Стандарт определяет синтаксис для представления грамматических правил при использовании в системах распознавания речи, иными словами для описания структуры данных при их вводе средствами голосового приложения. Данный синтаксис позволяет разработчикам задавать слова и шаблоны словарных форм, для сообщения их системам распознавания речи. Синтаксис грамматики представлен в двух форматах, в Augmented BNF Form и XML Form. Спецификация определяет отображение между этими представлениями, так что одно представление может быть трансформировано в другое;
SSML 1.0 - Speech Synthesis Markup Language [25] - SSML создан для описания особенностей воспроизведения синтезированной речи, таких как фонетическая транскрипция (произношение), громкость, высота, скорость и т.д. для различных платформ синтеза речи;
SISR 1.0 - Semantic Interpretation for Speech Recognition [41] -SISR определяет процессы семантической интерпретации для распознавания речи и синтаксис и семантический смысл тегов, которые могут быть добавлены к грамматике распознавания речи, в частности в стандарте SRGS. Например SISR позволяет определить связи между грамматическими правилами и семантикой приложения, что позволяет трактовать как эквивалентные варианты употребления одного и того же элемента, например "да", "ага", "правильно";
CCXML 1.0 - Call Control XML [42] - CCXML разработан для обеспечения поддержки функций управления вызовами (Call Control) в диалоговых системах, таких как VoiceXML. Хотя CCXML может использоваться в любых диалоговых системах, CCXML был разработан для дополнении яи интеграции с VoiceXML интерпретаторами. Однако следует помнить что эти два стандарта независимы; - SIP: Session Initiation Protocol [43] SIP - это протокол прикладного уровня, предназначенный для установления, изменения и окончания сеансов с одним или несколькими участниками. Сеансы могут включать в себя телефонные звонки и мультимедиа-конференции, а также задействовать другие мультимедиа ресурсы; - MRCP: Media Resource Control Protocol [44] - Протокол, обеспечивающий интеграцию средств распознавания речи и преобразования текста в речь с голосовой платформой; - Web Services Architecture [28] - Этот стандарт описывает архитектуру Web-сервисов. Определяются функциональные компоненты и взаимодействия между ними.
Этапы создания интеллектуальных голосовых приложений
Смешанный диалог, или ненаправленный диалог позволяет абоненту заполнить сразу несколько информационных слотов. Например, в случае системы Аэрофлот-Инфо, он может сказать «Мне нужно расписание полетов из Москвы в Цюрих». Система распознает и заполнит два значения - город отправления и город назначения, после чего ей останется только уточнить дату отправления. Если абонент сообщит все три параметра за одно предложение, система также сможет их распознать. Такой подход значительно сокращает длительность обслуживания абонента, а также повышает комфортность. Однако он требует больше усилий по разработке грамматик. Разработка таких грамматик уже не всегда укладывается в рамки стандарта SRGS, и реализуется у всех производителей систем распознавания речи за счет собственных технологий, которые включают генерацию речевых моделей для каждого голосового приложения и написание специализированных семантических грамматик, являющихся расширением стандарта SRGS.
Пример mixed-initiative диалога, реализованного в системе Аэрофлот-Инфо (см. Рис.17). Аэрофлот-Инфо: Здравствуйте, чем я могу вам помочь? Пользователь: Мне нужно узнать расписание рейсов из Москвы в Цюрих Аэрофлот-Инфо: Хорошо, расписание рейсов из Москвы в Цюрих. Назовите пожалуйста дату отправления. Пользователь: Двадцать второе апреля Аэрофлот-Инфо: Ваш запрос: Москва - Цюрих, двадцать второе апреля. По вашему запросу найден один рейс. Время отправления ...
Построение диалогов с использованием распознавания естественной речи (Natural Speech Recognition) позволяет задавать пользователю открытые вопросы, например «Чем я могу вам помочь?». Естественное распознавание реализуется в каждой системе распознавания закрытыми алгоритмами, базирующимися на создании статистических речевых (Statistical Language Model) и семантических (Statistical Semantic Model) моделей для каждого голосового приложения. Неотъемлемой частью таких диалогов является их обучение, которое осуществляется путем загрузки реальных запросов абонентов в виде текстовых предложений и ассоциации с семантическим смыслом.
Этапы создания интеллектуальных голосовых приложений
При создании голосовых приложений необходимо выделить ряд последовательных этапов [46, 47], приведенных в Таб. На этапе постановки задачи, в первую очередь необходимо понять требования, к голосовому приложению, которые могут включать следующие аспекты: - Бизнес-мотивация, или та полезная функция, которую будет выполнять приложение; - Существование других каналов доступа к этой же функции (например через web) ; - Целевая аудитория приложения; - Учет языковых особенностей пользователей - языки, диалекты, жаргон; - Подготовленность пользователей к технологии; - Критичность приложения для пользователя (например это информационная служба, или служба управления счетами); - Причина по которой пользователи используют систему; - Одноразовое или многоразовое использование; - Канал взаимодействия — стационарный или мобильный телефон; - Предполагаемая среда использования - автомобиль (hands-free), шумная среда (вокзал, аэропорт); - Необходимость использования других каналов (например для установки параметров голосового ящика, предпочитаемых биржевых тиккеров и т.д.); - Задачи и подзадачи. Необходимо четко очертить перечень сервисов, которые предоставляет приложение, входных и выходных данных; - Анализ уровня сложности задач. Необходимо ли пользователю предварительное обучение, прежде чем приступить к использованию системы; - Анализ потенциальных сложностей с распознаванием речи. Примерами могут служить распознавание больших списков (тысячи городов), длинных буквенно-цифровых слов (логины); - Предполагаемое программно-аппаратное окружение - базы данных, web-сервисы, предполагаемая задержка.
После осознания перечисленных вопросов, необходим высокоуровневый дизайн, куда может входить: - Ключевые показатели, которые должны быть соблюдены в системе; - Высокоуровневая структура диалога; - Листинги примеров диалогов; - Схемы обработки ошибок; - Создание персоны (образа).
Следующая фаза - дизайн голосового приложения. Фаза дизайна включает в себя следующие этапы: - Смысловой дизайн; - Дизайн речевых особенностей;
Аналитическая модель диалогов в голосовых приложениях
Можно выделить две области, в которых целесообразно применять моделирование - это моделирование системы и моделирование речевых диалогов. С точки зрения моделирования системы, задача не представляет интереса ввиду того, что была создана действующая система, которая позволяет провести все опыты вживую. Моделирование системы позволяет рассмотреть решение следующих вопросов: - Расчет ресурсов системы - сколько голосовых транков, портов IVR и портов ASR/TTS должна иметь система для обработки заданного объема звонков; - Сколько абонентов получат сигнал busy ввиду недостаточности ресурсов; - Какова будет максимальная задержка на шаге диалога, в ожидании распознавания и получения информации из внешних источников; С математической точки зрения, такие задачи интересны по ряду следующих причин: - Голосовой портал является системой массового обслуживания с ограниченными ресурсами, такими как голосовые транки, виртуальные порты 1VR и распознавания речи; - Система может обрабатывать звонки различного типа; - Поступление звонков в систему носит случайный характер; - Распознавание речи на каждом шаге диалога не является 100%-ным и также представляет собой вероятностную величину; - Логика построения диалога влияет на его длительность и вероятность успешного завершения; - Запрос информации из внешних источников требует определенного времени, что сказывается на длительности одного Шага диалога.
Как аналитическое моделирование, так и подходы к имитационному моделированию call-центров подробно описаны в [55-59]. Моделирование голосового портала с этой точки зрения отличается следующими аспектами: - В голосовом портале используются «автоматические операторы» поэтому не существует проблемы составления расписания работы и т.д., т.к. «операторы» свободны все время; - Время обработки звонка зависит от вероятности распознавания, абонента и структуры построения диалога. С другой стороны его довольно точно можно представить в виде показательного распределения; - Запрос во внешние источники данных требует времени, что приводит к «зависанию» диалога на определенном шаге на длительное время.
Таким образом, задача моделирования голосового портала, как системы, частично сводится к задачам моделирования call-центра.
Моделирование речевых диалогов позволяет выявлять наиболее оптимальные стратегии построения диалогов. Гибкость построения речевых диалогов лежит в следующих возможностях: - Организация переспросов по ходу диалога, либо на каждом шаге, либо в конце диалога; - Анализ параметра confidence level, т.е. «уверенности» с какой система распознала слово; - Анализ списка результатов распознавания, т.н. n-best list, Используя перечисленные возможности при построении диалогов, можно добиться повышения эффективности диалога. В данной работе мы остановимся на построении аналитической модели речевых диалогов.
Одной из важнейших задач при моделировании систем является постановка цели. Модель должна строиться в зависимости от целей, которые ставит перед ней исследователь. Например, для АСУ предприятием весьма существенно изучение процессов оперативного управления производством, оперативно-календарного планирования, перспективного планирования и здесь также могут быть успешно использованы методы моделирования [60].
Целью построения аналитической модели для различных стратегий диалогов является следующее: Получение математического аппарата для дальнейшего принятия решений об использовании той или иной стратегии при построении речевых диалогов.
Аналитическое моделирование речевых диалогов уже предпринималось рядом исследователей [61, 62]. В данном разделе мы рассмотрим аналитические способы решения задач о выборе наиболее оптимальной стратегии диалога. Будут рассмотрены три основных стратегии построения речевого диалога, см Рис.26.