Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Балакшин Павел Валерьевич

Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов
<
Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Балакшин Павел Валерьевич. Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов: диссертация ... кандидата технических наук: 05.13.11 / Балакшин Павел Валерьевич;[Место защиты: Федеральное государственное автономное образовательное учреждение высшего образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»].- Санкт-Петербург, 2015.- 127 с.

Содержание к диссертации

Введение

1 Анализ алгоритмов и программных средств распознавания речи 12

1.1 Развитие методов и алгоритмов распознавания 12

1.2 Наблюдаемый марковский процесс 17

1.3 Скрытая марковская модель (СММ) 21

1.4 Типы скрытых марковских моделей, применяемые в системах распознавания речи 28

1.5 Общая структура системы распознавания речи 30

1.6 Анализ существующих программных средств

1.6.1 Средства речевого ввода текста 34

1.6.2 Средства разработки систем распознавания речи

1.7 Три основные задачи при использовании СММ в распознавании речи 38

1.8 Основные показатели эффективности систем распознавания речи и современные научные проблемы 40

1.9 Выводы 42

2 Применение скрытых марковских моделей в системах распознавания речи 44

2.1 Алгоритмы точного вычисления вероятности появления последовательности наблюдений 44

2.2 Алгоритмы поиска оптимальной последовательности состояний 49

2.3 Алгоритмы подстройки параметров модели 51

2.4 Сравнение трудоёмкости алгоритмов 55

2.5 Моделирование длительности состояний 57

2.6 Модифицированный алгоритм Витерби 59

2.7 Сравнения алгоритмов и критерии эффективности распознавания речи 65

2.8 Выводы 68

3 Использование особенностей речевого словаря 69

3.1 Классификация речевых словарей 69

3.2 Предметная область и размер её словаря 74

3.3 Особенности использования речевого словаря в работе телефонных служб поддержки клиентов 82

3.4 Построение системы распознавания речи 83

3.5 Особенности вычисления и применения перплексии 86

3.6 Выводы 90

4 Результаты экспериментальных исследований 91

4.1 Реализованные программные модули 91

4.2 Экспериментальные оценки 93

4.3 Определение причины звонка 96

4.4 Основные метрики для оценки эффективности распознавания речи в телефонных службах поддержки 97

4.5 Особенности внедрения и тестирования 103

4.6 Выводы 105

Заключение 106

Список литературы

Введение к работе

Актуальность темы исследований. В связи с развитием вычислительной техники и информационных технологий особый интерес стали вызывать вопросы взаимодействия человека с компьютерами и компьютеризированными устройствами. Сегодня применение речевых технологий в прикладных программах в качестве дополнительного или отдельного средства взаимодействия человека с вычислительным устройством становится всё более частым.

Системы автоматического распознавания речи используются и продолжат быть востребованными в самых разнообразных областях: при стенографии медицинских операций, при управлении голосом различными процессами, машинами, в ряде компьютерных игр, для установления прямой речевой связи с поисково-информационными системами.

Автоматическое распознавание речи может быть использовано как для идентификации и верификации личности по голосу в телефонных службах поддержки клиентов (англ. call-center), так и для последующего анализа работы таких служб. Поэтому разработка новых систем распознавания речи, позволяющих повысить эффективность процессов обработки данных в вычислительных машинах с использованием современных методов, является большой, актуальной и перспективной научно-технической задачей, решению которой посвящена данная работа.

Кроме того, актуальность исследований подтверждают:

  1. Научно-исследовательские центры, в том числе: Массачусетский технологический университет, Стэнфордский университет, Исследовательский центр речевых технологий IBM, Центр речевых технологий, Лаборатория проблем теоретической кибернетики (университет МГУ имени М.В. Ломоносова), Лаборатория речевых и многомодальных интерфейсов (Санкт-Петербургский институт информатики и автоматизации РАН).

  2. Публикации в международных журналах («Speech and Audio Processing»).

  3. Международные научно-технические конференции (Interspeech — крупнейшая ежегодная конференция (1993–2015 гг.)).

  4. Различные программно-технические разработки: Dragon Naturally Speaking компании Nuance, встроенное речевое управление в ОС Windows, речевой поиск Google.

Решению различных теоретических и практических проблем распознавания речи посвятили свои работы ведущие зарубежные учёные и специалисты Lea W. A., Pierce J. R., Baum L. E., Viterbi A. J., Bakis R., Juang B. H., Gold B., Jelinek F., Welch P. D., Vaseghi S. V., Flanagan J. L., Tebelskis J., Oppenheim A. V., Rabiner L., Winters-Hilt S., а также отечественные специалисты Гольденберг Л. М., Поляк М.Н., Матюшкин Б.Д., Мясников Л.Л., Винтцюк Т.К., Сапожков М.А., Сорокин В.Н., Галунов В.И., Леднов В.А., Мазуренко И.Л., Ронжин А.Л., Аграновский А.В., Хитров М.В., Чучупал В.Я. и другие.

Цель диссертационной работы — повышение точности распознавания речи за счёт создания модифицированного алгоритма распознавания речи на основе скрытых марковских моделей и его программной реализации для применения в работе телефонных служб поддержки клиентов.

Для достижения цели были поставлены и решены следующие задачи:

  1. Анализ современных алгоритмов и программных средств автоматического распознавания речи, выявление существующих научных проблем.

  2. Совершенствование алгоритмов распознавания речи, основанных на скрытых марковских моделях, за счет:

а) использования дополнительной информации о длительности состоя
ний;

б) применения различных критериев поиска оптимальной последователь
ности состояний.

  1. Определение необходимого размера словаря для конкретной предметной области телефонной службы поддержки клиентов.

  2. Разработка системы распознавания речи, использующей:

а) модифицированный алгоритм Витерби;

б) ограниченный речевой словарь с возможностью модификации;

в) перплексию из трёх слов с возможностью модификации.

5. Исследование разработанного алгоритма и системы распознавания речи с
целью определения их эффективности и особенностей внедрения.
Научная новизна работы заключается в том, что в ходе выполнения рабо
ты получены следующие новые научные результаты:

  1. Разработана модификация алгоритма Витерби, обеспечивающая повышение точности распознавания за счёт введения дополнительной информации о длительности состояний модели.

  2. Экспериментально получена оценка нижней границы достаточного размера словаря четырёх предметных областей, не связанных между собой, значение которой составляет 2500 слов для конкретной предметной области телефонной службы поддержки при эффективном распознавании речи.

  3. Разработана система, учитывающая частоту использования слов в конкретной предметной области и обеспечивающая при этом увеличение скорости распознавания.

Практическая значимость результатов работы заключается в следующем:

  1. Разработана система, реализующая более точное соответствие речевому сигналу, в которой для наиболее редких слов значение метрики OOV (англ. Out-of-Vocabulary — количество внесловарных слов) не превышает 6%.

  2. Данная система программно реализована в виде отдельного модуля, связывающего набор библиотек HTK (Hidden Markov Toolkit) и систему анализа и учёта звонков телефонной службы поддержки клиентов.

  3. В результате использования данной системы распознавания речи в теле-

фонной службе поддержки клиентов ООО «Системные решения» значение важнейшей для данной области метрики FCR (англ. First Call Resolution — разрешение проблемы за первый звонок) повышено со значения 65–75% до значения 72–79% (для различных причин звонка). 4. Результаты диссертации используются в компании ООО «Энката Технолод-жис СПб» при построении системы автоматического распознавания речи. Методы исследований основаны на теории вероятностей, теории информации, законе Парето, статистическом анализе данных, а также включают методы автоматного и объектно-ориентированного программирования, математические методы аппроксимации.

На защиту выносятся следующие положения:

  1. Модификация алгоритма Витерби, повышающая точность распознавания речи на 2–5%.

  2. Система, обеспечивающая более точное соответствие речевому сигналу даже в случае «кэш-промаха».

  3. Программная реализация предложенной системы, способной работать в квазиреальном масштабе времени при использовании её в качестве средства визуализации речи в телефонных службах поддержки клиентов.

4. Результаты численных экспериментов по оценке эффективности использо
вания разработанной системы в телефонной службе поддержки клиентов.
Достоверность научных положений, выводов и практических рекоменда
ций, полученных в диссертации, подтверждается корректным обоснованием по
становок задач, точной формулировкой критериев, сравнением с аналогами, об
суждением материалов на 13 конференциях, а также актами внедрения на прак
тике.

Апробация результатов работы. Основные положения диссертационной работы представлены и обсуждены на IV-й межвузовской конференции молодых ученых (СПб., 2007), V-й, VI-й, VII-й, VIII-й всероссийских межвузовских конференциях молодых ученых (СПб., 2008–2011), XXXVII-й, XXXVIII-й, XXXIX-й, XL-й, XLIV-й научных и учебно-методических конференциях Университета ИТМО (СПб., 2008–2011, 2015), всероссийской научно-технической конференции «Интеллектуальные и информационные системы» (Тула, 2009); IX-й международной научно-практической конференции «Исследование, разработка и применение высоких технологий в промышленности» (СПб., 2010); II-й международной конференции «Informatics and Management Science» (Словакия, 2013).

Реализация и внедрение результатов работы. Основные результаты работы внедрены в учебном процессе на кафедре вычислительной техники Университета ИТМО, при выполнении НИР № 610481 «Разработка методов и средств системотехнического проектирования информационных и управляющих вычислительных систем с распределенной архитектурой», НИР № 340725 «Исследование и разработка методов повышения робастности алгоритмов автоматического распознавания русской слитной речи в условиях сложной акустической обста-

новки в режиме реального времени» (ID RFMEFI57514X0033), а также в компаниях ООО «Энката Технолождис СПб» и ООО «Системные решения» (Москва), что отражено в актах о внедрении.

Награды. В 2010 году автор стал победителем конкурса грантов Правительства Санкт-Петербурга для аспирантов и был утверждён на стипендию Президента Российской Федерации на 2010–2011 учебный год.

Публикации. По теме диссертации опубликовано 10 научных работ, в том числе семь статей, из которых две опубликованы в научных журналах из перечня ВАК.

Личный вклад. Основные результаты работы, вывод и рекомендации по повышению эффективности телефонных служб поддержки, изложенные в диссертации, получены автором самостоятельно. В работах, опубликованных в соавторстве, личный вклад автора заключается в выполнении аналитических расчётов, практических экспериментов, реализации программных решений и статистическом анализе полученных результатов.

Структура и объём диссертации. Диссертационная работа состоит из введения, четырёх глав, заключения, списка литературы и приложения, содержащего материалы, подтверждающие внедрение результатов диссертации. Объём диссертационной работы составляет 127 страниц машинописного текста. Работа содержит 28 рисунков и 16 таблиц, список литературы содержит 127 источников, включая работы отечественных и зарубежных авторов.

Скрытая марковская модель (СММ)

Таким образом, при наличии модели процесса в виде матрицы вероятностей = ij и матрицы вероятностей начальных состояний І, нетрудно вычислить вероятность любой последовательности состояний, что является ничем другим, как любым наблюдением. Такую модель принято называть марковской моделью.

Стандартная марковская модель имеет ряд существенных ограничений, чтобы её можно было успешно применять при решении многих задач, представляющих практический интерес [52] (в частности, к распознаванию речи). В случае, когда наблюдения задаются не явно, а с помощью некоторой вероятностной функцией для каждого наблюдаемого состояния, модель будет представлять собой дважды стохастический процесс. Т.е. он состоит из пары случайных процессов, один из которых является основным и ненаблюдаемым, то есть скрытым от разработчика.

Исследованный ранее тип марковских моделей с успехом применяется там, где состояния модели соответствуют реально наблюдаемым событиям. В то же время эти модели очень ограничены, чтобы быть применимыми к большому числу важных научно-технических задач, в том числе и к распознаванию речи.

На практике наиболее распространены так называемые скрытые марковские модели (СММ). Они описывают вложенные стохастические процессы, когда в действительности наблюдаются события лишь внешнего процесса, а события некоего скрытого процесса не наблюдаются непосредственно — они могут быть определены только посредством наблюдений за внешним процессом. Другими словами, СММ — статистическая модель, имитирующая работу процесса, похожего на марковский процесс с неизвестными параметрами, и задачей ставится определение или подбор неизвестных параметров на основе наблюдаемых.

Отсюда следует, что в скрытых марковских моделях наблюдаемые события являются вероятностными функциями от реального состояния системы. Данные модели называются скрытыми марковскими моделями (СММ) [52]. Они нашли применение при анализе биологических последовательностей, распознавании письма, движений, во время криптоанализа. СММ может быть рассмотрена как простейшая байесовская сеть доверия.

Для более чёткого представления рассмотрим небольшой абстрактный пример вероятностного процесса, где в эксперименте имеются две сущности: урны и цветные шары.

Допустим, что в некоторой комнате расположены урн. Каждая из них содержит большое количество разноцветных шаров, а их множество цветов окраски равно . Алгоритм проведения эксперимента сводится к тому, что на первом шаге выбирается начальная урна и из неё случайным образом извлекается один шар. Далее цвет шара запоминается как первое наблюдение, а сам шар возвращается в начальную урну. После на основании некоторого вероятностного правила происходит переход к новой урне, и процесс выбора шара повторяется.

В итоге после ряда шагов эксперимента формируется некоторая конечная последовательность наблюдений, состоящая из последовательности цветов окраски шаров, которые извлекались из урн. Данный процесс и являлся целью моделирования, так как была получена последовательность наблюдений, порождаемая некоторой СММ [52]. Важно также заметить, что стохастический процесс выбора урны остался скрытым [116]. То есть вполне очевидно, что простейшей скрытой марковской моделью является модель, которую можно характеризовать следующими положениями: модель соответствует процессу извлечения шаров из урн; состояния модели соответствуют выбираемым урнам; для каждого состояния модели определена вероятность выбора того или иного цвета; процесс выбора урн управляется матрицей переходных вероятностей модели. Приведём набор параметров, требуемых для описания СММ [52, 93]. 1. N — конечное множество состояний модели. Стоит отметить, что состояния скрыты от наблюдателя. Обычно состояния связаны между собой так, что любое состояние может быть достигнуто из любого другого. Для обозначения состояний принято использовать S = S\,S2,... ,SN, а состояние модели в момент времени t принято определять как qt. М — конечное множество различных символов наблюдения, которые могут генерироваться моделью, то есть размер алфавита. Символы наблюдения соответствуют физическому выходу моделируемой системы (в ранее приведённом примере это цвета шаров, извлечённых из урн). Множество конкретных наблюдаемых символов принято обозначать как

Три основные задачи при использовании СММ в распознавании речи

Получается, что at(i) представляет собой совместную вероятность того, что наблюдается последовательность 0\, О Ot и того, что в момент времени t система находилась в состоянии S{. В результате произведение at(i)dij представляет собой вероятность того, что наблюдений и состояния Si в момент t будет достигнуто состояние Sj при наступлении момента времени t + 1. Суммирование этого произведения для всех возможных состояний Si (1 і N, где TV-число состояний скрытой марковской модели) в момент времени t даёт вероятность появления системы в состоянии Sj в момент времени t + І совместно со всеми возможными предыдущими наблюдениями [52]. Определив Sj, находим что at+\(j) получается посредством вычисления вероятности наблюдения Ot+i в состоянии j, т.е. умножением результата суммирования на вероятность bj(Ot+i). Вычисления в соответствии 2.8 при фиксированном t выполняются для всех состояний j, где 1 j N, и повторяются при t = 1, 2,... ,Т — 1.

После этого шаг 3 определяет искомую вероятность Р(0\Х) как сумму окончательных значений прямых переменных ат{г). Поскольку ат{і) = Р{0102 QT-, QT = Si\X), (2.10) то Р(0\Х) является суммой ат(і) по і. Следовательно, для вычисления вероятности Р(0\Х), необходимо около N2T вычислительных операций (точнее, 7V (7V + 1) (Т — 1) + N операций умножения и N (N — 1) (Т — 1) операций сложения). Для использованного нами примера N = 7 и Т = 200 алгоритм прямого хода требует всего около 72 200 « 104 арифметических операций, вместо 4 10171 операций для прямого вычисления, что существенно меньше [82].

Вычисление прямой вероятности в действительности основано на использовании решетчатой структуры. Основная идея заключается в том, что если существует только N возможных состояний модели, то все возможные последовательности состояний должны сливаться в N узлах [52].

Аналогичным образом вводится «обратная» переменная (3t(i), которая определяется как т.е. для заданной модели Л переменная (3t(i) представляет собой совместную вероятность появления частичной последовательности наблюдений от момента времени t + 1 до конца последовательности (Т) и при состоянии Si в момент времени t. Аналогично at (і) по индукции можно вычислить обратную переменную (3t(i) согласно следующей процедуре:

Вычисление вероятностей (3t(i), при l t Tиl i N, также потребует порядка N2 Т вычислительных операций и может быть эффективно выполнено на решетчатой структуре, аналогичной структуре, описанной при использовании алгоритма прямого хода.

Очевидно, что для решения задачи 1 достаточно вычисления только «прямой» переменной. Обе переменные используются при решении задач 2 и 3. Полный алгоритм работы представлен на рисунке 2.2 [93].

В отличие от задачи 1, для которой можно найти точное решение, задача 2 имеет несколько возможных решений. Трудность определения оптимальной последовательности обусловлена существованием нескольких критериев оптимальности. Так, один из возможных критериев состоит в выборе состояний qt, каждое из которых, взятое отдельно, является наиболее вероятным в конкретный момент времени t. Таким образом, этот критерий оптимальности максимизирует число корректно определённых индивидуальных состояний.

Для решения задачи 2 на основе такого критерия вводится переменная 7t(0 = P{Qt = Si\0, А), (2.14) которая принимает значение вероятности пребывания в состоянии Si в момент времени t при заданной последовательности наблюдений О и параметрах модели Л. С помощью прямой и обратной переменной формула 2.14 преобразуется как at(i)(3t(i) at(i)(3t(i) lt\4 = гл\ = —м 5 (2.15) где at(i) соответствует частичной последовательности наблюдений 0\0 Ot и состоянию Si в момент t, а (3t(i) —остатку последовательности наблюдений = Ot+iOt+2 От и заданному состоянию Si в момент t.

Несмотря на то, что выражение 2.17 максимизирует ожидаемое число правдоподобных состояний, такая последовательность состояний может оказаться некорректной. Например, если некоторые вероятности из матрицы переходов СММ равны нулю (т.е. = 0 для некоторых ,), то найденная оптимальная последовательность состояний может оказаться недопустимой последовательностью. Описанная проблема обусловлена тем, что уравнение 2.17 определяет наиболее вероятное состояние для каждого момента времени, но не учитывает вероятность появления последовательности состояний (т.е. матрицы переходов).

Один из возможных способов решения задачи 2 состоит в модификации критерия оптимальности [52]. В частности, решение задачи поиска последовательности состояний можно изменить, максимизируя число корректных пар состояний (, +1), троек состояний (, +1, +2) и т. д.

Наиболее распространённым является критерий, основанный на поиске единственной наилучшей последовательности состояний (или пути на решётке СММ), максимизирующей (,) = (,). Большинство исследователей сходятся на том, что в качестве метода определения такой наилучшей последовательности корректнее использовать алгоритм Витерби [70], который будет описан далее.

Задача 3 – наиболее трудная задача СММ: по заданной последовательности наблюдений необходимо определить такой метод подстройки параметров модели (,,), при котором для полученной модифицированной модели вероятность появления выбранной последовательности была максимальной [52]. К сожалению, не существует общеизвестного аналитического выражения для параметров такой модели. Более того, располагая некоторой последовательностью наблюдений в качестве обучающих («тренировочных») данных при практических экспериментах, невозможно определить оптимальный способ оценки параметров.

Но при использовании ряда итеративных процедур можно выбрать параметры модели = (,,) таким образом, чтобы локально максимизировать вероятность (). Примером данного подхода может служить метод Баума 52

Уэлча (Baum-Welch) или эквивалентный ему EM-метод [5, 7], а также градиентные методы [46]. В работе была рассмотрена итеративная процедура, основанная главным образом на классической работе Баума 1966 года [7].

Процедура переоценки параметров СММ (т.е. последовательного обновления данных и соответствующей поднастройки параметров) требует определить вероятность того, что при заданной последовательности наблюдений в моменты времени t и t + 1 система будет находиться в состояниях Si и SJ:

Алгоритмы подстройки параметров модели

Как было отмечено ранее под предметной областью в работе понимается малая область знаний, в которой затрагивается лишь несколько конкретных вопросов. Следовательно, в работе телефонных служб поддержки клиентов можно выделить одну-две предметные области, хотя реже может встречаться и большее количество предметных областей.

При рассмотрении необходимого значения исходных данных для определения размера словаря можно сделать вывод, что в нём не будут учтены все необходимые словоформы. Например, ряд окончаний могут встречаться в речи довольно редко. Следовательно, существует два варианта добавления таких слов в существующий речевой словарь: либо существенное увеличение размера исходных данных, либо внедрение дополнительной функциональности по добавлению или исправлению словоформ в речевой модели. Второй вариант позволяет оперативнее корректировать речевой словарь для более точного распознавания речи. Отсюда следует важный вывод, что возможность модификации размера речевого словаря внутри самой системы в режиме квазиреального времени становится неоспоримым преимуществом использования распознавания речи.

Данное преимущество особенно заметно в работе телефонных служб поддержки, где каждая из них имеет строго конкретизированную предметную область.

Важно отметить, что подобный принцип зарекомендовал себя и в других системах автоматического распознавания речи. Так русский фонетический словарь для декодера речи корпорации Intel [122] в 2004 году был модернизирован путём разбития каждой леммы на основу и поддерево окончаний, покрывающее все словоформы данной леммы.

Как было отмечено ранее, автоматическое распознавание речи находит все более широкое применение в работе call-центров (call center) — телефонных служб поддержки клиентов ряда компаний, деятельность которых сводится к оперативному решению телефонных запросов от клиентов или потенциальных потребителей. В маленьких компаниях с такие запросы могут обрабатывать несколько человек, но для крупных организаций (например, страховых или транспортных компаний, финансовых учреждений) такая ситуация недопустима и чревата финансовыми потерями, что подтверждается значениями из рисунка 3.6 [75].

В настоящее время некоторые из таких центров рассматривают возможность частичной замены операторов на компьютерные устройства, способные распознавать речь, затем её обрабатывать и анализировать, а в результате предоставлять осмысленный и необходимый ответ клиенту [124]. Дополнительным подтверждением этой тенденции является опрос, проведённый в 2007 году ком Рисунок 3.6 – Необходимое количество линий при 500 входящих вызовах в час панией Dimension Data [35]. 59% из опрошенных 382 контакт-центров считают, что улучшение работы службы является важнейшей стратегической целью. Кроме того, исследователи отмечают и первичный опыт работы несложной системы автоматического распознавания речи в телефонной службе поддержки дубайско-го аэропорта [80].

Следует подчеркнуть, что общение оператора телефонной службы поддержки и клиента происходит в форме живой беседы. Таким образом, распознавание речи должно происходить в масштабе времени, максимально близком к реальному, то есть в квазиреальном масштабе времени. В рамках данной работы на основании различных обзоров в данной области были обобщены и сформулированы преимущества использования систем распознавания речи в телефонных службах поддержки являются [15, 29, 39, 50, 79]: значительное снижение времени ожидания (англ. handle time), что позволяет сократить затраты на работу; уменьшение продолжительности звонка в 1,5–2 раза за счёт сокращения времени ручного ввода информации операторами; возможность автоматического ответа на простые вопросы, освобождая время работы операторов для работы со сложными звонками; возможность обслуживания клиентов круглосуточно (включая праздники); быстрая верификация голоса клиента во время ответа на один–два простых вопроса, что особенно актуально в банковской сфере для предотвращения краж персональных карт и секретных документов; возможность работы с большим числом коротких звонков (телефонная служба поддержки букмекерских компаний); возможность замены сложной, допускающей частые ошибки IVR-системы (англ. Interactive Voice Response), которая работает в тональном режиме; возможность использования распознавания речи в качестве дополнительного источника информации не только при разговоре, но и при дальнейшем анализе работы телефонной службы поддержки. В частности, данный анализ помогает улучшить ключевую метрику FCR — разрешение проблемы (вопроса) за один звонок. Это приводит к сокращению числа повторных звонков и повышению удовлетворенности клиентов одновременно, что в свою очередь приводит к снижению операционных и эксплуатационных затрат.

Однако несмотря на множество преимуществ и ряд успешных внедрений, существуют и недостатки использования систем распознавания речи. К основным недостаткам следует отнести:

Предложенная система распознавания речи включает в себя блок обратной связи на изменение размера речевого словаря после обработки полученной информации (рисунок 3.7). С одной стороны, меньший словарь обеспечит более высокую скорость распознавания. С другой стороны, существует вероятность распознать редкий вопрос с очень низкой и даже недостаточной точностью. По этой причине данный параметр, а именно, размер речевого словаря системы распознавания, очень важен: от него зависит скорость вовлечения и степень использования распознавания речи в работе телефонной службы поддержки. Дополнительной особенностью системы является блок обратной связи для изменения вероятности распознавания конкретного слова после обработки полученной информации (рисунок 3.7). Таким образом, блок вычисления вероятности распознавания конкретного слова работает в паре с речевым словарем. Это обеспечивает возможность увеличивать вероятность распознавания как предварительно определенных, так и новых слов.

Существует ещё одна важная особенность предложенной системы. В работе предложено учитывать связность слов, или так называемую перплексию (ряд исследователей называют перплексией N-граммные модели). Связность учитывает количество слов, которые логически могут встретиться после данного слова. Именно связность повышает точность распознавания речи, поскольку вопросы, задаваемые клиентами, имеют достаточно чёткий синтаксис, что особенно ярко выражено в английском и немецком языках. Многими исследователями уже было показано преимущество моделей с перплексией. В предложенной системе перплексия имеет дополнительную возможность модификации перплексии как самой системой, так и оператором, что увеличит «кэш-попадание».

Особенности использования речевого словаря в работе телефонных служб поддержки клиентов

Стоит отметить, что полученная дополнительная информация может использоваться для снижения количества повторных звонков, что приведёт к снижению общего количества звонков и снижению операционных расходов колл-центра. Ключевым моментом при этом является улучшение метрики FCR (англ. – First Call Resolution) – разрешение проблемы или вопроса за один звонок, который приводит одновременно к снижению числа повторных звонков и повышению удовлетворенности клиентов.

Исследования, проведённые в работе, показали, что предложенная система может с успехом использоваться для сокращения количества повторных звонков от клиентов. Это приводит к снижению общего количества звонков и снижению операционных расходов телефонной службы поддержки. Указанные изменения неразрывно связаны с улучшением (увеличением) основной метрики FCR, определяющей работу всей телефонной службы поддержки. Данная метрика исчисляется в процентах и оценивает долю разрешения проблемы (вопроса) за один звонок. Она вычисляется следующим образом [31, 32]: где – общее количество причин звонка; – элемент из множества причин ; – количество цепочек звонков по -ой причине; – количество цепочек звонков по -ой причине, состоящих из одного звонка. Тогда общее значение FCR можно определить как среднее из всех .

Более высокое значение метрики является показателем более успешной работы. По данным опроса руководителей 54 телефонных служб поддержки Великобритании 81% из них считает, что FCR – это именно тот показатель, который может объективно оценить работу как всей телефонной службы поддержки, так и каждого оператора (или группу операторов), в частности [15].

Существует несколько способов определения метрики FCR, среди которых выделяют [118]: текущий контроль и мониторинг соединений; опрос с помощью интерактивной IVR-системы по окончании звонка; телефонный опрос спустя один-три дня после исследуемого звонка. Как было отмечено ранее, дополнительным преимуществом использования распознавания речи в телефонных службах поддержки клиентов является дальнейший анализ полученной информации. В соответствии с результатами последних исследований телефонных служб поддержки [11, 27, 50], проведенных для различных отраслей бизнеса, 33% от общего числа звонков являются повторными (рисунок 4.3).

В предложенной системе распознавания речи по итогам распознавания причины звонка и клиента полученная информация передаётся в блок вычисления основных метрик (рисунок 3.7). Далее происходит расчёт повторных звонков от каждого клиента по каждой причине в течение периода, когда данная причина может быть актуальной.

Изменение кредитного лимита - 30 дней. На основании указанного расчёта вычисляется значение метрики FCR для каждой причины (), а затем и итоговая FCR. Текущее значение FCR составляет 65–75%, что влечет довольно большие затраты на работу телефонной службы поддержки.

Показано, что реализованной системе количество звонков с распознанной конкретной причиной увеличивается, а за счет дальнейшего анализа повышается и значение метрики FСR до 72–79%. Исследованные звонки были распознаны со скоростью около 95 слов в минуту. Полученный показатель является хорошим, достаточным результатом, так как средняя скорость русской речи составляет 105–125 слов. Однако часто клиенты телефонной службы поддержки произносят свою речь с большим количеством эмоций, заметно ускоряя скорость речи и приближая её к показателям английской речи 140–150 слов в минуту.

Существует ещё один положительный момент. Введение в систему распознавания речи блока семантического анализа (рисунок 3.7) позволяет повысить именно семантическую точность распознавания и улучшить значение метрики FCR. Для этого был составлен словарь ключевых синонимичных терминов и произведено ранжирование ключевых слов на основе экспертной оценки, так как в одном звонке клиента может быть несколько причин. Также в разработанной системе имеется возможность модификации семантического анализа менеджером.

«Карта не выдаётся банкоматом обратно». В данном случае важно то, что банкомат имеет проблемы при работе с картой. Таким образом, как причина звонка будет регистрироваться именно эта информация, а не её семантически менее важные детали. За счёт этого для определения метрики FCR будет использоваться уникальная причина звонка вместо различных схожих, т.е. можно считать, что семантический анализ выполняет некоторую предобработку данных.

Благодаря использованию семантического анализа в проведённых экспериментах метрика FCR увеличивается до 78–86%. Результаты увеличения основной метрики телефонных служб поддержки для 13 исследованных операторов приведены на рисунке 4.4.

Помимо важнейшей метрики FCR, определяющей, был ли звонок единственным в цепочке, важно отслеживать звонки, ставшими последними в цепочке. Это означает, что оператор успешно выполнил свою работу в отличие от своих предыдущих коллег. Подобные звонки отслеживаются с помощью метрики RCR (англ. Repeat Call Rate — уровень повторных звонков) [79], показывающей были ли после выбранного звонка совершены последующие звонки. Метрика рассчитывается для каждой причины как отношение звонков с повторами к общему числу звонков. Чем метрика меньше, тем лучше работает оператор.

Для примера рассматривается реальный звонок с вопросом о покупке расходных материалов. Проведённый эксперимент показал, что в 74% исследуемых звонков последовательность вопросов будет прогнозируема [4]. Пример часто встречаемой последовательности представлен в таблице 4.2. Таким образом, зная последовательность вопросов, оператор сможет не только отвечать на вопросы клиента, но и в нужное время задавать уточняющие вопросы. Это поможет избежать повторных звонков и снизит нагрузку на работу телефонной службы поддержки клиентов. В итоге произойдёт повышение (улучшение) ещё одной ключевой метрики NCA (англ. Next Call Avoidance — избегание последующих звонков) c 85-90% на 7-9%. Данная метрика оценивает процент звонков, после которых в течение определённого периода не появляется звонок со свя 102 занной проблемой (вопросом), и вычисляется следующим образом [30]: где – общее количество причин звонка, имеющих последующаю связь с другими причинами (например, покупка авиабилета и уточнение правил провоза багажа); – элемент из множества таких причин ; – количество цепочек звонков по -ой причине; – количество цепочек звонков по -ой причине, состоящих из одного звонка, т.е. после которых клиент не перезванивал для корректировки или дополнения информации.

По итогам эксперимента в систему был добавлен элемент в виде выпадающего списка «След. вопрос» (рисунки 4.1, 4.2). Он работает в паре с выбранной причиной звонка и помогает оператору задавать дополнительные уточняющие вопросы непосредственно в текущем звонке.