Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии Левин Кирилл Евгеньевич

Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии
<
Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Левин Кирилл Евгеньевич. Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии : дис. ... канд. техн. наук : 05.12.13 Владимир, 2006 148 с. РГБ ОД, 61:07-5/1667

Содержание к диссертации

Введение

1. Анализ факторов, влияющих на достоверность автоматического распознавания голосовых команд в компьютерной телефонии 12

1.1. Факторы, определяющие достоверность распознавания 12

1.2. Методы повышения помехоустойчивости системы распознавания голосовых команд 21

1.3. Выбор системы параметров речевого сигнала 27

Выводы к главе 1 34

2. Оценка достоверности распознавания и исследование алгоритмов обработки речевых сигналов 36

2.1. Методы оценки достоверности распознавания 36

2.1.1. Анализ влияния помех на достоверность распознавания 37

2.1.2. Анализ влияния параметров моделей голосовых команд на достоверность распознавания 41

2.2. Поэтапное построение моделей команд с контролем качества моделей на каждом этапе 49

2.3. Исследование алгоритмов подавления помех 55

2.3.1. Использование фильтра Винера 55

2.3.2. Адаптивная компенсация помех 61

Выводы к главе 2 69

3. Программный комплекс для исследований алгоритмов обработки речевого сигнала 71

3.1. Требования, предъявляемые к комплексу 71

3.2. Структура комплекса и особенности его реализации 72

3.3. Оценка достоверности распознавания и исследование алгоритмов обработки речевых сигналов средствами комплекса 78

3.3.1. Оценка достоверности распознавания 78

3.3.2. Определение параметров огибающей кратковременного спектра сигнала 80

3.3.3. Определение частоты основного тона 85

3.3.4. Компенсация помех 91

Выводы к главе 3 95

4. Система прямого доступа к абонентам учрежденческой АТС, управляемая голосовыми командами 97

4.1. Общая характеристика системы 97

4.2. Особенности аппаратного обеспечения 99

4.3. Структура программного обеспечения 102

4.4. Алгоритм построения моделей голосовых команд 106

Выводы к главе 4 118

Заключение 120

Библиографический список

Введение к работе

Актуальность темы

Растущие возможности вычислительной техники стимулируют развитие систем компьютерной телефонии. Эти системы позволяют значительно расширить ассортимент услуг, которые пользователь может получить по телефону, не прибегая к помощи человека - оператора. Это и заказ авиабилетов, и операции с банковским счетом, и автоматическая переадресация телефонного вызова в учрежденческих автоматических телефонных станциях. Развитие таких услуг требует повышения «интеллекта» подсистем автоматического речевого ответа, входящих в состав систем компьютерной телефонии. Одним из направлений развития-систем речевого ответа является использование систем автоматического распознавания речи. Такие системы позволяют перейти к привычному для пользователя голосовому способу общения с автоматом и сократить время обработки телефонных вызовов [50].

Современная система распознавания речи для компьютерной телефонии -это сложная структура, объединяющая в себе программную и аппаратную составляющие. Алгоритмы, которые сейчас наиболее широко используются при цифровой обработке речевых сигналов, базируются на теории скрытых марковских процессов. Теоретические основы систем цифровой обработки сигналов и распознавания речи были заложены такими зарубежными и отечественными учеными, как Маркел Дж.Д., Оппенгейм А.В., Рабинер Л.Р., Стирнз С, Фланаган Дж., Шафер Р.В.,, Уидроу Б., Винцюк Т.К., Галунов В.И., Потапова Р.К.

Хотя в последние годы системы автоматического распознавания речи стали интенсивно внедряться в системы компьютерной телефонии, тем не менее следует отметить во многом эмпирический подход, который используется разработчиками при создании систем распознавания. Проблема состоит в том, что до сих пор остается много неясного в механизме восприятия речи человеком (именно на этих механизмах сосредоточено внимание многих

7 исследователей в области автоматического распознавания речи). Поэтому параметры алгоритмов обработки речевых сигналов, которые используются при распознавании речи, часто подбираются экспериментально путем тестирования систем распознавания большими выборками голосовых команд, что требует больших затрат времени.

При разработке системы автоматического распознавания речи решаются две основные задачи: - выбирается совокупность алгоритмов обработки речевых сигналов, порядок их применения, обеспечивающие выполнение требований технического задания; - для каждого алгоритма определяются значения параметров, при которых алгоритм работает наиболее эффективно.

Для решения этих задач используются специализированные инструментальные средства.

Для исследования и разработки систем распознавания речи во всем мире широко используется система НТК (Hidden Markov Toolkit), разработанная группой ученых кембриджского университета совместно с фирмой Microsoft [89]. Она реализует основные алгоритмы обработки речевых сигналов и обеспечивает создание модели системы распознавания на их основе. Однако средств оптимизации и настройки систем распознавания, реализованных в НТК, недостаточно для проведения полноценных исследований. Кроме того, система НТК предлагает несколько возможных методов параметрического описания речевого сигнала, однако выбор этих параметров целиком возложен на пользователя системы. В НТК отсутствуют некоторые блоки, необходимые для реализации автоматического распознавания речи в системах компьютерной телефонии, например блок подавления помех и блок построения речевого меню. Отсутствуют средства обработки результатов исследования.

Другой программный исследовательский комплекс MATLAB (вместе с пакетом Digital Signal Processing) от компании Mathworks [44] обладает широкими возможностями по исследованию устройств цифровой обработки

8 сигналов. Тем не менее, в нем отсутствуют специализированные средства исследования блоков обработки речевого сигнала, использующихся в распознавании речи.

Исходя из вышеизложенного, актуальной является задача создания инструментальных средств разработки систем автоматического распознавания речи для компьютерной телефонии, позволяющих определить порядок использования алгоритмов обработки речевых сигналов, а также их параметры.

Цель диссертационной работы заключается в исследовании алгоритмов обработки речевого сигнала, применяемых при автоматическом распознавании голосовых команд для систем компьютерной телефонии, и разработке на базе этих исследований специализированных инструментальных средств проектирования систем автоматического распознавания голосовых команд.

Для достижения поставленной цели необходимо решение следующих задач:

Анализ факторов, снижающих достоверность распознавания голосовых команд;

Разработка методов исследования алгоритмов обработки речевого сигнала в системах распознавания;

Разработка структуры комплекса инструментальных средств для проектирования систем распознавания;

Реализация комплекса инструментальных средств и его апробация путем проектирования системы автоматического распознавания голосовых команд для практического использования.

Методы исследования. При проведении исследований в диссертационной работе использовались математический аппарат теории случайных процессов, методы математической статистики, теории-адаптивной фильтрации, теории цифровой фильтрации. Анализ полученных решений проводился моделированием на ЭВМ.

Научная новизна состоит в следующем:'

1. Предложен критерий оценки достоверности распознавания голосовых команд, который позволяет оценить достоверность систем распознавания голосовых команд, имеющих малую относительную частоту ошибок.

Разработан многоэтапный алгоритм определения параметров моделей скрытого марковского процесса с контролем качества создаваемых моделей на каждом этапе.

На базе выявленного в работе состава типовых процедур обработки сигналов и данных, применяемых при исследовании систем автоматического распознавания голосовых команд, разработана структура комплекса инструментальных средств для исследования и проектирования таких систем.

Практическая ценность полученных результатов заключается в следующем:

Разработан программный комплекс, позволяющий создавать различные инструментальные средства для исследования алгоритмов обработки речевых сигналов из отдельных блоков методом визуального программирования. В состав комплекса входит 56 функциональных блоков.

Разработана методика проектирования системы автоматического распознавания голосовых команд, используемых в компьютерной телефонии.

Разработана система автоматического распознавания голосовых команд, используемых в компьютерной телефонии. Относительная частота ошибок распознавания в системе не превышает 3%, что значительно меньше допустимого порога в 5%.

Разработана система прямого доступа абонентов городской телефонной автоматической станции к абонентам автоматической телефонной станции учреждения. Особенностью системы является использование автоматического распознавания голосовых команд, что позволяет абонентам ГТС использовать телефонные аппараты, как с импульсным, так и с тональным набором номера. За счет программной реализации большей части служебных функций удалось снизить стоимость аппаратных средств по сравнению с аналогичными решениями в 6 раз.

10 Внедрение

Созданная на основе результатов диссертационной работы система прямого доступа к абонентам учрежденческой АТС с голосовым управлением используется в городском информационно-методическом центре г. Владимира.

Результаты научной работы автора использованы в коммерческом проекте SMARTKOM университета Фридриха-Александра (г.Эрланген, Германия).

Созданный программный комплекс для исследования алгоритмов обработки речевых сигналов используется в научно-техническом центре ОАО «Завод Автоприбор». Также этот комплекс внедрен в учебный процесс Владимирского государственного университета на кафедре радиотехники и радиосистем и используется в лабораторном практикуме дисциплины «Моделирование устройств компьютерной телефонии».

На защиту выносятся:

Критерий оценки достоверности распознавания, позволяющий проанализировать влияние различных факторов на функционирование системы автоматического распознавания с малым значением относительной частоты ошибок распознавания.

Многоэтапный алгоритм создания моделей голосовых команд, позволяющий создать инструментальное средство для обучения системы распознавания.

Результаты моделирования алгоритмов компенсации помех для систем распознавания голосовых команд, позволившие оценить границы применимости этих алгоритмов.

Комплекс программных средств, позволяющий проводить исследования алгоритмов обработки речевых сигналов в системах распознавания речи.

Апробация работы. По материалам диссертации автором сделано 18 докладов, в том числе 14 докладов на международных конференциях. В частности, два доклада сделаны на международных конференциях «SPECOM» (г.Патрас (Греция) - 2005г.; г.Москва - 2003г.).

Работа «Программный комплекс моделирования устройств обработки речевых сигналов» награждена Грамотой Президиума центрального совета

РНТО РЭС им. А.С. Попова и журнала «Радиотехника» на Всероссийском конкурсе студенческих работ в 2004г.

Работа «Использование фильтра Винера для обработки речевых сигналов при автоматическом распознавании голосовых команд» отмечена как одна из лучших в конкурсной программе Международной научно-технической школы-конференции «Молодые ученые - 2005».

Публикации. По теме диссертации опубликована 21 работа, в том числе 3 статьи в центральных рецензируемых журналах, 14 статей в трудах международных конференций и симпозиумов.

Структура работы. Диссертация состоит из введения, четырех глав, заключения, приложений, списка литературы, имеющего 91 наименование отечественных и зарубежных источников, в том числе 21 работа автора. Общий объем диссертации 129 страниц, в том числе, 101 страница основного текста, 10 страниц списка литературы, 61 рисунок, 3 таблицы и 19 страниц приложений.

Факторы, определяющие достоверность распознавания

Современная система распознавания - это сложная совокупность различных блоков обработки. Структура системы распознавания представлена нарис. 1.1.

Дискретизированный речевой сигнал (PC) S(n) поступает на вход блока подавления помех. Очищенный PC S04UUf(n) поступает на вход блока определения параметров PC. Отметим, что часто данный блок может быть введен в состав блока подавления помех. В этом случае оценка помеховой обстановки может выполняться на основе анализа параметров речевого сигнала, а не до оценки параметров.

На основе анализа параметров (к) PC и сведений о помехах выбирается набор моделей голосовых команд (ГК) , соответствующих текущему помеховому фону и типу голоса (мужской, женский, детский,...)[45]. Поскольку системы распознавания позволяют быстро менять словарь распознаваемых команд, то для каждого распознаваемого произнесения в общем случае может быть подготовлен свой словарь {т0}.

Адаптированные к помехе модели {та} поступают на вход блока распознавания, который сопоставляет траектории параметров PC {к} во времени с моделями голосовых команд (ГК) {та} и на основе этого делает заключение {v} о соответствии произнесенной команды некоторой модели. В большинстве разрабатываемых систем автоматического распознавания речи (САРР) в качестве моделей команд используются модели скрытых марковских процессов (МСМП) [23, 57, 68, 90]. Именно такой тип САРР анализируется в данной работе.

Как видно из показанной на рис. 1.1 структуры, систему распознавания можно разделить на три основные подсистемц: - определения параметров PC; - распознавания и подготовки словаря; - подавления помех и выбора соответствующих помехам моделей. Созданные ранее системы автоматического распознавания речи (САРР) содержали только первые две подсистемы. Однако при внедрении систем распознавания речи в компьютерную телефонию (КТ) возникла проблема значительного снижения достоверности распознавания в неблагоприятных помеховых условиях. Поэтому разработчики уделяют значительное внимание именно подсистеме подавления помех.

Обычно в задаче распознавания речи выделяют три основных направления: распознавание отдельных (изолированных) голосовых команд, распознавание голосовых команд, включенных в контекст произнесения, и распознавание слитной речи. В данной работе анализируются в первую очередь методы распознавания изолированных команд.

Современная система распознавания голосовых команд обычно проектируется на основе теории скрытых марковских процессов. Эта теория предполагает, что речевой сигнал является реализацией некоторого сообщения, закодированного последовательностью нескольких символов. Для декодирования этой последовательности (то есть нахождения исходной последовательности символов) выполняется следующая последовательность операций:

1. Непрерывный речевой сигнал преобразуется в дискретную последовательность векторов параметров. Каждый вектор параметров соответствует по времени интервалу квазистационарности речи, равному 10 30 мс. Параметры речи на этом интервале меняются незначительно, и их можно считать постоянными. Обычно при распознавании речи в компьютерной телефонии в качестве параметров PC используют PLP (perceptual linear prediction)- коэффициенты.

2. Затем устанавливается соответствие между последовательностью векторов параметров и исходными последовательностями символов. Эту задачу выполнить достаточно сложно по двум причинам:

- во-первых, соответствие между исходными символами и речью неоднозначно, поскольку различные исходные последовательности символов могут приводить к похожим звуковым реализациям. К тому же существует множество различных звуковых реализаций одной и той же последовательности символов, вызванных естественной изменчивостью диктора и окружающей обстановки.

- во-вторых, границы между различными символами не могут быть определены точно по звуковой реализации. Влияние соседних звуков приводит к необходимости учитывать окружение каждого звука при создании модели голосовой команды.

Анализ влияния помех на достоверность распознавания

Все методики оценки достоверности работы системы распознавания базируются на контрольном распознавании некой контрольной выборки речевых фрагментов и последующей группировке результатов по определенным правилам [89 с. 181, 68 с. 430, 484]. Самая общая оценка - это подсчет числа верно распознанных команд и его процентное выражение относительно объема тестирующей выборки. Если требуется оценить, как распознаются различные голосовые команды, строят матрицу неточностей размера N N, где N - число команд в словаре. При этом каждый элемент матрицы рассчитывают по формуле д/;=— -, где у,-число произнесений і-й Mt команды, распознанных как j-я команда, А/ -общее количество произнесений і-й команды в тестирующей выборке.

Описанные выше методы оценки достоверности предполагают, что исследуемые САРР имеют достаточно вьісокую относительную частоту ошибок. При сравнении САРР, обладающих высокой достоверностью распознавания, подсчет числа ошибок распознавания не позволяет сделать выводы о преимуществе той или иной системы распознавания.

Был предложен критерий для оценки достоверности системы распознавания, основанный на анализе распределения относительной частоты значений разности вероятностей распознавания для каждой команды. Суть критерия состоит в том, что при контрольном распознавании для каждого А:-го произнесения запоминается разность логарифмов вероятностей правильного (pit) и наиболее вероятного ошибочного (pi,) вариантов распознавания: nf hgfan-bgfaf).

Затем по полученному массиву разностей г І строится график распределений относительной частоты значений гу. Область отрицательных значений распределения соответствует ошибкам распознавания, область положительных - верному распознаванию. По характеру распределения можно определить, насколько уверенно распознавалась команда. Если среднее значение разности Мг близко к границе положительных и отрицательных значений, то даже незначительное ухудшение помеховой обстановки повлечет увеличение числа ошибок. При этом по ширине распределения, характеризующейся оценкой дисперсии Д, можно сделать вывод о скорости нарастания ошибок при ухудшении условий распознавания - чем выше «колокол» распределения, тем выше скорость нарастания числа ошибок.

С помощью описанного выше критерия оценки достоверности распознавания были проведены исследования САРР при наличии в сигнале помех. Эксперименты проводились с использованием пакета НТК [89].

Была выбрана стратегия обучения с так называемым «равным» стартом, при которой все состояния всех моделей имеют одинаковые параметры, найденные по математическим ожиданиям и среднеквадратическим отклонениям всей обучающей выборки (см. раздел 1.1). Все модели, используемые в данной серии экспериментов, за исключением модели паузы, имели простую лево-правую структуру. В модель паузы была дополнительно включена ненулевая вероятность перехода в предыдущее состояние. При тестовом распознавании использовался алгоритм Витерби.

Для определения зависимости достоверности распознавания от вида и мощности помех была проведена серия модельных экспериментов. В словарь системы распознавания входило две команды («ноль» и «один»). Для обучения системы использовались отдельные произнесения команд. Обучающая выборка была составлена с использованием 11 дикторов (4 женщин и 7 мужчин).

Диапазон частот речевого сигнала был ограничен в полосе 300-3400 Гц. В разделе 1.3 было показано, что при использовании кепстральных коэффициентов искажения параметров PC из-за неравномерности амплитудно частотной характеристики телефонного канала можно уменьшить, вычитая из вычисленных временных траекторий параметров их средние значения на интервале длительности ГК. Поэтому для описания речевого сигнала были использованы кепстральные коэффициенты с нулевым математическим ожиданием.

Структура комплекса и особенности его реализации

Как было показано в главе 1, при разработке САР ГК требуются специализированные средства их исследования, позволяющие настраивать отдельные блоки, а также анализировать их работу, как в отдельности, так и в совокупности с другими блоками. Поскольку большую часть алгоритмов, используемых при работе системы распознавания, трудно описать аналитически, то особенное значение имеет имитационное моделирование систем распознавания речи.

С помощью таких средств разработчик САРР может сравнить различные варианты построения системы распознаваний с контролем работы как системы в целом, так и ее отдельных блоков. При этом разработчик должен иметь возможность использовать не только ранее реализованные модели блоков обработки PC, но и новые модели, созданные им самим. Двойственность требований к средствам (простота использования созданных средств моделирования и возможность их наращивания) - одна из важнейших проблем их при реализации.

Моделирование блоков САРР можно реализовать как на основе универсальных пакетов моделирования (например, MATLAB), так и с использованием сред разработки программного обеспечения (Delphi, C++Builder). Рассмотрим достоинства и недостатки системы MATLAB. MATLAB, в первую очередь, ориентирован на решение математических задач, однако в нем присутствует описание множества функциональных, блоков для решения задач из различных областей науки. В последних версиях появился Signal Processing Toolbox - специализированный пакет для обработки сигналов. С его помощью возможно решение задач, связанных с обработкой и распознаванием речи. Кроме того, специальные функциональные блоки можно импортировать из динамических библиотек, написанных на языке .C++, С или

Фортран. К достоинствам системы моделирования MATLAB можно отнести возможность создания практически любой модели за короткие сроки. Однако данная система обладает и рядом недостатков: - высокая стоимость, определяемая универсальностью системы [54]; - требуется изучение встроенного языка программирования; - универсальность пакета приводит к снижению скорости его освоения. Узкоспециализированная система моделирования, созданная специально для исследования систем распознавания речи, лишена указанных недостатков.

В системе моделирования необходимо использовать графический интерфейс, который позволил бы без длительного обучения пользователя проводить моделирование достаточно сложных систем.

При выборе среды программирования., следует учесть то, что при моделировании систем обработки речи возникают большие потоки данных, которые необходимо передавать между различными функциональными блоками. Наибольшей скорости передачи данных можно достичь при работе с указателями на данные, передавая не сами данные, а только адреса памяти, по которым эти данные хранятся. Проще всего работа с указателями осуществляется в языке C++, поэтому в данном случае предпочтительнее использовать среду разработки C++Builder.

Основой разработанной системы является ядро, включающее в себя: - средства организации связей между функциональными блоками; - средства графического представления информации; - блоки итерационного и статистического анализа; - блоки сохранения и экспорта данных экспериментов и схем анализа.

Построение схем анализа проводится с использованием функциональных блоков. Среди них можно выделить блоки источников сигналов и помех, блоки обработки сигнала и блоки оценки результатов экспериментов.

Важным компонентом комплекса является справочная система, включающая в себя описание интерфейса программы и типовых методов исследования, а также информацию о каждом, функциональном блоке.

Основное окно программы представлено на рис.3.2.

Верхнее меню комплекса предоставляет доступ ко всем командам и настройкам, доступным пользователю. Наиболее часто используемые команды, такие как запуск анализа схемы, просмотр графической информации или команды редактирования схемы анализа, продублированы кнопками на верхней панели и краткими сочетаниями клавиш.

Основное пространство занимает поле размещения функциональных блоков. Отметим, что порядок графического отображения блоков на схеме не влияет на порядок анализа блоков, задается списком, размещенным справа от поля размещения блоков. Этот порядок можно менять кнопками, размещенными в правом нижнем углу.

Функциональная схема обработки задается набором блоков, выложенных на поле анализа, связями между блоками и заданным порядком анализа блоков. При этом исследователь должен быть знаком лишь с предметной областью исследований и ему не нужно знать какой-либо язык программирования.

Общая характеристика системы

Актуальной задачей для многих организаций является обеспечение прямого доступа абонента городской телефонной сети (ГТС) к абоненту учрежденческой АТС (УАТС). Большинство предлагаемых систем прямого доступа (СПД) решают эту задачу с помощью DISA (Direct Inward System Access - прямой внутрисетевой доступ) - устройств, подключаемых к одной из абонентских линий УАТС [50]. Абонент ГТС, дозвонившись до УАТС, осуществляет доступ к нужному абоненту УАТС путем набора дополнительного номера тональными сигналами DTMF (Dual Tone Multi-Frequency - двухтональный многочастотный набор). Недостатком такого подхода является обязательное требование наличия у абонента ГТС телефонного аппарата (ТА) с возможностью тонального набора.

Более универсальным является подход на основе автоматического распознавания голосовых команд абонента ГТС. При этом работа системы не зависит от типа телефонного аппарата абонента, а голосовое управление более удобно для пользователей.

Функциональная схема предлагаемой системы прямого доступа приведена на рис. 4.1. Блок сопряжения с ТЛ обеспечивает связь СПД с телефонной линией. Речевой сигнал проходит через блок предварительной обработки, в котором находятся его параметры, и затем поступает в систему распознавания речи. Результаты распознавания речи поступают в блок управления диалогом. В зависимости от поданной команды блок управления диалогом отдает команды блоку управления ТЛ, обеспечивающего переадресацию вызова, освобождение или занятие телефонной линии, либо через систему синтеза сообщений блок управления диалогом сообщает пользователю системы какую-либо информацию.

Все блоки СПД, за исключением блока сопряжения с ТЛ, могут быть реализованы как аппаратно, так и в виде программного обеспечения для персонального компьютера.

Для больших организаций такие фирмы как Intel, Cisco предлагают решения на основе голосовых плат [65]. С помощью голосовых плат можно выполнять переадресацию вызова, как тональным набором, так и с помощью голосовых команд. Платы поддерживают одновременную обработку нескольких входящих вызовов одновременно, выполняя большую часть предварительной обработки речевого сигнала на аппаратном уровне. Стоимость таких решений начинается от нескольких тысяч долларов, поэтому их применение в небольших офисах нецелесообразно.

Во многих организациях имеется только одна телефонная линия ГТС и 8-10 внутренних номеров. В этом случае СПД может быть построена с помощью простого блока сопряжения персонального компьютера с УАТС и программного обеспечения, выполняющего не только функции распознавания речи, но и предварительной обработки PC.

Особенности аппаратного обеспечения

Как было сказано ранее, аппаратное обеспечение СПД зависит от числа обслуживаемых телефонных линий. В простейшем случае, блок сопряжения телефонной линии должен выполнять следующие функции: - набор номера; - занятие/освобождение линии; - распознавание сигналов вызова; - гальваническая развязка ТЛ и ПК; - подавление местного эффекта; - обеспечение интерфейса управления с ПК через последовательный порт (RS-232 или USB).

Ограниченное число ТЛ внутри учреждения вынуждает устанавливать СПД параллельно с одним из ТА, поэтому необходимо также предусмотреть функцию вызова параллельного аппарата.

Похожие диссертации на Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии