Содержание к диссертации
Введение
1 Анализ систем и методов распознавания речевого сигнала 17
1.1 Анализ структур систем распознавания речи 17
1.2 Анализ методов спектрального представления речевого сигнала 20
1.3 Анализ методов подавления помех в речевом сигнале 31
1.4 Анализ методов сегментации речевого сигнала 35
1.5 Анализ методов распознавания речи 38
2 Математическое описание частотно-временной структуры речевого сигнала 57
2.1 Анализ речевого сигнала на разных частотно-временных масштабах 57
2.2 Пакетное вейвлет-преобразование как способ представления сигнала на разных частотно-временных масштабах 63
2.3 Метод сегментации спектрограмм речевого сигнала 80
3 Разработка алгоритмов распознавания речевых команд 89
3.1 Разработка алгоритмов получения пакетной вейвлет-спектрограммы речевого сигнала 90
3.2 Разработка алгоритмов формирования эталона 105
3.3 Разработка алгоритмов сравнения текущего образа с эталоном 112
4 Экспериментальное исследование работы алгоритмов распознавания 124
4.1 Методика и средства проведения экспериментов 124
4.2 Цель экспериментальной работы и выбор критериев качества 128
4.3 Исследование работы алгоритмов, выполняющих распознавание путем сопоставления спектрограмм пакетного вейвлет-преобразования 131
4.4 Исследование работы алгоритмов, выполняющих распознавание путем сопоставления функций ошибки моделирования спектрограмм пакетного вейвлет-преобразования 141
4.5 Исследование работы алгоритмов, выполняющих распознавание путем сопоставления функций ошибки моделирования при двухмасштабном частото-временном представлении сигнала 152
4.6 Результаты экспериментов по распознаванию изолированных слов 157
Заключение 158
Библиографический список 160
- Анализ методов спектрального представления речевого сигнала
- Пакетное вейвлет-преобразование как способ представления сигнала на разных частотно-временных масштабах
- Разработка алгоритмов получения пакетной вейвлет-спектрограммы речевого сигнала
- Исследование работы алгоритмов, выполняющих распознавание путем сопоставления спектрограмм пакетного вейвлет-преобразования
Введение к работе
На всех этапах развития техники делаются попытки возложения на машины функций выполняемых человеком. Сначала это были только наиболее трудоемкие функции, связанные с большими затратами энергии. Затем, с дальнейшим развитием техники, появилась возможность выполнения машинами различных интеллектуальных функций, т.е. в некоторых областях интеллектуальной деятельности, например обработки больших объемов информации, человек заменяется машиной. Какие бы не были простые или сложные эти технические средства всегда существует необходимость управления ими. Человек может передавать управляющее воздействие с помощью органов движения и речи. Наиболее простым оказалось решение задачи передачи управляющего воздействия с использованием рук человека. Однако более удобной и естественной для человека является речевая коммуникация. Поэтому уже много десятилетий развивается область науки связанная с проблемой организации речевого управления техническими системами. Попытка решения этой проблемы привела к формулировке и решению огромного числа задач связанных с моделированием и обработкой, передачей и распознаванием человеческой речи.
Системы распознавания речи получают, в настоящее время, все более широкое распространение в тех приложениях, где естественный речевой диалог позволяет повысить удобство управления и обмена информацией с различными информационными системами. Повышение достоверности распознавания ведет, как правило, к усложнению систем распознавания и стоимости их изготовления. Вместе с тем в некоторых приложениях требуется реализовать компактную и простую систему распознавания речевых команд с небольшим словарем, которую достаточно просто реализовать аппаратно и встроить в уже имеющуюся или разрабатываемую систему. Такие системы распознавания могут потребоваться, например, для речевого запроса информации в какой-либо информационной системе; для запроса оперативной информации о
состоянии объекта управления; для подачи речевых команд системе управления, в тех случаях, когда руки оператора заняты контролем других функций управляемого процесса; или в случае, когда оператор находится в скафандре и ему неудобно руками воздействовать на органы управления. Для таких систем требуется узко специализированный словарь командного языка и контекстно-зависимая грамматика, а от блока распознавания требуется высокая достоверность идентификации команды.
В настоящее время сложные системы распознавания речи, имеющие большой словарный запас, основываются на применении скрытых Марковских моделей в качестве средства стохастического моделирования сложного речевого сигнала, для обучения которых используются обширные базы данных сегментированной речи, а свободно распространяемых русскоязычных обучающих баз данных для создания таких систем в России нет. В случае же создания системы для распознавания определенного набора команд, состоящих из изолированных слов, требуется небольшой словарь, порядка сотни слов, с контекстно-зависимой грамматикой. Эти два фактора сильно облегчают создание системы распознавания. В то же время система должна иметь возможность быть быстро перенастроена на другую задачу. Указанные факторы позволяют создавать в данном случае системы без использования Марковских моделей, но в этом случае существующие методы распознавания не дают такого высокого качества распознавания.
В связи с вышеизложенным, представляется актуальной задача разработки алгоритмов распознавания речевого сигнала просто реализуемых аппаратно и позволяющих достигнуть высокой достоверности распознавания.
Развитие области знаний, связанной с анализом и распознаванием речевого сигнала началось с решения задач передачи человеческой речи по узкополосным каналам связи с полосой пропускания меньшей, чем у обычной телефонной линии. Решение этой задачи привело к созданию вокодеров, устройств выполняющих сокращение частотной полосы речевых сигналов для линий дальней связи. Первым успехом в данной области считается полосный
вокодер Дадли, созданный в 1936 году [9]. В настоящее время, каждый человек, разговаривая по сотовому телефону, пользуется так называемыми липредерами - вокодерами, работающими на основе линейного предсказания речевого сигнала, используемыми в стандарте GSM. Однако, до сих пор, в области вокодерной связи не решена задача максимального сжатия речевого сигнала до фонемного уровня и передачи его с наименьшей скоростью 60 бит/с, что соответствует письменной передачи речи произносимой со средней для человека скоростью 10 фонем в секунду. Т.е. мечта замены двух телеграфисток, первая из которых слушает абонента на одном конце линии связи и передает его речь телеграфным способом второй, которая просто читает телеграмму абоненту на другом конце линии связи, остается пока задачей ближайшего, но все же будущего. Решение этой задачи непосредственно связано с распознаванием непрерывной человеческой речи.
Достижения в области анализа и передачи речевого сигнала впервые в нашей стране были широко изложены в монографии М.А. Сапожкова «Речевой сигнал в кибернетике и связи» в 1963 году, дальнейшим развитием которой стала работа [44]. Затем вышла работа большого коллектива авторов «Вокодерная телефония. Методы и проблемы» под. редакцией А.А. Пирогова [9]. За рубежом методы анализа речевого сигнала были опубликованы Дж. Фланаганом в своей монографии немного позже М.А. Сапожкова.
Несмотря на то, что в начале исследований по анализу и распознаванию речи работы отечественных ученых и инженеров, направленные в основном на создание эффективных вокодерных систем связи, выполнялись одновременно или с опережением западных, в основном американских, в области распознавания речи наметилось серьезное отставание отечественной техники и технологии. Серьезные работы по распознаванию речи начались в основном после Второй мировой войны. В AT&T Bell Labs была создана система распознавания отдельных цифр с помощью простого согласования акустических характеристик с шаблонами. Система распознавания на основе вероятностного подхода была создана Фраем и Денесом в лондонском
6
University College. В этой системе впервые использовались вероятности
переходов между фонемами. Начиная с 1971 года Агентство перспективных
исследовательских программ (DARPA) Министерства обороны США
финансировало четыре конкурирующих пятилетних проекта по разработке
высоко эффективных систем распознавания речи. Победителем этой
программы и единственной системой, соответствующей требованиям по
распознаванию словаря из 1000 слов с точностью 90%, стала система HARPY,
разработанная в университете CMU. Окончательная версия этой системы была
создана на основе системы Dragon, разработанной аспирантом того же
университета Дж. Бейкером [42]. В этой системе для вероятностного
моделирования слов речи впервые были использованы скрытые Марковские
модели [88]. Почти одновременно с системой Dragon в компании IBM была
разработана еще одна система на основе скрытых Марковских моделей.
Начиная с этих двух разработок, вероятностные методы в целом и скрытые
Марковские модели в частности стали доминировать в исследованиях и
разработках по распознаванию речи [3, 24, 57, 58, 59, 73, 82, 83, 88].
Использование данного подхода, ввиду своей эффективности, стало в
настоящее время почти-промышленным стандартом. г
Основой всех систем передачи и распознавания речевого сигнала являются модели генерации речевого сигнала [40, 41, 44, 29, 52] и его восприятия [52, 61]. Наиболее полный охват исследований, производившихся в области анализа речевого сигнала, приведен в работе [52], написанной коллективом авторов под редакцией Л.А. Чистович.
Модель генерации речевого сигнала основана на прямых сведениях из физиологии человека, представляющей речевой аппарат человека в виде трубы с различными изменяющимися сечениями, через которую проходит либо тональный, либо шумовой сигнал [40, 41, 44]. Хотя эта модель является несколько упрощенной линейной системой, все же она с достаточной степенью точности описывает процессы, происходящие в речевоспроизводящем аппарате человека, и позволяет с высокой степенью точности описывать речевой сигнал.
Модель восприятия речи, в отличие от модели генерации, не может быть в полной мере построена на прямых сведениях по физиологии, так как помимо процессов происходящих в слуховом аппарате затрагивает процессы, происходящие в мозге человека, поэтому не существует единого мнения о структуре данной модели. Более того, не существует единого мнения о том, какие признаки речевого сигнала являются информативными. Однако наиболее общепринятым считается, что речевой сигнал представляется в слуховой системе человека в виде аналогичном спектрограммам сигнала (см. [52]), а информация заключается в положении спектральных максимумов. Альтернативная точка зрения на процесс восприятия и представления речевого сигнала в системе слуха человека представлена в работе [61], где приводятся данные «временной теории слуха» и анализ сигнала проводится на базе функций аналогичных по своей природе функциям корреляции. Альтернативное мнение об информативных признаках было высказано А.А. Пироговым в его теории фонетической функции речи (см. [9]), где говорится о том, что человек воспринимает речевые элементы по их относительным, а не абсолютным спектрам. В пользу этой незаслуженно забытой теории выступает тот факт, что человек хорошо распознает искаженную каналами связи речь, с сильно смещенными и искаженными спектральными максимумами [9].
В основу современных систем распознавания речи положены в основном данные по моделированию процесса генерации речи, а из модели слухового восприятия в основном используется информация о логарифмической шкале восприятия интенсивности звука и факт неравномерности частотного разрешения слуховой системы [86, 88].
В системах распознавания речи используются несколько основных этапов
обработки сигнала, это получение представления речевого сигнала в
признаковом пространстве, статистическая обработка полученных векторов
наблюдений и собственно стадия распознавания
[57,58,59,73,82,83,88,90,91,97,99].
Для качественной работы системы распознавания очень важна первая из указанных стадий, основанная на методах цифровой обработки сигналов (см. [1, 4, 5, 6, 8, 13, 16, 38, 40, 41, 43, 48]). На этой стадии, называемой параметризацией оцифрованного речевого сигнала [86, 88], как правило, применяются методы преобразования его временного представления в частотное, а также выполняется фильтрация сигнала. Для этого можно использовать спектры мощности, полученные с помощью Фурье преобразования, различных банков фильтров и т.д. Широкое распространение в области распознавания и передачи речевого сигнала получил метод линейного предсказания речи основанный на модели речеобразования (см. [29]). А также метод кепстрального анализа - обратное Фурье преобразование спектра мощности сигнала [86]. В этом случае для классификации речевого сигнала используют линейно предсказанные кепстральные коэфиициенты (см. [86]). Наибольшее распространение в системах распознавания речи получили кепстральные коэффициенты отфильтрованные с использованием мел-шкалы (MFCC) [86, 88].
В настоящее время в задачах обработки и сжатия аудио сигналов и изображений широкое распространение получил математический аппарат вейвлет-преобразования [56, 100, 2, 7, 10, 12, 20]. Теория вейвлетов наиболее бурно развивалась в 80-90-е годы XX века, хотя на практике в теории фильтрации, при обработке и передаче информации вейвлеты фактически применялись уже в 40-50-х годах [56]. Вейвлет-анализ является обобщением концепций функционального анализа, теории ортогональных рядов и разложений. На первый взгляд, Вейвлет-анализ имеет много общего с кратковременным Фурье-анализом, широко используемым для обработки сигналов, но в тоже время он является намного более мощным, удобным и универсальным аппаратом. Первые результаты по теории вейвлетов и ее применению были получены представителями французской научной школы: А. Коэном, Р. Кауфманом, И. Мейером, С. Мала, И. Добеши и др. В 1987 году С. Мала было показано, что вейвлеты могут быть положены в основу нового
мощного метода обработки и анализа сигналов - кратномасштабного анализа, теория которого объединяет в себе методы субполосного кодирования из теории обработки сигналов, квадратурно-зеркальную фильтрацию из теории распознавания речи и пирамидальную обработку изображений [14]. Теории и применению вейвлет-анализа посвящены работы [56, 100, 2, 7, 10, 12, 20, 68, 102,101,92,95,97,98].
В настоящее время наиболее эффективные и многочисленные применения вейвлет-анализа относятся к области сжатия и анализа изображений [14]. Вейвлет-анализ широко применяется и в физике, а также для решения различных инженерных задач (см. [2, 17]). Наиболее масштабное практическое применение вейвлетов реализовано в ФБР США для организации огромной базы данных оцифрованных и сжатых дактилоскопических изображений [14]. Примеры практического применения вейвлетов в задачах обработки сигналов и изображений можно найти в [14, 102, 101, 92, 95, 97, 98].
Ввиду успешного применения алгоритмов обработки и сжатия сигналов на основе вейвлет-анализа сейчас делаются попытки использовать его в задачах распознавания речи. Делаются попытки использовать дискретный вариант вейвлет-преобразования, реализуемый с помощью алгоритма вычисления быстрого вейвлет преобразования, для параметризации речевого сигнала [78, 97]; распознавания фонем и оценки основного тона речевого сигнала [97]; для идентификации диктора [65, 85]; в задачах подавления шума в речевом сигнале [70]; а также в таких задачах, как анализ аудио записей [98]; для распознавания музыкальных инструментов [74]; и даже для распознавания звуков, издаваемых китами [92].
Однако в работе [97] говорится о недостаточно полном описании речевого сигнала с использованием обычного дискретного вейвлет-преобразования и предлагается использовать дискретизированное непрерывное вейвлет преобразование полнее описывающее сигнал, однако для такого преобразования нет быстрого алгоритма вычисления. Поэтому в других работах [65, 91] для анализа речевого сигнала делаются попытки применения пакетного
вейвлет-преобразования, которое разбивает частотный диапазон на одинаковые участки, в отличие от обычного быстрого вейвлет-преобразования, в котором низкочастотные участки более детализированы.
Пакетное вейвлет-преобразования было введено Койфманом и Викерхаузером. Подробное описание вейвлет-пакетов можно найти в [100]. Пример применения пакетного вейвлет-преобразования для параметризации речевого сигнала можно найти в [65, 91]. Здесь, также как и в других вариантах применения пакетного вейвлет-преобразования [42, 67, 100, 60, 102], производится поиск наилучшего базиса разложения сигнала на частотные полосы с точки зрения критерия минимума количества информации. Описание алгоритмов поиска наилучшего базиса приводится в [100, 93, 72, 67].
В данной работе предлагается применение пакетного вейвлет-преобразования для представления речевого сигнала в признаковом пространстве не только из-за эффективности его применения для анализа сигналов, но в основном по двум следующим причинам. Первая заключается в том, что речевой сигнал представляет собой чередование быстро и медленно протекающих процессов. К первой группе относятся переходы между звуками и взрывные звуки, ко второй - устойчивые гласные и согласные звуки. При анализе быстротекущих процессов необходимо высокое временное разрешение, а при анализе медленно текущих процессов достаточно низкого временного разрешения, зато характеристики продолжительных звуков сконцентрированы в основном в частотной области и для их анализа и сравнения звуков необходимо высокое частотное разрешение. Вторая причина - это требование разного частотно-временного разрешения для разных задач анализа речевого сигнала. Например, детектирование тон/шум, выделение фрагмента с речью можно выполнять при низком частотном разрешении, а распознавание звуков, наоборот, при высоком частотном разрешении. Таким образом, необходимо сразу несколько различных частотно-временных масштабов представления сигнала, так как ввиду принципа неопределенности мы не можем одновременно получить высокое частотное разрешение одновременно с высоким временным
11 разрешением. При использовании обычных методов, например, кратковременного Фурье-преобразования пришлось бы выполнить несколько преобразований с различными размерами окон анализа и шага смещения окна. Пакетное вейвлет-преобразование позволяет представить сигнал сразу на разных масштабах, так как коэффициенты каждого следующего уровня, ведущего к увеличению частотного разрешения и уменьшению временного, вычисляются на основе коэффициентов предыдущего уровня, поэтому нет необходимости в повторных вычислениях.
Кроме использования метода пакетной вейвлет-параметризации для реализации системы распознавания в данной работе предлагается использовать информацию о сегментации речевого потока на звуки. Использование этой информации должно повысить достоверность распознавания слов.
Задача сегментации речевого сигнала является очень важной в теории распознавания речи. Так как в настоящее время системы распознавания речи в основном строятся с использованием скрытых Марковских моделей, с помощью которых слово представляется в виде Марковской цепи состояний (см. [88]), то для обучения таких систем распознавания необходима обучающая база данных, содержащая фразы с информацией об их сегментации на звуки. Для упрощения создания таких баз данных необходимо использовать автоматическую сегментацию речевого потока. Кроме того, задача сегментации решается и во время работы системы распознавания слитной речи, основанных на фонемном подходе для выделения из речевого потока конкретных звуков.
Для сегментации речевого потока в настоящее время применяется большое количество разнообразных алгоритмов (см. [71]), во многих из них система должна быть предварительно обучена.
То, что слуховая система человека выполняет сегментацию речевого потока еще на начальных стадиях обработки речевого сигнала до его распознавания можно судить по данным из нейрофизиологии слуха, опубликованных в [52] где показано, что 1) акустический сигнал представляется в нервной системе в форме аналогичной спектру; 2) слуховая
система выделяет в спектре неравномерности как по времени так и по шкале частот. Неравномерности по частоте называются особенностями сигнала, а неравномерности по времени - событиями. Примером особенностей можно считать спектральные максимумы, называемые в теории обработки речи формантами. Событиями можно считать переходы от одного звука к другому, при этом, в общем случае, изменяются статистические характеристики распределения энергии сигнала по шкале частот.
Исходя из вышесказанного, на начальных этапах обработки акустического сигнала в системах распознавания речи более предпочтительны алгоритмы сегментации на основе анализа свойств текущего сигнала. Обзор таких алгоритмов сегментации и обнаружения изменений в поведении функций приведен в [71].
Задача сегментации сигнала тесно связана с задачей его классификации (см. [34, 35, 42, 53, 54]). Наилучшие результаты работы показывают алгоритмы сегментации, использующие для своей работы классификацию сигнала (многомодельный подход в детектировании переходов и методы кластеризации) [71]. Однако эти алгоритмы не используют информацию об изменении характеристик сигнала при переходе между сегментами, которую можно получить, анализируя всего лишь два соседних сегмента сигнала.
В данной работе предлагается метод сегментации, который сочетает в себе одновременно два подхода, с одной стороны сигнал рассматривается как набор векторов признаков, которые можно классифицировать, с другой стороны окончательная классификация сегментов не производится, а вычисляется только функция ошибки с выхода простейшей модели сигнала. При этом информация извлекается из текущего кадра анализа сигнала, а не при сопоставлении двух кадров. Модель строится на основе анализа энергетического спектра сигнала с использованием метода главных компонент. В данном случае важен тот факт, что используется наиболее грубая модель, которая может описать только один звук речи, а два и более нет, в результате чего возникает большая ошибка описания сигнала. Разрабатываемый автором
алгоритм извлекает из речевого сигнала информацию о его разбиении на устойчивые сегменты на основе функции ошибки восстановления спектрограммы по первой главной компоненте. Локальным максимумам данной функции соответствуют моменты переходов от одного устойчивого сегмента сигнала к другому, как правило, соответствующего одному звуку речи.
Итак, в данной работе предлагается реализовать систему распознавания речевых команд с учетом указанных ранее требований с применением разномасштабного частотно-временного описания речевого сигнала на основе пакетного вейвлет-преобразования сигнала, и использовать на стадии распознавания информацию о переходах между звуками речи.
Целью настоящей работы является повышение качества распознавания речевых команд системами распознавания речи.
В соответствие с указанной целью работы и приведенными выше основными положениями данной работы, были поставлены следующие задачи диссертационного исследования:
Разработка математической модели спектрального представления речевого сигнала и модели детектирования переходов между звуками речи;
Разработка алгоритмов спектрального представления, детектирования переходов между звуками речи и распознавания речевых команд;
Разработка программного комплекса для речевого управления конечным автоматом.
Для решения поставленных задач и достижения намеченной цели использовались методы математического моделирования, теории вероятностей, теории случайных процессов, математической статистики, спектрального и вейвлет анализа, теории цифровой обработки сигналов, а также методы теории распознавания образов. При проведении экспериментов для организации экспериментов, статистических расчетов, отображения результатов и формирования зависимостей была использована система MATLAB, а процедуры, реализующие разработанные автором алгоритмы были реализованы
на языке C++ с использованием интегрированной среды разработки Borland C++ Builder.
Основные результаты диссертационного исследования, имеющие научную новизну, заключаются в следующем:
Предложен метод анализа свойств речевого сигнала одновременно на различных частотно-временных масштабах с использованием пакетного вейвлет-преобразования;
Предложен метод сегментации речевого сигнала на основе вычисления функции ошибки моделирования спектрограммы сигнала нейросетевой моделью, выполняющей вычисление первой главной компоненты;
Предложен метод сравнения спектрограмм речевого сигнала по функции ошибки моделирования спектрограмм сигнала нейросетевой моделью, выполняющей вычисление первой главной компоненты.
В соответствие с указанными результатами исследования, диссертационная работа содержит следующие положения, выносимые на защиту.
Метод распознавания изолированных слов на основе сопоставления функций ошибки моделирования нейронной моделью спектрограмм полученных по коэффициентам пакетного вейвлет-преобразования;
Алгоритмы распознавания изолированных слов путем получения многоуровневого спектрального представления речевого сигнала на основе пакетного вейвлет-преобразования, вычисления функции ошибки моделирования спектрограмм нейронной моделью, и двухуровневого сопоставления спектрограмм на основе информации полученной нейронной моделью;
Результаты экспериментов подтверждающих эффективность разработанных алгоритмов распознавания изолированных слов речи.
Практическое применение имеет созданная автором система речевого управления система речевого управления роботизированным комплексом. Разработанные автором при создании данной системы алгоритмы и методы
могут использоваться в компактных встраиваемых системах распознавания речевых команд. Простота алгоритмов позволяет реализовывать их аппаратно и оснащать блоком речевого управления различную бытовую и промышленную аппаратуру. Разработанный алгоритм сегментации речевого сигнала может использоваться в системах передачи речевого сигнала (например, в IP телефонии, сотовой связи) с целью увеличения степени сжатия потока информации, а также при создании обучающих баз данных сегментированной речи. Собственное применение может иметь и разработанная для проведения экспериментов база данных слов входящих в командный язык разрабатываемой системы распознавания речевых команд.
Обоснованность и достоверность полученных результатов подтверждается корректным использованием современного математического аппарата и экспериментальной проверкой разработанных алгоритмов.
Разработанные методы и алгоритмы легли в основу системы речевого
управления роботизированным комплексом. Созданный при разработке данной
системы программный экспериментальный комплекс используется для
формирования лабораторного практикума по дисциплинам «Моделирование
систем» и «Системы искусственного интеллекта». г,
Основные результаты диссертационной работы докладывались и обсуждались на 8-й Международной конференции «Цифровая обработка сигналов и ее применение» (DSPA-2006) (Москва, Институт проблем управления РАН, 2006); V Международной научно-практической конференции «Моделирование. Теория, методы и средства» (Новочеркасск, ЮРГТУ, 2005); Всероссийской научно-технической конференции «Актуальные проблемы радиоэлектроники и телекоммуникаций» (Самара, СГАУ, 2005); Одиннадцатой Международной научно-технической конференции студентов и аспирантов «Радиоэлектроника, электротехника и энергетика» (Москва, МЭИ, 2005); Международной научно-технической конференции «Системные проблемы надежности, качества, информационных и электронных технологий в инновационных проектах» (Инноватика - 2005) (Сочи, 2005); III и IV научно-
16 практических конференциях профессорско-преподавательского состава ВПИ (Волжский, ВПИ (филиал) ВолгГТУ, 2004, 2005).
Диссертационная работа состоит из введения четырех глав, заключения, библиографического списка используемой литературы.
В первой главе проводится анализ существующих методов и алгоритмов применяемых в современных системах обработки и распознавания речи.
Во второй главе приводится описание математического аппарата применяемого для разработки алгоритмов параметризации, сегментации и распознавания речевого сигнала.
В первой части рассматривается математический аппарат вейвлет-преобразования и его обобщение в виде пакетного вейвлет-преобразования, которое необходимо для построения спектрограмм речевого сигнала на разных уровнях частотно-временного представления сигнала.
Во второй части данной главы разрабатывается метод сегментации речевого сигнала на основе моделирования его спектрограммы с использованием разложения по первой главной компоненте.
В третьей главе приводятся результаты разработки алгоритмов пакетной вейвлет-параметризации речевого сигнала, детектирования переходов между звуками и распознавания речевых команд. Глава разбита на три основные части, в соответствии со стадиями работы системы распознавания: обработка текущего сигнала; получение эталонов слов - обучение системы распознавания; сопоставление текущего образа представленного в виде его спектрограммы с эталонной спектрограммой - собственно процесс распознавания.
В четвертой главе приводятся результаты экспериментального расчета параметров разработанных алгоритмов с целью достижения наибольшего процента правильно распознаваемых речевых команд, а также исследование качества распознавания слов при использовании разработанных алгоритмов.
Анализ методов спектрального представления речевого сигнала
Для повышения устойчивости систем распознавания речи до спектрального преобразования сигнала может производиться адаптивная фильтрация сигнала. Фильтрация может также производиться и на этапе получения кепстра (см. ниже).
На этапе параметризации производится выбор и преобразование параметров полученных на этапе измерения. На этой стадии происходит объединение спектральных измерений с их первыми и вторыми производными, информацией о мощности сигнала, частоте основного тона и т.д. в один вектор. В результате получается набор параметров, используемых для распознавания слов.
После параметризации результатов измерения речевого сигнала производится их первоначальная статистическая обработка, заключающаяся в устранении корреляции полученных параметров и их векторном квантовании. Векторное квантование заключается в пространственном объединении в группы векторов расположенных близко друг от друга и замены этой группы ее средним значением. Таким образом, производится уменьшение количества информации необходимой для распознающей подсистемы.
На последнем этапе производится непосредственное распознавание слова на основе данных, полученных после этапа статистической обработки. В настоящее время используются в основном два способа распознавания: распознавание речи с помощью скрытых Марковских моделей и нейронных сетей.
Существует шесть основных классов алгоритмов спектрального анализа, использующихся в настоящее время в системах распознавания речи. Метод оценка сигнала с помощью банка фильтров был исторически первыми методом измерения и параметризации речевого сигнала. Методы линейного предсказания были введены в 1970-х и доминировали до начала 1980-х. В настоящее время широко распространены методы Фурье-преобразования, линейного предсказания и кепстральное преобразование. В этом разделе мы обсудим все эти методы, начиная с набора цифровых фильтров. Однако сначала необходимо описать методику выделения блоков сигнала для дальнейшего преобразования этих блоков соответствующим методом.
Все параметры, описывающие речевой сигнал (спектр Фурье, кепстральные коэффициенты, коэффициенты линейного преобразования), кроме коэффициентов вейвлет преобразования вычисляются не непрерывно, а на коротком отрезке времени называемом окном. Для того, чтобы наложение окна не вносило искажений в характеристики сигнала, так как все преобразования расчитаны на диапазон времени от минус бесконечности до плюс бесконечности, сигнал умножается на так называемую оконную или взвешивающую функцию.
Теория окна была в свое время очень активным направлением исследований в области цифровой обработки сигнала. Существует очень много типов окон, включая прямоугольное, Хамминга, Ханнинга, Блэкмана, Бартлетта и Кайзера. В настоящее время в распознавании речи используется исключительно окно Хамминга: для 0 п N и w(ri) = 0 во всех других случаях; N — длительность окна в отсчетах.
Окно нужно для взвешивания отсчетов по отношению к его центру. Эта характеристика совместно с перекрывающим анализом описанным далее выполняет важную функцию для получения сглаженных изменяющихся параметрических оценок. Очень важно чтобы ширина основной доли в частотной характеристике окна была минимальна или чтобы процесс наложения окна мог иметь убывающий эффект при сегментном спектральном анализе.
Параметры подсчитываются кадр за кадром. Размер кадра Tf задается как время (в секундах) в течении которого набор параметров верен. Период кадра определяет время между успешными подсчетами параметров. Частота кадров, еще один общеупотребительный термин, это число кадров обработанных за секунду (в Герцах).
В практических системах длительность кадров выбирается в диапазоне от 10 мс до 20 мс. Значения из этого диапазона представляют выбор оптимального решения между частотой изменения спектра и сложностью системы. Соответствующая длительность кадра полностью зависит от скорости произношения (скорости изменения вокального тракта).
Тем не менее, важен интервал, на котором вычисляются значения параметров. Количество отсчетов N использованных для расчета известно как размер окна (в отсчетах). Размер окна Tw обычно измеряется в единицах времени (секундах).
Размер окна управляет средней, или сглаженной, суммой используемой в подсчете параметров. Длительность кадра и размер окна вместе управляют частотой с которой значения параметров показывают динамику сигнала. Длительность кадра и размер окна обычно объединены в пары: размер окна в 30 мс используется вместе с длительностью кадра 20 мс, тогда как размер окна в 20 мс используется при длительности кадра 10 мс. Вообще, так как малая длительность кадра используется для захвата быстрой динамики спектра, то размер окна должен быть также малым, чтобы детали спектра не были чрезмерно сглажены.
Пакетное вейвлет-преобразование как способ представления сигнала на разных частотно-временных масштабах
Каждая вершина представляет Марковское состояние, а каждая стрелка -разрешенный переход между состояниями.
Так же как каждый фрагмент речи преходит от одного звука (напр. фонемы) к другому, Марковская модель переходит из одного состояния в другое. Модель может оставаться в одном и том же состоянии для более чем одного кадра, что иллюстрируется стрелками, замкнутыми на одном состоянии. Что соответствует одному звуку, продолжающемуся более чем один кадр и, в соответствии с этим, путь моделирования повторяет длящийся звук.
Эта модель представляет речь в виде внезапных переходов из одного состояния в другое, принимая во внимание то, что переход от одной фонемы к другой может быть постепенным. Модель переходит слева направо предсказуемым способом от одного звука к другому. Некоторые слова имеют необязательные фонемы, и переходы, которые пропускают исключенные фонемы, показаны в виде стрелок от конца первой фонемы до начала последней.
Каждый переход из состояния в состояние имеет ассоциированную с ним вероятность. Соотнесение вектора признаков с каждым из состояний зависит от этого состояния вероятностно. Модель является «скрытой» так как мы можем наблюдать только вероятностную зависимость параметров речевого сигнала, а не сами состояния, и мы можем использовать последовательность этих параметров для поиска наиболее вероятной последовательности состояний.
В данном алгоритме наименьшей частью моделируемого речевого сигнала является фонема. Каждая фонема моделируется Марковской моделью с тремя состояниями для учета коартикуляционного эффекта между предыдущей и следующей фонемами (существуют и другие варианты моделирования см. [88]). Слово является совокупностью фонем. А высказывание является совокупностью слов. Эти совокупности могут быть построены вероятностно, и, фактически, моделируются с использованием СММ. Таким образом, представление в виде скрытых марковских моделей может быть иерархическим.
Для распознавания с помощью СММ используется описанный выше алгоритм Витерби, который вычисляет вероятность соответствия текущего фрагмента речи для всех допустимых последовательностей в модели и определяет наиболее вероятную последовательность, т.е. наиболее вероятное эталонное слово, соответствующее данному вектору наблюдаемых параметров речевого сигнала.
Распознавание речи с использованием нейронных сетей. Применение аппарата нейронных сетей для распознавания речи связано с высокой сложностью речевого сигнала, а значит и сложностью создания его математической модели, а также экспоненциальным возрастанием сложности систем распознавания, основанных на анализе всех возможных вариантов произнесения слов. Использование же нейронных сетей основывается на попытке имитации процессов, происходящих в человеческом мозге. Этот подход не требует создания математической модели, необходимо лишь обучить сеть распознаванию сигнала, однако здесь тоже существует проблема сложности сети, а так же проблема, связанная с сильным возрастанием времени обучения сети в зависимости от ее сложности.
Процесс обучения рассматривается как настройка архитектуры сети и весов связей для эффективного выполнения специальной задачи.. Обычно нейронная сеть должна настроить веса связей по имеющейся обучающей выборке. Функционирование сети улучшается по мере итеративной настройки весовых коэффициентов. Свойство сети обучаться на примерах делает их более привлекательными по сравнению с системами, которые следуют определенной системе правил функционирования, сформулированной экспертами.
Существуют три парадигмы обучения: "с учителем", "без учителя" (самообучение) и смешанная. В первом случае нейронная сеть располагает правильными ответами (выходами сети) на каждый входной пример. Веса настраиваются так, чтобы сеть производила ответы как можно более близкие к известным правильным ответам. Усиленный вариант обучения с учителем предполагает, что известна только критическая оценка правильности выхода нейронной сети, но не сами правильные значения выхода. Обучение без учителя не требует знания правильных ответов на каждый пример обучающей выборки. В этом случае раскрывается внутренняя структура данных или корреляции между образцами в системе данных, что позволяет распределить образцы по категориям. При смешанном обучении часть весов определяется посредством обучения с учителем, в то время как остальная получается с помощью самообучения.
Теория обучения рассматривает три фундаментальных свойства, связанных с обучением по примерам: емкость, сложность образцов и вычислительная сложность. Под емкостью понимается, сколько образцов может запомнить сеть, и какие функции и границы принятия решений могут быть на ней сформированы. Сложность образцов определяет число обучающих примеров, необходимых для достижения способности сети к обобщению. Слишком малое число примеров может вызвать "переобученность" сети, когда она хорошо функционирует на примерах обучающей выборки, но плохо - на тестовых примерах, подчиненных тому же статистическому распределению.
Как правило, вид алгоритма обучения жестко связан с архитектурой нейронной сети, поэтому рассмотрение алгоритмов обучения нельзя проводить в отрыве от архитектуры.
Нейронная сеть может рассматриваться как направленный граф со взвешенными связями, в котором искусственные нейроны являются узлами. По архитектуре связей нейронные сети могут быть сгруппированы в два класса: сети прямого распространения, в которых графы не имеют петель, и рекуррентные сети, или сети с обратными связями.
В наиболее распространенном семействе сетей первого класса, называемых многослойным персептроном, нейроны расположены слоями и имеют однонаправленные связи между слоями. Сети прямого распространения являются статическими в том смысле, что на заданный вход они вырабатывают одну совокупность выходных значений, не зависящих от предыдущего состояния сети. Рекуррентные сети являются динамическими, так как в силу обратных связей в них модифицируются входы нейронов, что приводит к изменению состояния сети.
В многослойной структуре нейронной сети каждый нейрон произвольного слоя связан со всеми выходами нейронов предыдущего слоя или, в случае первого слоя, со всеми входами НС. Такие НС называются полносвязными. Общий вид полносвязного многослойного персептрона приведен на рисунке 1.8.
Разработка алгоритмов получения пакетной вейвлет-спектрограммы речевого сигнала
Сначала рассмотрим традиционный способ получения частотно-временного представления речевого сигнала.
Для получения параметров оцифрованного речевого сигнала необходимых для его распознавания, как правило, применяются методы преобразования его временного представления в частотное. Для этого можно использовать спектры мощности, полученные с помощью преобразований описанных в первой главе: Фурье преобразования, различных банков фильтров, линейного предсказания речи, кепстрального анализа (см. [86, 88]).
Все эти методы применяются для того, чтобы получить отображение дискретной функции одной переменной, описывающей изменение мощности речевого сигнала во времени, в многомерное пространстве признаков. При этом требуется, чтобы для сегментов с одинаковыми звуками речи получались наиболее похожие вектора признаков, а влияние временных изменений в сигнале на протяжении одного звука были бы как можно сильнее нивелированы. Для этого полученное многомерное представление может подвергаться дополнительной статистической обработке. По полученным таким образом векторам можно в дальнейшем распознавать речевой сигнал.
Рассмотрим представление речевого сигнала в признаковом пространстве в виде спектрограмм, полученных путем вычисления абсолютного значения коэффициентов одного из указанных выше преобразований. Процесс получения таких спектрограмм показан на рис. 2.2 и заключается в следующем: сигнал нарезается на перекрывающиеся сегменты одинаковой длины N называемых окнами (см. рис. 2.2-а). Таким образом, получается представление одномерного сигнала в виде матрицы X TV-мерных векторов (рис. 2.2-6). Далее эта матрица преобразуется ортогональным преобразованием Т (например, Фурье преобразование): Y=T X (см. рис. 2.2-в). У полученных векторов из матрицы Y в задаче распознавания речи анализируется только амплитудная составляющая, а фазовая отбрасывается, в случае Фурье преобразования вычисляется модуль комплексных чисел - координат вектора признаков, размерность вектора при этом можно сократить до N/2.
Если в качестве Т используется какой-либо банк фильтров, то координатами векторов матрицы Y становятся значения энергии с выходов каждого из фильтров. Ортогональное преобразование Т это всего лишь вращение матрицы векторов X с целью получения представления сигнала в наиболее удобной для его анализа (распознавания) форме. Один из факторов этого - компоненты векторов признаков должны получаться как можно более некоррелированными. Оптимальным с этой точки зрения является выбор в качестве Т преобразования Карунена-Лоэва, для которого, однако, отсутствуют быстрые алгоритмы вычисления, поэтому применяются указанные выше преобразования.
Для параметризации речевого сигнала важен не только вид преобразования Т, но и размер окна N и шаг его смещения к. Эти два параметра выбираются таким образом, чтобы в пределах одного окна характеристики сигнала оставались в среднем постоянными, а при переходах от одного окна к другому, т. е. от вектора л:,- к JC/+/ происходило бы не сильное изменение сигнала, для учета слабых его изменений. На основании экспериментальных данных принято, что речевой сигнал можно считать постоянным на протяжении 20-30 мс, а шаг смещения принято выбирать в пределах трети этого интервала, т.е. -7-10 мс. В соответствие с этим, в зависимости от частоты дискретизации выбирается размер окна N и шаг смещения к в отсчетах. Например, для речевого сигнала, оцифрованного с частотой 16 кГц N = 256 - 480 отсчетов. Если в качестве Т применяется быстрое преобразование Фурье, для вычисления коэффициентов которого, как правило, применяются алгоритмы, в которых размер окна данных должен быть равен степени числа 2, N= 512, тогда к = 170. В этом случае мы будем иметь 512/2=256 частотных полос в энергетическом спектре сигнала, тогда частотное разрешение (ширина одной полосы) 8000/256«31 Гц.
Если мы хотим повысить частотное разрешение, то необходимо повысить размер окна, например до 1024 отсчетов, в этом случае, мы получим 512 частотных полос и разрешение по частоте 16Гц (при той же частоте оцифровки ІбкГц). В этом случае размер окна по времени 63мс. В этом случае мы получим хорошее частотное представление медленно текущих процессов, например гласных. Однако быстротекущие процессы будут менее заметны, т.к. как бы мы не уменьшали шаг смещения окна, оно будет захватывать часть предыдущего или следующего звука. Например, помимо рассматриваемого в данный момент взрывного звука в окно будет попадать часть соседнего или предыдущего.
Таким образом, нам необходимо хотя бы два масштаба построения спектрограмм. Первый масштаб должен иметь хорошее временное разрешение, второй - хорошее частотное. Ввиду принципа неопределенности мы не можем получить хорошее разрешение одновременно и по частоте и по времени, так как для получения хорошего частотного разрешения необходимо увеличить размер окна, а для сохранения высокого разрешения по времени необходимо уменьшить размер окна, что приведет к уменьшению количества частотных полос. В случае применения кратковременного Фурье-анализа нам придется построить две спектрограммы соответственно первую с малым размером окна и шага его смещения, и вторую с большим размером окна и шагом смещения. Однако с вычислительной точки зрения повторять два вычисления неэффективно, к тому же могут потребоваться дополнительные масштабы, например для решения задачи детектирования тон/шум. Гораздо проще было бы использовать преобразование, коэффициенты одного частотно-временного масштаба которого, вычисляются на основе предыдущего масштаба. В этом случае преобразование с вычислительной точки зрения было бы гораздо эффективнее и для построения каждого масштаба не требовалось бы пересчитывать все преобразование заново. В качестве такого преобразования будем использовать пакетное-вейвлет-преобразование, являющееся дальнейшим развитием вейвлет-преобразования. Этому преобразованию будет посвящена вторая часть данной главы.
Исследование работы алгоритмов, выполняющих распознавание путем сопоставления спектрограмм пакетного вейвлет-преобразования
В данной главе рассматривается процесс параметризации и распознавания речевых команд путем сравнения эталонных спектрограмм со спектрами, полученными по текущему речевому сигналу с помощью пакетного вейвлет-преобразования. Глава разбита на три основные части, в соответствии со стадиями работы системы распознавания: обработка текущего сигнала; получение эталонов слов - обучение системы распознавания; сопоставление текущего образа представленного в виде его спектрограммы с эталонной спектрограммой - собственно процесс распознавания.
Для получения спектрограммы текущего речевого фрагмента разработаны алгоритмы выделения фрагмента с речью, выравнивания динамического диапазона речи, и получения спектрограммы сигнала. Все эти алгоритмы используют для своей работы коэффициенты пакетного вейвлет-преобразования, полученные на разных уровнях частотно-временного представления сигнала.
Алгоритм получения эталонов слов выполняет процедуру вычисления усредненной по набору обучающих слов вейвлет-спектрограммы. Так как одно и то же слово имеет не только различный спектральный состав в зависимости от состояния говорящего, но и различную длину, для сопоставления спектрограмм применяется алгоритм динамического программирования. В этом случае мы можем получить усредненную спектрограмму только по двум реализациям слов одновременно. Предлагаемый в данной работе алгоритм позволяет на основе этой процедуры итерационно получить усредненную спектрограмму для неограниченного набора обучающих образов, при этом вклад каждого образа в эталон будет иметь равный вес.
Алгоритм сопоставления текущей спектрограммы с эталоном используется как на стадии обучения системы распознавания для итерационного получения эталона, так и на стадии распознавания для вычисления расстояния от текущего образа до всех эталонов.
В данной работе с целью улучшения характеристик системы распознавания предлагается для сопоставления спектрограмм использовать информацию, полученную одновременно с двух частотно-временных масштабов пакетного вейвлет-преобразования сигнала. На первом масштабе сигнал представлен с большей детализацией по времени, а на втором по частоте. Второй масштаб используется для сопоставления спектрограмм с помощью динамического программирования. Так как на этом масштабе количество коэффициентов по времени меньше чем на первом, то это позволяет уменьшить время работы алгоритма динамического программирования, по сравнению с сопоставлением спектрограмм на более низком временном масштабе. Полученный кратчайший путь переносится затем на первый масштаб, на котором происходит само вычисление расстояния.
Для вычисления расстояния предлагается использовать функцию ошибки моделирования спектрограммы с помощью нейрона выполняющего разложение сигнала по первой главной компоненте. Данная функция используется также для сегментации спектра с целью получения спектрограммы сигнала состоящей из значений весов нейрона - первых главных компонент в точках переходов между звуками.
Для параметризации оцифрованного речевого сигнала будем применять метод преобразования его временного представления в частотное. Для чего разработаем алгоритм получения спектра мощности с помощью пакетного вейвлет преобразования. Задача данного алгоритма представить речевой сигнал являющийся дискретной функцией одной переменной, задающей изменение энергии речевого сигнала во времени, в многомерном пространстве признаков так, чтобы получить для сегментов с одинаковыми звуками речи наиболее похожие вектора признаков, при этом как можно сильнее снизив влияние временных изменений в сигнале на протяжении одного звука. По полученным таким образом векторам можно в дальнейшем распознавать речевой сигнал.
Алгоритм получения спектрального представления сигнала выполняет пакетное вейвлет-разложение сигнала до определенного уровня, указанного в его входных параметрах, а затем производит вычисление энергии вейвлет коэффициентов и их сглаживание. На выходе этого алгоритма получается набор векторов, характеризующих энергию сигнала с выхода банка вейвлет-фильтров. С физической точки зрения это энергетический спектр сигнала аналогичный спектру, получаемому при вычислении модуля коэффициентов Фурье преобразования.
Алгоритм реализуется с помощью двух процедур: первая pwtcoef вычисляет коэффициенты пакетного вейвлет преобразования, а вторая -pwtspectr - сглаженную двумерным фильтром скользящего среднего, энергию этих коэффициентов. Блок-схема алгоритма, реализующего процедуру вычисления коэффициентов пакетного вейвлет-преобразования показана на рис. 3.1, а блок-схема алгоритма, реализующего процедуру вычисления энергетического спектра вейвлет-коэффициентов, полученных с помощью первой процедуры - на рис. 3.2.
В алгоритме вычисления коэффициентов пакетного вейвлет-преобразования в цикле итерационно применяется процедура вычисления коэффициентов одного уровня пакетного вейвлет-преобразования на основе коэффициентов предыдущего уровня, блок-схема этого алгоритма показана на рис. 3.3. Необходимо отметить, что для первого уровня предыдущим считается исходный сигнал (см. рис. 3.3). Результат работы алгоритма - дерево пакетного вейвлет-преобразования сохраняется в массиве структур cf, где для каждого уровня запоминается соответствующая двумерная матрица коэффициентов dt, и ее размерность по частоте и по времени / и N1. Размерность матрицы коэффициентов во времени для каждого следующего уровня в 2 раза меньше чем для предыдущего, а размерность по частоте - в 2 раза больше.