Содержание к диссертации
Введение
1 Математические модели импедансного типа в теории речеобразования 15
1.1 Постановка задачи 15
1.2 Модели импеданса для граничных условий 20
2 Интегральные уравнения в моделировании речеобразования 24
2.1 Вывод интегрального уравнения по поверхности речевого тракта 24
2.2 Существование и единственность решения 26
2.3 Численный метод решения интегрального уравнения 31
2.4 Моделирование речевых сигналов по известным параметрам 35
3 Определение параметров речеобразования по наблюдаемому речевому сигналу 47
3.1 Модель для определения параметров речеобразования 47
3.2 Метод разреженных представлений для оценки параметров 56
3.3 Линейные ограничения элементов разложения 59
3.4 Вариационные методы поиска оптимального решения 65
3.5 Проблема поиска начального приближения 72
4 Комплекс программ анализа и классификации речевых сигналов 76
4.1 Аппроксимация речевого сигнала 76
4.2 Подавление нестационарного шума 85
4.3 Распознавание диктора в условиях нестационарных шумов 93
Заключение 97
Список рисунков 101
Список таблиц 102
Литература
- Модели импеданса для граничных условий
- Численный метод решения интегрального уравнения
- Линейные ограничения элементов разложения
- Распознавание диктора в условиях нестационарных шумов
Модели импеданса для граничных условий
Однако для дальнейшего теоретического анализа функции а и / будем считать непрерывными по пространственной координате. На практике разрывы функций импеданса и источника при переходе границ голосовые складки («S0) - стенки тракта («S1) - ротовое отверстие («S2) можно устранить, например, при помощи линейной интерполяции. Исходя из принципа суперпозиции для линейных систем, для отыскания решения звукового поля вида и(М) = w и(М, си) достаточно независимо решить задачу для каждой конкретной частоты си. Метод сведения задачи (1.11) к интегральному уравнению позволяет найти решение для каждой частоты в отдельности, поэтому в дальнейшем можно опустить переменную ии из явного рассмотрения, предполагая, что любая ненулевая частота однозначно отвечает вещественнозначному волновому числу к = - 01. Далее рассматриваются модели импеданса подвижной границы, открытого ротового отверстия, а также источника звуковых колебаний, задающие конкретный вид функциям Zb,za и / соответственно.
1 Исключение составляет счетный набор собственных частот, в которых нарушается единственность решения, являющийся решением задачи в случае а = 0 и а = оо 1.2 Модели импеданса для граничных условий
Во временной области импеданс и проводимость являются линейной системой, задающие связь входных и выходных значений скоростей и давления в виде интегрального преобразования типа свертки: Л/Г 1 [+0 (Ъ/Г W7I/r _ p(M,t) = — zM,t — T)V(M,T) тімdт (1.15) 2-7Г J_00 1 f+0 ж v(M, t) = — a(M,t — T)P(M,T) тім dT (1.16) 2тг Комплекснозначные функции импеданса и проводимости должны иметь реальную физическую интерпретацию, что подразумевает [45]:
1. В каждой точке пространства входные значения функции звукового давления р(М, t) должны определяться только через предшествующие им значения скоростей v(M, t). В частности, это означает что z(M, t) = 0 при t 0. В комплексной области это аналогично требованию аналитичности функции z(M, си) для полуплоскости SUJ 0.
2. В каждой точке пространства входные значения функции скоростей v(M, t) должны определяться только через предшествующие им значения функции звукового давления p(M,t), т.е. функция проводимости а(М, си) должна быть также аналитической в области SUJ 0. Из этого следует, что функция импеданса Z(M,UJ) не должна иметь нулей в нижней полуплоскости комплексного плоскости.
3. Преобразование (1.15) должно сохранять вещественнозначность функции, что приводит к свойству сопряженной симметрии z (M,си) = z(M, — о;), иными словами, реальная часть Rz должна быть четной относительно точки си = 0, а мнимая часть sz нечетной.
4. Должно быть выполнено условие сохранения энергии, т.е. ffi(pv ) = $lz\\v\\2 0, откуда следует !Kz 0.
Нежесткость стенок речевого тракта приводит к тому, что они начинают колебаться по действием звукового давления на поверхности стенок. Можно представить, что данный процесс является локальным, т.е. каждое достаточно малое сечение поверхности стенок совершает колебания независимо от соседних. Обзор подобных моделей можно найти, например, в [46]. Для текущей модели выбрано уравнение движения маятника с затуханием: d2( d( т—2 + R—Ь KnM,t) = p(M,t) (1.17) dt dt
Модель, формулируемая относительно движения элемента границы ( = (М, ), является трех-параметрической, с параметрами т - погонной массой элемента, R - коэффициентом сопротивления и К - коэффициентом упругости элемента стенки речевого тракта. Поскольку v(M, t) = d ± ґ Ї, —, то преобразование Фурье скорости движения V{M}UJ) = iujt,{M}uj), dt где (М, си) - преобразование Фурье функции смещения. Из исходного уравнения движения (1.17) несложно получить выражения для импеданса стенки речевого тракта: д2 d 2- - т -7 + R—Ь Kt, = p(M,t) == m(iuj) + iuJt,R + Kt, = р(М,ш) at2 dt - - г, - - Kv -ft К p = lUJVflV n + Rv n -\ = p = lUJVfl + R — і— = IUJ UJ v n откуда, с учетом (1.9) следует выражение для комплексного импеданса Zb(M,uj) = R + iimuj ) (1.18)
Резистивная компонента импеданса RZ = R эквивалентна сопротивлению стенки. Эта величина определяет степень диссипации энергии за счет подвижности стенок, и не зависит от частоты возбуждающей силы. В реактивную компоненту sZ = ти — — входят два слагаемых, каж-дое из которых определяет конкретный характер подвижности стенок. Частота, на которой реактивная компонента обращается в ноль, задает механический резонанс колебания стенок ип, = \ —. На частотах ниже ш у т механического резонанса преобладает инерционный импеданс, то есть вся энергия переходит в кинетическую за счет реакции масс. В обратном случае, когда и x w, энергия стенки становится потенциальной и имеет место упругий импеданс стенки. Действие инерционного и упругого импеданса находятся в противофазе. Непосредственные измерения демонстрируют большой разброс данных параметров в зависимости от места измерения и особенностей анатомического строения [5]. Например, в области щек и губ, с низкой упругостью и достаточно большой толщиной стенки можно говорить об инерционном характере импеданса. В других местах речевого тракта, таких как область твердого неба, толщина стенки достаточно мала, а коэффициент упругости К в силу наличия костных тканей, напротив, высокий. Поэтому импеданс в этих областях можно соответственно считать упругим. Кинетическая энергия создается за счет реакции массы тш, потенциальная энергия создается за счет реактивной компоненты упругости ——.
Численный метод решения интегрального уравнения
Для дискретизации задачи (2.13) используется метод кусочно-линейной аппроксимации. Кривая Г аппроксимируется кусочно-линейными функциями, связывающими N узлов сетки щ = ІІ(ГІ, zi), і = 1, 2,... TV так, что значение для некоторой точки г І г (7) "г+1,г (т) — zi+1 точки представимо в виде It (7) = мг(1 — Т) + мг+17 г(т) = г«(1 — т) + r«+17 2(7) = Zj(l — 7) + г+17 (2.16) где 7 локально параметризует кривую, соединяющую точки (г , ) и (гг+1, Zi+1) и изменяется в пределах 0 7 — 1. Якобиан в этом случае становится равен J(7) = r(l) V (r«+1 T i)2 + (z«+1 z«)2 = r(7)\/Ar2 + A 2 = r(7)Aj, а внешняя нормаль в произвольной точке внутри отрезка равна ft = 1(Azi, —Аг\).
Рассматривая вместе все узлы сетки, интегральное уравнение сводится к системе линейных алгебраических уравнений для каждого индекса: где значения операторов могут быть найдены путем подстановки выражения неизвестной функции (2.16) в -ом узле в соответствующие интегралы: Ау[ ] = Aj / А(ГІ, Zj, (7)5 z{l)) {r{l)i z(7))r(7) 7 (2.18) Ву[ ] = Aj В(ГІ, Zi r f), г( ))ф(г( ), г( ))г( ) d f (2.19) Следует отметить, что на практике достаточно взять конечный набор значений т = 1, 2,... для обеспечения точной сходимости.
Подынтегральные выражения в (2.14) и (2.15) содержат функции, непрерывные всюду кроме точек R = R(M, Р) = 0, в которой подынтегральная функция обращается в бесконечность. Чтобы избавиться от этого эффекта, предлагается выделить сингулярную часть интегралов, заменив их табличным значением известной функцией, представимой в виде эллиптических интегралов [53]. Иные входящие в состав операндов интегралы, не содержащие сингулярностей, вычисляются при помощи квадратурных формул Гаусса [54]. В некоторой достаточно малой окрестности нуля функция etkR JR может быть выражена как etkR 1 (ik)2R (ik)3R2 рт = — + ik -\ 1 h . . . R R 2! 3! Ряд состоит из членов, непрерывных в точке R = 0 за исключением первого члена 1. В случае нормальной производной будет содержаться д ( 1 \ член вида — — , имеющий, однако, как было показано выше, тот же On R порядок сингулярности 0(1 ), что и в случае отсутствия производной.
Части интегралов (2.14)(2.15), не содержащие рассмотренную сингулярность, интегрируются численно с помощью квадратурных формул Гаусса [54]. Чтобы показать, что оставшиеся сингулярные части интегралов (2.14)(2.15) могут быть заменены на вычисляемые таблично эллиптические интегралы, достаточно продемонстрировать справедливость следующих тождеств:
Для доказательства тождеств (2.20) и (2.21) рассмотрим первый интеграл (2.20), не содержащий нормальной производной. Второй интеграл (2.21) очевидно получается путем дифференциирования функции, стоящей в правой части выражения.
Обозначая за коэффициент, стоящий перед последним членом полинома (т.е., перенумеровав их в обратном порядке так, чтобы меньшая степень перед косинусом соответствовала младшему индексу), можно придти к представлению (2.22):
Далее используя свойство полиномов Чебышева (cos) = cos , можно представить интеграл, содержащий cos 2 в виде конечной суммы с коэффициентами четных членов полинома 2-ого порядка, исходя из формулы
Целью данного раздела ставится продемонстрировать адекватность предлагаемой модели речеобразования, а также оценить влияние параметров на характер решения. Сходимость решения демонстрируется на следующем простом примере модельной задачи: d2v 2 + к v(z) = О, 0 z L d2 d (0) = , d d - d() - () = 0 Данная постановка дифференциального уравнения описывает распределение амплитуды гармонических колебаний вдоль однородного цилиндра постоянного сечения, с одной стороны которого ( = 0) имеется постоянный источник, с другой ( = ) задан режим импеданса. Решение данной задачи может быть найдено аналитически: (,)=sin(+(-)) (2.30) cos(+) ф = arccos (2.31) у/1 га 1а2 Поскольку волновое число линейно зависит от частоты колебаний = , решение также будет зависеть от пространственной и частотной координат и . Роль параметра решения играет константа , имеющая тот же смысл акустической проводимости на границах речевого тракта, как и в рассматриваемой постановке задачи (1.11), и зависящая от частоты амплитуда входного сигнала . Для определения влияния характеристик речевого тракта требуется определить передаточную функцию звукового давления в каждой точке речевого тракта: / \\2 / / \\2 // V(Z,UJ)\ ( V(Z,UJ)\ W Зг + V J J V(Z,UJ) V(Z,UJ) H(z,uj) = 201og10 ж + (2.32) j j Отсюда в силу того, что для каждой частоты амплитуда входного сигнала / является постоянным множителем, его конкретное значение не играет роли, и можно принять / = 1. В данной постановке связь звукового давления и скорости потока имеет место только с одного конца речевого тракта, на уровне ротового отверстия, т.е. при z = L. Параметр акустической проводимости а должен задавать характер отражения волн в случае закрытого или открытого конца. В первом случае поток частиц через ротовое отверстие dp равен 0, поэтому —\L) = 0, или, что аналогично условию а = 0, т.е. dz имеет место быть нулевая проводимость. Передаточная функция решения задачи (2.30) с таким параметром изображена на рисунке 2.1.
Линейные ограничения элементов разложения
Различные наборы параметров т (погонная масса), R (коэффициент сопротивления) и К (коэффициент упругости) соответствуют различным анатомическим характеристикам речевого тракта [5]. Вводится допущение, что речевой тракт со всех сторон окружен мягкими мышечными тканями. Это можно считать справедливым для области гортани, языка, щек и губ, но задает погрешность моделирования в области твердого неба. Плотность мышечной ткани человека полагается равной pw = 1060 . Если принять, что толщина стенок в среднем находится в диапазоне от hw = 0.005м до hw = 0.02м, то погонная масса варьируется в пределах 5.3 т = pwhw 21.2 . Согласно оценкам [19] [5], — ҐШ ш — Mz коэффициент сопротивления R 0.8 10 -т- 1.2 10 -, а коэффициент MZC упругости связан с толщиной стенки через модуль Юнга К = -jf1, рав-ный Ew = 104 -і- 105jS2, откуда диапазон изменений для коэффициента упругости равен К 5 105 -т- 20 105 2 .
Далее излагаются результаты трех экспериментов по определению зависимости передаточной функции речевого тракта от изменения трех вышеизложенных параметров модели импеданса стенок. Решения удобно рассматривать при полностью закрытом ротовом отверстии, т.е. при выполнении граничного условия 3-го рода на всей границе, поскольку в этом случае вся энергия падающей волны распределена по поверхности речевого тракта.
Для начала зафиксируем реактивную (мнимую) часть импеданса, и будем варьировать резистивную компоненту, которая не зависит от частоты сигнала, а определяется только одним параметром R. На рисунке 2.7 проиллюстрированы спектральные профили передаточной функции для случаев жестких и подвижных стенок тракта с низким порогом коэффициента сопротивления 0.8 104 мк2гс. Помимо перераспределения энергии в области резонансных частот, наглядный анализ показывает, что при введении конечного импеданса возникает дополнительный резонанс на частоте примерно 200 Гц. Этот резонанс порождается вынужденными колебаниями стенок речевого тракта, и его значение соответствует результатам экспериментов, проведенных в работе [55]. Рассмат
Передаточная функция решения, полученного для непроницаемых стенок (условия Неймана), и с условием импеданса с коэффициентом сопротивления 0.8 104к2г ривая только область низких частот передаточной функции, можно исследовать поведение резонансной области при изменении коэффициента сопротивления. Данный пример продемонстрирован на рисунке 2.8. Поскольку изменение коэффициента сопротивления влияет на скорость затухания колебаний (1.17), то при больших значениях наблюдается исчезновение характерного низкочастотного резонанса, как если бы стенки были абсолютно жесткими.
Характер изменения передаточной функции проанализирован также для переменной толщины стенок речевого тракта. Результаты моделирования изображены на рисунке Отчетливо видно возникновение резонанса в области низких частот. Это с понижением механического резонанса ко- лебаний стенок =21 в область собственной частоты закрытого речевого тракта 0 Гц. В случае, когда колебания звукового поля происходят на частоте равной механическому резонансу колебаний стенок, реактивная компонента импеданса обращается в ноль. Стоит также об Передаточная функция решения в области низких частот для различных значений коэффициента сопротивления ратить внимание на смещение резонанснов самой трубы при изменении массы стенок, что согласуется с исследованиями изменения скорости звука, приведенными в работе, [55], а позднее развитыми в работах [19] [5]. В заключение на рисунке 2.10 приведен пример сравнения спектральных передаточных функций для жестких и подвижных стенок в случае открытого ротового отверстия. В этом примере коэффициент сопротив ления находится вблизи нуля, и импеданс носит реактивный характер, то есть определен только мнимой компонентой. Видно, что это также вносит нелинейное искажение спектра в области низких частот, а на соответствующей частоте механического резонанса наблюдается разрыв спектральной функции. Как было сказано, в этой точке решения однородной задачи совпадают со счетным множеством решений однородной внутренней задачи Дирихле. Гарантировать правильность найденного решения в этом случае нельзя.
Синтез аудио сигнала, применяемый в данном эксперименте, состоит из нескольких шагов. Сначала на основе данных о строении тракта вычисляется амплитудно-частотная характеристика речевого тракта по формуле (2.35). Синтез гласных осуществляется на основе модели источник-фильтр (source-flter) [3] [56]. Функцию фильтра выполняет система речевого тракта, а источником звуковых колебаний являются голосовые складки. Для экспериментального анализа была выбрана широко известная модель Лильенкрантца-Фанта, или LF-модель [49]:
Распознавание диктора в условиях нестационарных шумов
Исследование различных моделей, аппроксимирующих речевой сигнал с малым числом параметров представляют не только теоретический интерес, но также и имеют прикладное значение в задачах кодирования и синтеза. Одной из широко используемых моделей речевого сигнала является детерминистико-стохастическая модель [75]. В работе [15] было показано, что оценка параметров данной модели в спектральной области сводится к методам факторизации с линейными ограничениями, описанным в главе 3. Результатом аппроксимации является новая спектрограмма, приближающая исходную в метрике \\У — Ум\\ = #(У, Ум) (см. рисунок 4.1). На рисунке 4.1 наглядно продемонстрировано, что даже небольшое число базисных компонент приводит к достаточно точной оценке исходного спектра сигнала. В конечном итоге знание амплитуд и частот детерминистических компонент, а также амплитуд шумовых компонент позволяет ресинтезировать исходный сигнал, используя алгоритм, описанный в работе [75].
В настоящем параграфе дан более подробный численный анализ детерминистико-стохастической аппроксимации на основе разработанных методов. Исследуется зависимость ошибки аппроксимации /?(У, Ум) от того, каким методом получена модельная спектрограмма Ум = DX. Рисунок 4.1: a) спектрограмма исходного речевого сигнала, b) спектрограмма сигнала, полученного путем суммирования тональных (детерминистических) ( = 18) и шумовых (стохастических) ( = 8) компонент, амплитуды которых являются решениями оптимизационной задачи (3.26).
Предпосылкой к дальнейшему изложению метода служит тот факт, что спектрограмма сигнала, представленного детерминистико-стохастической моделью, образована суперпозицией тональных и шумовых спектрограмм 1, рассмотренных в первом параграфе главы 3, т.е.
В соответствующих им факторизациях = и = моделирующую роль играют матрицы и , столбцами которых явлется дискретный спектр тонального и шумового сигналов. Чем лучше спектральные паттерны описывают характерные состояния целевого сигнала, тем меньшей ожидается ошибка аппроксимации. Построение матриц подразумевает наличие достаточно репрезентативной выборки аудио сигналов. В данной работе для примера было использовано подмножество
1Строго говоря, амплитудный спектр сигнала не является суперпозицией спектров тонального и шумового сигнала в силу их частотного пересечения. Однако такое допущение тем не менее может быть сделано учитывая стохастические свойства шумовой компоненты: вероятность наблюдения тональной и шумовой компонеты в каждой частотно-временной точке (,) невелика, поэтому в целом можно считать амплитудный спектр тональных и шумовых компонент аддитивным. На практике такое приближение используется часто, и не вызывает особых проблем при моделировании 260 фонограмм из речевой базы данных TIMIT [31], содержащее голоса 26 дикторов.
Априорные знания о свойствах речевого сигнала позволяют рассматривать ограниченное множество спектральных паттернов, и выбрать из него оптимальные с точки зрения методом оптимизации, описанных в главе 3. Для тональных компонент априорным знанием является допустимый диапазон изменения частоты основного тона человеческого голоса, лежащий в пределах от 80 Гц до 600 Гц. В соответствии с этим детерминистические паттерны s представляют собой модуль преобразования Фурье от суммы синусоид с кратными основному тону частотами (см. пример на рисунке 4.2). Каждая частота основного тона о,/ = 2о,/ задается на сетке о,/ = 80 + Ао Гц, = 0,1,... s — 1, а соответсту-ющее разбиение сетки Ао = j i определяет разрешение, с которым может быть найдена искомая частота. На каждой частоте основного то Рисунок 4.2: Спектральная модель сигнала в виде суперпозиции синусоидальных компонент на частотах, кратных основному тону
на может быть несколько спектральных паттернов, что весьма характерно для вокализованных фонем одного диктора. Это значение задается параметром , что суммарно приводит к = ss спектральным паттернам, или столбцам матрицы s. Очевидно, что данное число параметров определяет компромисс между точностью аппроксимирующей модели, и ее размером. В работе задаются вполне естественные ограничения, рассматривающие частоту основного тона на сетке с разрешением Л/о = І7, совпадающим с разрешением дискретного преобразования Фурье (sr - частота дискретизации сигнала, N - размер буффера преобразования). Большее разрешение впринципе не приводит к более точным оценкам частоты основного тона на заданной сетке преобразования Фурье, хотя может оказаться более точным для кратных гармоник. Число спектральных атомов на единицу частоты основного тона было выбрано равным ms = 10. Таким образом, несложно проверить, что при частоте дискретизации сигнала 8 кГц и размере буффера дискретного преобразования Фурье N = 256 общее число спектральных паттернов составляет М = 170 компонент, что определяет избыточный набор столбцов в матрице Ds Є MSN 2+l xM, а, следовательно, постановка задачи укладывается в рамки применимости теории разреженных представлений. В противном случае всегда можно увеличить число спектральных паттернов, варьируя параметр ms.
Другим параметром, влияющим на вид спектральных паттернов тональной компоненты, является количество гармоник в каждом J -ом паттерне pj. Оно определяется максимально допустимой частотой, кратной основному тону и не превышающей половину частоты дискретизации сигнала. Иначе говоря, числа р в представлении (3.4) зависят от номера столбца / = I —I: о/ ттР-, а, следовательно, вектора оцениваемых па раметров a = ( 2i, 22, &ь) имеют переменную размерность р\. Тем не менее, для низких частот основного тона это приводит к появлению спектра с шумовыми свойствами, поскольку гармоники близко расположены друг к другу и заполняют весь диапазон частот вплоть до Найквистовой частоты. В работе экспериментально найдено более эффективное решение, заключающееся в ограничении максимального количества гармоник некоторым числом, независящим от индекса /, т.е. тахрі = р (4.1) и взятым р = 30 в конкретном эксперименте. Следует отметить, что в постановку задачи данная нелинейная регуляризация тональных компонент не вводит никаких дополнительных ограничений, поскольку нет никаких ограничений на способ инициализации итерационных алгоритмов. Поэтому условие (4.1) может быть иначе интерпретированно как исходное равенство нулю всех амплитуд ар +\ = оу+2 = ... = 0.