Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач Макаров Илья Сергеевич

Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач
<
Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Макаров Илья Сергеевич. Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач : Дис. ... канд. техн. наук : 05.13.17 Москва, 2005 156 с. РГБ ОД, 61:05-5/2799

Содержание к диссертации

Введение

ГЛАВА 1. Речевая обратная задача - обзор алгоритмов ее решения

1. Введение 9

2. Речевая обратная задача-обоснование и математическая постановка 9

3. Обзор методов решения речевых обратных задач , 13

4. Обзор методов построения артикуляторных кодовых книг 19

5. Обзор артикуляторных моделей и алгоритмов вычисления функции

площади поперечного сечения тракта 23

6. Обзор акустических моделей речеобразования .30

7, Обзор артикуляторных синтезаторов речи 32

8. Выводы .34

ГЛАВА 2. Артикуляторная модель и алгоритм вычисления площадей поперечных сечений .

1. Введение 35

2. Экспериментальные данные . 35

3. Математическая модель артикуляции -37

4. Анатомическая база данных 48

5. Алгоритм вычисления площадей поперечных сечений 54

6. Выводы... . 63

ГЛАВА 3. Акустическая и аэродинамическая модель речевого тракта .

1. Введение 65

2. Гидродинамическая модель речевого тракта.. 65

3. Численные схемы решения уравнения Вебстера ...72

4. Податливость стенок тракта и грушевидные области 81

5. Аэродинамические процессы в речевом тракте ; 94

6. Выводы .95

ГЛАВА 4. Артикуляторная кодовая книга .

1. Введение , 97

2. База данных микролучевого рснтгеноскопа ...97

3. Акустическое пространство для артнкуляторной кодовой книги... 100

4. Регуляризующие алгоритмы для формирования кодовой книги 106

5. Статическая артикуляторная кодовая книга ПО

б. Динамическая артикуляторная кодовая книга 117

7. Выводы 124

ГЛАВА 5. Исследование полноты статической артнкуляторной кодовой книги.

1. Введение 125

2. Артикуляторный синтезатор 125

3. Полнота артнкуляторной кодовой книги 128

4. Гласные и гласноподобные сегменты.. ..129

5. Фрикативные сегменты 132

б. Слитная речь 136

7. Выводы 140

Заключение 142

Библиография

Введение к работе

Речевая обратная задача формулируется как задача нахождения параметров математической модели артикуляции, или функции площади поперечного сечения речевого тракта, или команд, управляющих артикуляторными параметрами, по измеренным акустическим параметрам речевого сигнала.

С теоретической точки зрения, умение решать речевые обратные задачи необходимо для изучения свойств так называемой внутренней модели артикуляции. Под внутренней моделью понимается такая резидентная программа, которая хранится в головном мозге человека и осуществляет-управление процессами артикуляции по информации о текущем состоянии речевого тракта (получаемой от механорецепторов и посредством акустической обратной связи). Есть основания полагать, что внутренняя модель принимает участие и в процессе восприятия речи других людей (так называемая моторная теория восприятия речи).

С практической точки зрения, решение речевых обратных задач может быть эффективно использовано в ряде технических приложений. К таким приложениям относятся низкоскоростной артикуляторный вокодер, высококачественный артикуляторный синтезатор речи по произвольному тексту, а также система обучения людей иноязычному произношению. Модуль решения речевых обратных задач может быть использован в системах автоматического распознавания речи для повышения робастности этих систем.

Обратная задача для речевого тракта является нелинейной и некорректной: заданному набору входных данных, как правило, соответствует много формальных решений, большинство из которых неустойчивы по отношению к возмущениям данных. Поэтому для решения указанной обратной задачи необходимо использовать методы и алгоритмы, которые обеспечивают получение физически, физиологически и фонетически приемлемых устойчивых решений. Практическую работоспособность этих алгоритмов можно оценить, применяя процедуру ресиптеза: синтезированный по найденному решению речевой сигнал перцептивно должен мало отличаться от исходного речевого сигнала, по параметрам которого решалась обратная задача.

Одним из наиболее эффективных способов решения речевых обратных задач является вариационный метод. В нем параметры математической модели речеобразования варьируются с целью нахождения глобального минимума критерия оптимальности, включающего в себя некоторый энергетический критерий и невязку между измеренными и вычисленными параметрами. Минимизация происходит при ограничениях на искомые параметры.

Описанная оптимизационная задача является многоэкстреиальной. Поэтому при ее решении важно иметь "хорошее" начальное приближение. Только в этом случае процесс минимизации может дать необходимое приближенное решение. Для хранения и поиска начальных приближений необходимо построение так называемой артикуляторной . кодовой книги. Артикуляторной кодовой книгой называется специальная база данных, в которой хранятся множества акустических и артикуляторных векторов. При этом каждому вектору акустических параметров речевого сигнала в кодовой книге ставится в соответствие некоторое множество векторов артикуляторных параметров, Артикуляторные параметры из такого множества и служат начальными приближениями при решении обратной задачи для реального речевого сигнала.

Все известные в литературе артикуляторные кодовые книга строились относительно некоторых абстрактных математических моделей речеобразования. Вместе с тем, специфика речевых обратных задач требует построения кодовых книг относительно реальных дикторов.

Все это определяет актуальность исследований в области артикуляторных кодовых книг применительно к решению речевых обратных задач.

Основная цель исследования заключается в построении артикуляторной кодовой книги для реального диктора путем решения специфической обратной задачи: по измеренным акустическим параметрам речевого сигнала и траекториям 8-ми точек на внешних и внутренних поверхностях тракта вычисляются артикуляторные векторы и записываются в кодовую книгу.

Достижение этой цели предполагает решение следующих задач: - обзор и систематизация алгоритмов решения обратных задач и построения артикуляторных кодовых книг; - уточнение математических моделей артикуляции, акустики и аэродинамики речевого тракта по экспериментальным данным; построение нового алгоритма вычисления площадей поперечных сечений речевого тракта; построение обширной анатомической базы данных; построение артикуляторного синтезатора речи; тестирование полноты построенной артикуляторной кодовой книги путем решения речевых обратных задач для различных фонетических сегментов - отдельных звуков, звукосочетаний, слогов, слов и фраз, а также путем ресинтеза полученных решений.

Цель и задачи работы обусловили выбор методов исследования. В качестве методов исследования использовались методы теории некорректных задач, математической физики, теории оптимизации и оптимального управления, факторного анализа опытных данных, а также алгоритмы, разработанные в рамках акустической теории речеобразования, акустической теории неоднородных волноводов и гидродинамики вязкой жидкости. Оценка работоспособности и эффективности разработанных алгоритмов осуществлялась путем численных экспериментов з среде MATLAB с использованием реальных данных.

Материалом исследования послужила обширная база данных, построенная в университете штата Висконсин, США, по результатам измерений на микролучевой рентгеноскопической установке и содержащая около полусотни дикторов - носителей американского английского языка. Кроме того, использовались результаты трехмерной визуализации речевого тракта, полученные с помощью магнитно-резонансной томографии.

Научная новизна заключается в уточнении артикуляторных, акустических и аэродинамических моделей речеобразования, в новом подходе к построению артикуляторной кодовой книги, а также в разработке новых принципов построения кодовых книг применительно к решению динамических обратных задач.

В диссертации показана принципиальная возможность решения речевых обратных задач для всех типов звуковых сегментов относительно реального диктора с точностью, удовлетворительной для практических приложений. Это определяет теоретическую значимость работы.

Речь, синтезированная по решениям речевой обратной задачи артикуляторным синтезатором, отличается высоким качеством. Поэтому построенная артикуляторная кодовая книга может быть использована в высококачественном артикуляторной синтезаторе речи по произвольному тексту, а также в артикуляторном вокодере. Это определяет практическую ценность диссертации.

Апробация работы. Основные положения и результаты диссертации докладывались на Международном семинаре «Диалог - 2002» (Протвино, 2002), на 4-й Международной конференции «Фонетика сегодня: актуальные проблемы и университетское образование» (Москва, 2003), а также на 13-й сессии Российского Акустического Общества (Москва, 2003). Часть исследований была поддержана грантом Американского Акустического Общества в 2004 году по теме «акустическая модель речеобразования».

Публикации, По результатам диссертационной работы опубликовано 5 печатных статей [1, 7-9, 11] в ведущих научных журналах, а также 3 доклада [6, 10, 12] на Международных конференциях. Все работы выполнены в соавторстве. В публикациях вклад соискателя состоит в разработке артикуляторных, акустических и аэродинамических моделей, артикуляторного синтезатора речи, а также в описании и моделировании опытных данных.

Структура работы. Диссертационная работа состоит из введения, пяти глав, заключения и библиографического списка использованных источников. Она содержит 141 страницу основного текста, 26 рисунков и 14 таблиц, расположенных в тексте диссертации. Список литературы включает 191 наименование.

Первая глава «Речевая обратная задача - обзор алгоритмов ее решения» является обзорной. В этой главе описаны все известные методы решения речевых обратных задач, рассмотрены алгоритмы построения артикуляторных кодовых книг, а также артикуляторные, акустические и аэродинамические модели, используемые при формировании кодовой книги.

Вторая глава «Артикуляторная модель и алгоритм вычисления площадей поперечных сечений» посвящена уточнению артикуляторной модели и построению нового алгоритма вычисления площадей поперечных сечений по результатам магнитно-резонансных измерений речевого тракта. Кроме того, описывается обширная база данных анатомических параметров, построенная по результатам измерений на микролучевом ренттеноскопе.

Третья глава «Акустическая и аэродинамическая модель речевого тракта» посвящена уточнению акустических и аэродинамических моделей речевого тракта.

Четвертая глава «Лртнкуляторная кодовая книга» является основной главой диссертации и посвящена построению артикуляторнон кодовой книги для решения речевых обратных задач.

Пятая глава «Исследование полноты статической артикуляторнон кодовой книги» посвящена исследованию полноты построенной кодовой книги путем решения речевых обратных задач для различных сегментов речи, а таюке путем артикуляторного ресинтеза полученных решений.

Заключение содержит основные результаты диссертационной работы, а таюке направления дальнейших исследований.

Обзор методов решения речевых обратных задач

Изначально речевая обратная задача понималась как математическая проблема нахождения функции площади поперечного сечения речевого тракта S(x), х координата вдоль средней линии речевого тракта, по заданной функции звукового давления P(x,t) в тракте (/ - время). При этом предполагалось, что давление и площадь связаны друг с другом волновым уравнением типа Вебстера при заданных граничных условиях (на голосовой щели и на губах). В этой формуле CQ - скорость звука в речевом тракте (35000 см/с). В работах [39, 89] было показано, что решение этой задачи в предположении отсутствия потерь в тракте может быть найдено, если известны все резонансные частоты тракта, S(x) является гладкой функцией и заданы оба граничных условия. В работе [68] решение задачи было найдено в предположении, что известны все резонансные частоты и коэффициенты затухания соответствующих временных мод и S(x) бесконечно дифференцируема, Очевидно, что эти предположения никогда не выполняются в реальных речевых сигналах.

Метод малых возмущений функции S(x) был использован в работах [105, 138]. В обеих работах предполагалось, что функция S(x) для любого гласного может быть получена путем малой (по амплитуде) деформации некоторой постоянной площади поперечного сечения. При таком предположении метод малых возмущений оказывается применимым. В работе [138] были установлены аналитические соотношения между резонансными частотами и нечетными коэффициентами разложения в ряд Фурье логарифма S(x). Были установлены также соотношения между четными коэффициентами ряда Фурье от логарифма S(x) и полюсами входного акустического импеданса в речевой тракт со стороны губ. В работе [105] было экспериментально показано, что информация о нескольких резонансных частотах и нескольких полюсах входного импеданса позволяет однозначно восстанавливать функцию S(x).

Метод малых возмущений страдает рядом недостатков. В [15] показано, что предположение о том, что функция S(x) для любого гласного может быть получена путем малой деформации трубы постоянного сечения, не является справедливым для большинства форм речевого тракта. Поэтому метод, существенно опирающийся на это предположение, оказывается теоретически несостоятельным. Входной импеданс в тракт со стороны губ невозможно оценить непосредственно по речевому сигналу. Кроме того, в методе малых1 возмущений площади требуется заранее знать длину речевого тракта. Однако эта информация также непосредственно не содержится в речевом сигнале.

Определение функции S(x) по измеренному входному импедансу в тракт методами, отличными от метода малых возмущений площади, содержится в ряде работ. В [71, 122, 153] было показано, что S(x) может быть однозначно восстановлена по измеренному входному импедансу в предположении, что потери в тракте отсутствуют и голосовая щель закрыта. В работе [150] было построено обобщение метода, учитывающее потери в тракте. Определению функции S(x) по входному импедансу при наличии потерь в тракте с учетом податливости стенок в тракте посвящена работа [154]. В ней, помимо численных алгоритмов решения речевой обратной задачи, была описана установка, позволявшая измерять с помощью специальной безотражательной трубы входной акустический импеданс у губ человека и восстанавливать по этим измерениям функцию S(x). Один цикл работы этой установки (измерение импеданса, вычисление S(x) и отображение этой функции на мониторе) занимал менее 60 мс, так что за одну секунду установка обрабатывала порядка 20 сегментов непрерывного речевого сигнала (длительность каждого сегмента была равна примерно 50 мс). Вычисленные функции S(x) подавались в артикуляторный синтезатор. Синтетические речевые сигналы оказались весьма разборчивыми, хотя качество сигнала было невысоким.

Основной недостаток метода входного импеданса (как и метода малых возмущений площади) заключается в невозможности непосредственного измерения входного импеданса в тракт по измеренному речевому сигналу.

Одним из первых методов оценки функции S(x) непосредственно по речевому сигналу был метод линейного предсказания. В [13, 26, 181] были найдены аналитические соотношения между коэффициентами линейного предсказания и коэффициентами отражения бегущих волн в речевом тракте. При выводе этих соотношений предполагалось, что длина речевого тракта заранее известна и потери отсутствуют. Выше уже было указано, что эти предположения неверны для реальной речи, так что метод линейного предсказания заимствует все недостатки методов малых возмущений и входного импеданса. Помимо этого, в методе линейного предсказания предполагается, что разветвления в речевом тракте отсутствуют. Однако это несправедливо, по крайней мере, для назальных.

Одним из наиболее существенных недостатков линейного предсказания является неустойчивость получаемых решений относительно малых возмущений входных акустических данных или параметров артикуляторно-акустической модели. Дополнительные трудности возникают в том случае, когда речевая обратная задача решается с помощью линейного предсказания не относительно функции S(x), а относительно формы речевого тракта [85]. Результирующие конфигурации тракта не только демонстрируют неустойчивость относительно малых возмущений данных, но и зачастую оказываются физиологически недопустимыми.

Математическая модель артикуляции

Рассмотрим основные артикуляторы, входящие в модель. Опускание небной занавески осуществляется за счет сокращения мышцы palatoglossus, а подъем - мышцей - levator palatini. И хотя при своем подъеме небная занавеска деформируется как упругое тело, с точки зрения фонетических функций ее движения можно аппроксимировать лишь одним параметром - углом поворота небной занавески относительно поднятого положения, которое принимается за исходное. Этот угол определяет площадь прохода в носовую полость и, соответственно, степень назализации.

В процессе артикуляции высота гортани относительно твердого неба может меняться. Сокращение мышцы sternothyroid опускает гортань, а подъем гортани происходит при сокращении мышцы thyrohyoid.

Глотка представляет собой воронкообразный канал длиной 7-10 см, более широким концом обращенный вниз (рис. 2.3). Три мышцы-сжиматели глотки - constrictor superior, constrictor medialis, constrictor inferior, определяют площадь ее поперечного сечения. В работах [29, 171, 177] было отмечено, что для разных гласных ширина глотки во фронтальной плоскости как функция координаты вдоль тракта оказывается различной, По нашим МРТ-данным, на.разных гласных и согласных звуках также наблюдался значительный разброс в значениях ширины глотки. Вариации ширины глотки могут быть объяснены следующими факторами: 1. активность мышц - сжимателей глотки, обнаруженная в экспериментах по измерению электромиограмм этих мышц [34]; 2. эффект резиновой трубки - сжимая трубку в одном направлении, увеличиваем ее поперечный размер в другом направлении, К такому выводу можно было бы прийти на основании результатов [32], где было показано, что ширина глотки примерно линейно зависит от сагиттального расстояния.

Исследуя зависимость ширины глотки для всех гласных и согласных звуков в наших экспериментах, мы не обнаружили ее зависимости от расстояния в сагиттальной плоскости, и ширину глотки не удалось описать некоторой фиксированной функцией от сагиттального расстояния. Это соответствует представлению об активности мышц-сжимателей глотки в процессе артикуляции.

Разработка математической модели упругих деформаций глотки под воздействием мышц-сжимателей наталкивается на трудности, преодоление которых не оправдывается ожидаемой точностью решения. Вместо прямолинейно-математического подхода представляется целесообразным применить статистический анализ. Метод главных компонент позволяет получить достаточно точную математическую модель ширины глотки fVph(x) путем анализа экспериментальных данных:

где х - расстояние вдоль средней линии тракта, ft(x) - j -тый собственный вектор, щ соотвсствующая факторная нагрузка, a Wpm - постоянная ширина глотки, характерная для каждого диктора. Два собственных вектора покрывают около 93% дисперсии измерений. Этим векторам можно приписать некоторый физиологический смысл. Первый вектор связан с активностью верхнего глоточного сжимателя {constrictor superior), а второй - с активностью среднего глоточного сжимателя {constrictor medialis).

Функция Wpko в верхней и средней части глотки может быть аппроксимирована с хорошей точностью (среднеквадратическая ошибка = 3%) гиперболой y = U(brx + b2). (2.2)

В нижней части глотки функция Ш,ю задается отсчетами экспериментально измеренной кривой, которая хранится в базе данных. Параметризация (2.2) позволяет включить Ь[ и 4; в оптимизируемые параметры артикуляторной модели для произвольного диктора. Для дикторов, участвовавших в МРТ-экспериментах, параметры bi и Ъг были определены как результат минимизации квазиньютоновским методом ошибки в смысле наименьших квадратов между функцией Wpho в верхней и средней части глотки и кривой у, определяемой соотношением (2.2). Графики функций Wpho, fi(x), /ф) показаны на рисунке 2.4. На этом рисунке по оси абсцисс отложено расстояние от голосовой щели до небной занавески, нормированное к единице. По оси ординат отложены амплитуды соответствующих функций в см. Областям средней и верхней части глотки соответствуют координаты от 0.3 до 1. Функции Wpi,o, fi(x), fi(x) нарисованы в разных масштабах для того, чтобы показать детали графиков собственных векторов ширины глотки.

Дальнейшие эксперименты с артикуляторной моделью применительно к решению речевых обратных задач показали, что управляющий фактор при второй собственной функции fz(x) ширины глотки сравнительно мало участвует в процессе артикуляции и может быть выбран равным некоторой константе. Таким образом, ширина глотки в артикуляторной модели управляется одним параметром - коэффициентом при первой собственной функции// .

Положение нижней челюсти описывается двумя параметрами - углом поворота относительно челюстного сустава и смещением челюсти вперед - назад. Угол поворота принимается равным нулю при сомкнутых зубах. Опускание нижней челюсти происходит при сокращении мышц anterior belly digastric, posterior belly digastric, mylohyoid при условии, что hyoid bone удерживается в фиксированном положении противодействующими мышцами. Подъем нижней челюсти создается сокращением мышц temporalis и masseter. Последние две мышцы совместно с lateral pterygoidтакже сдвигают нижнюю челюсть вперед, а при сокращении posterior belly digastric и задних волокон мышцы temporalis челюсть может сдвигаться назад. Мышцы masseter, lateral pterygoid и temporalis - внешние лицевые мышцы и на Рис.2.2 не показаны.

Корень языка опускается при сокращении мышц sternohyoid и hyoglossus, а поднимается при сокращениии мышцы stylohyoid. Сокращение мышц constrictor medialis и constrictor inferior приближает корень языка к задней стенке речевого тракта, а сокращение mylohyoid и genioglossus inferior сдвигает его в сторону подбородка. Таким образом, положение корня языка описывается вертикальной и горизонтальной координатой.

Численные схемы решения уравнения Вебстера

Сравнительный анализ обеих схем был проведен на большом материале площадей поперечного сечения, вычисленных по разнообразным конфигурациям речевого тракта с помощью алгоритма, описанного во второй главе. Исследовались расхождения по резонансным частотам, вычисленным с помощью обеих схем, а также скорость вычисления. Выяснилось, что эти схемы дают сопоставимый результат, причем максимальная разница между резонансными частотами, вычисленными по обеим схемам, оказалась не более 5%. Вместе с тем, обобщенная схема длинных линий (3.26) работает гораздо медленнее, чем схема длинных линий (3.22) даже в том случае, когда количество рупоров, аппроксимирующих функцию S(x), оказывается в два раза меньше количества цилиндрических труб постоянного поперечного сечения. По этой причине в дальнейших экспериментах была использована только схема длинных линий, описываемая соотношениями (3.22).

Также было построено обобщение схемы длинных линий для неоднородного трехмерного волновода. Был проведен ряд экспериментов по синтезу некоторых гласных звуков с помощью этой схемы. Оказалось, что в диапазоне до 4 кГц резонансные частоты, определенные по трехмерной схеме длинных линий и по схеме (3.22), отличались не более, чем на 2%. На слух гласные звуки, синтезированные по трехмерной схеме в полосе до 8 кГц, были неотличимы от соответствующих звуков, синтезированных с помощью соотношений (3.22) в той же полосе. Поэтому в дальнейшем трехмерная схема длинных линий не использовалась. Ввиду большой громоздкости формул, связывающих плоские и аксиальные моды трехмерного поля давления и колебательной скорости, эти соотношения здесь не приводятся. Основное достоинство схемы длинных линий (3.22) заключается в том, что она позволяет вычислить полюсы и нули речевого тракта даже в тех случаях, когда коэффициент затухания и граничные условия явно зависят от частоты, в том числе и нелинейно. Однако при этом схема работает крайне медленно. Кроме того, выяснилось, что схема длинных линий иногда пропускает некоторые полюсы и нули. Например, если в передаточной функции для некоторой конфигурации речевого тракта два полюса расположены близко друг к другу, то схема может определить один полюс, а другой -пропустить. Наконец, выяснилось, что если количество секций, аппроксимирующих речевой тракт, превышает 50, то схема дает неверные результаты как но резонансным частотам, так и по собственным функциям. Эти эксперименты проводились на одно-, двух-, трех- и четырехтрубных моделях, для которых резонансные частоты и собственные функции могут быть вычислены аналитически. Частично эти модели были заимствованы из монографии [22].

Было проведено дополнительное исследование, связанное с выяснением причин такой вычислительной неустойчивости. Оказалось, что эта неустойчивость связана с накоплением ошибок вычислений при перемножении матриц в уравнении (3..22).

В литературе по акустической теории речеобразования эти трудности, связанные с методом длинных линий, хорошо известны [16]. Для того, чтобы избежать вычислительной неустойчивости, общее количество секций обычно выбирают равным 20-30. Чтобы избежать пропуска полюса или нуля, используют малый шаг по частоте (1 - 2 Гц), Дополнительным средством является вычисление полюсов и нулей тракта сначала в предположении отсутствия потерь с последующей коррекцией передаточной функции. Существуют также специальные алгоритмы «быстрой схемы длинных линий». Один из таких алгоритмов описан в работе [94]. Эти алгоритмы позволяют ускорить процесс вычисления спектральных характеристик речевого тракта в 2 - 5 раз.

Чтобы избежать ошибок, связанных с пропуском полюсов, уравнения длинных линий (3.22) были переписаны в z-области путем введения переменной z = exp(j2a Al/с0), где Д/ - длина элементарной секции. Тогда входной акустический импеданс Zg речевого тракта со стороны гортани (в предположении абсолютной жесткости стенок тракта и отсутствия разветвлений) вычисляется как S —S Коэффициенты отражения определяются как rf=— -, а индекс і пробегает все SM + S, значения от 2 до N. Здесь Z0l - характеристический импеданс 1-й секции, S, площадь поперечного сечения 1-й секции, Zj - импеданс излучения через губы, определяемый Bz-области соотношением [130]: Ro В соотношениях (3.28) коэффициент %(z) есть функция, учитывающая потери в /-той секции.

При разветвлении в речевом тракте в тя-й секции входной акустический импеданс со стороны гортани также вычисляется по формуле (3.27) с той разницей, что Z, определяется соотношением (3.30), а не (3.29): Я! Г а индекс і пробегает значения от т до Л (а не от 1 до Л , как в соотношениях (3.28)). Здесь Zm- входной акустический импеданс в m-ю секцию, ZT- входной акустический импеданс в разветвляющую трубу со стороны речевого тракта. Zm вычисляется с помощью соотношений (3.27) - (3.28), где индекс і пробегает значения от 1 до т. Для вычисления Zt необходимо предварительно аппроксимировать разветвляющую трубу последовательностыо М цилиндрических труб длины Д/. В этом случае Zr также вычисляется с помощью формул (3.28), где S{ - площадь поперечного сечения /-й секции разветвляющей трубы, і = 1 М, Z, - импеданс нагрузки разветвляющей трубы.

Описанный алгоритм позволяет вычислять импеданс речевого тракта с разветвлениями, расположенными в разных местах тракта, а также импеданс разветвленного тракта, в котором разветвления содержат несколько дополнительных боковых проходов (разветвление на разветвлении). Этот случай встречается при вычислении импеданса назальных звуков. Согласно экспериментальным данным (Dang et al., 1994), назальный тракт в нескольких местах разветвляется дополнительными проходами - так называемыми параназальными синусами. Исследование этого случая содержится в главе 5.

Сравнительный анализ схем (3.22) и (3.27) в предположении отсутствия потерь в речевом тракте показал, что схема (3,27) никогда не пропускала полюсы, в то время как для схемы (3.22) это случалось. Кроме того, оказалось, что скорость вычисления частотных характеристик тракта схемой (3.27) оказывалась в среднем в 100 раз выше, чем для схемы (3.22) даже в тех случаях, когда речевой тракт в соотношениях (3.28) аппроксимировался 60 - 80 секциями. Кроме того, для схемы (3.27) эффект накопления ошибок вычислений не наблюдался.

Учет потерь в схеме (3.27) связан с большими трудностями из-за их нелинейной зависимости от частоты. В литературе известно несколько моделей для учета потерь в цифровых синтезаторах [93, 130, 136, 185]. Были исследованы все эти модели. Вычисленные полюса сравнивались с полюсами, определяемыми с помощью соотношений (3.22). Дополнительная проверка осуществлялась путем перцептивной оценки сигналов, синтезированных по длинной линии и по схеме (3.27) с разными моделями потерь. Оказалось, что ширины полос формант для всех моделей оказались сопоставимыми, а синтетические сигналы на слух были неотличимы друг от друга. Отсюда был сделан вывод о том, что точный вид члена в уравнении (3.17), учитывающий потери, не является критичным и может быть аппроксимирован более простым соотношением.

Регуляризующие алгоритмы для формирования кодовой книги

Методы формирования артикуляторных кодовых книг - формирование по артикуляторно-акустическим моделям и по измерениям на установках типа микролучевых рентгеноскопов или артикулографов - описаны в разделе 3 главы 1. Там же обсуждаются недостатки обоих подходов. Напомним, что основным недостатком первого подхода является запись в кодовую книгу многочисленных артикуляторных векторов, которые никогда не наблюдаются в реальной речи. В рамках второго подхода в кодовую книгу записывается не вся конфигурация речевого тракта (или артикуляторный вектор, соответствующий данной конфигурации), а лишь координаты н ее кольких точек, измеренных в верхней части речевого тракта. Таким образом, эти методы не могут быть использованы при построении кодовых книг, предназначенных для решения реальных речевых обратных задач относительно произвольного диктора. В идеале кодовая книга должна была бы строиться путем непосредственного измерения 3-хмерной формы речевого тракта в динамике синхронно с записью речевого сигнала. Однако пока такой измерительной техники не существует.

Можно объединить достоинства обоих подходов, поставив задачу формирования кодовой книги для реальных дикторов как специфическую обратную задачу: по синхронному измерению акустических параметров и координат нескольких точек на языке, губах, верхних и нижних зубах определить соответствующий артикуляторный вектор и записать его в кодовую книгу. Сложность этой задачи значительно ниже, чем сложность обратной задачи, входными данными которой служат только акустические параметры, особенно в том случае, когда кроме точек доступны и измерения формы твердого неба в среднесагитталыюи плоскости, формы челюсти в латеральной плоскости, расстояния от передних зубов до задней поверхности тракта и положения гортани. . .

Экспериментальной основой для построения кодовой книги послужила база данных, сформированная по измерениям на микролучевом ренттеноскопе [183]. В этой базе представлены анатомические параметры 47 дикторов, запись речевого сигнала с частотой дискретизации 21739 Гц и синхронные измерения координат 8 точек внутри речевого тракта при произнесении разнообразных текстов. Четыре точки расположены на передней поверхности языка, одна точка - на верхней губе, одна - на нижней, две точки — на резце и коренном зубе нижней челюсти. Эти точки, наложенные на конфигурацию речевого тракта при артикуляции звука /U/, показаны в верхнем левом окне рисунка 4.1. На этом рисунке представлен графический интерфейс, используемый при построении артикуляторнои кодовой книги. Более подробно он будет обсуждаться в разделе 4 настоящей главы.

Список анатомических параметров содержится в разделе 4 главы 2. В главе 2 указывалось на то, что не все анатомические параметры, необходимые для построения артикуляторной кодовой книги, содержались в базе данных микролучевого рентгеноскопа. К отсутствующим в этой базе данных параметрам относятся два коэффициента, описывающие нейтральную ширину глотки (глава 2), а также масса стенок тракта, площадь и длина грушевидного разветвления (глава 3). Эти параметры были определены для диктора, для которого строилась артикуляторная кодовая книга (пятый раздел настоящей главы), путем минимизации ошибки в смысле наименьших квадратов между вычисленными и измеренными резонансными частотами на стационарных участках некоторых гласных звуков. При вычислении резонансных частот использовалась схема (3.27) и модель податливости стенок (3.45). Масса стенок, определенная в результате процедуры минимизации, оказалась равной 1.2 г/см2, а площадь и длина грушевидных разветвлений - 1.1 см2 и 2.0 см, соответственно. Полученные величины оказываются физиологически правдоподобными (см. главу 3).

Акустическое пространство для артикуляторной кодовой книги Принципиальным вопросом является определение того, какие акустические параметры должны входить в кодовую книгу. Выбор акустического пространства важен для успеха решения обратной задачи в реальных условиях. Поэтому создание кодовой книги (обучение) и решение обратной задачи для неизвестного речевого сигнала должны выполняться с использованием одних и тех же методов анализа и синтеза речевого сигнала. Те акустические параметры, которые в автоматическом режиме измеряются неустойчиво или с большой погрешностью, не могут быть использованы для формирования кодовой книги. При этом проблема заключается не только в точности определения акустических параметров, но и в идентификации самих этих параметров. В мировой литературе основное внимание уделялось пространству формантных частот, по которым искалась форма речевого тракта. Однако общая постановка обратной задачи дается не только для гласных, но и для назальных звуков, для взрывных на интервале смычки и для фрикативных, где форманты могут отсутствовать. Поэтому необходимо использовать либо различные акустические пространства (и, соответственно, различные слои артикуляторной кодовой книги) для различных типов звуков, либо некоторое универсальное акустическое пространство. Примером такого универсального акустического пространства является пространство кепстральных коэффициентов. Напомним, что кепстром называется обратное преобразование Фурье от логарифмированного энергетического спектра, обычно представленного в шкале частот мел.

При всем удобстве формального кепстрального подхода теряется физическая интерпретируемость кепстральных коэффициентов и существенно снижается способность оптимизатора к дифференцированному подходу к физически разным акустическим процессам. В частности, кепстральные коэффициенты дают интегральное описание формы спектра и не позволяют определить форму спектра в определенных частотных областях. Поэтому при формировании артикуляторной кодовой книги был принят подход, при котором используются четыре различных акустических пространства в зависимости от типа звукового сегмента - гласноподобного, назального, фрикативного и смычки. Компоненты, размерности и метрики каждого из этих пространств указаны ниже.

Дифференцированный подход к различным типам звуковых сегментов предполагает использование процедуры сегментации речевого сигнала на участки, размеченные принадлежностью к одному из четырех типов: гласноподобные, назальные, фрикативные и смычки, причем отдельно указывается наличие или отсутствие голосового возбуждения. Процедура сегментации по существу представляет собой процесс распознавания типа сегмента. В определенной степени эта задача проще, чем распознавание фонетических элементов. Однако и здесь приходится использовать сложные правила принятия решений вследствие разнообразия акустических характеристик сегментов (даже одного и того же типа). Рис. 4.2. Сегментация фразы The other one is too big с указанием апостериорной вероятности присутствия сегмента каждого типа.

От точности определения типа сегмента и его временных границ существенно зависит и качество решения обратной задачи, использующей эти данные. Построение процедуры сегментации весьма сложно. Оно включает в себя обучение с помощью специальной базы данных, заранее размеченной вручную на основные фонетические элементы изучаемого языка. При этом для каждого типа сегмента необходимо найти информативные параметры. В пространстве этих параметров выполняется аппроксимация их распределения вероятности суперпозицией нормальных распределений, и формируется алгоритм принятия решений [19].

Похожие диссертации на Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач