Содержание к диссертации
Введение
Глава I Линейная модель речеобразования и ее параметры. Постановка задачи анализа и синтеза речи по параметрам
1.1. Модель речеобразования. Окно анализа 25
1.2. Параметры модели речеобразования 45
1.3. Анализ речи 59
1.4. Параметрический синтез речи 61
Выводы к главе 1 70
Глава II Оценивание параметров речевого тракта по звуковой волне
2.1. Обратная фильтрация речи. Окно анализа. Параметры речевого тракта 71
2.2. Математические методы обратной фильтрации 82
2.3. Спектральные методы анализа речевого тракта 92
2.4. Прямые расчетные методы исследования речевого тракта по речевой волне 103
Выводы к главе 2 119
Глава III Математические методы исследования фонационных характеристик
3.1. Постановка задачи. Краткий обзор методов выделения основного тона по речевому сигналу 120
3.2. Математический метод преобразования речевых колебаний в импульсную последовательность 142
3.3. Выделение импульсов основного тона по речевому сигналу 161
3.4. Исследование голосового источника с использованием линейного предсказания 163
3.5. Параллельный анализ основного тона на основе корреляционной матрицы 167
Выводы к главе 3 170
Глава IV Адаптивные методы исследования речи
4.1. Общие положения 172
4.2. Адаптивные методы вычисления параметров речевого тракта 176
4.3 Адаптивные структуры определения параметров речевого тракта на сфере в различных метрических пространствах 181
4.4. Определение основного тона речи адаптивным методом 187
Выводы к главе 4 199
Заключение 200
Список использованной литературы на русском языке 206
На иностранном языке 216
Приложение 1 222
Приложение 2 251
- Модель речеобразования. Окно анализа
- Обратная фильтрация речи. Окно анализа. Параметры речевого тракта
- Постановка задачи. Краткий обзор методов выделения основного тона по речевому сигналу
- Определение основного тона речи адаптивным методом
Введение к работе
Актуальность диссертации определяется необходимостью изучения микроструктуры функционирования голосовых связок и резонансных параметров речевого тракта в процессе речеобразования с опорой на речевые колебания с учетом проведения теоретической разработки методов параметрического анализа звучащей речи; компактного представления речи при исследовании ее структуры; повышения эффективности и качества первичного описания речи и возможностью получения существенного экономического и социального эффекта в областях связи (коммерческой и специальной), фоноскопической экспертизы, медицинской диагностики, верификации и идентификации дикторов, системах распознавания, более глубокого
проникновения в процесс речеобразования и изучения его характеристик, существенных для слухового восприятия, в рамках прикладной и экспериментальной лингвистики.
Формулируя тему, проблему и основные направления исследований автор исходил из следующих предположений:
Артикуляционные параметры речевого тракта в слитной речи могут быть эффективно описаны линейной системой конечного порядка.
Источник речевых колебаний и речевой тракт функционируют в процессе речеобразования независимо друг от друга.
Математическими методами принципиально возможно получение информации о двух компонентах процесса речеобразования (источнике и артикуляции) по речевым колебаниям.
Существуют метрические пространства, базовые операторы и ограничения на параметры модели, согласованные со слуховым восприятием речи человеком.
В контексте выдвигаемых гипотез должны интерпретироваться все явления и процессы исследуемой предметной области. Для проверки работоспособности предлагаемых методов анализа необходима их проверка на реальных речевых сигналах.
Целью диссертационной работы является разработка эффективных и перспективных методов исследования фонационно-артикуляционных характеристик речи по речевому сигналу на базе математических методов анализа.
Для достижения поставленной цели решались следующие задачи:
Выбор адекватной модели процесса речеобразования, описание параметров фонации и артикуляции в рамках этой модели, постановка задачи анализа и синтеза речи по параметрам в рамках рассматриваемой модели.
Анализ состояния речевого тракта по речевому сигналу в обобщенном виде. Разработка методов вычисления оценок резонансных характеристик
артикуляции, на основе целого класса операторов, линейных пространств и ограничений на параметры артикуляции. Проверка работоспособности предложенных методов анализа на базе стационарных звуков и слитной речи.
Исследование фонационных характеристик речи с возможностью поігучения информации о форме импульса основного тона по речевой волне, минуя этап предварительного определения резонансных параметров речевого тракта. Апробация предложенных методов исследования на естественных звуках речи и непрерывном речевом потоке.
Применение адаптивных процедур при исследовании речи и разработка итерационных методов анализа фонационно-артикуляционных параметров речевых колебаний.
Основным объектом диссертационного исследования является звучащая речь, представленная в цифровом и аналоговом вариантах.
Предметом исследования является источник звуковых колебаний и состояний артикуляционного аппарата с опорой на речевой сигнал, оценка которых осуществляется на базе математических методов.
Научная новизна диссертации заключается в следующем:
в авторской интерпретации предложены математические методы исследования формы импульсов основного тона по речевой волне; а также определены интервалы смыкания голосовых связок и вычислены несмещенные параметры речевого тракта;
получили дальнейшее развитие методы исследования резонансных характеристик речевого тракта на основе обобщенного прогноза;
впервые проверена состоятельность (работоспособность) предложенных математических методов анализа (на материале изолированно произнесенных русских гласных и тех же гласных в потоке речи);
впервые использованы научные результаты ряда смежных наук (прикладной и экспериментальной лингвистики, математики, теории речевой связи, теории линейных систем с сосредоточенными параметрами, физиологии).
В основу методологии решения сформулированных проблем положен принцип определения параметров артикуляции в виде экстремальной задачи. Для исследования фонационных характеристик речи предлагается серия нелинейных преобразований речевого сигнала в импульсную последовательность синхронную с работой голосовых связок.
При решении задач параметрического описания речи использовались следующие разделы математики:
теория линейных дифференциальных и (или) разностных уравнений;
спектральный и корреляционный анализ сигналов;
разделы линейной алгебры;
теория линейных систем;
теория цифровой обработки сигналов;
теория адаптивных систем;
теория аппроксимации.
При проведении диссертационных исследований использовались научные принципы решения некорректных обратных задач математики, методы прикладной и экспериментальной лингвистики, теории связи, средства построения адаптивных итерационных систем. В работе использован терминологический аппарат указанных областей знаний.
В систему естественных ограничений на решение проблемы включены:
процедуры анализа речи разрабатываются с опорой только на речевые колебания и не применяются другие информационные каналы регистрации характеристик фонации и артикуляции;
некорректность задачи вычисления артикуляционных параметров по речевой волне без регистрации функции возбуждения;
рассматривается конечный порядок модели речевого тракта в виде линейной системы с сосредоточенными параметрами;
сложная форма речевых колебаний маскирует фонационную компоненту процесса речеобразования на озвученных участках речи.
Перечисленные ограничения не являются определяющими для разрешения сформулированной проблемы в общей постановке и могут быть сведены к минимуму в рамках единой методологии ее решения в результате последующих исследований.
В качестве базового аппарата математического моделирования определены персональный компьютер с возможностями ввода и вывода речи в память машины и системной оболочкой MATLAB.
Теоретическая значимость диссертации заключается в том, что: полученные результаты являются вкладом в корректное решение проблемы описания звучащей речи фонационно-артикуляционными параметрами; в разработанных блочных и адаптивных методов анализа резонансных характеристик речевого тракта; расширения корпуса методов параметрического анализа речевых колебаний; углубление метода изучения микровариаций голосовых связок в процессе речеобразования.
Результаты исследования содействуют дальнейшему развитию теории речепроизводства и речевосприятия в целом.
Практическая ценность диссертации заключается в том, что предложенные математические методы анализа звучащей речи найдут применение в прикладных и экспериментальных задачах лингвистики; системах речевой коммуникации и коммерческой телефонии; в задачах автоматического распознавания и синтеза речи; системах идентификации и верификации дикторов; медицинской диагностике по речевому сигналу; управлении робототех-ническими устройствами и машинами голосом оператора; создании систем искусственного интеллекта; при разработке экспертных систем.
Основные результаты диссертации положены в основу курса «Параметрическое описание речи». Этот курс неоднократно был прочитан аспирантам и студентам старших курсов отделения прикладной и экспериментальной лингвистики (ОПЛ) МГЛУ. Часть материала преподаётся ежегодно в рамках обязательного курса «Математические основы гуманитарных знаний».
Базовые положения диссертации излагаются на лекциях и семинарах по подготовке специалистов в области судебной фонетики и речевой экспер-тологии.
Достоверность и обоснованность применения обобщенного подхода к проблеме первичного описания речи и математических методов ее исследования обеспечивается репрезентативной выборкой проанализированного материала, включающего в себя 1300 единиц сегментов речи, из которых впоследствии исследованы 210 сегментов, подвергнутых анализу с использованием предложенных методик.
Основные результаты диссертационного исследования неоднократно докладывались на заседаниях кафедры прикладной и экспериментальной лингвистики МГЛУ, а также прошли апробацию на следующих конференциях: юбилейной научно-технической конференции по технике и экономике связи. -М., 1968; Всесоюзной школе-семинаре «Автоматическое распознавание слуховых образов (АРСО)». - Таллинн, 1971, 1989; Алма-Ата, 1972; Львов, 1974; Минск, 1976; Тбилиси, 1978; М., 1991, 1999; XIth Inter Cong, of Phon. Scienc. - Tallin, Estonia, U.S.S.R. - 1987, Всесоюзной школе-семинаре «Психологическая бионика». - Харьков, 1988; Всесоюзном симпозиуме АН СССР «Методологические проблемы информатики, информационных технологий и информатизации общества». - Обнинск, 1988; конференции АМН СССР «Проблемы проектирования экспертных систем». - М., 1988; Всесоюзной акустической конференции. - М., 1991; XIIth Inter. Cong, of Phon. Scienc. -Aix - on - Province, France. - 1991; Международной научной конференции MMTT - 12. — Великий Новгород, 1999; Сессии «Российского акустического общества». - М., 1999, 2000, 2001; Международной конференции «Speech and Computer». - SPECOM' 2000; SPECOM' 2001; SPECOM' 2005.
Научно-технические результаты работ защищены семью авторскими свидетельствами.
На защиту выносятся следующие положения:
фонационно-артикуляционные характеристики речи вычисляются оптимально с использованием обобщенного метода линейного предсказания;
поставленная задача всеобъемлюще решается с помощью математических методов анализа (локальных и адаптивных) на основе целого класса операторов, метрических пространств и ограничений на параметры обратного фильтра для вычисления резонансных характеристик артикуляционного аппарата по речевой волне;
для выделения интервалов смыкания голосовых связок и вычисления несмещенных параметров речевого тракта и импульсов основного тона эффективно использование предложенных нелинейных преобразований (НП) речевого сигнала;
предложенные математические методы исследования формы импульсов основного тона без предварительного определения резонансных параметров речевого тракта являются предпочтительными и эффективными.
Модель речеобразования. Окно анализа
Важность создания модели речеобразования осознавалась учеными давно. На первом этапе исследований накапливался материал о звуковом сигнале, его свойствах, образующих его компонентах, характеристиках и т. п.
Первые исследования звучащей речи своими корнями уходят в глубокую древность, однако важные с точки зрения современных представлений о процессе речеобразования работы появились в XX веке.
На базе физических методов исследования сложных процессов ученые начали объективное изучение речи, речепроизводства и восприятия речи. Вначале основное внимание уделялось изучению наиболее важных в информационном плане гласных звуков речи. Гласные звуки удобны для изучения на начальном этапе тем, что могут быть сымитированы механическим устройством в виде трубы с переменным сечением. Сигнал на входе такой трубы представляет собой периодический аналог работы источника звуковых колебаний. В случае гласных звуков речи основная компонента источника в реальном процессе речепроизводства образуется работой голосовых связок и представляет собой квазипериодическую импульсную последовательность.
На начальном этапе изучения процесса речепроизводства становится понятным, что весь процесс представляет собой взаимодействие двух основных компонент артикуляционных органов человека - источника звуковых колебаний и речевого тракта. При этом состояние (конфигурация) речевого тракта в момент образования звука речи определяет информационное содержание этого отрезка и, в конечном счете, определяет сам звук. Основываясь на полученных данных, Гельмгольц обращает внимание на спектральное представление звуковой волны. Изучение амплитудных и фазовых спектров речевых сигналов приводит Гельмгольца к двум важным заключениям.
Во-первых, для слухового восприятия звуковой волны наиболее важной компонентой является амплитудный спектр. Фазовый спектр играет второстепенную, вспомогательную роль, не определенную до конца в настоящее время [Акинфиев 1957, 1989, 1991].
Во-вторых, области концентрации энергии в амплитудном спектре несут наибольшую информационную нагрузку о значении произнесенного звука речи. Понятие «формант» для гласного звука соответствует центру концентрации спектральных компонент и определяется как максимум огибающей амплитудного спектра.
Полученный в результате речепроизводства акустический сигнал представляет собой распространяющиеся в пространстве колебания воздушного давления достаточно сложной организации. Этот сигнал является физическим носителем речевой информации и содержит в себе характеристические величины, отражающие работу артикуляционных органов в процессе речеобразования. В речевом сигнале характеристики артикуляции выступают в качестве информационных параметров речи.
Звуковое давление, регистрируемое органами слуха человека (аудитора), проходит целый ряд до конца не изученных преобразований, направленных на извлечение из речевого сигнала информационных характеристик речи и на уяснение смысла сказанного. Весь процесс слухового восприятия речи не имеет в настоящее время достаточно адекватного описания, что затрудняет разработку практических методов анализа речи автоматическими системами и устройствами.
Пока рано говорить о соответствующих моделях, применяемых для исследования речи.
Из всего сказанного следует, что весь процесс речевой коммуникации в целом представляет собой сложное и не полностью изученное явление. Одним из подходов к изучению подобных процессов является процесс упрощения явления, выделения его наиболее важных характеристик и функциональных связей. Удачным завершением указанной работы обычно служит создание функциональной модели явления.
В самых общих чертах процесс речепроизводства можно представить в виде двух компонент:
- формирование команд управления органами фонации и артикуляции;
- воспроизведение ими звуковых колебаний.
Органы слуха аудитора регистрируют волновые колебания воздушного давления, и высшие отделы головного мозга восстанавливают по ним смысл сказанного. Все перечисленные уровни речевой коммуникации практически недоступны (или труднодоступны) для прямых наблюдений и регистрации характеристик их функционирования, что создает дополнительные трудности изучения этого явления.
Единственным доступным для измерений является образованный в результате речевой сигнал. Он и служит в дальнейшем базовым источником информации о процессах речеобразования и восприятия речи, их параметрах и характеристиках.
Следуя общему принципу упрощения столь сложного явления, каким является речевое общение, ограничимся рассмотрением наиболее изученных частей этого процесса: органов дыхания и артикуляции.
Образование акустических колебаний этими органами, в свою очередь, представляет собой сложный процесс с множеством заранее неизвестных параметров и характеристик и требует для своего описания необходимых упрощений и ограничений. Другими словами, работу органов речеобразования следует упрощать и в этом случае невозможно обойтись без разработки соответствующей функциональной модели.
Исторически физические методы изучения звучащей речи в такой постановке следует, по-видимому, отнести к XVIII веку. Российская Академия наук объявила конкурс, в котором впервые формулируется более простая и весьма конкретная задача исследования гласных звуков речи. Требовалось выявить физические и акустические признаки гласных звуков: в чем конкретно, по каким параметрам они схожи и чем отличаются друг от друга? В такой постановке задача исследования гласных звуков в современном представлении звучит как задача прикладной лингвистики (а, по существу, таковой и является). С этого момента следует, по-видимому, начинать отсчет углубленного изучения речевых колебаний, приведший в двадцатом веке к разработке математических алгоритмов и методов фонационно-артикуляционного анализа и синтеза речи.
В XIX веке многие исследователи внесли вклад в понимание природы речи. В частности, Виллис и Гельмгольц для изучения речи, теории речеобразования и восприятия гласных звуков использовали механические модели речеобразования и физико-математические методы анализа. Гельмгольц обратил внимание на различное расположение максимального значения спектра для различных гласных звуков речи и установил важность этого параметра для восприятия подобных звуков. В своих работах максимальное значение спектра для гласных он назвал «формантом». Так появился термин, упоминаемый до настоящего времени в современных работах по прикладной и экспериментальной лингвистике.
Уже механические модели процесса речеобразования [Фланаган 1968] выявили на уровне органов дыхания и артикуляции две основные компоненты процесса речеобразования: источник звуковых колебаний и речевой тракт как резонатор для их распространения и изменения. При этом взаимовлияние этих компонент друг на друга можно считать незначительным и в большинстве предложенных моделей им пренебрегают. Характеристики источника звуковых колебаний и состояние речевого тракта воспринималось исследователями как функционирование двух систем, в первом приближении практически независимых друг от друга. Это обстоятельство в последующем будет являться фундаментальным положением при разработке современных моделей речеобразования.
В настоящее время наиболее полно разработаны вопросы моделирования процессов формирования речи артикуляционными органами человека.
Рассмотрим кратко процесс речеобразования, модель речеобразующей системы и основные параметры ее элементов. Процесс речеобразования представляет собой некоторую согласованную систему работы артикуляционного аппарата, голосовых связок и дыхательных органов, управляемую речевыми центрами головного мозга.
Избыточное давление, образованное в легких межреберными мышцами диктора, проходит через голосовые связки и речевой тракт и распространяется в пространство через губное и (или) носовое отверстие. Порождаемые перепады давления в точках внешнего пространства составляют основу того, что в научной литературе принято называть звуковой волной.
Звуковые волновые колебания в таком широком смысле представляют собой весьма сложный конгломерат факторов и содержат, как отмечалось выше, сведения не только языкового содержания.
Изучение звуковых колебаний в полном объеме в настоящее время не представляется возможным ввиду своей чрезвычайной сложности и выходит далеко за рамки задач, рассматриваемых в этой работе.
Естественным представляется упрощение процесса речеобразования, исключения несущественных с точки зрения речевой информации признаков, выявление важных характеристик и т. п. Всё это составляет процедуру разработки модели речеобразования, приемлемой для исследовательских и прикладных задач.
Дальнейшее развитие представлений о процессе речеобразования получило в XX веке. Продвижение в этой области знаний осуществлялось исторически в двух направлениях.
Обратная фильтрация речи. Окно анализа. Параметры речевого тракта
Современные методы анализа речи основаны на идее построения обратного фильтра, компенсирующего воздействие речевого тракта на сигнал возбуждения. По параметрам и характеристикам такого фильтра-компенсатора получают оценки интересующих нас параметров самого речевого тракта и его коэффициента передачи. Весь этот анализ возможен только при условии, что рассмотренная выше модель речеобразования работоспособна, отражает основные информационно-речевые характеристики сигнала и его временную структуру.
Другими словами, все современные методы описания артикуляционных параметров речевого тракта основаны в той или иной степени на модели речеобразования, основные свойства которой были заложены в работах Гельмгольца, Дадли и Фанта. Сохранение в этой модели важных информационных, речевых характеристик является базой для разработки на ее основе совершенных алгоритмов и методов анализа речи, сохраняющих в параметрическом, компактном виде всю речевую информацию и временную структуру ее организации. Современные методы компактной записи речи на те или иные носители (СД - диски, магнитные диски и т.п.) основаны на указанных методах анализа речи и хранят информацию о ней в компактном, параметрическом описании.
Преобразование сжатого описания в звучащую речь происходит в соответствии с алгоритмами синтеза речи по параметрам, что применяется, в частности, при чтении записей с различных носителей речевой информации.
Задача анализа артикуляционных параметров как задача построения обратного фильтра и определение его параметров по речевому сигналу является достаточно сложной и в математическом плане неопределенной. Определить по звуковой волне в полном объеме все коэффициенты передаточной функции речевого тракта {bk}, {ak} в уравнениях (1.9), (ЇЛО) не представляется возможным.
На первом этапе следует перейти к упрощениям вида коэффициента передачи речевого тракта и существенному сокращению неизвестных параметров. Это упрощение касается нулей коэффициента передачи и коэффициентов числителя. Все коэффициенты Ьь ... be полагаются равными нулю, а свободный член - единице:
Условия (2.1) означают, что рассматриваемое множество дробно-рациональных функций, описывающих поведение речевого тракта, не имеет нулей, и кажется, что это множество не способно отражать «провалы» в спектральной области, реально существующие для некоторых звуков речи (назальных, в частности). Это не совсем так, компенсировать отсутствие нулей можно увеличением количества полюсов коэффициента передачи [Фант 1968], т.е. повышением степени т знаменателя Rm(-) (далее мы сохраним обозначение этой степени через т, не вводя нового символа).
Функции xk(tf) xk) n, задаваемые равенствами (2.12) и (2.13), определяются по полюсам коэффициента передачи речевого тракта и отражают его резонансные свойства. Их линейная комбинация с весовыми коэффициентами {ск} в уравнениях (2.8), (2.9) составляет ту часть общего решения, которая получена из решений однородных уравнений (2.10), (2.11) и соответствует нулевому входному воздействию. Сигнал возбуждения в однородных уравнениях отсутствует (равен нулю). В этом случае говорят, что вся линейная система -речевой тракт находится в режиме «свободных колебаний».
В речевом сигнале такой режим свободных колебаний может наблюдаться только на малом интервале смыкания голосовых связок [ti, То]. На этом интервале можно считать, что речевая волна описывается однородными уравнениями (2.10), (2.11). Это обстоятельство в дальнейшем, при изучении внутренней структуры речевого сигнала, будет нами использоваться для разработки исследовательских методов анализа речи и определения импульсов основного тона.
Функции xi(t),Xi n являются частными решениями неоднородных уравнений (2.4), (2.5) соответственно с ненулевой функцией возбуждения h(t), hn. В процессе речеобразования эти интервалы времени соответствуют разомкнутым голосовым связкам, что создает эффект поступления дополнительной энергии в речевой тракт и вызывает увеличение амплитуды воздушных колебаний. Амплитуда речевого сигнала в эти моменты времени возрастает, а линейная система, имитирующая функционирование речевого тракта, находится в режиме «вынужденных колебаний».
Большая группа методов вычисления периода основного тона использует указанное обстоятельство и, выделяя пики, максимальные значения речевой волны, определяет расстояние между ними как значение Т0. Методы, основанные на измерении максимальных значений речевого сигнала, получили название пиковых методов определения основного тона.
Следует заметить, что способов нахождения частных решений неоднородных уравнений (2.4), (2.5) с функциями возбуждения общего типа не найдено. В третьей главе будет предложен метод разложения функции возбуждения по базису свободных колебаний - функций типа (2.12), (2.13), - позволяющий идентифицировать анализируемый участок речи как интервал свободных или вынужденных колебаний линейной системы -речевого тракта.
Разложение речевого сигнала x(t), хп в виде свободных и вынужденных колебаний (2.8), (2.9) в дальнейшем будет использовано для анализа работы источника звуковых колебаний. Однако оно практически не пригодно для исследования резонансных свойств речевого тракта, сосредоточенных, как показано выше, в действительной и мнимой компонентах комплексных полюсов {pk}, {zk} коэффициента передачи К(-).
Обратная задача анализа речи состоит в определении этих резонансных характеристик по известному речевому сигналу. С точки зрения уравнений (2.4), (2.5) необходимо, используя известные значения речевой волны x(t), {хп}, оценить величины коэффициентов {сік} этих уравнений, однозначно связанных с указанными полюсами (1.14), (1.16) и резонансными характеристиками артикуляционных областей.
Разработка алгоритмов и методов решения анализа речевой волны в такой постановке в виде обратной задачи для уравнений (2.10), (2.11) началась в 60-х годах XX века сразу после опубликования научных работ Г. Фанта.
Опираясь на модель речеобразования Г. Фанта, были описаны связи речевого сигнала с характеристиками сигнала возбуждения и речевого тракта в форме уравнений (2.10), (2.11), которые и составили базу современных алгоритмов анализа и синтеза речи, функционирующих в реальном масштабе времени.
Первые работы в этом направлении были опубликованы в конце 60-х - начале 70-х годов прошлого столетия у нас в стране [Акинфиев, Собакин 1971; Собакин 1969, 1970 б, в, 1972] и за рубежом [Atal, Hanauer 1971; Itakura, Saito 1969, 1971; Wakita 1972]. Разработка методов анализа речи осуществлялась достаточно быстро и к началу 70-х годов была практически завершена [Маркел, Грей 1980].
Постановка задачи. Краткий обзор методов выделения основного тона по речевому сигналу
Проблема изучения фонационных характеристик речи достаточно сложна в силу простых физиологических особенностей речевого аппарата человека: источник возбуждения речевого тракта недоступен для непосредственного измерения акустических колебаний, порождаемых этим источником. В исследовательском плане измерения фонационного процесса представляют несомненный интерес на базе только речевого сигнала.
Основные характеристики возникновения звуковых колебаний хорошо известны. Во-первых, источников возбуждения (РІВ) речевого тракта два: шумовой (ШИВ) и голосовой (ГИВ). Различаются они типом образуемых колебаний (см. Приложение, рис. 1.4).
Шумовой источник возбуждения образуется сужением речевого тракта и возникающими турбулентными потоками воздушного давления в месте сужения. Характер колебаний при этом напоминает случайный процесс с непредсказуемой амплитудой колебаний в ближайший момент времени. С математической точки зрения такого рода процессы носят название «белого» шума и достаточно хорошо изучены в теории вероятности.
Голосовой источник возбуждения представляет собой отражение квазипериодических колебаний голосовых связок. Период возникающих при этом последовательных импульсов называют периодом основного тона (ОТ), а их форму - формой импульсов (ФИ) основного тона.
В соответствии с вышесказанным под исследованием фонационной компоненты процесса речеобразования можно понимать несколько взаимосвязанных между собой проблем.
По речевым колебаниям необходимо определить тип ИВ (шумовой или голосовой) речевого тракта, т.е. который из них функционировал на рассматриваемом окне анализа. Параметр «тон-шум» является первой базовой характеристикой фонационной картины речеобразования. Определение этого параметра приводит к сегментации слитной речи на тоновые и шумовые интервалы.
Заметим, что ШИВ, образуемый турбулентными колебаниями в местах сужения речевого тракта, достаточно полно описывается «белым» шумом с нулевым математическим описанием и дисперсией, пропорциональной временной огибающей звуковых колебаний. Указанных характеристик вполне достаточно для воспроизведения (имитации) такого источника возбуждения при синтезе речи по параметрам. Других необходимых характеристик при анализе речи для описания ШИВ не требуется.
Другое дело - голосовой источник, возникающий в процессе речеобразования в результате функционирования голосовых связок, ГИВ содержит достаточно сложную речевую информацию. Ясно и общепринято, что существенная ее часть содержится в величине Т0 периода ОТ или в величине, ей обратной - частоте F0 ОТ. Величина Т0 определяется как усредненное значение для нескольких периодов колебаний голосовых связок. Методов выделения основного тона (ВОТ) предложено большое количество.
На этом информационное описание ГИВ не завершается. При синтезе речи по параметрам оказывается совершенно недостаточным знание только периода ОТ или частоты основного тона речи [Сорокин 1985; Коваль и др. 1989]. Необходимо достаточно сложным образом «формировать» импульс сигнала возбуждения (на практике это делается методом анализа через синтез). Последнее обстоятельство указывает на тот факт, что в форме импульса (ФИ) ОТ содержится достаточно важная и необходимая для качественного синтеза речевая информация. Представляется достаточно интересной гипотеза о важности формы импульса ОТ для описания индивидуальных особенностей говорящего, по которым аудитор узнает диктора [Чистович 1976].
Важность изучения ФИ ОТ на базе речевого сигнала становится, таким образом, одной из современных проблем прикладной лингвистики и общего речеведения в целом.
Экспериментальные исследования формы импульса ОТ с применением дополнительных каналов измерения (тонких катетеров, маски Розенберга, пневмоматографа и т. п.) проводились и проводятся до настоящего времени [Holmberg and all 1988; Fant 1987; Hant 1987]. Полученные результаты могут служить в качестве опорных измерений для сравнения с изменением сигнала возбуждения, алгоритмически вычисленного исключительно по звуковым колебаниям. В целом форма импульсов, полученных на базе многоканальных установок, близка к классической [Famsworth 1940] и напоминает треугольник с различной крутизной переднего и заднего фронтов.
Проблема получения ФИ ОТ по речевому сигналу оказалась достаточно сложной и малоизученной. Один из возможных вариантов ее решения в исследовательском плане будет рассмотрен ниже.
Переходим к описанию методов ВОТ, определяющих частоту ОТ.
Квазипериодическая структура речи на озвученных участках обусловлена характером функционирования голосовых связок. Почти периодические интервалы размыкания и смыкания голосовых связок при образовании звонких звуков создают близкую к периодической форму речевых колебаний на выходе речевого тракта.
Задача определения периода звуковых колебаний представляет собой важную компоненту анализа речи в целом и предполагает предварительную сегментацию непрерывного речевого потока на озвученные и глухие участки.
В соответствии с моделью источника возбуждения речевого тракта подобная сегментация связана с вычислением бинарного значения параметра а (тон или шум) и включается, как правило, в процедуру определения основного тона (ОТ) (см. Приложение, рис. 1.4). При этом знание ОТ необходимо определять лишь на озвученных участках речи (а =1). На шумовых участках ОТ не определяется, и с физической точки зрения само понятие ОТ становится неопределенным.
При исследовании непрерывного речевого потока, помимо сегментации «тон-шум», исследователь сталкивается с проблемой регистрации речь-пауза. Обычно паузу и речь идентифицируют по значению временной огибающей а: при превышении порогового значения (о А) принимается решение «речь», в противном случае - «пауза».
Дальнейшая классификация пауз (паузы между словами, синтагмами т. п.) осуществляется на основе длительности интервала времени, на котором временная огибающая меньше порогового значения [Фант 1968; Сапожков 1963].
Разделение речевых интервалов по признаку источника возбуждения голосового или шумового достаточно хорошо осуществляется визуальным образом при рассмотрении соответствующих осциллограмм сигнала. Колебательные процессы на озвученных участках имеют ярко выраженную регулярную, квазипериодическую структуру с небольшим числом переходов через ноль (от положительных к отрицательным значениям и обратно).
Интервалы, образованные шумовым источником, характеризуются достаточно частыми сменами знаков отсчетов речевого сигнала.
Эти визуальные наблюдения осциллограмм речевого сигнала позволили обратить более пристальное внимание исследователей на среднее число смен знаков речевого сигнала на интервале анализа. Математически, при условии, что речевая волна представляет собой непрерывную функцию времени, каждой смене знака в речевой волне соответствует нулевое значение. Среднее число нулей (NOZ) речевого сигнала является одним из важных параметров определения характера сегмента речи (тоновый или шумовой). При превышении NOZ порогового значения принимается решение о шумовом характере интервала анализа, в противном случае временной сегмент считается тоновым.
Указанные выше различия в форме речевой волны на озвученных и глухих участках речи порождают характерные особенности их спектрального представления. Огибающая спектра голосовых сегментов достаточно быстро убывает по частоте («12 ДБ на октаву). В высокочастотной части спектра выше 2000 амплитудные компоненты в этом случае по величине значительно уступают спектральным составляющим низкочастотной области.
В первом приближении можно утверждать, что огибающая спектра для озвученных участков речи имеет вид прямой с отрицательным коэффициентом наклона.
Напротив, для шумового сегмента основная энергия спектра сосредоточена в высокочастотной области и общий наклон огибающей становится положительным.
Этот факт широко используется в проблеме сегментации «тон-шум» и может быть реализован в виде вычислительной процедуры двумя способами.
Двумя фильтрами можно разделить спектр на низкочастотную и высокочастотную части и измерить энергию сигнала в обеих областях. Это разделение может быть осуществлено без использования фильтров по спектру речевого сигнала, полученному на основе ДПФ. Сравнение энергетических компонент в этих частотных диапазонах позволяет оценить наклон общей огибающей спектра.
Тоновый сегмент характеризуется превышением энергии сигнала в низкочастотной области над энергией в высокочастотной. Для шумового отрезка характерна обратная картина.
Определение основного тона речи адаптивным методом
Как отмечалось выше, при анализе речевых сигналов с целью получения параметров, удобных для их описания, большое распространение получили прогнозирующие методы анализа. К таким методам относятся, в частности, методы нахождения прогнозирующих коэффициентов, частных корреляций, площадей поперечных сечений речевого тракта.
Удобства использования прогнозирующих методов в задачах анализа речи заключаются в том, что они являются локальными методами (т.е. позволяют получать требуемые оценки параметров по малому участку сигнала) и достаточно хорошо согласуются с линейной моделью процесса речеобразования.
По существу, в прогнозе заложены эволюционные свойства дифференциального или разностного уравнения, описывающего работу модели речеобразования.
Физически преобразование сигнала типа прогноза представляет собой фильтрацию сигнала фильтром, имеющим только нули коэффициента передачи и не имеющим полюсов. Такие фильтры могут быть использованы не только для получения оценок резонансных параметров речевого тракта, но и для получения оценок частоты основного тона.
Если в качестве модели голосовых сигналов возбуждения рассматривать линейное преобразование, на входе которого имеется единичный импульс, а на выходе - сумму гармоник с частотами, кратными основной частоте, то для анализа таких сигналов методом обратной фильтрации необходимы фильтры с нулями коэффициента передачи. Причем, в благоприятном случае нули коэффициента передачи обратного фильтра должны располагаться на частотах гармонических составляющих анализируемого сигнала. При выполнении последнего условия частота основного тона и частота первого нуля коэффициентов передачи совпадают, что, в конечном счете и позволяет получать оценку частоты ОТ.
Известны [Atal, Hanauer 1971; Собакин 1989 б] попытки разработать методы нахождения ОТ на основе прогноза. Особенно интересна, с нашей точки зрения, попытка использовать избыточный прогноз для низкочастотной части спектра речевого сигнала.
Рассмотрим один из возможных алгоритмов нахождения ОТ, основанный на однопараметрическом обратном фильтре [Собакин 1976 б; 1978].
Работа фильтра описывается линейным разностным (или дифференциальным) уравнением, что позволяет использовать известные адаптивные методы вычисления оценок единственного коэффициента этого уравнения. По оценке коэффициента получается оценка частоты ОТ [Гольденберг, Носкова, Собакин 1981].
Модель анализируемых сигналов. Речевой сигнал {хп} на голосовых участках может быть представлен в виде конечной суммы гармоник и аддитивного «белого» шума: при 1 = 1, 2... М - -тая гармоническая составляющая; А& щ- комплексная амплитуда и частота соответственно; Т - период дискретизации входного сигнала; п — текущее дискретное время; М - количество гармоник; %п- «белый» шум.
При этом частоты ш речевого сигнала {хп} кратны основной частоте о (0(=1-щ (4.15) при=1,2...М.
Равенство (4.14) с учетом условия (4.15) определяет класс исходных сигналов, для которого разрабатывается предлагаемый метод анализа.
Образование периодического сигнала можно представить в виде линейного преобразования L [] последовательности единичных импульсов.
Коэффициенты Ак и величины МИЙО являются параметрами модели постоянными или изменяющимися, в зависимости от того, рассматривается ли стационарный речевой сигнал или непрерывной речевой поток. Поскольку наибольший практический интерес представляет исследование непрерывной (слитной) речи, то в дальнейшем следует рассматривать переменные параметры модели.
Задача состоит в получении по сигналу {х„} такой оценки со0 частоты ОТ G o, которая изменялась бы и успевала бы следить за изменениями величины а о и не зависела в известных пределах от амплитуд А частотных составляющих и их числа М. Понятно, что аддитивный шум п и не стационарность модели (т. е. изменяемость ее параметров во времени) должны учитываться при разработке метода анализа.
Общий алгоритм получения оценки х частоты со0 ОТ речи будет иметь следующий вид: по входному сигналу вычисляются сигнал-остаток и его производное в соответствии с системами (4.33, 4.39) для начального значения do и из (4.38) получаем значение сії оценки на следующем шаге. Величина со і определяется по значению ai (4.33). Затем процедура повторяется. Структурная схема алгоритма может являться основой для разработки соответствующего устройства (Собакин 1976 б, 1978), где Ф - входной фильтр нижних частот; Т - дискретизатор; D - детектор; а - ступенчатая функция, формируемая логическими блоком «логика», Y- усилитель с изменяемым коэффициентом усиления (см. Приложение, рис. 4.33).
Введение блока «логика» связано с тем обстоятельством, что, помимо искомого минимума, соответствующего частоте ОТ, функционал может иметь побочные ложные минимумы. Устранение этих ложных положений равновесия осуществляется усилителем Y и пороговой функции а, формируемой логическим блоком.
В рассматриваемой задаче анализа слитной речи параметры ОТ необходимо оценивать непрерывно во времени, что достигается установлением связи между порядковым номером к итерации и текущим временем п.
При этом новый период дискретизации Т, рассчитанный в соответствии с формулой (4.31), равнялся 1/3 исходного периода дискретизации входного сигнала.
Преобразование речевого сигнала, имеющего период дискретизации Т в сигнал с периодом Т , осуществлялось с помощью интерполяции нулевого порядка.
Из приводимых амплитудно-частотных характеристик, общий фильтр Ц-] обладает нужными свойствами: коэффициент передачи фильтра имеет нули, удовлетворяющие условию (4.18).
Искомый параметр в рассматриваемом алгоритме находится адаптивным методом, минимизирующим функционал Fn(a). Работоспособность такого адаптивного алгоритма или его основные характеристики (скорость сходимости, сложность переходного процесса и т. д.) существенно зависит от сложности функционала Fn(a) [Цыпкин 1968]. Задача нахождения минимума функционала Fn(a) усложняется, если этот функционал имеет несколько минимумов. В этом случае необходимо привлечение блока «логика».
На данном этапе исследований получены зависимости логарифма функции Fn(a) для искусственных (см. Приложение, рис. 4.5). При этом в качестве оператора усреднения М применялось прямоугольное окно анализа с эффективным значением порядка 20 мс.
Функционал Fn(a), наряду с минимумом, соответствующим истинному значению основной частоты со0, имел дополнительные, побочные минимумы, соответствующие субгармоникам.
Аналогичные результаты получаются и на естественных сигналах (см. Приложение, рис. 4.6). В качестве естественных звуков речи рассматривались стационарные гласные, произнесенные дикторами Б. (муж., Fo=130 Гц), К. (муж., F0=160 Гц.), М. (жен., F0=280 Гц.).
Наличие нескольких минимумов у функционала Fn(a) ставит задачу:
- во-первых, привлечение к анализу логического блока,
- во-вторых, введение возможных усовершенствований алгоритма с тем, чтобы минимизируемый функционал имел бы единственный минимум.
Работоспособность алгоритма без логического блока проверялась на тех же сигналах. В таблице приведены значения частот ОТ для естественных стационарных звуков. Для сравнения там же приведены значения частот ОТ, полученные сдвиговым методом. Как видно из табл. 4.3, значения частот ОТ, полученных рассматриваемым методом и сдвиговым, практически совпадают. Имеющиеся существенные расхождения значений ОТ для звуков /и/ и /ы/ диктора К. объясняются как раз наличием второго побочного минимума функционала. При нулевом начальном значении алгоритм определяет значение параметра, соответствующее второму минимуму.