Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени Гитлин, Валерий Борисович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Гитлин, Валерий Борисович. Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени : диссертация ... доктора технических наук : 05.11.16.- Ижевск, 2000.- 306 с.: ил. РГБ ОД, 71 01-5/183-X

Введение к работе

Объектом исследования является информационно-измерительная система речевой технологии.

Предметом исследования являются: информация, переносимая частотой основного тона(ОТ); методы выделения ОТ; средняя частота ОТ как носитель информации об индивидуальности голоса диктора; структура речевого сигнала на периоде ОТ; модели распознавания речи; методы предварительной обработки речевого сигнала; алгоритм выделения частоты ОТ и алгоритм принятия решения "ТОН/НЕ ТОН" на основе предложенной модели распознавания речи и предложенного синхронно с ОТ подхода к измерению параметров речевого сигнала; критерии оценивания качества предварительной фильтрации и критерии оценивания качества выделителей частоты ОТ.

Актуальность темы. Речь есть средство обмена информацией между людьми. В отличие от сигналов, получаемых на выходе технических систем, для речевого сигнала характерна большая вариативность даже при передаче совершенно идентичных сообщений. В отличие от письменной речи акустический речевой сигнал переносит огромное количество дополнительной информации, связанной со смыслом (семантикой) сообщения; с индивидуальностью голоса диктора и его эмоциональным состоянием; с эмоциональной направленностью высказывания, стилем высказывания, типом речевого сообщения (беседа, монолог и т.п.); с окружающей обстановкой, состоянием здоровья голосового аппарата, возрастом диктора, его ростом и весом.

Значительная часть дополнительной информации, содержащейся в устной речи, передается при помощи просодических характеристик речи, в частности, интонационным контуром речи. Интонационный контур высказывания есть траектория изменения мелодии частоты ОТ. Кроме отмеченной функции по передаче дополнительной информации интонационный контур служит основой для объединения отдельных частей высказывания в синтагмы и предложения, входит в состав признаков, определяющих положение синтагмического и фразового ударения, акцентирования слова; будучи зависимым от глобальных характеристик высказывания используется человеком для текущей сегментации непрерывного речевого потока.

Разработанные к настоящему времени методы выделения и измерения параметров речевого сигнала основаны на подходах, используемых при анализе регулярных или случайных сигналов неживой природы, и не учитывают полностью специфику речи как продукта работы живого организма, предназначенного для общения между людьми. Речевой сигнал генерируется при прохождении сигнала голосового или шумового источника через речеобразующий тракт. Источник речевого сигнала имеет четыре основных типа: тональное или голосовое возбуждение, шумовое возбуждение, смешанное возбуждение и взрыв. Различие между звуками, определяемое типом источника, есть признак способа образования.

Голосовой источник может быть представлен в виде пульсирующего воздушного потока. Частота (период) повторения импульсов голосового источника носит название частоты (периода) основного тона. Период ОТ, будучи связан с ходом траектории ОТ произнесения, также зависит и от контекста произнесения. Особенно важно поведение контура ОТ на переходах между фонемами, в частности, на переходах от невокализированных звуков к вокализированным, поскольку в переходах содержится информация о фонетическом составе произнесения, особенно для взрывных звуков.

Выделение траектории частоты ОТ и ее мгновенных значений, с точки зрения представленной в ней информации, имеет самостоятельный интерес. Необходимо измерять как относительно медленные изменения (мелодию) частоты ОТ, так и быстрые ее изменения, моменты включения и отключения голосового источника. С другой стороны, при построении вокодеров, систем распознавания и синтеза речи частоту ОТ используют как один из основных признаков, необходимых для описания речевого сигнала.

Выделитель частоты ОТ должен быть шумозащищенным, должен быть нечувствителен к линейным и нелинейным искажениям, должен обеспечивать точность выделения частоты ОТ около 2%, сохранять точность при больших пределах изменения частоты ОТ, при смене диктора, при смене условий передачи и т.п., при наличии микровариаций по периоду и амплитуде, должен работать на сигнале непрерывной речи, иметь адекватный детектор вокализации, работать в реальном масштабе времени и иметь минимальную стоимость.

Кроме того, к выделителям ОТ следует предъявить следующие дополнительные требования: 1. Выделитель частоты ОТ должен обеспечить непрерывное слежение за изменениями траектории частоты (периода) ОТ с тем, чтобы быть способным оценивать глобальные характеристики траектории частоты ОТ. 2. Выделитель частоты ОТ должен быть способен оценивать мгновенные значения периода (частоты) ОТ. 3. Выделитель частоты ОТ должен иметь минимальное число настроек на неизвестный речевой сигнал; параметры выделителя частоты ОТ не должны существенным образом сказываться на общий вид траектории частоты ОТ. Время, затрачиваемое на настройку алгоритма на конкретный речевой сигнал, должно быть минимальным, а сам процесс настройки должен быть максимально простым.

Существует большое количество методов выделения частоты ОТ. Такие методы как кепстральный, автокорреляционный, Рабинера - Голда, не способны оценивать мгновенные значения периода ОТ; другие, например пиковый, плохо работают в шумах и на телефонном сигнале. Все рассмотренные методы требуют тщательного подбора параметров для каждой конкретной реализации.

Диссертационная работа, направленная на разработку теоретических предпосылок и алгоритмов решений, позволяющих повысить точность, надежность, и быстродействие методов выделения ОТ, используемых совместно с алгоритмами принятия решения о наличии или отсутствии вокализации в речевом сигнале, представляется актуальной.

Целью работы является разработка теоретических предпосылок и прак-ическая реализация дополненного алгоритмом принятия решения "ТОН / НЕ ГОН" метода выделения ОТ, работающего с непрерывным сигналом в близком ; реальному масштабе времени, оценивающего мгновенные значения периода частоты) ОТ, при наличии аддитивных помех, линейных и нелинейных иска-кений сигнала, причем точность оценки периода ОТ, определяется точностью женок моментов времени, соответствующих моментам возбуждения речевого факта.

Для достижения поставленной цели определены следующие научно-гехнические задачи:

Анализ видов информации, переносимой частотой ОТ; анализ связи между переносимой информацией и частотой ОТ; анализ структуры речевого сигнала как результата работы речевого тракта.
Исследование методов выделения ОТ с точки зрения их способности извлекать информацию из траектории частоты ОТ.
Анализ возможностей использования средней частоты ОТ в качестве носителя информации об индивидуальности голоса диктора.

4.Анализ структуры речевого сигнала для получения оценки минимальной длительности, характерной для вокализированного звука; анализ методов обработки речи с точки зрения структуры речевого сигнала.

5.Разработка теоретической модели распознавания речи, ориентированной на поиск единичных событий в непрерывном сигнале, расположенных на границах дискретных информационных событий различного уровня иерархии.

6.Исследование методов предобработки речевого сигнала. Разработка количественного критерия оценивания качества предобработки. Исследование и разработка новых методов предобработки, повышающих надежность выделения ОТ.

Реализация предложенной теоретической модели и предложенных подходов в виде алгоритма выделения частоты ОТ и алгоритма принятия решения "ТОН/НЕ ТОН".
Разработка обобщенного критерия оценивания качества выделителей частоты ОТ; определение параметров разработанного алгоритма, подлежащих настройке при выделении ОТ; проведение сопоставительных испытаний предложенного метода с известными методами выделения частоты ОТ.

Метод исследования опирается на использование понятий технической кибернетики, теории речеобразования, физиологии восприятия речи, теории распознавания образов, теории связи и управления, теории цифровой обработки сигналов, математической статистики. В работе используются методические подходы и методы математического анализа указанных выше дисциплин.

На защиту выносятся:

1. Законы распределений средних частот ОТ обобщенной группы дикторов и индивидуальные распределения средних частот ОТ.

Использование периода основного тона в качестве минимальной дли тельности постоянства параметров речевого сигнала. Предпочтительность син хронного с ОТ анализа речевого сигнала.
Модель распознавания речи, ориентированная на первоначальный по иск границ дискретных единиц информации в непрерывном сигнале речи.
Методика аппроксимации функций вида sech(x) и sech²(x).
Критерий выбора метода предобработки.
Методы сглаживания сигнала на этапе предобработки, включая сгла живание всплесковым окном.
Предельное ограничение сигнала на этапе предобработки для сигнала ограниченным спектром.
Алгоритм выделения частоты ОТ.

9. Алгоритм принятия решения "ТОН/НЕ ТОН" синхронно с основньи
тоном. Повышение надежности принятия решения "ТОН/НЕ ТОН" путем дс
бавления шума к сигналу.

10. Обобщенный критерий оценивания качества работы выделителя час
тоты ОТ.

Научная новизна. В диссертационной работе получены следующие не вые научные результаты.

Диссертация есть первая научная работа, в которой исследованы прс блемы построения систем выделения частоты ОТ с использованием обеспечі вающей принятие решения функции, , вид которой зависит от предполагаемо структуры сигнала и ориентирован на поиск единичных событий в сигнале, ю торые расположены на границах периодов ОТ. Экспериментально доказано, чі указанный подход позволяет повысить надежность выделения основного тон расширить диапазон допустимых искажений сигнала, снизить объем вьічислі ний и время, необходимое для выделения основного тона.
Представлены результаты по изучению частоты ОТ как носителя ю формации. Показано, что основной тон, служащий одним из параметров просі дики речи, переносит значительный объем информации о глобальных характ ристиках речевого сообщения, используется человеком для сегментации реч вого потока в процессе восприятия речи, связан с контекстом произнесени Основной тон есть существенное отличие устной речи от письменной. Для и влечения полного объема информации, передаваемой контуром ОТ, необход мо оценивать мгновенные значения периода ОТ, моменты начал и окончат вокализации, связанных с моментами начал и окончаний периодов ОТ.
Проведена классификация методов предварительной обработки речев го сигнала и методов выделения ОТ. Получена оценка их способности извл кать информацию, переносимую контуром частоты ОТ. Методы, основанные j спектральном анализе и методы, использующие корреляционные функции, і могут определить момент начала периода ОТ. Для синхронного с ОТ анапи речи необходимо использовать методы выделения ОТ, основанные на анали временной функции сигнала и имеющие высокое разрешение во времени.

Исследована способность средней частоты ОТ быть носителем информации об индивидуальности голоса диктора. Показано, что средняя частота ОТ сильно коррелирована с индивидуальностью голоса диктора. Однако она не может быть использована в качестве единственного признака индивидуальности голоса диктора.
Выполнен анализ структуры речевого сигнала внутри периода ОТ. Показано, что структура сигнала на интервале закрытых голосовых связок отлична от структуры сигнала на интервале открытых голосовых связок. Раздельный анализ интервалов открытых и закрытых голосовых связок может быть выполнен только синхронно с ОТ. В качестве минимального по длительности интервала с постоянными параметрами речевого тракта, включая тип возбуждения, на вокализированных интервалах речи может быть принят период ОТ.
Предложена теоретическая модель построения систем распознавания речи, основанная на нисходящем распознавании и ориентированная на выделение единичных событий, расположенных на границах дискретных единиц информации различного уровня иерархии.

7". Разработан алгоритм выделения ОТ, основанный на предложенной модели распознавания речи. Реализация алгоритма доказывает возможность применения предложенной теоретической модели, позволяющей повысить надежность, снизить вычислительные затраты и уменьшить время при решении задач распознавания.

Обоснован синхронный с ОТ анализ речи, на основе которого разработан алгоритм принятия решения Т/НТ, синхронный с ОТ. Синхронное с ОТ принятия решения Т/НТ повышает надежность оценивания наличия и отсутствия вокализации в речевом сигнале и существенно снижает время принятия решения.
Предложен количественный критерий оценивания качества предварительной обработки, основанный на измерении дисперсии задержки сигнала после предварительной обработки. Критерий позволяет количественно оценить качество предварительной обработки и, тем самым, выбрать параметры фильтров предварительной обработки.

Разработаны новые методы предварительной обработки речевого сигнала путем сглаживания сигнала всплесковым окном. Предложена форма всплескового окна. Выполнен сопоставительный анализ ряда методов предварительной обработки. Показано, что среди сравниваемых типов окон предложенная форма всплескового окна обеспечивает минимальную дисперсию задержки. В ряде случаев, например при обработке сигнала, ограниченного полосой телефонного канала, дисперсию задержки можно снизить при помощи операции предельного ограничения. Даны рекомендации по выбору параметров фильтров и параметров сглаживающих окон на основе критерия минимума дисперсии задержки.
Разработан комплекс алгоритмов по выделению ОТ по предложенному методу выделения основного тона совместно с синхронным с ОТ принятием

решения Т/НТ. Алгоритм обеспечивает адаптацию функции, обеспечивающей принятие решения, к текущему значению периода ОТ и коррекцию одиночных ошибок принятия решения Т/НТ. Алгоритм способен работать с непрерывным сигналом речи в реальном масштабе времени.

12. Предложен критерий оценивания качества работы алгоритма выделителей ОТ в виде обобщенной ошибки. Получена оценка параметров алгоритма, обеспечивающих минимизацию обобщенной ошибки выделения ОТ. Выполнен сопоставительный анализ предложенного алгоритма выделения ОТ с известными алгоритмами.

Достоверность предложенных теоретических положений доказана построением алгоритмов на их основе; формулированием конкретных рекомендаций по выбору вида предварительной обработки и по выбору параметров алгоритма; подтверждена экспериментальными результатами, включая сопоставительные эксперименты с известными методами выделения ОТ; применением предложенных теоретических положений к системам идентификации диктора и к системам технической диагностики.

Практическая ценность результатов работы состоит в том, что предложенные теоретические подходы реализованы в виде алгоритмов, которые обеспечили выделение ОТ и принятие решения Т/НТ с надежностью, в общем случае превышающей надежность работы известных методов выделения ОТ. Предложенный алгоритм выделения ОТ совместно с алгоритмом принятия решения Т/НТ работает с сигналами, с аддитивным шумом при малых соотношениях сигнал/шум, с сигналами, полоса которых ограничена полосой телефонного канала, и с предельно ограниченными по амплитуде сигналами. Предложенные подходы обеспечивают работу разработанных алгоритмов в масштабе времени меньше реального при минимальном числе настроек и регулировок, в том числе, для непрерывного сигнала речи. Предложенные теоретические подходы позволили разработать алгоритмы и программы анализа сигналов в задачах технической диагностики, используемых на производстве и в учебном процессе.

Реализация результатов работы. Разработанные в ходе выполнения работы подходы, программы и алгоритмы использованы в автоматизированной системе идентификации лиц по фонограммам русской речи, применяемой в ходе выполнения криминалистических экспертиз криминалистами-экспертами России. Отдельные научные и практические результаты внедрены в научно-производственной фирме "Центр речевых технологий" г. С.-Петербург, в ИИС на ДО АО "Ижевский оружейный завод", ОАО "Вятско Полянский машиностроительный завод "Молот", в научно-техническом центре "Вычислительная техника", в учебной и научной работе на кафедре ВТ ИжГТУ.

Апробация работы. Основные положения работы докладывались на XI международном конгрессе фонетических наук (XI ICPhS), г. Таллин, 1987; на Всероссийской с международным участием конференции "Распознавание образов и анализ изображений" (РОАИ-98), г. Новосибирск, 1998; на научно-технической с международным участием конференции "Информационные тех-

гологии в инновационных проектах", г. Ижевск, 2000; на IX сессии Российского ікустического общества, г. Москва, 1999; на X (г. Минск, 1976), XI (г. Тбилиси, 1978), XII (г. Ереван, 1980), XIII (г. Новосибирск, 1984), XIV (г. Каунас, 1986) и XVI (г. Москва, 1991) Всесоюзных школах-семинарах по автоматическому распознаванию слуховых образов (АРСО); на Всесоюзном симпозиуме "Речь, эмоции и личность", г. Ленинград, 1978; на Всероссийской научно-методической конференции, г. Ижевск, 1997; на семинарах научно-молодежной школы "ИИС на базе наукоемких технологий по отраслевой целевой программе "Интеграция" в 1997- 1999 годах. Результаты работы обсуждались на научных семинарах и конференциях Ижевского государственного технического университета.

Публикации. По теме диссертации опубликованы в печати 64 работа и более 10 научно-технических отчетов по научно-исследовательским работам.

Структура и объем работы. Диссертационная работа состоит из введения, семи глав, заключения и приложений. Основной текст изложен на 302 страницах с 85 иллюстрациями. Список литературы включает 430 наименований.