Содержание к диссертации
Введение
Глава 1. Методы анализа и сегментации речи
1.1. Методы сегментации 9
1.2. Методы анализа основного тона 22
1.3. Методы анализа формантных частот 27
1.4. Смеси распределений 31
1.5. Заключение 40
Глава 2. Акустические параметры
2.1. Импульсы голосового источника 42
2.2. Формантные треки 58
2.3. Характеристики кардинальных элементов 70
2.4. Заключение 77
Глава 3. Решающие правила
3.1. Байесовский подход 78
3.2. Моделирование распределения плотности по выборке 83
3.3. Метод динамической трансформации шкалы времени 95
3.4. Заключение 100
Глава 4. Сегментация
4.1. Поиск границ сегментов 101
4.2. Распознавание кардинальных типов 112
4.3. Результаты тестирования 116
4.4. Заключение 123
Глава 5. Автоматическая сегментация в задачах речевых технологий
5.1. Обратная задача для слитной речи 124
5.2. Распознавание изолированных цифр 128
5.3. Верификация личности по голосу 131
5.4. Заключение 134
Заключение 135
Библиография 139
Введение к работе
ля решения многих речевых задач требуется проведение предварительной сегментации речи, то есть разделения речевого сипіала на сегменты, соответствующие квазистационарным и переходным процессам речеобразования. Большой практический интерес представляют задачи распознавания речи и верификации диктора, а также так называемая обратная задача для слитной речи, то есть задача восстановления формы речевого тракта и движений артикуляторов по акустическому речевому сигналу. Для решения этих задач необходимо провести анализ речевого сипіала и вычислить его акустические параметры. К таким параметрам относятся: информация о типе источника (голосовой, фрикативный) на данном участке речевого сигнала, о наличии смычки и назализации.
Эта задача может быть сформулирована как задача распознавания кардинальных типов речевых сегментов. Кардинальные типы речевых сегментов - это группы звуков, созданных с использованием существенно различающихся механизмов речеобразования. Рассматривается шесть кардинальных типов: гласноподобные, назальные, фрикативные глухие и звонкие, а также смычные глухие и звонкие звуки речи. Необходимость распознавания кардинальных типов продиктована, в частности, тем, что в обратной задаче для каждого кардинального типа используются свои акустические параметры и свой критерий оптимизации. Для распознавания типов речевых сегментов необходимо предварительно сегментировать речевой сигнал, то есть выполнить поиск моментов времени, в которые происходит существенное изменение свойств сигнала.
К акустическим параметрам также относятся спектрально-временные характеристики сегментов, положения импульсов голосового источника и формантные частоты речевого сигнала, которые в большинстве случаев соответствуют резонансным часто-
_4-
ВВЕДЕНИЕ
там речевого тракта. Для вычисления этих параметров также требуется предварительная сегментация речевого сигнала и распознавание кардинальных типов сегментов, так как, например, анализ голосовых импульсов и формантных частот следует производить только на огласованных участках сигнала.
Известные по литературе методы поиска границ сегментов обладают значительными недостатками. В частности, эти методы неприемлемы для решения обратной задачи: они либо используют априорную информацию о содержании речевого сигнала, которая обычно недоступна, либо производят поиск границ слишком грубых элементов - слогов, слов, предложений, либо дают слишком большие погрешности. В свою очередь, описанные в литературе методы распознавания типа сегментов также обладают различными недостатками и не позволяют решать реальные речевые задачи: они не обладают достаточной точностью, не выполняют распознавания кардинальных типов речевых сегментов.
В практических речевых задачах требуется определение треков формантных частот в речевом сипіале. Например, при распознавании речи треки резонансных частот дают информацию о месте артикуляции, при голосовой верификации позволяют оценить индивидуальные динамические характеристики голоса диктора, при решении обратной задачи треки используются для восстановления формы речевого тракта по речевому сигналу. В литературе описано большое число методов определения треков формантных частот, однако все они имеют недостатки, что заставляет продолжать исследования в этой области.
Известно, что резонансные частоты речевого тракта необходимо вычислять на тех участках голосовых импульсов, где голосовые связки сомкнуты, так как частоты, вычисленные на интервале открытой щели, испытывают влияние подсвязочной области и могут отличаться от резонансных частот тракта на величину до 20%. Это определяет актуальность исследований в области анализа голосовых импульсов, в частности, определения положений голосовых импульсов на речевом сигнале и оценки частоты основного тона. Описанные в литературе методы оценки частоты основного тона не обладают достаточной точностью и устойчивостью к шумам и искажениям в канале. Кроме того, эти методы не позволяют определять положения голосовых импульсов на сигнале, и, следовательно, выполнять синхронный анализ формантных частот.
Всё это определяет актуальность исследований в области анализа и автоматической сегментации речевого сигнала.
Основная цель исследования заключается в разработке устойчивого метода точной сегментации речевого сигнала и распознавания типов полученных сегментов, вычислении акустических параметров сегментов, а также в разработке методов определения положения импульсов голосового источника и вычисления треков формантных частот.
ВВЕДЕНИЕ
Достижение этой цели предполагает решение следующих задач:
обзор и систематизация описанных в литературе методов сегментации и распознавания типов сегментов;
исследование различных сегментирующих функций и создание алгоритма сегментации на их основе;
исследование и выбор параметров, позволяющих наилучшим образом распознавать типы сегментов;
оценка качества нахождения границ и распознавания типов сегментов;
создание и тестирование метода определения положения голосовых импульсов;
создание и тестирование метода вычисления треков формантных частот.
В качестве методов исследования использовались методы математического анализа, цифровой обработки сигналов, теории речеобразования и восприятия речи, спектрального анализа речи, линейного предсказания, динамического программирования, аппроксимации плотностей многомерных выборок, теории вероятностей, теории оптимизации и оптимального управления. Оценка работоспособности и эффективности разработанных методов осуществлялась путем численных экспериментов с использованием реальных данных.
Материалом исследования послужили пять различных баз речевых данных.
Одна из них была собрана в Институте проблем передачи информации (ИППИ) и содержала образцы речи русскоязычных дикторов общей длительностью около 30 часов, записанные в естественных условиях на микрофоны различных типов. База данных была размечена на фонетико-артикуляторные сегменты опытными лингвистами вручную и использовалась в данной работе для тестирования качества сегментации.
Три другие базы данных содержали ларингографические сигналы, записанные синхронно с фонетически сбалансированными фразами на английском и японском языках, произнесенными дикторами-носителями, общей длительностью примерно 60 минут. Эти базы данных использовались для тестирования метода определения положения голосовых импульсов.
Пятая база данных содержала измерения на микролучевой рентгеноскопической установке и включала в себя образцы речи и артикуляции около полусотни дикторов -носителей американского английского языка.
Научная новизна заключается в установлении признаков, позволяющих распознать тип сегментов речевого сигнала, в разработке алгоритма поиска границ сегментов, основанного на степени изменения кратковременного спектра, а также в создании метода определения положения голосовых импульсов.
Теоретическая значимость диссертации состоит в определении акустических параметров и формировании решающих правил для распознавания переходных процессов
ВВЕДЕНИЕ
и квазистационарных сегментов речевого сигнала. В задаче поиска голосовых импульсов теоретическую значимость представляет применение к различным классам сигналов разных способов анализа: по огибающей и по самому сигналу. В задаче отслеживания формантных треков - сформированный набор ограничений, основанный на свойствах артикуляции, позволяющий выполнять построение треков.
Практическая ценность диссертации. Предложенные методы и алгоритмы показали высокую эффективность при анализе реальных речевых сигналов. Они позволили автоматизировать решение обратной задачи для слитной речи, существенно улучшить характеристики систем распознавания речи и верификации диктора. Результаты работы были использованы при выполнении темы ОКР «Разработка помехоустойчивой системы автоматического распознавания речи», государственный контракт № 2-01-СТ. Часть исследований была выполнена в рамках работы по проекту «Исследование динамических обратных задач для речевого тракта», грант РФФИ № 03-01-00116.
Положении диссертации, выносимые на защиту: разработанные алгоритмы и программное обеспечение, реализующие в реальном времени на современных ПК решение перечисленных ниже фундаментальных речевых проблем, в частности:
Алгоритм сегментации речевого сигнала, основанный на свойствах процесса ре-чеобразования, и позволяющий определять границы стационарных и переходных сегментов для распознавания их типов.
Метод распознавания шести классических типов сегментов в определенных проведенным исследованием подпространствах спектрально-временных характеристик.
Алгоритм оценивания частоты основного тона и положений голосовых импульсов, основанный на свойствах процесса речевосприятия, и используемый для отслеживания треков формантных частот речевого сигнала.
Метод отслеживания треков формантных частот речевого сигнала синхронно с интервалами закрытого положения голосовой щели для вычисления значений формант с достаточной точностью, чтобы обеспечить качественное решение обратной задачи и задачи голосовой верификации.
Апробация работы. Основные положения и результаты диссертации докладывались на международном семинаре «Диалог-2002» (Протвино, 2002) и «Диалог-2003» (Протвино, 2003), на 13-й и 16-й сессиях Российского Акустического Общества (Москва, 2003 и 2005), на международной конференции "InterSpeech-2005" (Лиссабон, 2005), а также на постерной сессии международного семинара NATO ASI "Dynamic speech production and perception" (Италия, 2002).
Публикации. По результатам диссертационной работы опубликовано 6 статьей [6 -11] в ведущих научных журналах, а также 5 докладов [1 - 5] на международных конференциях. Все работы, кроме [5], выполнены в соавторстве. В публикациях вклад соис-
ВВЕДЕНИЕ
кателя состоит в разработке методов и алгоритмов анализа речевого сигнала.
Структура работы. Диссертационная работа состоит из введения, пяти глав, заключения и библиографического списка использованных источников. Она содержит 149 страниц основного текста, 52 рисунка и 22 таблицы, расположенных в тексте диссертации. Список литературы включает 162 наименования.
Первая глава «Методы анализа и сегментации речи» является обзорной. В ней рассмотрены основные известные в мировой литературе методы поиска границ сегментов на речевом сипіале и подходы к распознаванию типов сегментов, методы анализа основного тона и формантных частот, а также метод разделения смеси распределений.
Вторая глава «Акустические параметры» посвящена анализу различных акустических параметров речевых сигналов, среди которых: частота основного тона и положение импульсов голосового источника, мера периодичности, измеренные синхронно с основным тоном формантные частоты и их треки, а также параметры, позволяющие определять типы сегментов. Оценивается эффективность различных параметров для распознавания кардинальных типов сегментов.
Третья глава «Решающие правила» посвящена описанию метода определения вероятности принадлежности сегмента к различным типам, метода аппроксимации плотностей выборок, а также модификаций метода динамической трансформации шкалы времени применительно к сегментации с известными эталонами фраз.
Четвертая глава «Сегментация» содержит описание нескольких сегментирующих функций, на основе которых выполняется разбиение сигнала на сегменты, подробно описан наилучший алгоритм сегментации. Также приводится описание алгоритма распознавания типа сегментов и результаты тестирования качества сегментации и распознавания.
Пятая глава «Автоматическая сегментация в задачах речевых технологий» описывает результаты практического использования предложенных в работе методов в применении к решению обратной задачи, к задачам распознавания речи и верификации диктора по голосу.
Заключение содержит основные результаты диссертационной работы.
Гл ав а 1
Методы анализа и сегментации речи
ервая глава содержит обзор основных описанных в литературе методов анализа и сегментации речи. В первом разделе описаны методы поиска границ сегментов и определения типов сегментов. Во втором разделе рассмотрены известные методы оценивания частоты основного тона, в частности описан автокорреляционный подход. В третьем разделе приведен краткий обзор методов вычисления формантных частот и отслеживания формантных треков, описан метод линейного предсказания в приложении к формантному анализу. В четвертом разделе описываются смеси распределений и алгоритм определения их параметров для моделирования плотности по выборке. В пятом разделе содержатся основные выводы.
1.1 Методы сегментации
Сегментация речи - это процесс поиска границ между фразами, словами, слогами или артикуляторно-акустическими сегментами речевого сигнала. Этот термин применяется как к мыслительному процессу человека, так и к процессу автоматической сегментации, выполняемой машинами.
Сегментация речи является фундаментальной проблемой, необходимой для решения многих практических речевых задач, среди которых: распознавание речи, сжатие речи, синтез речи по тексту, индексирование баз речевых данных, определение формы речевого тракта по акустическому сигналу (обратная задача).
Методы сегментации
Сегментация речи - это процесс поиска границ между фразами, словами, слогами или артикуляторно-акустическими сегментами речевого сигнала. Этот термин применяется как к мыслительному процессу человека, так и к процессу автоматической сегментации, выполняемой машинами.
Сегментация речи является фундаментальной проблемой, необходимой для решения многих практических речевых задач, среди которых: распознавание речи, сжатие речи, синтез речи по тексту, индексирование баз речевых данных, определение формы речевого тракта по акустическому сигналу (обратная задача).
В силу методологических особенностей различают контекстно-зависимую сегментацию и сегментацию, не использующую априорную информацию о языке и о содержании речевого сигнала. Контекстно-зависимая сегментация возможна в речевых задачах, предоставляющих дополнительную информацию о сигнале. Например, в задаче распознавания речи по ограниченному малому словарю заранее известен набор возможных слов, в задаче контекстно-зависимой голосовой верификации известно содержание фразы. Использование этой информации значительно облегчает выполнение сегментации. Однако в большинстве задач такая информация недоступна. По этой причине большое количество исследований ведется в области контекстно-независимой сегментации.
Области применения сегментации Сегментация без использования априорной информации (контекстно-независимая сегментация) имеет очень широкую область применения. Устойчивая контекстно-независимая сегментация необходима для надежного распознавания речи: она позволила бы, например, преобразовать последовательность кадров речевого сигнала (т. е. участков заданной длины) в последовательность однородных сегментов, соответствующих звукам языка, слогам, словам или другим специфическим элементам. При этом распознавание речи свелось бы к построению алгоритма, обрабатывающего эти элементы. Техническое решение проблемы контекстно-независимой сегментации до сих пор не найдено с точки зрения задачи распознавания речи [75]. Это одна из главных причин, по которой современные системы распознавания речи не используют принцип обработки «снизу вверх», заключающийся в выполнении предварительной сегментации. Напротив, они построены по обобщающему принципу «сверху вниз», заключающемуся в оценке вероятностей высокоуровневых лингвистических гипотез, моделируемых стохастическими процессами на основе наблюдаемой последовательности кадров речевого сигнала. Скрытые Марковские модели (Hidden Markov Models, HMMs) [131] являются наиболее популярной реализацией обобщающего принципа, и широко используются в лабораторных и коммерческих системах распознавания речи. Тем не менее, этот подход устанавливает преобладание лексических ограничений над фонетическим содержанием. Более сбалансированный подход может быть реализован за счет включения фонетической информации в процесс декодирования. Возможным шагом в этом направлении является определение вероятностей переходов между элементами речи на основе подробной сегментации и акусти-ко-фонетических признаков [33].
Целью речевых кодеров является сжатие речевого сигнала для повышения эффективности передачи или хранения [77]. Цифровые речевые кодеры широко распространены в устройствах, используемых в повседневной жизни, некоторые из которых, например, сотовые телефоны, очень важны. Схожие методы анализа часто используются в системах автоматического распознавания речи и в речевых кодерах. Однако первичная обработка речи, используемая в кодере, должна отвечать специальным требованиям, отличным от требований, предъявляемых системами распознавания. После сжатия речевой сигнал должен быть восстановлен с учетом всей вариабельности и богатства характеристик, чтобы сохранить не только лингвистическое сообщение, но и множество других физических признаков, которые может воспринять слушатель.
Несколько речевых кодеров основаны на сегментации по принципу временного разложения, предложенного в [31]. Кроме того, независимая от языка сегментация необходима в алгоритмах, обеспечивающих передачу речи на сверхнизких скоростях посредством индексации сигналов в памяти [39]. В этих алгоритмах сегментация на фонетические элементы играет критическую роль, поскольку неверное определение границы элементов может серьезно повлиять на работу системы в целом. Поэтому разработка эффективного алгоритма сегментации позволит существенно повысить качество работы речевых кодеров.
В речевых исследованиях фундаментальным является использование представительных баз речевых данных. Такие базы нужны для обучения систем распознавания речи, эффективность которых повышается при увеличении объема обучающей базы [55]. Большие объемы размеченной речи необходимы также для высококачественного синтеза по тексту и для приложений сжатия речи. Сбор и ручная разметка речевых баз данных (как на словарном, так и на фонетическом уровне) является сложной и трудоёмкой задачей, в особенности для спонтанной речи. Как следствие, достаточно представительные базы речевых данных существуют только для относительно малого числа языков [75]. Для преодоления этих трудностей были разработаны несколько автоматических алгоритмов фонетической разметки, основанные в большинстве своем на обобщающем принципе «сверху вниз», взятом из распознавания речи. Среди таких подходов - контекстно-зависимый алгоритм Витерби с моделированием вариаций произношения [42, 47]. Однако, эти алгоритмы разметки эффективны только если выполнено точное моделирование вариантов произнесения и других фонетических явлений, таких как ассимиляция на стыках слов, пропадание удвоений или диалектические вариации, часто встречающиеся в спонтанной речи. Непроизвольные задержки в речи, «фальстарты» и другие нарушения плавности представляют собой еще один источник проблем для этих алгоритмов. В дополнение к этому, требования к точности сегментации для систем синтеза речи по тексту выше, чем для систем распознавания, поскольку системы распознавания направляют усилия на правильною идентификацию речевой последовательности и не требуют точного указания положений границ. Контекстно-независимая сегментация речевого сигнала может быть полезна для решения этих проблем. Более того, в отсутствие транскрипции слова, или в случае когда фонетическое моделирование невозможно (получение этой информации требует больших временных и финансовых затрат), очень желательным представляется использование алгоритма автоматической сегментации [55,75].
Среди биометрических методов идентификации (верификации) личности [84], то есть автоматического опознавания личности на основании физиологических и поведенческих признаков, большой популярностью пользуются методы идентификации по голосу. Биометрические методы идентификации должны обладать следующими свойствами: универсальность (необходимые параметры можно найти у любого человека), уникальность (разные «значения» для разных людей), постоянство (неизменность во времени), формализуемость (можно измерить количественно), эффективность (высокая точность, низкие требования к ресурсам), субъективная приемлемость (добровольное участие людей), устойчивость к обману (сложно подделать). В этом смысле идентификация по голосу обладает значительными преимуществами по сравнению с другими биометрическими методами, такими как идентификация по отпечатку пальца, по рисунку радужной оболочки глаза, по анализу ДНК и т. д.
Для голосовой верификации характерные признаки голоса должны вычисляться на определенных сегментах речевого сигнала. Частота основного тона, присущая диктору, должна вычисляться на гласноподобных участках сигнала. Форма речевого тракта характеризуется формантными частотами, измеряемыми на известных гласных звуках. Скорость артикуляции определяется по длительностям переходных процессов между артикуляторно-акустическими сегментами. Поэтому для эффективной верификации диктора по голосу необходима надежная сегментация речевого сигнала [15, 65, 106, ПО].
Импульсы голосового источника
В данном разделе описан алгоритм, позволяющий надежно определять как среднюю оценку частоты основного тона F0 так и длительности и положения импульсов голосового источника в реальном речевом сигнале, имеющем существенные нарушения периодичности. Точность и устойчивость оценки F0 достигается за счет использования параллельного автокорреляционного анализа по огибающей сигнала и по самому сигналу, что соответствует свойствам процесса речевосприятия. Алгоритм получил название TWIN [5].
Алгоритм TWIN разрабатывался как основа для анализа речевого сигнала синхронно с импульсами голосового источника. Он предназначен не только для определения периода основного тона, среднего на интервале, но и для поиска моментов ударов голосовых складок. В связи с этим, алгоритм обязан удовлетворять жестким требованиям относительно точности и устойчивости к нарушениям периодичности колебаний.
TWIN состоит из двух блоков: блока оценки F0 и блока локализации импульсов на основе F0. В блоке оценки F0 вычисляется контур основного тона с использованием автокорреляционного анализа. В блоке локализации импульсов по полученному контуру и энергетическим характеристикам сигнала определяются положения ударов голосовых складок. Ясно, что эффективность работы второго блока и, следовательно, алгоритма в целом зависит от качества вычисления контура основного тона в первом блоке.
Принципиальной особенностью алгоритма TWIN является то, что при решении задачи вычисления F0 раздельно используются два свойства слухового аппарата человека. Во-первых, это способность слышать высоту звука, содержащего одну доминирующую частоту. Во-вторых, способность воспринимать высоту сигнала, состоящего из периодической последовательности отдельных звуковых импульсов. Первая ситуация в речи возникает, когда частота первой форманты близка к частоте основного тона, а вторая, соответственно, когда частоты достаточно разнесены [5].
Эти свойства диктуют необходимость параллельно выполнять автокорреляционный анализ как самого речевого сигнала, так и построенной по сигналу функции, использующей Гильбертову огибающую сигнала (см. ниже). Критерий, позволяющий определить, какая из двух ситуаций имеет место, также строится на основе огибающей. Благодаря такому разделению алгоритм TWIN практически не подвержен грубым ошибкам сбоя на субгармоники и на частоту первой форманты, от которых страдают автокорреляционные методы. В свою очередь, малые ошибки, оставшиеся после вычисления контура основного тона, компенсируются на этапе локализации импульсов голосового источника за счет использования энергетических характеристик сигнала. Явления «дрожания» (т. н. "jitter", нестабильность длительности импульсов) и «мерцания» основного тона (т. н. "shimmer", нестабильность амплитуды импульсов) также обрабатываются корректно благодаря специальной процедуре анализа пиков разностной функции.
В алгоритме используется нормированная к накопленному среднему разностная функция d t{r), описание которой приведено в первой главе: Использование нормированной разностной функции (2.1) позволяет уменьшить число завышенных оценок F0 и чувствительность к изменениям амплитуды сигнала. При описании алгоритма мы будем пользоваться обозначениями минимального значения периода основного тона ттЫ и максимального гтах. Им соответствуют максимальная F"" и минимальная F " частоты. В большинстве случаев достаточно использовать частотный диапазон от 30 до 500 Герц. Высокочастотная первая форманта Рассмотрим случай, когда частота первого резонанса речевого тракта значительно выше частоты ударов голосовых складок, и речевой сипіал может быть представлен как периодическая последовательность отдельных импульсов. Пример такого сигнала показан на Рис. 2.1(a). Покажем, что в этом случае для определения частоты основного тона целесообразно использовать огибающую функцию. Известно, что при возбуждении резонансов в речевом тракте роль внешней вынуждающей силы выполняет производная от объемной скорости воздуха, проходящего через голосовую щель (Рис. 2.2). В большинстве случаев эта сила имеет вид острого импульса, возникающего на отрицательной полуволне функции производной, то есть при схлопывании голосовых складок и резком падении объемной скорости. Длительность этого импульса мала по сравнению с периодом собственных колебаний в тракте (высокочастотными резонансами можно пренебречь, так как их энергия мала по сравнению с энергией низкочастотных компонент).
(Шаг 1) Исходный сигнал возводится в квадрат с сохранением знака. При этом подчеркиваются интервалы, где амплитуда сигнала велика, то есть удары голосовых складок.
(Шаг 2) Далее сигнал фильтруется полосовым фильтром с полосой пропускания от 120 Гц до Fh%h = maxll000,2Fom w). Таким образом, в сигнале выделяются частоты ре зонансов речевого тракта, возбуждаемых импульсами голосового источника. Экспериментально установлено, что частоты выше Fh gh зашумляют разностную функцию, а частоты ниже 120 Гц ухудшают вычисление огибающей. Зависимость верхней частоты среза Fh sh от максимальной ожидаемой частоты основного тона F0m u обусловлена известным фактом, что частоты формант повышаются при увеличении F0.
(Шаг 3) Вычисляется огибающая функция сигнала и пропускается через низкочастотный фильтр с частотой среза F0majr. Заметим, что на практике оказывается возможным заменить операцию вычисления огибающей простым вычислением модуля сигнала, так как высокочастотные компоненты спектра подавляются последующей фильтрацией.
Байесовский подход
Задача распознавания кардинальных элементов речи может рассматриваться как задача распознавания образов. Центральную роль в статистическом распознавании образов играет байесовское решающее правило. Оно реализует концепцию принятия решения на основании апостериорной информации, полученной из данных наблюдения, и априорном знании свойств процессов. Предположение о знании плотностей распределения каждого из классов позволяет вьшисать искомое решающее правило в явном аналитическом виде.
Задача классификации Можно показать, что задача распознавания кардинальных элементов допускает использование математического аппарата, созданного для решения задач классификации. Множество объектов X, содержащих акустические параметры в качестве призна ке ГЛАВА З ков, и множество ответов Y, являющихся типам кардинальных элементов, связаны це левой функцией у :Х - У, значения которой у( = у {х известны только на конеч ном подмножестве объектов Xі = { , х,}аХ, называемом обучающей выборкой. Пары «объект-ответ» (хігу,), / = 1,...,/ называются прецедентами. Задача обучения по прецедентам заключается в том, чтобы восстановить функциональную зависимость между объектами и ответами, то есть построить отображение а: X - Y, удовлетворяющее следующей совокупности требований:
Отображение а должно допускать эффективную программную реализацию. По этой причине будем называть его алгоритмом.
Алгоритм а должен воспроизводить на объектах обучающей выборки заданные ответы: a (xt) = у,, і = 1,...,/. Равенство здесь может пониматься как точное или как приближённое, в зависимости от особенностей конкретной задачи.
На алгоритм а могут накладываться разного рода априорные ограничения, которым он должен удовлетворять как отображение, действующее из X в Y.
Алгоритм а должен обладать способностью к обобщению, то есть достаточно точно приближать восстанавливаемую зависимость у не только на объектах обучающей выборки, но и на всём множестве X.
Задача распознавания типов сегментов является задачей классификации на не сколько различных классов Y = {\ М}, где М - число классов. Можно говорить, что отображение у порождает разбиение множества объектов X на М классов: Ку=\хєХ\у (х) = у}, для всех у є Y. (3.1) Векторы акустических параметров, составляющие множества X являются описаниями объектов, а не самими объектами. Понятно, что описания объектов неизбежно являются частичными, поскольку на практике собирается только та часть информации об объектах, которая из общих соображений представляется полезной, и к тому же, требует разумных затрат на её получение и хранение. Поэтому не исключены ситуации, когда объекты, относящиеся к разным классам, будут иметь одинаковые описания, и соответствие х — у [х) в общем случае не является функцией. Тем не менее, алгоритм
а (л:) обязан быть функцией. Далеко не все методы классификации оамечают» это противоречие. Чаще всё же предполагается, что объекты взаимно однозначно соответствуют своим описаниям, а целевая зависимость у {х) является функцией.
Преимущество байесовского вероятностного подхода для распознавания карди нальных типов сегментов в том, что этот подход обходит указанное противоречие более корректным способом. Предполагается, что в произвольной точке хеХ каждый класс Ку имеет свою плотность вероятности р(х\Ку), y&Y. Задача заключается в построении алгоритма а{х), минимизирующего вероятность ошибочной классификации. Реализация этой идеи опирается на следующие исходные предположения, выполняющиеся в рассматриваемой практической задаче распознавания типов. Предположение 1. Классы - это подмножества Ку с X, yeY. Известны плотности распределения классов ру (х) = р\х\Ку\, называемые функциями правдоподобия. Предположение 2. Известны вероятности Р =(Ку) появления объектов каждого из классов у є Y, называемые априорными вероятностями классов. Предположение 3. Существуют, но не известны, условные вероятности №(Ку \х) принадлежности объекта х классам Ку, yeY .Их называют апостериорными вероятностями классов, подчёркивая, что они возникают a posteriori, то есть после того, как стал известен объект х. Значение 1?(Ку ) можно рассматривать как оценку степени принадлежности объекта х классу у.
Описываемые в предположении 2 априорные вероятности Р появления кардинальных типов могут быть вычислены с учетом особенностей языка. Для русского языка средняя частотность появления звуков приводится, например, в [14]. Однако для независимой от языка сегментации целесообразно взять одинаковые значения априорных вероятностей для всех кардинальных типов.
Ошибка распознавания характеризуется функционалом среднего риска R(a), определяемым как ожидаемая величина потери при классификации объектов алгоритмом а: кМ=Е«р(41 ,)- (3-2) уеУзеГ Здесь A3={xeX\a(x) = s\ - множество, получаемое алгоритмом a : Х- Y, seY; Яу! - величина потери, возникающая при отнесении объекта класса у к классу s. Обычно полагают Я =0, и Ays 0 при y s. В качестве примера, иллюстрирующего величину потери, можно рассмотреть задачу верификации по голосу. В этой задаче класс К0 - чужие дикторы, класс АГ, - свои дикторы. Наибольшая потеря возникает в том случае, когда объект класса К0 принимается за объект класса ЛГ,. Это назьшается ошибкой I рода или «ложным пропуском». Когда объект класса АГ, принимается за объект класса К0, говорят об ошибке II рода или «ложным отказом». То есть в данном примере Лц, Л10. Можно доказать, что если известны априорные вероятности Ру и функции правдоподобия ру (х), то минимум среднего риска достигается алгоритмом a(x) = argmin Ay,PyPy(x). (3.3) Выражение (3.3) называют байесовским решающим правилом. Часто можно полагать, что величина потери зависит только от истинной классификации объекта, но не от того, к какому классу он был ошибочно отнесён, то есть Ays = Лу для всех у, s є Y. В этом случае алгоритм, доставляющий наименьшее значение функционалу среднего риска, приобретает более простой вид: а (х) = arg max ЛуРуру (х). (3.4)
В задаче распознавания кардинальных типов можно полагать, что классы равнозначны (Лу = 1) вследствие независимости от языка и контекста. При этом, данное правило классификации назьшается методом максимума апостериорной вероятности и принимает простой вид: a(jc) = aigmaxP( ,jc). (3.5) Байесовское решающее правило позволяет классифицировать объекты хеХ, то есть принять окончательное решение для каждого объекта. Однако необходимо отметить, что классификация в автоматическом режиме не может бьггь выполнена со стопроцентной надежностью. В связи с этим в практических задачах принятие окончательного решения на первичном этапе классификации часто оказывается вредным, поскольку на последующих этапах появляется дополнительная информация, способная повлиять на это решение. Например, если при использовании метода максимума апостериорной вероятности два класса имеют значительно большие вероятности по сравнению с остальными классами, но правильный класс оказывается на втором месте, то при принятии окончательного решения информация о нём утрачивается. По этой причине целесообразно оставить принятие окончательного решения задачам высокого уровня, которые смогут привлечь дополнительные сведения о сигнале.
Это относится, в частности, к задаче распознавания типов сегментов, рассматриваемой в данной работе. Информация о типах может быть использована, например, для вычисления формы речевого тракта по акустическому сигналу (т. н. обратная задача) [10]. При этом появляется возможность учета дополнительной информации о допустимых положениях артикуляторов (языка, нижней челюсти, гортани, губ, нёбной занавески и т.д.) и возможных скоростях их движения. Принятие окончательного решения на первичном этапе не позволило бы эффективно использовать эту информацию для коррекции решения о типе, и в случае ошибки привело бы к фатальным ошибкам в решении обратной задачи (например, к неправдоподобной форме речевого тракта). Отсюда следует необходимость решения обратной задачи в предположении, что данный сегмент речевого сигнала может принадлежать любому из рассматриваемых типов. Выбор окончательного решения должен выполняться с учетом апостериорных вероятностей для всех кардинальных типов на основе сравнения полученных невязок заданных и вычисленных акустических параметров, а также по усилиям, необходимым для формирования найденного вектора артикуляторных параметров при переходе от предыдущего сегмента. Таким образом, задача распознавания кардинальных типов сводится к определению апостериорных вероятностей принадлежности сегмента к каждому из кардинальных типов.
Поиск границ сегментов
Разбиение непрерывной речи на элементы известных типов является фундаментальной задачей любой голосовой системы и необходимо в большинстве задач речевой технологии. Существуют задачи, принципиально не решаемые без использования информации о типах различных участков речевого сигнала. Например, в обратной задаче, то есть в задаче восстановления формы речевого тракта по акустическому сигналу, для разных кардинальных элементов речи должны использоваться различные акустические параметры и критерии оптимальности.
Для того чтобы определить типы участков на речевом сигнале, необходимо предварительно выполнить сегментацию речевого сигнала, то есть указать положение границ переходных и квазистационарных сегментов.
Исследования проводились на материале собранной в ИППИ РАН базы речевых данных русского языка, состоящей из образцов речи 47 дикторов. Каждый диктор произнес примерно по 1000 слов, входящих в словарь системы. В базе имеются изолированные, раздельные и слитные произнесения. В качестве примеров сигналов, содержавшихся в базе данных, приведём следующие: "ноль", "один" ... "девять"; "десять", ... "девяносто"; "сто",... "девятьсот"; "один - ноль - два - ноль - ... - девять - ноль"; "сто пятьдесят восемь тринадцать пятьдесят два"; "стоп", "отмени", "повтори". При записи базы использовались два типа телефонных трубок и три типа микрофонов. Все произнесения базы размечены на фонетико-артикуляторные сегменты опытным лингвистом вручную. Алфавит разметки состоял из 127 артикуляторных и фонетических элементов. Они представлены в таблице 4.1. Частота дискретизации сигналов составляла 16 КГц. В исследовании участвовали сигналы с соотношением сигнал-шум от 12 дБ, среднее значение соотношения сигнал-шум было равно 15 дБ.
Сегментация по усредненному нормированному спектру В работе [9] рассматриваются алгоритмы сегментации, основанные только на квазистационарных свойствах речевого сигнала. Динамический спектр S{f,t) речевого сигнала (называемый также сонограммой) вычисляется с помощью быстрого преобразования Фурье по 256 отсчетам сигнала, взвешенным функцией окна Лапласа (см. глава -102- 2, раздел 2). В соответствии со свойствами периферического отдела слухового анализатора человека, сонограмма преобразуется в шкалу мел.
Далее выполняется локальное взвешенное интегрирование в частотной области на интервалах 10 мел и 300 мел, а затем в каждый момент времени берется отношение этих спектров, обеспечивая локальную нормировку [21]:
В работе [9] проведено исследование характеристик алгоритма сегментации по усредненному нормированному спектру и найдено наилучшее значение порога 4у" = 1.3-10 . Типичный вид сегментирующей функции Ч (ґ,) при этом значении порога показан на Рис. 4.2 для слова «НОЛЬ». Наверху показана осциллограмма сигнала, посередине - сегментирующая функция, внизу - сонограмма. Границы на осциллограмме и сонограмме расставлены автоматически. Сверху над сонограммой показана ручная разметка сигнала. Из рисунка видно, что в данном случае достаточно точно найдены границы «пауза»-«Н» и «Н»-«0». Произошла потеря границы «0»-«Л», что связано со слабой выраженностью изменения частотной структуры на этой переходе (формантный состав не меняется, но происходит изменение амплитуды). Три лишние границы возникли на второй половине «О»: здесь происходит значительное изменение частотных характеристик сигнала. Расстояние между текущим и усредненным спектром быстро увеличивается, значение сегментирующей функции превышает порог и принимается решение об установке границы. Явление «пересегментации» на переходных участках характерно для алгоритма, использующего усредненный спектр.
Для автоматической оценки качества работы алгоритма сегментации использовались три характеристики: средняя погрешность определения положения границ, средний процент пропусков границ, среднее число вставок на каждый сегмент разметки [97, 124]. Вычисление этих характеристик иллюстрируется на Рис. 4.3. Гипотетический речевой сигнал размечен вручную на последовательность сегментов А, Б и В. Для каждой границы между сегментами ручной разметки выполняется поиск соответствующих границ автоматической разметки на интервалах, обозначенных цифрами 1 и 2. Каждый интервал начинается от середины предыдущего сегмента и кончается на середине последующего сегмента. На рисунке показаны границы П, Г2 и ГЗ автоматической разметки, найденные на интервале 2, соответствующем границе между сегментами Б и В ручной разметки. Погрешность определения положения границы Б-В считается равной расстоянию от этой границы до ближайшей к ней автоматической границе, расположенной на интервале 2. В данном случае погрешность будет равна расстоянию от границы Б-В до Г2. Пропуск границы детектируется в случае, если на интервале поиска не нашлось ни одной автоматически найденной границы. На Рис. 4.3. пропущена граница А-Б, поскольку интервал 1 не содержит автоматических границ. Вставки границ возникают в случаях, когда на интервал поиска приходится более одной границы. В рассматриваемом примере на границу Б-В пришлось две лишних автоматических границы: Г1 и ГЗ. При детализации ошибок сегментации по типам сегментов для примера на Рис. 4.3 можно говорить, что имеет место один пропуск границы А-Б, две вставки (одна вставка на сегменте Б, одна - на сегменте В), и что измерена точность положения границы Б-В.
Данный алгоритм поиска границ обладает неплохими средними характеристиками. Он позволяет точно находить границы между сегментами, если переходный участок хорошо выражен в частотной области и имеет небольшую длительность. Наиболее существенные недостатки этого алгоритма заключаются в расстановке большого количества лишних границ на длительных переходных процессах, а также в неспособности найти границу между сегментами, если изменение характеристик сигнала происходит в основном в амплитудной области.