Введение к работе
Актуальность темы.
90-е годы прошлого столетия ознаменовались этапом бурной эйфории от быстрых успехов в области речевых технологий. Связано это было с одной стороны со значительным увеличением производительности компьютеров и объемов хранения данных, а с другой, с появлением математических методов классификации признаков и распознавания объектов, дающих быстрый рост качества распознавания. На сегодняшний день этот этап сменился этапом кропотливой и методичной работы, связанной с развитием возникших новых направлений в исследовании речи. Эта область исследований оформилась структурно, и еще более очевидной стала проблема наличия универсального инструментария разработчика речевых технологий.
Актуальность темы диссертационного исследования обусловлена необходимостью анализа потребностей и разработки универсальных инструментальных средств для развития речевых технологий, которые позволили бы снизить трудозатраты при создании речевых систем путем автоматизации рутинных процедур и повысили бы их качество, предоставив исследователям и разработчикам необходимые ресурсы для настройки, анализа и отладки систем.
В сложившейся на сегодня структуре исследования речи и разработки речевых систем наиболее актуальными так же являются вопросы создания отладочных стендов, автоматизации процессов сбора речевых баз данных и их разметки на фонологические единицы для алгоритмов статистического анализа, визуализации цифровых речевых сигналов и результатов их обработки, выделения признаков, пакетная обработка больших объемов данных.
Предмет исследования и цели диссертационной работы.
Объектом исследования является речевой интерфейс человека с компьютером. Предмет исследования – методы создания инструментальных средств для разработки элементов речевого интерфейса человека с компьютером.
Целями исследования являются:
разработка унифицированных инструментальных средств автоматической обработки, анализа и визуализации речевых сигналов;
разработка методов создания речевых баз данных и их реализация путем создания пакета программ для автоматизации сбора и разметки крупных речевых баз данных для систем распознавания и синтеза речи русского языка.
Для достижения указанных целей были поставлены и решены следующие основные задачи:
исследование существующих методов цифровой записи, анализа, обработки и визуализации речевых сигналов;
исследование существующих речевых баз данных и методов их создания, классификация речевых баз данных;
определение архитектуры и состава инструментальных средств для автоматизации процессов анализа речевых сигналов и создания систем распознавания и синтеза речи;
разработка формальной модели унифицированного речевого фрагмента, как объекта автоматического анализа и его визуальных представлений;
разработка инструментальных средств автоматической обработки, анализа и визуализации речевых сигналов;
разработка методов создания речевых баз данных русского языка с заданным фонетическим и текстовым наполнением;
реализация комплекса программ для автоматизации процессов создания речевых баз данных;
создание речевых баз данных с фонетической разметкой для разработки систем распознавания и синтеза речи русского языка.
Методы исследований.
Для решения поставленных задач в работе используются методы теории информации, теории множеств, методы математического анализа, методы цифровой обработки сигналов, теории распознавания образов, теории вероятностей, экспертного и статистического анализа. Компьютерная реализация алгоритмов и систем производилась на основе объектно-ориентированного подхода.
Научная новизна.
Наиболее существенные результаты и научная новизна диссертационной работы состоят:
в разработке концепции построения и реализации открытой инструментальной системы анализа и исследования речевых сигналов, которая обеспечивает разработчика речевых технологий базовыми средствами анализа и визуализации речевых сигналов и не требует модификации при добавлении новых методов и алгоритмов;
в теоретическом обосновании и разработке формального описания модели унифицированного объекта речевых технологий, включающее речевой сигнал и все возможные формы его представления, которое систематизирует и упрощает процессы разработки алгоритмов и создания программ в области речевых технологий;
в разработке метода выделения основного тона говорящего с определением временных границ смыкания голосовых связок;
в разработке методологии и реализации комплекса программных средств для создания речевых баз данных с ожидаемыми характеристиками полноты и частотности фонологических характеристик.
Обоснованность и достоверность научных положений
Обоснованность и достоверность научных положений, выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, алгоритмов и согласованностью результатов, полученных при компьютерной реализации, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.
Практическая ценность работы.
Практическая значимость исследования состоит в разработке комплекса программных средств и создании крупных речевых баз данных русского языка с различными фонологическими характеристиками. Созданный инструментарий активно используется учеными, разрабатывающими методы и алгоритмы автоматического распознавания и синтеза речи, математиками-программистами для создания систем распознавания и синтеза речи, а так же специалистами в области фонетики русского языка для исследований речевых сигналов, изучения процесса речеобразования и проведения других фонетических исследований. Важную роль созданный инструментарий играет в процессах обучения студентов в курсах фонетики, лингвистики, искусственного интеллекта, речевых технологий.
Апробация работы.
Основные положения и результаты диссертационной работы представлялись на следующих международных конференциях:
IX Международная конференция «Речь и Компьютер» INTAS workshop SPECOM'2004 (Санкт-Петербург, 2004)
I Международная конференция «Системный анализ и информационные технологии» САИТ-2005, секция «Интеллектуальные информационные технологии», Переяславль-Залесский, 2005;
Результаты были представлены в докладе на заседании сессии «Распознавание речи» Отделения информационных технологий и вычислительных систем РАН в октябре 2003 г.
Исследования были поддержаны грантом РФФИ (проект № 02-07-90454 «Формирование речевой базы данных русского языка»).
Публикации автора исследования.
Положения диссертации отражены в 11 научных статьях, включая 9 статей в научных изданиях, рекомендованных ВАК РФ для публикации научных результатов диссертации: «Информационные технологии и вычислительные системы», «Труды Института системного анализа Российской академии наук», «Системы высокой доступности». Автор является одним из соавторов патента США и российского свидетельства о регистрации баз данных по теме диссертации.
Структура и объём работы.
Диссертация состоит из введения, трех глав, заключения и библиографического списка использованных источников из 77 наименований. Общий объём работы составляет 125 страниц, в том числе 10 рисунков и 6 таблиц.
Глава 3 посвящена описанию методов проектирования, сбора, разметки и верификации речевых баз данных. Дается математическое обоснование фонетической полноты базы данных. Здесь же дается описание созданных под руководством автора речевых баз данных русского языка.
Рассматриваемые в работе проблемы группируются вокруг двух основных задач, решение которых существенно продвигает уровень развития речевых компьютерных технологий. Это:
-
Разработка методов и инструментов работы с речевым сигналом, включающие методы визуализации речевого цифрового сигнала, различных его представлений, характеристик и результатов его анализа и обработки. Сюда также следует отнести методы пакетной обработки больших объемов речевых сигналов с возможностью экспертного контроля результатов.
-
Разработка методов и реализация инструментов автоматизации процессов проектирования речевых баз данных с заданными фонологическими характеристиками, сбора речевых фрагментов, их разметки, верификации и структуризации в виде речевой базы данных.
Основу решения первой группы задач составляет представленное к защите теоретическое обоснование и описание концептуального подхода к проектированию системы работы с речевыми сигналами.
Средство разработчика должно обладать свойством открытости и являться инструментом для целого коллектива разработчиков. С другой стороны, базовые возможности системы должны быть просты в применении, и та же система должна использоваться студентами и техническим персоналом, сопровождающим речевые базы данных, для простой визуализации, обработки речевых сигналов и разметки на фонетически и акустически значимые сегменты.
Главная идея при проектировании состояла в создании открытой системы, которая не требует своей модификации при пополнении ее новыми свойствами. В исследованиях подобного рода всегда существует набор базовых операций, являющихся первичными для большинства других. Эти базовые операции должны быть исходно встроены в оболочку. В то же время, в процессе работы накапливается большое количество процедур, часть из которых используется как основа для дальнейших работ. Поэтому важным качеством инструментальной системы становится возможность пополнения класса базовых операций без перестройки самой оболочки, путем перевода пользовательских программ в разряд базовых операций.
В рамках данной концепции еще одним защищаемым положением диссертационной работы является формальное описание модели унифицированного объекта исследований (речевого сигнала в цифровой форме).
Все операции применяются к унифицированному объекту, формальное описание которого включает сам объект и все возможные формы его визуального представления (временное представление, визуализация спектра и т.п.). Такое формальное описание управляет системой визуализации объекта и результатов его обработки. Оно же является шаблоном входного и выходного параметра при построении новых методов обработки объекта. При этом от исследователя требуется только содержательная работа - написание алгоритмов обработки, а все проблемы отображения результатов решаются интерфейсной оболочкой, для которой заполненный выходной шаблон является управляющим параметром.
Функционально объект состоит из двух частей: собственно данные и система их внешнего представления.
ОБЪЕКТ =
Под данными D будем понимать не только входной сигнал P(t), но и полученные в результате вычислений и преобразований иные формы его внутреннего представления (например, спектр), а также сопутствующую информацию (например, разметку сигнала на акустические или фонетические элементы). Все элементы данных построены на единой шкале измерения (дискретное время).
Таким образом, данные состоят из первичных и производных: , где P – входной сигнал, в общем случае представляющий из себя совокупность параллельных (синхронизированных по времени) линейных сигналов:
На практике чаще используется размерность i = 1, однако в ряде прикладных задач приходится сталкиваться с необходимостью исследовать стерео сигнал (i = 2). Нередко фонетисты дополнительно с речевым сигналом предпочитают исследовать синхронно записанные измерения, такие как давление воздуха в определенной точке, скорость воздушного потока и т.п.
- есть полученные в результате преобразований производные формы внутреннего представления сигнала. То есть определен набор функций F = (f1, f2, …, fn) такой, что . Открытость системы в том числе предполагает возможность замены пользователем любой из функций fj на его собственную.
- есть набор заданных извне дополнительных описаний сигнала. В частности, возможно наличие созданной экспертом или программной разметки сигнала на лингвистические, фонетические и/или акустические сегменты. Здесь же возможно экспертное или построенное автоматически описание формантных траекторий и т.п.
Система внешнего представления есть совокупность пар, состоящих из формы внешнего представления wj и функции ее заполнения данными sj.
Любая форма является элементом из множества возможных способов отображения. Типы форм представления:
двумерное представление - плоский график (используется, например, для прямой визуализации сигнала или функций от него);
трехмерное представление - изображение в оттенках серого (для визуализации спектрального представления);
вертикальная гистограмма (для отображения спектрального среза);
таблично-матричное (отображение наборов параметров);
акустическое представление (звуковая форма).
С каждой формой wj связан некий элемент данных dj(t) ( то есть p(t), или , или s(t) ) и функция , осуществляющая отображение этого подмножества данных объекта в соответствующую форму системы внешнего представления.
Рисунок 1. Формы представления речевого фрагмента: цифровая волна, спектральное представление и фонетическая разметка.
Для осуществления операций над объектами вводится понятие метода. Метод может либо трансформировать объект (данные и/или систему представления), либо порождать новый объект, формируя его данные и определяя набор форм для системы представления.
При построении формализованного описания объекта задаются пространственно-временные связи между разными формами представления и/или параллельными объектами. Для всех форм задается унифицированная шкала измерения. Связываемая форма должна иметь маркер-указатель положения внутри формы относительно основной шкалы. Связывание есть синхронизация положений маркеров, и может осуществляться между формами как внутри одного объекта, так и между формами различных объектов. Связи могут устанавливаться пользователем при работе с системой в интерактивном режиме, или задаваться методом при его выполнении.
В представленной модели помимо традиционного спектрального представления на интервалах (фреймах) размером в 2n отсчетов, заложена возможность проводить анализ сигнала на фреймах переменной длины, в частности, строить спектральную картину синхронно с основным тоном говорящего. Получаемая в этом случае гладкая спектрограмма позволяет среди прочего проводить более точный формантный анализ вокальных компонент речевого сигнала.
Для реализации такой возможности в системе определено преобразование , определяющее дискретную нелинейную интегральную временную шкалу . Этой шкале соответствует массив временных интервалов (фреймов), определяемых точкой начала и длиной:
В случае традиционного Фурье анализа на постоянных фреймах преобразование не зависит от сигнала P и являет собой линейную функцию определения временных отсчетов tm, кратных 2n, при этом lm=2n. В случае анализа синхронно с основным тоном диктора преобразование заложено в методе выделения основного тона.
Иерархическая структура подразумевает выделение четырех основных классов операций:
технический (ввод/вывод, редактирование и ручная сегментация сигнала);
базовый (традиционные методы обработки);
пользовательский (методы, создаваемые пользователем);
системный (сервисные утилиты низкого уровня).
Технический класс включает в себя тривиальные операции над любым объектом, такие как редактирование (вырезка, вставка, склейка, копирование или подавление фрагмента), несложные звуковые эффекты (инвертирование, эхо и т.п.), а также запись и воспроизведение звуковой волны. Данные возможности предоставляются практически любыми звуковыми редакторами. Помимо этого универсальный речевой редактор должен содержать технический подкласс ручной разметки (сегментации) сигнала на акустически и/или фонетически значимые фрагменты. Границы сегментов отображаются на экране вместе с сигналом. Эксперт может создавать границы сегментов и их описания или редактировать уже имеющиеся путем установки курсора на нужную позицию в речевом сигнале и/или в его спектральном представлении и нажатия клавиши ввода/коррекции границ. В специальном окне вводится текст описания сегмента. Система также позволяет эксперту размечать форманты в спектральный области путем “рисования” по точкам ломаной траектории на спектре. Точки отмечаются подведением курсора и нажатием правой кнопки мыши.
Объединение в одну оболочку функций автоматической обработки сигнала и его ручного редактирования или коррекции данных о сигнале позволяет наладить автоматизированную процедуру разметки пакета сигналов на акустические сегменты, в которой черновая разметка производится автоматически при загрузке сигнала, а работа эксперта состоит в верификации и коррекции данных, полученных автоматическим путем.
Базовый класс операций содержит основные операции, которые наиболее часто используются при работе с речевым сигналом, такие как функции кратковременной средней энергии и среднего количества пересечений нуля, подсчет спектра по сигналу с использованием различных окон (Хемминга, Нателла и др.), сигнала по спектру, передискретизация, цифровая фильтрация и т.п.
Базовую операцию можно исполнить путем задания системе команды через пользовательский интерфейс, например, для визуализации и последующих наблюдений. Другой способ - это формирование запроса к системе на выполнение цепочки базовых и/или пользовательских операций над заданным объектом в форме интерфейсной макрокоманды или в виде последовательности вызовов (API базового уровня) внутри пользовательской программы (до обращения к пользовательскому методу или после его завершения). Функция вычисления спектра является выделенной в базовом уровне и может инициироваться не только перечисленными выше способами, но и путем задания специального флага в структуре описания объекта при передаче его в пользовательский метод или на выходе из пользовательской программы при порождении методом нового объекта.
Любой метод может сигнализировать системе о том, какие действия необходимо предпринять после своего завершения (построение спектра в оттенках серого, перерисовка объекта и т.п. Метод может породить новый объект, который по умолчанию наследует свойства родителя и синхронизируется с ним. Пользователь избавляется от необходимости управлять объектом вне его метода. Все функции по созданию, уничтожению и визуализации объекта берет на себя система.
Также к базовым операциям относится пакетная обработка, когда заданный набор операций (в том числе и небазовых) применяется к последовательности объектов. Пакетная обработка может быть как автоматической, так и диалоговой, во время которой предоставляется возможность по управлению процессом. Также для упрощения работы имеется возможность создания макросов (последовательностей интерфейсных операций), и применения их к любому объекту.
Пользовательский класс операций принципиально ничем не отличается от базового, и в этом смысле может рассматриваться как его подкласс. Пользовательские операции реализуются конкретным пользователем в виде отдельных программ (динамических библиотек), а затем подключаются к системе как методы. Отдельные пользовательские операции могут быть переклассифицированы в базовые из-за их широкого распространения в работе коллектива разработчиков и исследователей над определенной тематикой или конкретным речевым проектом.
Системный класс операций – это набор интерфейсных процедур для программистов, реализующих операции из пользовательского класса, но нуждающихся в дополнительном сервисе во избежание лишней рутины. Например, если поставлена задача по построению гистограммы некоторой характеристики объекта, представляющего собой волну. Удобно в "волновом" окне для визуализации объекта отобразить саму волну, а под ней в "спектральном" окне отобразить построенную гистограмму, потребовав от системы обеспечения корректной синхронизации между ними. Системные операции позволяют легко решать подобные задачи путем заполнения соответствующих данных в структуре объекта.
В работе описывается разработанный автором метод выделения основного тона говорящего (ОТ) с определением во временной области речевого сигнала моментов смыкания голосовых связок при фонации (МСГС). Этот метод является примером пользовательского метода, переведенного в базовый класс. Метод основан на энергетических соображениях, при этом обладает достаточной устойчивостью и вычислительной простотой.
Пусть En = Xn * Xn мгновенная энергия сигнала, где Xn - n-тый отсчет речевого сигнала. Тогда энергия, усредненная на длине k отсчетов:
< En > = ( Xn * Xn + ... + Xn+k * Xn+k ) / k. (1)
Последнее выражение представляет собой одну из реализаций фильтра низких частот в применении к квадрату исходного сигнала. Для поиска точек МСГС применяется процедура поиска локальных минимумов в сигнале, полученном путем применения полосового фильтра в области частот основного тона к квадрату исходного сигнала. С целью ускорения работы алгоритма делается замена квадрата на модуль, что не изменяет положение локальных экстремумов. Фильтрация производится после предварительной оценки ОТ говорящего.
Алгоритм поиска точек в речевом сигнале, соответствующих моментам закрытия голосовых связок, в процессе их колебаний при произнесении вокализованных звуков состоит из трех последовательных частей:
-
Оценка частоты ОТ данного речевого сигнала.
-
Настройка фильтра на эту частоту и фильтрация модуля сигнала.
-
Применение процедуры поиска МСГС.
Для оценки частоты ОТ модуль сигнала пропускается через полосовой фильтр 50-150 гц. с крутизной спада характеристики 12 dB на октаву. К полученному сигналу применяется следующая процедура:
-
Находится максимальное значение всего отфильтрованного сигнала - Amax.
-
Выбираются точки, отвечающие двум условиям: а) это локальный минимум; б) модуль амплитуды этой точки отличается не более чем на 10 dB от Amax.
Если возникает последовательность из не менее пяти точек, причем два смежных расстояния отличаются не более чем на 15% (условие периодичности), вычисляется среднее значение для данной последовательности. В результате может получиться несколько средних значений, соответствующих различным вокальным участкам речевого сигнала. Выбираем минимальное из них - соответствующее максимальной частоте ОТ - Fh. После этого настраиваем полосовой фильтр на полосу пропускания 50 - Fh гц и фильтруем модуль исходного сигнала. Если ограничиться только выделением частоты ОТ, то удобно использовать фильтр с большой крутизной спада – например, рекурсивный эллиптический фильтр 5-го порядка с подавлением -30dB, после применения которого получается синусоподобный выходной сигнал с одним локальным минимумом на длине периода ОТ. Однако в случае выделения для МСГС такой подход не годится – проявляются значительные фазовые задержки в выходном сигнале относительно входного. Применение обратнонаправленной фильтрации лишь частично улучшает ситуацию. При использовании усредненной мгновенной энергии (1) в значительной степени снимаются проблемы фазовых задержек, т.к. это нерекурсивный низкочастотный фильтр с линейной фазовой характеристикой. Однако поскольку крутизна спада характеристики полосы пропускания таких фильтров гораздо ниже, выходной сигнал после фильтрации приобретает "изрезанный" характер, т. е. количество локальных минимумов (ЛМ) на один период ОТ в нем увеличивается.
Выбор того ЛМ, который имеет максимум абсолютной амплитуды, не всегда верен, т. к. на процессы в речевом тракте влияет не только последний импульс, пришедший от голосовых связок, но и некоторое количество предыдущих, зависящее от коэффициента затухания в речевом тракте. Для нахождения последовательности ЛМ применяется следующий алгоритм.
После нахождения очередного ЛМ, для поиска следующего выделяется область, исходя из допустимых физических соображений о положении следующего ЛМ. Следующая точка не может находиться ближе чем Dmin и дальше чем Dmax от предыдущей. Dmin и Dmax выбираются, исходя из максимально и минимально возможных значений частоты ОТ. Кроме того, если на текущем отрезке сигнала выполняется условие периодичности и амплитуда ЛМ достаточно велика:
порог = -15dB от максимального значения, (2)
то на выбор Dmin и Dmax накладываются более сильные ограничения, в силу того, что длина периода ОТ не может измениться в двух соседних периодах более чем на 20%. Имея границы поиска очередной точки, применяем следующий алгоритм для выбора конкретного ЛМ (который будет служить стартовым на следующем проходе).
Для всех ЛМ с отрицательным значением амплитуды в выбранных пределах вычисляется весовая функция:
-
Находим разность между текущей позицией (текущего ЛМ) и стартовой.
-
Находим отношение максимального из полученного значения и предполагаемого к минимальному. Предполагаемое значение равно среднему периоду ОТ на этом участке или текущему периоду ОТ при выполнении условий (2).
-
Если выполняется (2), возводим полученное отношение в квадрат, что дает лучший вес позициям, близким к предполагаемой.
-
Находим отношение последнего значения и абсолютной амплитуды текущего ЛМ.
-
Из всех имеющихся ЛМ выбирается тот, который имеет наименьший вес.
Повторяем все вышеописанные действия с новым стартовым значением, соответствующим последнему найденному ЛМ.
Пусть S1 и S2 - два участка сигнала, причем не предполагается, что их длины равны или близки. Пусть также F(S1,S2)-> [0,??) - отображение, ставящее в соответствие этим участкам неотрицательное вещественное число, причем равенство F(S1,S2) = 0 означает тождественность участков S1 и S2. Тогда будем говорить, что F является функцией похожести.
Теперь задачу выбора ЛМ можно сформулировать так:
пусть ci-1 и ci-2 - две последовательные точки МСГС, и пусть Si - множество тех локальных минимумов, которые удовлетворяют условиям периодичности для двух последовательных интервалов сигнала
[ci-2 , ci-1 ] и [ci-1 , ci ], ci О Si.
Тогда будем говорить, что c’i О Si является лучшим выбором ЛМ, если
Иными словами, должен быть выбран локальный минимум , который:
является допустимым в смысле периодичности;
обеспечивает минимум функции похожести для двух полученных периодов основного тона по множеству всех допустимых локальных максимумов.
Пусть {S1i}, i О [1, N1] - множество отсчетов на первом интервале, {S2i} , i О [1, N2 ] - на втором. Рассмотрим следующие функции похожести сегментов для достижения стабильности алгоритма:
1. Евклидово расстояние ). Главный недостаток этой функции проявляется, когда длины N1 и N2 существенно различаются, так как значительная часть большего интервала не влияет на результат сравнения.
2. Перед вычислением Евклидова расстояния больший по длине интервал сжимается до размеров меньшего, например, используя линейную передискретизацию. Однако, даже при существенном изменении длин последовательных периодов ОТ их спектральный состав меняется незначительно, а сжатие сигнала на значительную величину существенно искажает его спектральный состав.
3. Пусть N - максимально допустимая длина периода основного тона, X1(S11,S12, ... S1N1) - его Фурье-преобразование, причем если N1 < N, то участок сигнала дополняется необходимым количеством нулей перед выполнением преобразования. Таким способом мы всегда получаем одинаковое количество точек (N/2) для разных по длине интервалов сигнала. Теперь можно ввести функцию похожести как Евклидово расстояние между Фурье преобразованиями двух участков сигнала:
4. Вышеописанные ФП зависят не только от частотного состава сигнала, но и от его энергии. В ситуации нарастания или убывания сигнала меняется только энергия периодов ОТ, а их форма практически сохраняется. В этом случае более естественно использовать независящую от энергии ФП - нормированное скалярное произведение:
5. ФП, менее чувствительная к изменениям энергии, но учитывающая их так, чтобы избежать ошибок удвоения длины периодов:
Тестирование работы алгоритма дало хорошие результаты на большом количестве тестового материала. Принципиальным преимуществом алгоритма по сравнению с известными методами выделения ОТ речевого сигнала, такими как кепстральный и автокорреляционный, является скорость работы алгоритма и возможность выделения МСГС. Последнее крайне важно для спектрального анализа сигнала синхронно с основным тоном. Спектральная картина становится гладкой и отчетливо выраженной, что повышает надежность выделения формант. Периоды ОТ могут служить временной шкалой для большинства динамических параметров, описывающих сигнал.
Успех разработки каких-либо компонент речевых технологий в огромной степени зависит от наличия обширного тестового и тренировочного материала в виде наборов звуковых файлов с разметкой волны на акустически и фонетически значимые сегменты. Такие наборы называют речевыми базами данных.
В работе представлена методология создания речевых баз данных русского языка. На стадии проектирования речевой базы данных решаются следующие содержательные вопросы:
дикторы (количество, пол, возраст, диалект, образование,…)
текстовый / речевой материал (специализированный / репрезентативный, тип речевых образцов: слова, отдельные фразы, тексты, спонтанная речь)
тип статистической балансировки звуковых единиц языка в текстовом материале (естественный, равномерный, пр.)
распределение текстового материала по дикторам
распределение речевого материала на тренировочную, тестовую и другие части
типы лингвистических аннотаций
Этапы технологического процесса создания речевой базы данных:
подготовка фонетического обеспечения;
разработка стандартов для транскрипции речевого сигнала;
подготовка текстового материала;
разработка программного обеспечения для формирования речевого корпуса;
подбор дикторского состава;
запись речевых фрагментов, произнесенных дикторами;
проверка качества записи речевых фрагментов;
создание детальных инструкций по разметке и фонетической интерпретации (транскрипции) речевых сигналов;
фонетическая верификация речевых фрагментов и их разметка;
верификация разметки и аннотаций речевого материала, полученных автоматически;
обработка результатов верификации;
окончательное формирование речевого корпуса.
На стадии подготовки фонетического обеспечения выбирается транскрипционная система, с помощью которой по тексту предложений, входящих в состав текстового материала базы данных, будет производиться каноническая (ожидаемая при произнесении) транскрипция (фонетическая последовательность). Наличие программ автоматического построения ожидаемой фонетической транскрипции по тексту является крайне важным при построении крупномасштабных речевых баз данных. На стадии подготовки текстового материала такая программа позволяет заранее оценить ожидаемые фонетические характеристики создаваемого речевого корпуса.
Требования, предъявляемые к составу текстового материала, могут иметь различный характер и обычно определяются конкретными задачами, для решения которых формируется речевая база данных. Можно потребовать, чтобы лексический материал удовлетворял некоторым условиям фонетической полноты. Например, чтобы транскрипционное представление набора текстов содержало все допустимые в языке монофоны, и каждый монофон входил бы в этот набор не менее определенного количества раз. Можно рассматривать и другое требование фонетической полноты, характеризующее достаточную представительность аллофонов (то есть монофонов с учетом их правого и левого контекстов) в базе данных. Для удовлетворения такого требования при отборе текстового материала для базы данных предложено применить автоматическую итерационную процедуру фильтрации по фонетическому насыщению.
Для определения вероятности достижения полноты аллофонного состава при проектировании речевой базы данных предложена формула
pn (k) = Cnk pd ()k (1- pd ()) k , где
pd() – априорная вероятность реализации аллофона при прочтении текстового материала T среднестатистическим диктором,
n – количество дикторов, каждый из которых прочитал полностью T,
k – требуемое количество реализаций аллофона в базе данных.
Априорная вероятность реализации аллофона pd() может быть получена из фонетических знаний о процессах речеобразования путем сложения весовых функций правил транскрибирования, которые могут приводить к порождению заданного аллофона. Если задана требуемая вероятность наличия в базе данных не менее k реализаций аллофона , то для ее достижения можно подобрать необходимое количество дикторов согласно этой формуле.
Пусть текстовый материал T подобран так, что в нем при каноническом произнесении среднестатистическим диктором аллофон присутствует k раз с вероятностью p’(). Тогда оценку необходимого количества дикторов n можно получить из формулы
p = n p’() (1- p’()) n
Процесс формирования речевых баз данных представляет собой последовательность определенных технологических этапов, большинство из которых невозможно выполнить без соответствующей автоматизированной поддержки. В работе дается описание комплекса программных средств, который реализует такую автоматизацию и состоит из следующих программ:
автоматизация отбора текстового материала с учетом фонетического насыщения и аллофонной фильтрации,
потоковая запись дикторов с автоматическим контролем качества записи,
автоматизированное рабочее место эксперта для верификации и разметки речевых фрагментов,
набор технических программ для подсчета статистики вхождений монофонов, трифонов и аллофонов, выдачи протоколов по результатам верификации, корректировки информационных полей и т.п.
Одним из наиболее весомых практических результатов, полученных при использовании описанных выше методов, методологий и инструментальных средств, явилось создание под руководством автора двух речевых баз данных русского языка ISABASE и RuSpeech.
ISABASE аналогична известной американской речевой базе данных TIMIT по типу аннотаций, мощности и фонетическому насыщению. В составе базы 2 набора прочитанных текстов - фонетически сбалансированный и фонетически репрезентативный. Вместе с каждым речевым фрагментом хранится текст, фонетическая транскрипция, ручная разметка сигнала на слова и фонемы, транскрипционная система состоит из 110 монофонов.
Речевой корпус RuSpeech занимает более 15 гигабайт и содержит более 50 часов фонетически аннотированной непрерывной речи и обеспечивает полное монофоное покрытие для каждого диктора и полное аллофонное покрытие для корпуса в целом (не менее 3-х реализаций каждого аллофона) со статистически естественным языковым распределением частотности аллофонов. Вместе с каждым речевым фрагментом хранится текст, каноническая транскрипция и фактическая фонетическая последовательность, выверенная экспертами, транскрипционная система состоит из 114 монофонов.
Таблица 1. Характеристики русского речевого корпуса ISABASE.
речевых фрагмента;
3713 слов;
Таблица 2. Дикторское и текстовое наполнение корпуса Ruspeech.