Содержание к диссертации
Введение
1 Алгоритмы синтеза устного речевого сигнала 18
1.1 .Классификация алгоритмов синтеза речевого сигнала 18
1.1.1. Синтез на основе естественной речи 18
1.1.2. Синтез на основе искусственной речи (методы кодирования речевого сигнала) 23
1.1.2.1. Кодирование формы сигнала 23
1.1.2.2. Описание состояния речевого тракта 24
1.1.2.3. Описание спектра сигнала 26
1.1.3. Методы синтеза речевого сигнала 32
1.1.3.1. КЛП-синтез 32
1.1.3.2. Использование Марковских моделей 35
1.1.3.3. Использование нейросетей 37
1.1.3.4. Использование артикуляционной модели 39
1.2.Современные системы синтеза устной речи 40
1.3. Методы оценки синтезированного речевого сигнала 43
Выводы к главе 1 45
2 Методы оценки качества синтезируемой речи по группе критериев 46
2.1. Определение качества как совокупности критериев 46
2.2. Определение исчисляемых критериев оценки качества 47
2.3. Вычисление слабометризируемых критериев качества работы систем синтеза 52
2.4. Методы ранжирования синтезаторов по полученным критериям 54
Выводы к главе 2 60
3 Построение экспертной системы оценки качества синтезируемого речевого сигнала по совокупности выделенных критериев 61
3.1. Структура экспертной системы анализа речевого сигнала, синтезированного по произвольному тексту 61
3.2. Набор баз данных 63
3.3. Набор правил определения числа тестовых элементов для ошибок различного типа 69
3.4. Правила вычисления критериев оценки качества работы систем синтеза речевого сигнала 74
3.5. Правила определения класса качества синтезированной речи 77
Выводы к главе 3 78
4 Определение качества синтезированного речевого сигнала 79
4.1. Постановка эксперимента 79
4.2. Распределение по типам ошибок, указанных экспертами по прослушиванию 81
4.3. Статистическая обработка полученных результатов 83
4.4. Обнаружение отличий в качестве синтезированного сигнала 88
4.5. Определение класса качества синтезированной речи 92
4.6. Обоснование использования 50-бальной шкалы для измерения слабометризируемых величин 93
Выводы к главе 4 96
Заключение 97
Библиографический список 101
Приложение
- Синтез на основе искусственной речи (методы кодирования речевого сигнала)
- Методы оценки синтезированного речевого сигнала
- Методы ранжирования синтезаторов по полученным критериям
- Набор правил определения числа тестовых элементов для ошибок различного типа
Введение к работе
Вопросы синтеза и распознавания речи человека компьютером становятся все более актуальными. Так как почти каждый говорит и понимает речь, развитие естественно-языковых систем позволит человеку без специальных навыков общаться с компьютером в любое время и в любом месте без дополнительного обучения, используя такие устройства, как мобильный телефон, получать доступ к информации или к управлению устройствами. Людям с ограниченными возможностями, например, с ослабленным зрением или потерявшим его, речевые технологии позволят пользоваться компьютером и интернетом без каких-либо ограничений.
Синтез речевого сигнала - одна из составляющих речевых технологий, куда так же входят вопросы распознавания речи, семантики, перевода. В настоящее время вопросом синтеза речи занимается большое число исследовательских групп, каждая из которых создает свое описание речевого сигнала, и в конечном итоге - программный продукт. На данный момент из программных пакетов, поддерживающих русский язык, наиболее широко распространены Microsoft Speech SDK, Lernout&Hauspie и разработка "Digalo" фирмы Elan Informatique.
Несмотря на большое число разработок, проблема синтеза речи до сих пор считается не решенной, так как качество синтеза только в отдельных случаях можно считать удовлетворительным и хорошим - синтезаторы говорят либо невнятно, либо с большим количеством ошибок, несмотря на все большую алгоритмизацию синтеза речи. Главным препятствием улучшения качества является невероятная сложность разрешения языковой неоднозначности при автоматическом анализе текста, который используется в синтезе устной речи для расстановки пауз; определения главноударного слова в предложении; задания интонации вопроса, восклицания; для правильной расстановки ударения в словах.
Перед синтезаторами могут стоять задачи, например, озвучивания произвольного текста (например, чтение электронной почты или какой-либо литературы), произнесение ограниченного набора фраз (справочная система
5 о состоянии счета в сотовой компании), система оповещения состояния некоего агрегата и прочие.
Все это определяет актуальность исследований в области оценки качества синтезированного речевого сигнала.
Целью настоящей работы является анализ существующих способов синтеза речи, способов оценки синтезированного сигнала, разработка методики оценки качества речи, синтезированной любым из известных способов, и последующая программная реализация оценки качества. Алгоритмы должны обеспечивать как сравнительную оценку нескольких синтезаторов, так и оценку отдельно взятой системы синтеза.
Основные задачи исследования:
систематизация алгоритмов синтеза речевого сигнала,
анализ методов оценки качества синтезированного речевого сигнала,
методика анализа качества речи, синтезируемой по произвольному тексту,
разработка классов качества синтезируемого речевого сигнала,
оценка качества синтеза, осуществленного любым способом.
При реализации оценки качества синтезированного сигнала необходимо учесть субъективность сведений, получаемых от экспертов по прослушиванию, и корректно обработав информацию, представить ее наиболее объективно.
Основные научные результаты:
предложены критерии оценки качества синтезируемой речи;
разработана модель качества синтезированного речевого сигнала;
разработана методика оценки качества речевого сигнала, синтезированного по произвольному тексту;
разработаны классы качества синтезированной речи.
Использование методики позволяет получить как сравнительную оценку работы нескольких синтезаторов, так и оценку отдельно взятой системы синтеза, а так же определить класс качества синтезированной речи.
Методы исследования:
Полноту и обоснованность выводов диссертации обеспечивает использование методов: вероятностного подхода, эвристических правил и статисти-
ческого анализа Краскела - Уоллиса и Манна - Уитни. Оценка работоспособности и эффективности разработанных алгоритмов осуществлялась путем численных экспериментов с использованием реальных данных. При разработке специального ПО использованы принципы структурного программирования, программирования БД, создания экспертных систем и организации множественного доступа по локальной или глобальной сети.
Научная новизна. В работе предложена оригинальная оценка качества синтезированной устной речи, позволяющая комплексно рассмотреть совокупность предложенных критериев оценки и вклад в качество каждого из них. Разработаны классы качества синтезированного сигнала.
Практическая ценность и реализация результатов работы
Практически значимыми являются созданные методы определения качества синтезированного речевого сигнала. Алгоритмы автоматизированной интерпретации данных реализованы в виде экспертной системы, которая гибко настраивается на широкий круг проблем - от оценки возможности применения того или иного синтезатора русской речи к синтезу текстов узкой направленности, до выявления разработчиком слабых мест его системы синтеза.
Публикации. По результатам диссертационной работы опубликовано 2 доклада на Международных конференциях (из них 1 электронная публикация [2]) [5], 2 депонированные статьи [3, 6] и 2 статьи в местной печати [1,4].
Личный вклад. Все основные теоретические и практические результаты получены непосредственно автором. В частности, предложен оригинальный метод оценки качества синтезированной речи. Метод основан на анализе совокупности критериев качества, значения которых вычисляются на основе метризируемых и слабометризируемых параметров. Разработана ЭС, позволяющая оценить качество работы систем синтеза устной речи. Разработаны классы качества, характеризующие работу синтезаторов.
Апробация работы. Основные положения и результаты докладывались на Международной конференции Диалог'2003 "Компьютерная лингвистика и интеллектуальные технологии", г. Москва (2003); X Юбилейной Международной научно-практической конференции студентов, аспирантов и мо-
7 лодых ученых, посвященной 400-летию г. Томска, г. Томск (2004); Межвузовских научных конференциях студентов, аспирантов и молодых ученых "Информатика и информационные технологии", г. Красноярск (2002, 2003).
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, приложений и содержит 107 страниц основного текста, 29 рисунков и 27 таблиц. Список литературы включает 99 наименований.
Содержание работы
Во введении дано обоснование актуальности темы диссертации и сформулированы цели и задачи исследований, приводится краткое содержание работы по главам.
В первой главе произведена классификация алгоритмов и методов синтеза речи, с объяснением принципов их работы. Дан обзор методов оценки качества синтезируемого сигнала. Показано, что эти алгоритмы не дают полного представления о качестве работы синтезаторов.
Классификация методов синтеза речи составлена по нескольким признакам: по характеру синтезируемой речи, по принципу построения синтезируемых сообщений, по методу синтеза и по способу реализации.
По характеру синтезируемой речи выделяют синтезаторы, использующие предварительно закодированную естественную речь или искусственные речеподобные звуки, сформированные электронным устройством. В первом случае речевой сигнал делится на фразы, слова, слоги, фонемы, дифоны и аллофоны. Для уменьшения объема занимаемой памяти используют широко известные из общей теории обработки сигналов способы сжатия сигнала: описание формы речевой волны, спектральное описание и описание состояния речевого тракта. Для сжатия сигнала по описанию формы речевой волны используют: логарифмическую импульсно-кодовую модуляцию (ИКМ), клиппирование, аппроксимацию формы полуволны, адаптивную дельта-модуляцию и всевозможные комбинированные способы. Самое сильное сжатие дает описание спектра сигнала (при помощи разложения Фурье или вейвлет-преобразования) и описание состояния речевого тракта (уравне-
8 ниє Вебстера). Одно из самых эффективных описаний - формантное - лежит на стыке решения уравнения Вебстера и спектрального описания. Необходимо отметить, что речевой сигнал, синтезированный по одному из вышеперечисленных методов, так же можно считать искусственным.
Среди методов синтеза речевого сигнала можно выделить использование Марковских моделей, нейросетей, применение эвристических правил, артикуляционной модели и кодирования с линейным предсказанием (КЛП-синтез). По принципу построения сообщений выделяют компилятивные и целостные синтезаторы, а по принципу реализации - программные и программно-аппаратные.
Под качеством синтезируемой речи обычно понимается разборчивость речи и натуральность ее звучания. Для определения разборчивости в России используют ГОСТ Р 50840-95 "Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости" и ГОСТ 16600-72 "Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений". Стандарты регламентируют получение оценки качества передачи речи, основанной на методах измерения зателей разборчивости (относительное количество правильно принятых элементов, в процентах). ГОСТ предусматривает тесты для фонем, слогов, слов и фраз, произносимых диктором и передаваемых по линиям связи. Исследуемым объектом в данном случае является блок "линия связи", и предполагается, что искажения возникают только в указанном блоке. Однако, при синтезе речевого сигнала по предоставленному тексту искажения могут быть не только в канале связи (аппаратные средства реализации сформированного речевого сигнала), но и в блоке, отвечающем за формирование речевого сигнала. Синтезатор при переводе текстовой информации в речь должен сам расставить ударения, паузы, раскрыть сокращения - это часть случаев, в которых возможны ошибки. Данные вопросы ГОСТом не предусмотрены, поэтому оценку синтезаторов, проведенную по данному стандарту, нельзя считать полной. Отсутствие единого методики оценки качества работы систем синтеза речевого сигнала не позволяет компаниям-производителям деклари-
ровать качество работы своей продукции, а потребителям - получать информацию о характеристиках продукта до момента его покупки.
Во второй главе изложен новый принцип проведения оценки качества.
Предлагается рассматривать качество как интегральную оценку на основе
набора параметров как исчисляемых величин (число допущенных ошибок),
так и слабометризируемых параметров (интонационная окраска) (рисунок 1).
Качество
Метризируемые параметры
Слабометризируемые параметры
Число ошибок
Типы ошибок
НІ. , у)
Влияние ошибки на понимание смысла
W=(w,, w2, ..., wv),
где 1 = (1 V) - число
типов ошибок
Число ошибок і-го типа
(X,,...,XJ
Интонационная окраска, паузы во фразах
Число тестовых элементов
* +
х v х г ..., х v
Темп речи
Тембр
Отношение числа
ошибок к числу
тестовых элементов
Р = (Р,,.:.Ру)
Эмоции
Рисунок 1 - Параметры оценки качества синтезированной устной речи Предложены методы измерения признаков и методы шкалирования слабометризируемых величин. Выделены следующие критерии качества: число допущенных ошибок X, суммарный вес допущенных ошибок S, уровень качества UK и мера ошибочности К. В случае проведения сравнительного анализа численные значения критериев используются для ранжирования синтезаторов по методу Краскела - Уоллиса или Манна - Уитни в зависимости от числа исследуемых систем синтеза (рисунок 2). Рассмотрим исчисляемые параметры качества, которыми являются число допущенных ошибок
10 и уровень качества (рисунок 1). Для определения уровня качества, которое по определению есть мера, выраженная через количественную величину,
Качество
Метризируемые критерии
Слабометризируемые критерии
Суммарный вес ошибок
где 1-(1, .... V) - число типов ошибок
Уровень качества UK=f(Xjl x'j,
где х* - число тестовых
элементов для ошибки І-ГО
типа
Мера ошибочности
где i=(], .. , V) - число типов ошибок
Рисунок 2 - Критерии оценки качества синтезированной речи например, процент дефектных изделий, необходимо провести испытания синтезаторов, в результате которых будет подсчитано число допущенных ошибок. Для этого формируются тестовые таблицы из фраз, содержащих общеупотребительные слова и проблемные элементы: омонимы, аббревиатуры и сокращения. Подготовленные тесты озвучиваются синтезаторами речи и предлагаются вниманию экспертам по прослушиванию, которые помечают ошибки, допущенные системами при синтезе. Измерения производятся в абсолютной шкале, что позволяет производить операции, сохраняющее адекватность экспертных оценок. Так как разные ошибки по-разному влияют на понимание получаемой информации, эксперты по прослушиванию указывают типы обнаруженных ими ошибок (например, "неверное ударение", "неверное чтение сокращений"). Пусть результат тестирования у'-м экспертом 0=1, ., п) одного синтезатора на одном тексте описывается как Xj=(xiJt х2р ..., xvj), где Ху - число ошибок /-го типа (i=l, .., v). Таким образом, если работа каждого из синтезаторов с одним текстом описывается п экспертами по про-
слушиванию, то среднее число ошибок /-го типа х и суммарное среднее число ошибок X соответственно
nj=l i=l
Число обнаруженных ошибок х = (x,,x-,,...,xv) является первым и самым
простым для вычисления критерием оценки работы синтезатора.
Рассмотрим еще один исчисляемый параметр оценки синтезируемой
*
речи. Пусть X, - количество тестовых слов для ошибки /-го типа. Поэтому учтем отношение
Pij=xJ<, (3)
где x(j - число ошибок /-го типа, указанноеу'-м экспертом по прослушиванию, jc, - число тестовых элементов для ошибок /-го типа.
Если синтезатор ошибается при чтении практически всех тестовых элементов, то система синтеза работает не корректно. Введение такой характеристики особенно ценно тем, что она может использоваться не только при сравнительной характеристике работы двух и более синтезаторов. Следовательно, еще одним параметром оценки является Pj=(pij, P2j, -, pvj), где v - число типов ошибок.
Для определения второго критерия оценки - уровня качества UK, выраженного через долю дефектных изделий (тестовых элементов, прочитанных с ошибкой), необходимо знать общее число допущенных ошибок и общее число тестовых элементов:
I*i (4)
UK = 1 - ^-
i=l
Чем меньше ошибок допускает синтезатор, тем больше значение UK и выше уровень качества.
Теперь рассмотрим слабометризируемые критерии качества. Очевидно, что ошибки разных типов по-разному влияют на восприятие информации на слух. Поэтому сопоставим каждому типу ошибок свой вес
12 по 5-балльной шкале с шагом 0,1. Максимальный вес присваивается ошибке, максимально мешающей пониманию текста. Информацию о весах типов ошибок, полученную оту'-го эксперта по прослушиванию, можно представить как Wj=(wl], w2j, ..., wVf), где w^ - вес і-го типа ошибки, v - число типов ошибок. Тогда средний вес ошибки /-го типа
wi = -2>у
nj=l
где і - тип ошибки; j - номер эксперта по прослушиванию; п - число экспертов по прослушиванию.
Таким образом, веса ошибок характеризуются w = (w,,w2....,wv)- Теперь учтем вклад каждой ошибки в общее восприятие текста - суммарный вес ошибок S,, допущенных системой при синтезе речи, указанныху'-м экспертом по прослушиванию
1=1 где і - тип ошибки, v - число типов ошибок, хи - число ошибок і-го типа,
w- - средний вес ошибки і-го типа.
Тогда среднее значение суммарного веса ошибок S есть
s = ISj (7)
nj=,
Вычисленное значение S будет являться третьим критерием оценки качества работы системы синтеза. В сравнении со средним числом допущенных ошибок X, величина S более точно характеризует синтезируемый речевой сигнал, однако недостаточно полно отражает корректность преобразования текста в речь. Учитывая, что число допущенных ошибок есть случайная дискретная величина, и что ошибки разного типа по-разному ухудшают восприятие синтезированного сигнала, определим среднюю величину веса ошибки:
(8)
Mj(W) = PiWi ^ )
і=і Чем меньше значение m-(W)> тем корректнее работа синтезатора.
13 Важную информацию о корректности работы синтезатора можно получить, взяв величину К, равную отношению среднего веса ошибки к максимальному значению среднего веса ошибки. Такое отношение назовем мерой ошибочности
Mmax(W)
v ПО)
Mmax(W) = Zwi' ^ ;
i=I
где v - число типов ошибок.
Значение меры ошибочности К, который является четвертым критерием, можно использовать как для сравнительной оценки двух и более синтезаторов, так и для того, чтобы отнести систему синтеза к тому или иному классу качества, которые разрабатываются на основе достаточного числа экспериментов.
Для проведения сравнительной оценки нескольких синтезаторов применяются методы ранжирования. Учитывая небольшой объем выборок (получение результатов тестирования является трудоемким процессом) и неизвестность распределения, более мощными будут непараметрические методы исследования. Для определения различий между группами выборок, рекомендуется использовать дисперсионный анализ, в нашем случае - ранговый дисперсионный анализ Н Краскела - Уоллиса и U Манна - Уитни, который является аналогом Н, но работает для меньшего число исследуемых объектов. Каждый из методов имеет свои ограничения, подробно рассмотренные в специальной литературе и во второй главе диссертации.
Суть анализа сводится к следующему: для каждой из выборок делается однотипная маркировка, затем значения из всех выборок ранжируются так, как если бы это была одна большая выборка. После этого, благодаря маркировке, составляются первоначальные наборы, и подсчитываются суммы полученных ими рангов. Если различия между выборками случайны, суммы рангов не будут различаться сколько-нибудь существенно, так как и высокие
14 и низкие ранги равномерно распределятся между выборками. Иначе критерии Н или U позволят установить эти различия, которые будут указывать на различие качества синтеза рассматриваемых синтезаторов и могут быть использованы для составления классов качества синтезированного сигнала.
Так как каждому из синтезаторов соответствует несколько критериев качества (X, UK, S, К), следовательно, ранжирование необходимо провести по каждой из этих величин. В случае расхождения результатов ранжирования по X и S, следует проанализировать ситуацию и сделать вывод о правомерности присвоения веса каждому из типов ошибок. Если результаты ранжирования по S и К будут схожи, то оценки качества синтеза объективны.
Применяя методы ранжирования к результатам достаточного числа эк-периментов, разработаны классы качества синтезированного сигнала. Таким образом, во второй главе поставлена и решена задача адекватной оценки качества синтезируемого сигнала.
В третьей главе рассмотрена структура экспертной системы (ЭС), позволяющей оценить работу синтезаторов по выделенным выше критериям. Так как получение результатов тестирования, как правило, отнимает значительное количество времени, предложена реализация, предоставляющая возможность множественного доступа по локальной, либо глобальной сети, с обеспечением разграничения доступа. Контроль над работой экспертов по прослушиванию и ЭС осуществляет супервизор - человек, заинтересованный в оценке синтезаторов. Он формирует задания экспертам и просматривает полученные результаты.
Все данные об экспертах по прослушиванию - их имена, пароли, названия тестовых файлов и рассматриваемых ими синтезаторов, содержатся е базе данных об экспертах по прослушиванию (БДЭ). БДЗ содержит информацию о заданиях, полученных экспертами. В ней указано, какие тестовые файлы и на каком синтезаторе прослушивают эксперты. Данные о типах ошибок содержатся в одноименной базе данных (БДТО). В случае обнаружения экспертом по прослушиванию ошибок нового типа, заполняется промежуточная база данных (БДНТО), структура которой аналогична БДТО.
15 При этом эксперт по прослушиванию дает свое название и описание выявленного типа ошибок. Это делается для того, чтобы избежать случая, когда один и тот же тип ошибки разными экспертами был назван по-разному, следовательно, обработан отдельно. Случай записи результатов эксперимента в такой форме может привести ЭС к ошибочному выводу. Значения весов типов ошибок, указанные экспертом после окончания прослушивания тестового файла, заполняют соответствующую базу данных БДВО. По окончании работы всех экспертов по прослушиванию, супервизор просматривает обнаруженные типы ошибок и их описание в БДНТО и принимает решение о том, объединить обнаруженные ошибки с уже имеющимися или обнаруженными типами, или нет. При слиянии нескольких типов ошибок веса объединяемых типов вычисляются как среднее арифметическое указанных значений, а число ошибок суммируется.
В ЭС существует набор правил, которые в частности касаются определения числа тестовых элементов для ошибок различных типов, например, неверного ударения, неверного прочтения сокращений, неверного чтения орфографических фикций. Все правила подсчета числа тестовых элементов подробно рассмотрены в главе 3. В экспертной системе использована продукционная модель знаний.
БЗ ЭС содержит правила вычисления критериев качества и методы ранжирования систем синтеза по полученным результатам, в зависимости от числа рассматриваемых систем. Алгоритмы работы МЛВ полностью согласуются с рассуждениями, приведенными к главе 2.
В четвертой главе указаны результаты численного эксперимента. Указаны условия проведения эксперимента. Подробно проанализированы типы ошибок, по которым были распределены ошибки, отмеченные экспертами по прослушиванию в ходе работы трех систем синтеза, протестированных на двух типах текстов - литературном и техническом. После определения числа тестовых элементов для каждого типа ошибок, вычислены уровни качества для каждого из синтезаторов. С учетом присвоенных весов, вычис-
лен суммарный вес ошибок и значения мер ошибочности. Полученные результаты представлены в таблицах В.1 и В.2.
Таблица В.1 - Результаты тестирования на литературном тексте
Таблица В.2 - Результаты тестирования на техническом тексте
При помощи методов Краскела - Уоллиса и Манна - Уитни показано, что анализируемые синтезаторы имеют различные классы качества синтеза (таблицы 4.20 и 4.21). Проанализированы экспериментальные данные и результаты вычислений. Полученные данные подтверждают обоснованность разработанного метода. На их основе разработаны классы качества синтезированного сигнала.
В заключении суммированы основные результаты работы и сделаны выводы.
В ходе выполнения диссертационной работы получены следующие основные научные и практические результаты:
1. Выполнена классификация методов синтеза речевого сигнала, позволившая оптимизировать методику оценки качества синтезированного сигнала.
Предложена система критериев оценки качества синтезируемой речи. Выделенные критерии позволяют оценить влияние параметров на качество работы синтезаторов.
Разработана модель качества синтезированного речевого сигнала, основанная на критериях оценках качества. Модель позволяет рассматривать вклад различных критериев в качество синтеза.
Разработана методика оценки качества речевого сигнала, синтезированного по произвольному тексту; предусмотрены методы шкалирования и получения численных значений различных параметров и критериев. Предложенная методика позволяет работать с экспертными оценками, проводить сравнительную оценку работу нескольких синтезаторов и присваивать классы качества синтезированного речевого сигнала.
Разработаны классы качества синтезированной речи, позволяющие определить качество работы системы синтеза и пригодность синтезатора к использованию в предлагаемом круге задач.
Согласно предложенной методике, построена ЭС, предоставляющая возможность сбора данных от экспертов по прослушиванию по локальной или глобальной сети, позволяющая автоматизировать интерпретацию полученных данных, выдающая заключение о классе качества синтезированной речи и результат сравнительной оценки (при рассмотрении нескольких систем синтеза).
Проведена оценка качества работы нескольких синтезаторов, по полученным результатам выбрана система синтеза, наилучшим образом озвучивающая техническую литературу. Синтезатор внедрен на учебный сервер по предмету "Системы искусственного интеллекта", предоставляет информацию по имеющимся данным.
Синтез на основе искусственной речи (методы кодирования речевого сигнала)
Для того чтобы системы синтеза речи были более мобильными, имели меньшие требования к системе, их объемы уменьшают за счет более компактного описания речевого сигнала. Для этого используют кодирование формы речевой волны, описание спектра звукового сигнала или состояния речевого тракта.
Форму сигнала можно кодировать с помощью импульсно-кодовой модуляции (ИКМ), разнообразных модификаций разностной ИКМ, а также за счет представления формы волны некоторой упрощенной функцией (например, прямоугольником, трапецией, полусинусоидой, колоколом и т. п.). Рисунок 1.4 - Квантование сигнала: а) взятие отсчетов, б) восстановление сигнала в виде ступенчатой функции, в) линейная аппроксимация
Способ представления аналоговых (непрерывных) сигналов с помощью последовательности отсчетов, взятых через равные интервалы времени At, называют импульсно-кодовой модуляцией. Для ее характерна специфическая погрешность ступенчатой аппроксимации (рисунок 1.4, а, б).
Если закодировать сигнал с помощью его приращений от отсчета к отсчету, то получится более компактное описание, которое называют разност ной ИКМ. Разновидностью такого кодирования является случай, когда приращения квантуют только двумя уровнями (убыванием и увеличением на фиксированную величину). Такое кодирование называют дельта-модуляцией.
Адаптивная дельта-модуляция отличается тем, что период квантования согласуют с характером изменения сигнала: при медленных изменениях сигнала квантование производится реже. Это снижает шумы квантования и позволяет сжать описание сигнала. При восстановлении сигнала по такому описанию используют операцию интегрирования последовательных приращений (рисунок 1.4, в). Погрешность такой линейной аппроксимации меньше, чем ступенчатой.
Одно из направлений кодирования формы сигнала для целей синтеза основано на представлении полуволны речевых колебаний некоторой упрощенной формой, например прямоугольником, трапецией, колоколооб-разной кривой и т. п.
Прямоугольная аппроксимация известна давно под названием клип-пирование сигнала (предельное усиление с ограничением). Такая речь не очень разборчива, имеет специфическое звучание.
Более качественной речь получается в том случае, если при кодировании измеряют амплитуду и длительность полуволны. При синтезе она может быть восстановлена с достаточным подобием в виде, например, колокола.
Еще более значительное сжатие информации, отображающей форму сигнала, достигается при учете некоторых существенных особенностей речевого сигнала и его восприятия - таких, как нечувствительность к фазовым соотношениям, большое число примерно одинаковых повторяющихся колебаний, возможность исключения компонент с малыми амплитудами. Подробнее вопросы кодирования формы сигнала можно найти в [ 1, 10]
Одним из подходов кодирования речевого сигнала является описание состояния речевого тракта, то есть создание математического аппарата, который бы описывал процессы речеобразования. Созданием таких математиче ских моделей занималось большое число исследовательских групп Европы [11], Америки [12, 13], Японии, России [14, 15] и стран бывшего СССР [16].
На основе теории физической акустики и электромеханических аналогий были установлены многие важные свойства акустических процессов в речевом тракте и была создана акустическая теория речеобразования, которая учитывает податливость стенок речевого тракта, переменные граничные условия со стороны как губ, так и голосовых складок, изменения во времени площади поперечного сечения речевого тракта, взаимодействие голосового источника с речевым трактом и т. д.
Имеются уравнения, описывающие различные характеристики речевого тракта. Так, например, уравнение (1.1.3) - уравнение Вебстера, или уравнение рупора, уравнение (1.1.4) - уравнение речевого тракта относительно звукового давления, уравнение (1.1.5) - уравнение речевого тракта относительно колебательной скорости.
Методы оценки синтезированного речевого сигнала
На сегодняшний день спектр синтезаторов достаточно широк (см.п. 1.2), однако должен быть единый механизм, позволяющий определять качество их работы. Под качеством синтезируемой речи в данном исследовании понимается разборчивость речи и натуральность ее звучания. Такой подход является общепризнанным [10, 67,68, 69].
Для определения разборчивости речи в России используют ГОСТ Р 50840-95 "Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости" [70] и ГОСТ 16600-72 "Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений" [71]. Стандарты регламентируют получение комплексной оценки качества передачи речи, основанной на методах измерения показателей разборчивости и качества речи, а также узнаваемости голоса диктора. Разборчивостью речи считается относительное количество (в процентах) правильно принятых элементов (слогов, слов, фраз).
Натуральность звучания более сложна для определения, это, скорее субъективная оценка.
Государственный стандарт [70] - более поздняя разработка из [71] и [70], поэтому примем его к более детальному рассмотрению. ГОСТ предусматривает тесты для фонем, слогов, слов и фраз, произносимых диктором и передаваемых по линиям связи (рисунок 1.12). Исследуемым объектом в данном случае является блок "линия связи". То есть считается, что искажения возникают только в указанном блоке. Так как оценка качества производится на основе числа допущенных ошибок при передаче информации, это будет являться основной единицей рассмотрения.
По [70] можно провести анализ качества работы синтезатора, если принять допущения, изображенные на рисунке 1.13 В данном случае мы считаем, что искажения могут быть не только в канале связи (аппаратные средства реализации сформированного речевого сигнала), но и в блоке, отвечаю щем за формирование речевого сигнала. На рисунке 1.12 этим блоком является "диктор".Подобное разделение достаточно условно, так как при разных схемах синтеза и равных аппаратных базах основная масса ошибок формируется именно блоком "диктор" на рисунке 1.13. Фактически, при таком подходе блок "линия связи" из рассмотрения исключается, анализируется только блок "диктор" на вход которого подается тестовая таблица, а с выхода снимается речевой сигнал. При таких допущениях оценку синтезаторов, проведенную по ГОСТу [70], нельзя считать полной, так как при этом не учитывается, что синтезатор при переводе текстовой информации в речевой сигнал должен сам расставить ударения, паузы, раскрыть сокращения, то есть именно те случаи, в которых возможны ошибки. Необходимо проводить дополнительные исследования, которые позволили бы составить более точное представление о качестве работы рассматриваемой системы синтеза.
Анализ современных систем синтеза устной речи показал, что при создании синтезаторов устной речи используют как естественную, предварительно записанную речь, так и искусственные речеподобные звуки, полученные при кодировании речевого сигнала, описании состояния речевого тракта или спектра сигнала. Речевую волну кодируют ИКМ и ее модификациями, описывают упрощенными формами полуволны. Работу речевого тракта моделируют различными формами уравнения Вебстера. Спектр сигнала описывают при помощи БПФ, Вейвлет-преобразования и формантного описания. Используя компактное описание речевой волны и основываясь на такие методы синтеза речевого сигнала как КЛП-синтез, СММ и нейросети, строятся большинство современных систем синтеза речи. Некоторые системы используют артикуляционную модель.
Несмотря на широкий спектр методов синтеза, должен существовать единый метод оценки качества полученного сигнала. В России для этих целей используют ГОСТы [70, 71], предназначенные для оценки количества слов, переданных без искажений по линиям связи. Показано, что такой подход не соответствует в полной мере вопросу оценки синтезированного сигнала, так как при этом упускаются важные моменты прочтения омонимов, аббревиатур, сокращений и так далее. Так же не учитывается, что ошибки разного рода по-разному влияют на восприятие информации.
Методы ранжирования синтезаторов по полученным критериям
Анализ статистических данных можно провести по параметрическим или непараметрическим методам исследования. Параметрические методы статистики оказываются более мощными, чем непараметрические, при выполнении следующих условий: значения признака должны быть измерены по интервальной шкале; распределение признака является нормальным; в дисперсионном анализе должно соблюдаться требование равенства дисперсий в ячейках комплекса [86, 87, 88]. Проверка распределения на нормальность требует значительных вычислений, результат которых заранее не известен. Непараметрические критерии лишены всех этих ограничений и не требуют таких длительных и сложных расчетов. По сравнению с параметрическими критериями они ограничены лишь в одном - с их помощью невозможно оценить взаимодействие двух или более условий или факторов, влияющих на изменение признака. Учитывая трудоемкость получения статистических данных в нашем случае, можно предопределить, что объемы выборок будут небольшими (4-6 значений в каждой выборке), и определение нормальности распределения будет затруднительным или невозможным. Так как требуется оценить только один фактор (число слов проблемного прочтения), влияющий на изменение признака (число ошибок), то применение непараметрических методов статистики полностью обосновано.
Для решения классической задачи определения наилучшего товара (в нашем случае - наилучшей системы синтеза речи среди исследуемых) используется метод ранжирования. Для этого применяется порядковая шкала; ячейки (или классы), по которым будут распределены синтезаторы, упорядочены, расположены по возрастанию. После распределения синтезаторов по классам, можно сказать, что один исследуемый объект лучше или хуже другого. Недостаток использования порядковой шкалы в том, что истинное расстояние между ячейками не известно [89], следовательно, не возможно оценить, насколько велика разница в качестве работы синтезаторов. Ранговые методы хорошо приспособлены для работы с малыми выборками, распределения которых мы не знаем. Так как выборки по числу допущенных ошибок X представлены для независимых групп (различных систем синтеза русской речи), и предполагается, что этих систем больше двух, то для определения различий между группами выборок, рекомендуется использовать дисперсионный анализ, в нашем случае - ранговый дисперсионный анализ Н Краскела - Уоллиса [90, 92, 93, 94, 95]. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году [91]. Основной целью такого анализа является исследование значимости различия между средними значениями. В нашем случае мы сможем определить, есть ли качественная разница в синтезе речевого сигнала разными системами.
Критерий Краскела - Уоллиса (Н) предназначен для оценки различий одновременно между тремя и более выборками по уровню какого-либо признака. Он позволяет установить, что уровень признака изменяется при переходе от группы к группе, но не указывает на направление этих изменений, что вполне отвечает поставленной задаче. Критерий Н иногда рассматривается как непараметрический аналог метода дисперсионного однофакторного анализа для несвязных выборок [91]. Иногда его называют критерием "суммы рангов" [95]. Обоснование метода описано в специальной литературе [90-95].
Суть метода сводится к следующему: для каждой из выборок делается однотипная маркировка, затем значения из всех выборок ранжируются так, как если бы это была одна большая выборка. После этого все индивидуальные значения благодаря маркировке возвращаются в свои первоначальные наборы, и подсчитываются суммы полученных ими рангов отдельно в каждой выборке. Правила ранжирования можно найти в [91, 96]. Если различия между выборками случайны, суммы рангов не будут различаться сколько-нибудь существенно, так как и высокие и низкие ранги равномерно распределятся между выборками. Но если в одной из выборок будут преобладать низкие значения рангов, в другой - высокие, а в третьей - средние, то критерий Краскела -Уоллиса Н позволит установить эти различия.
Следовательно, выдвигаются следующие гипотезы: Но: между выборками 1, 2 и 3 существуют лишь случайные различия по уровню исследуемого признака. Hi: между выборками 1, 2 и 3 существуют неслучайные различия по уровню исследуемого признака.
Иначе говоря, исследуемые синтезаторы не различаются по уровню качества синтезируемого сигнала или различаются, соответственно каждой из гипотез.
Предложенный метод имеет несколько ограничений: 1. При сопоставлении Зх выборок допускается, чтобы в одной из них число наблюдений равнялось 3, в двух других 2. При таких численных составах можно установить различия лишь на низшем уровне значимости (р 0,05). Для проведении диагностики на более высоком уровне значимости (р 0,01), необходимо, чтобы в каждой выборке было не менее 3 наблюдений, либо соотношение между числом наблюдений было 4:2:2. 2. Критические значения критерия Н указаны в [91, 96]. 3. При количестве выборок больше трех или количестве наблюдений более пяти, критические значения определяются по таблицам для критерия х2
Набор правил определения числа тестовых элементов для ошибок различного типа
Для определения значения следующих критериев оценки качества {UK, К), необходимо вычислить отношение числа отмеченных ошибок того или иного типа к числу тестовых элементов. Можно предопределить появление следующих ошибок: неверное ударение, неверное прочтение сокращений, неверное чтение орфографических фикций.
Расстановка ударений - одна из самых сложных задач при синтезе речи. Для решения этой проблемы недостаточно использовать словарь [98J, так как, во-первых, в русском языке существует много омонимов - слов, ударения в которых зависят от значения, в каком используется слово ("мука" и "мука"); во-вторых, достаточно часто встречаются слова, которые имеют разное ударение в зависимости от контекста ("ноги приросли" и "нет ноги").
Так как ударение может быть ошибочным для слов, в котором хотя бы два слога, для определения числа тестовых элементов в произвольном тексте для ошибок этого типа, необходимо подсчитать в тестовых файлах слова, в которых более одной гласной буквы.
Верное чтение сокращений особенно актуально для этой работы, так как практическое использование результатов исследования связано с озвучиванием по большей части именно технической литературы. Для оценки вероятности возникновения ошибки при чтении сокращений, в набор правил нахождения вероятных ошибок включен программный модуль, выделяющий во входном файле аббревиатуры, специальные символы, числительные, записанные цифрами, литературные сокращения, и подсчитывающий число найденных вхождений. Логику работы модуля поясняют диаграммы Вирта, представленные на рисунках 3.5-3.9.
Ошибки чтения орфографических фикций могут возникнуть при наличии в словах окончаний "-его", "-ого", гласных "ё", "е", а так же буквы "и" после шипящих, например, "цикл". Чтобы определить число тестовых элементов для ошибок этого типа в произвольном входном файле необходимо подсчитать число слов с подобными стечениями букв. На языке диаграмм Вирта этому соответствуют описания, представленные на рисунках 3.10 и 3.11. На их основе написан программный модуль, вошедший в набор правил определения числа тестовых элементов для ошибки этого типа.
После проведения первых тестов, экспертами по прослушиванию так же были отмечены следующие ошибки: побуквенное чтение слов, записанных через "/", неверное чтение аббревиатур из латинских букв (замена на буквы русского алфавита), нечеткое произношение и неверная расстановка пауз относительно знаков препинания. Для определения числа тестовых элементов для этих ошибок, разработаны правила, представленные ниже.
Для определения числа слов, записанных через "/", необходимо найти знак "/", окруженный с обеих сторон буквами (рисунок 3.10). Такой поиск осуществляется быстрее, чем анализ каждого слова на предмет наличия внутри него знака "/", так как заранее можно предвидеть, что слов во входном тексте несравнимо больше, чем "/".
Сокращения, записанные буквами латинского алфавита, находятся среди результатов работы правила поиска сокращений, так как аббревиатуры, составленные из латинских букв - это подмножество всех найденных аббревиатур. Поиск, организованный таким образом сокращает время вычислений.
По замечаниям экспертов по прослушиванию относительно невнятного произношения можно говорить о том, что оно связано: со стечением одинаковых букв подряд в одном или соседних словах ("аллее", "по-особенному"); с акцентом, который усиливается на сложных в произношении звуках -шипящих, например, "сожжение", "вытащил"; невнятное произношение появлялось при произнесении составных и многокоренных слов ("документ-разрешение", "трехголовых").
Сложности в произнесении вызывали не только согласные (шипящие, оглушенные звонкие и глухие, например, "потерявшую", "тринадцатилетия"), но и такие согласные как "ы", "э", а так же стечение гласных (как "ия") и согласных ("хг" в "трехголовых").