Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритмы интерпретации просодических признаков речи при обработке аудиосообщений Бессонов Максим Александрович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бессонов Максим Александрович. Алгоритмы интерпретации просодических признаков речи при обработке аудиосообщений: диссертация ... кандидата Технических наук: 05.13.15 / Бессонов Максим Александрович;[Место защиты: ФГБУН Институт проблем управления им.В. А.Трапезникова Российской академии наук], 2017

Содержание к диссертации

Введение

1. Обзор подходов и систем определения языка аудиосообщения 11

1.1. Классификация систем определения языка аудиосообщения 11

1.2. Подходы к определению языка аудиосообщения 14

1.2.1. Акустический подход 18

1.2.2. Фонотактический подход 19

1.2.3. Лексический подход 21

1.2.4. Просодический подход 22

1.3. Обзор научных публикаций по тематике исследования 27

1.3.1. Публикации за период до 2010 года 28

1.3.2. Публикации за период с 2011 по 2016 год 37

Выводы по главе 40

2. Исследование просодических отличий языков и способов их математической интерпретации 42

2.1. Анализ вокодерного преобразования речи 42

2.2. Особенности языков на просодическом уровне 45

2.2.1 Слово, его состав и место ударения в слове 45

2.2.2 Интонация 52

2.3 Обоснование использования широких фонетических категорий 59

2.4 Обоснование использования акустического подхода 61

Выводы по главе 67

3. Алгоритмы интерпретации просодических признаков речи 69

3.1 Алгоритм на основе широких фонетических категорий 70

3.2 Алгоритм на основе кросскорреляционной функции мелодии основного тона и последовательности кратковременных энергий 75

3.3 Методика использования алгоритмов интерпретации просодических признаков речи 77

3.4 Двухэтапный алгоритм определения языка аудиосообщения 80

Выводы по главе 81

4. Экспериментальная оценка алгоритмов интерпретации просодических признаков речи 83

4.1 Формирование речевой базы данных 83

4.2 Создание и настройка нейронной сети 84

4.3 Оценка алгоритма на основе широких фонетических категорий 94

4.4 Оценка алгоритма на основе кросскорреляционной функции мелодии основного тона и последовательности кратковременных энергий 99

Выводы по главе 104

Заключение 106

Основные научные и практические результаты 107

Список литературы 109

Приложение 1.Графики изменения частоты основного тона во времени для различных языков 128

Приложение 2. Код программы алгоритмов интерпретации просодических признаков 138

Приложение 3. Акты внедрения результатов диссертационного исследования. 158

Введение к работе

Актуальность темы. В настоящее время вычислительные комплексы присутствют во всех областях человеческой деятельности, осуществляя обработку большого количества разнородной информации. Одним из видов такой информации является речевая информация – аудиосообщения, передаваемые по компьютерным сетям, то есть IP-телефония, либо по сетям телефонной и радиосвязи. Вычислительные комплексы и машины решают следующие задачи по обработке речи – идентификацию и верификацию диктора, определение языка аудиосообщения, синтез речи, перевод речи в текст, конвертацию форматов представления речевых данных. При этом эти задачи могут решаться либо в режиме диалога человека и ЭВМ, либо в датацентрах при обработке информации. Такие вычислительные комплексы должны иметь соответствующие алгоритмы обработки, ввода-вывода речевой информации.

Поскольку речь передается по каналам связи, она подвергается различным преобразованиям. Если канал связи имеет узкую полосу пропускания, то применяются низкоскоростные кодеки речи и вокодеры. При такой обработке речи из нее удаляется значительная часть информации, которая может быть получена из чистой речи. Результатом работы вокодеров являются наборы параметров, в которых всегда присутствуют такие акустические признаки речевого сигнала, как частота основного тона и усиление для текущего квазистационарного сегмента, а также параметр тон-шум. Ввиду значительного редуцирования информации системы автоматического определения языка, основанные на различных алгоритмах вычисления акустических параметров, перестают определять язык с заданной достоверностью. В связи с этим задача определения языка аудиосообщения на основе параметров, вычисляемых низкоскоростными вокодерами, без восстановления исходной формы речевого сигнала является актуальной.

Решение задачи определения языка аудиосообщения лежит в области лингвистики и математики. Существуют несколько подходов к определению языка аудиосообщения, которые реализуются в системах автоматического определения языка.

Практическая реализация того или иного подхода основана на использовании какого-либо математического аппарата (решающего правила) и словаря признаков, в качестве которых могут быть использованы акустические параметры, выделяемые на коротких сегментах, последовательности фонем, просодические признаки речи человека, комбинации больших групп фонем, которые могут составлять слова.

Достоинством просодических признаков является то, что их акустической основой являются частота основного тона и кратковременная энергия речевого сигнала, и как раз эти параметры передаются в системах связи, работающих на вокодерах. В связи с этим отсутствует необходимость восстанавливать исходную форму речевого сигнала. В то же время восстановление исходной формы речевого сигнала необходимо для работы систем на основе акустического, фонотактического и лексического подходов.

В случае, если достоверность определения языка по речи, подвергнутой вокодерной обработке, будет недостаточна для решения поставленной задачи, либо в канале связи будет присутствовать речь, обработанная гибридным вокодером, то возможна реализация смешанной системы, в которой на первом этапе аудиосообщение будет отнесено к какой-либо группе языков, а на втором этапе определение языка будет реализовываться не на всей базе данных, а только внутри этой группы. Для реализации первого этапа предлагается использовать просодические признаки речи человека, описываемые широкими фонетическими категориями. Реализация второго этапа предполагает восстановление исходной формы речевого сигнала и применение акустического, фонотактического либо лексического подходов.

Цель работы заключается в разработке новых эффективных алгоритмов интерпретации просодических признаков речи и методики их использования при решении задач обработки аудиосообщений.

Задачи исследования. Для достижения поставленной цели в работе поставлены и решены следующие задачи:

  1. анализ существующих подходов определения языка аудиосообщения;

  2. анализ различий между языками на просодическом уровне;

  3. анализ алгоритмов работы низкоскоростных вокодеров;

  4. разработка способов описания просодических признаков речи диктора;

  5. разработка алгоритмов интерпретации просодических признаков речи;

  6. выбор математического аппарата для классификации языков по просодическим признакам;

  7. разработка методики использования алгоритмов интерпретации просодических признаков;

  8. экспериментальная оценка алгоритмов.

Основные положения, выносимые на защиту состоят в следующем:

1. алгоритм интерпретации просодических признаков на основе широких фонетических категорий;

  1. алгоритм интерпретации просодических признаков на основе кросскорреляционной функции мелодии основного тона и последовательности кратковременных энергий;

  2. методика использования алгоритмов интерпретации просодических признаков речи в задачах определения языка аудиосообщения, в том числе без восстановления исходной формы речевого сигнала;

  3. результаты оценки эффективности разработанных алгоритмов.

Научная новизна - заключается в разработке новых научно-обоснованных алгоритмов, комплексно описывающих просодические признаки речи диктора на основе широких фонетических категорий и на основе кросскорреляционной функции мелодии основного тона и последовательности кратковременных энергий и методики применения разработанных алгоритмов в задачах определения языка аудиосообщения, в том числе без восстановления исходной формы речевого сигнала в условиях передачи речи по системам вокодерной связи.

Практическая значимость. Заключается в широком спектре сфер практического применения результатов:

разработанные алгоритмы пригодны для использования в коммерческих организациях и государственных компаниях, занимающихся вопросами специальной обработки данных, созданием вычислительных комплексов анализа речи, в том числе, передаваемой по сетям связи низкого качества, а также речевой аналитикой, а также любых других вычислительных систем, предназначенных для предоставления услуг персональным пользователям средствами голосового управления;

исследование подходов определения языка аудиосообщения, отличий языков на просодическом уровне делает работу ценной для учебного процесса в ВУЗах, имеющих потоки подготовки по специальностям, связанным с построением или эксплуатацией вычислительных комплексов, обработкой информации, речевой аналитикой средствами вычислительных машин.

Кроме того, практическая значимость подтверждается актами внедрения результатов диссертационного исследования.

Объект исследования - системы определения языка аудиосообщения, реализуемыев вычислительных комплексах.

Предмет исследования - алгоритмы интерпретации просодических признаков речи и методики их применения в задачах специальной обработки аудиосообщений в вычислительных комплексах.

Научная задача - на основе анализа существующих подходов к определению языка аудиосообщения и просодических различий языков разработать эффективные алгоритмы интерпретации просодических признаков речи для их применения при специальной обработке аудиосообщений, подвергнутых вокодерному преобразованию, в том числе без восстановления исходной формы речевого сигнала.

Методы исследования. В работе использовались методы распознавания образов, методы статистического анализа, методы корреляционного анализа, математическое моделирование, компьютерное моделирование, методы обработки экспериментальных данных, методы цифровой обработки сигналов.

Личный вклад - автором лично получены теоретические и практические результаты работы, в случае заимствования материалов приведены их источники, автором лично проведены теоретические исследования, разработаны и реализованы алгоритмы, проведены компьютерные эксперименты, подготовлены публикации по диссертационной работе.

Достоверность. Результаты диссертационной работы обоснованы с использованием методов прикладной лингвистики, применением искуственных нейронных сетей, известных теоретических сведений о строе языков, проверены экспериментально, а также подтверждаются актами внедрения в коммерческие структуры и учебный процесс.

Реализация результатов работы. Результаты диссертационной работы использованы при выполнении ЗАО «ПАСИТ» ряда работ, а именно: ОКР шифр «Кристалл-13», Государственный контракт от 01 марта 2013 года № ЕГО-051-13; ОКР шифр «Клиент», Государственный контракт от 08 апреля 2013 года № КГО-001-13; ОКР шифр «Штурман-П», Государственный контракт от 01 февраля 2014 года № 735/ЕГО/Р/2014.

Также полученные результаты диссертационной работы внедрены в учебный процесс -лабораторные и практические занятия по дисциплине «Цифровая обработка сигналов» кафедры «Управление и защита информации» в ФГБОУ ВО «Московский государственный университет путей сообщения императора Николая II» (МГУПС (МИИТ).

Апробация результатов работы. Результаты диссертационного исследования были апробированы на XI Международной научно-технической конференции «Физика и радиоэлектроника в медицине и

экологии» (ФРЭМЭ’2014) (1 - 3 июля 2014 года, ВлГУ, г. Владимир), на научно-практических конференциях в Академии ФСО России в 2011, 2013, 2017 годах, на семинарах в Институте проблем управления РАН (г. Москва).

Публикации. По материалам диссертации опубликовано 6 работ, 5 из которых в изданиях, входящих в Перечень ведущих рецензируемых научных журналов и изданий, формируемый Высшей аттестационной комиссией.

Структура и объем работы. Диссертация содержит введение, четыре главы, заключение, список литературы, 3 приложения.

Просодический подход

Просодический подход определения языка аудиосообщения основан на использовании просодической или супрасегментной информации речи человека (данные понятия эквивалентны). Данная информация получается из просодических звуковых средств языка, которые реализуются на протяжении слогов, слов и более крупных единиц речи. Данные средства совмещают смыслоразличительную и организующую функции [35, 59, 60].

Более широко просодические звуковые средства используются при построении высказываний. Выделяют несколько фонетических объединений -составляющих, на которых реализуются просодические звуковые средства. Звуковые сегменты - фонемы - объединяются в слоги, слоги - в ритмические группы (фонетические слова), фонетические слова объединяются в фонетические синтагмы [35, 60]. Фонетические синтагмы также могут объединяться в более крупные группы.

Фонетическое слово не всегда совпадает с грамматическим, часто наблюдается присоединение к грамматическому слову клитиков. В то же время могут наблюдаться клитические и неклитические формы служебных слов. Клитиками могут быть полнозначные слова.

Также особенностью является возможность двойного ударения (например «бледно-зеленый»).

На уровне фонетических слов просодическим средством является словесное ударение, на уровне фонетической синтагмы - ударение синтагмы, на уровне фразы - интонация, фразовое ударение. Интонация служит для скрепления фразы фонетически, указывает на коммуникативную цель. Фразовое ударение можно представить комбинацией ударений фонетических слов.

В тональных языках в пределах фонетического слова реализуются слоговые тоны, которые отвечают за слоговую просодию. «Под слоговой просодией понимают то, что каждый слог в слове обладает особым просодическим признаком или набором признаков, совокупность которых образует обязательную и самостоятельную характеристику слога, которая не может быть выведена ни из его звукового состава, ни из его положения в слове» [цит. по 35].

Прочими просодическими звуковыми средствами языка [35, 60] являются:

фонетические способы смыслового подчеркивания слов во фразе

ритм речи (временное распределение слогов, распределение ударений)

громкость речи

темп речи

фонетически выраженная эмоциональная окраска речи

артикуляционная база языка

На практике просодические звуковые средства имеют свою акустическую базу [35] - частотой основного тона речи, длительностью звуков по времени, интенсивностью звуков.

Выделяют три просодических типа языков [81] - с примерно постоянной длительностью слогов, с примерно постоянной длительностью интервалов между ударениями слогов, в выделением вместо слога так называемой моры.

Во многих случаях в языках одного просодического типа просодические вариации заменяются другими факторами, затрудняющими решение задачи идентификации. Поэтому возникает вопрос, как лучше отделять языкозависимые характеристики от дикторозависимых или других нерелевантных характеристик с точки зрения определения языка аудиосообщения.

Кроме различения языкозависимых и дикторозависимых характеристик, трудности реализации просодического подхода связаны с учетом характеристик диктора (тип голоса, эмоциональное состояние, скорость речи, общее здоровье), синтаксическим содержанием записи (вопрос, утверждение…)

Также различные исследователи создают свои параметры, по которым можно выявить структуру просодики речи. Некоторые из данных работ входят в обзор в параграфе 1.3.

Просодические характеристики обладают свойством устойчивости к изменению акустической обстановки, кратковременной вариативности (неодинаковость произношения ключевой фразы при каждом доступе в систему) и долговременной вариативности (анатомическими изменениями речевого тракта в течение жизни) параметров речеобразующего тракта диктора.

Общий темп зависит от длительности фразы и составляющих ее звуков и слогов. При контролируемом убыстрении темпа происходит сокращение средней длительности звуков и слогов фразы, при замедлении средняя длительность звуков и слогов фразы возрастает [35].

Громкость зависит от интенсивности. При изменении громкости меняются состояние голосовых связок и спектр голосовых колебаний, что влияет на ЧОТ и спектр звуков. При увеличении громкости увеличиваются средняя и максимальная интенсивность сигнала, ЧОТ меняется в более широком диапазоне, спектр гласных более отчетливый.

Регистр и диапазон изменения высоты голоса влияют на среднее значение ЧОТ, величину ее модуляции относительно среднего, измеренную либо на протяжении всего отрезка речи, либо на его ударных слогах.

Рассмотрим просодические различия между носителем языка и неносителем, между разными диалектами одного языка, между разными социальными группами и т.д.

Отличия языков на просодическом уровне будут рассмотрены в главе 2. В данном параграфе определим, чем отличается речь двух людей, говорящих в данный момент на одном языке, но из которых первый является носителем языка, а второй неносителем, либо люди принадлежат к разным диалектическим или социальным группам.

В процессе обучения языку у человека вырабатывается смыслоориентированная система звуковой транскрипции, которая затем используется в звуковой коммуникации, иначе ее называют звуковыми средствами языка. Минимальными смыслоразличительными единицами этой системы являются фонемы. Носитель языка в процессе коммуникации пользуется этой системой неосознанно, в процессе говорения строится фонетическая характеристика сообщения, которая является лингвистической программой произнесения. Символьное фонетическое представление переводится в двигательную программу произнесения – на язык движений речевых органов [35].

Каждый язык использует свою систему фонемных единиц, обеспечивающую построение и различение слов, а тоновые языки также используют движение тона на слоге. Значит, универсальные тенденции в разных языках реализуются по-разному, например точность артикуляции гласного и его подверженность различным коартикуляционным процессам в конкретном слове зависят от общего количества гласных фонем в данном языке, от количества гласных, которые различаются в данном фонетическом контексте, от того, есть ли в данном языке слова, которые различаются только гласными, и т. д. Это фонологические характеристики звуковой системы языка. Влияние также оказывают исторически сложившиеся произносительные навыки. Их отсутствие приводит к появлению иноязычного акцента у дикторов, для которых язык не является родным [35].

Отсюда можно сделать вывод, что при осуществлении коммуникации на одном и том же языке речь неносителя языка при недостаточной подготовке (наличии акцента) будет отличаться составом фонем, фонемы по своим характеристикам возможно будет отнести скорее к языку неносителя, чем носителя языка.

Речь индивидуума обладает только ему присущими отличительными чертами, поскольку в речевой системе не существует понятия абсолютной нормы (это характерно как на сегментном – фонетическом уровне, так и на уровне просодики) [50]. Индивидуальная форма образуется в процессе обучения речи под влиянием ряда факторов. Это могут быть региональные и диалектные особенности произношения отдельных звуков, дефекты речи, социальные варианты произношения звуков и интонирования. Набор этих особенностей формирует речевой «паспорт» диктора.

Интонация

Перейдем к рассмотрению интонации, рассматривая ее как изменение частоты основного тона на протяжении ритмической группы, синтагмы, предложения и фразы.

Достаточно полно интонация английского языка отражена в работе [33]. Отметим важную особенность - английский язык характеризуется более-менее равными промежутками произнесения ударных и неударных слогов (что в физическом смысле на спектрограмме аудиосообщения отражается пиками частоты основного тона и энергии большей и меньшей амплитуды), то есть отрезки времени между ударениями одинаковы. Для фраз утвердительных, побудительных фраз характерен нисходящий кинетический тон, начинающийся на высоком или среднем уровне ЧОТ на ударном слоге, заканчивается на нижнем уровне ЧОТ на заударных слогах при их наличии (рисунок 2.3).

Интонационный контур повествовательной фразы, состоящей из одной ритмической группы, может иметь следующий общий вид (рисунок 2.4)

Полное ударение падает на главное слово, ударный слог главного слова является ядерным слогом ритмической группы. Главное по смыслу слово, а следовательно ядерный слог может занимать любое место в ритмической группе.

Ядерный слог отличается тем, что на нем обязательно происходит изменение частоты основного тона.

Интонация побудительной фразы в общем случае имеет вид, представленный на рисунке 1, приложение 1.

Если фраза состоит из нескольких ритмических групп, то ее интонационный контур гораздо сложнее, но он может быть разделен на простые контуры с нисходящим кинетическим тоном.

Особенностью является то, что фраза членится на ритмические группы, которые занимают примерно равные промежутки времени.

Высокий восходящий тон – повышение голоса от среднего уровня до верхнего. Высокий восходящий тон передает смысл вопросительности. Если отсутствуют заядерные слоги, то повышение тона реализуется на ядерном слоге, если заядерные слоги присутствуют, то рост ЧОТ реализуется на них, а ядерный слог имеет тон середины диапазона голоса (рисунок 2, приложение 1).

Низкий восходящий тон – повышение частоты голоса от низкого уровня до среднего. Повышение может осуществляться либо на ядерном слоге, если он последний, либо на заядерных слогах при их наличии. Контур представляет собой высокую ровную или нисходящую шкалу в предъядерной части и окончание (рисунок 3, приложение 1).

Низкий восходящий тон характерен как для вопросительных предложений, так и утвердительных.

Также в английском языке имеется нисходяще-восходящий кинетический терминальный тон (рисунок 4, приложение 1).

Рассмотрим интонацию испанского языка. В ритмической группе или синтагме выделяются три участка: от начала до первого ударного слога, от первого ударного слога до последнего ударного слога, от последнего ударного слога до конца группы. В интонации повествовательного предложения из 1 рс на первом отрезке тон постепенно повышается, на участке 2 держится ровным, на участке 3 понижается. Интонация части 2 отличается от интонации в русском языке. В вопросительном предложении без вопросительного слова часть 1 имеет высокий ровный тон, на участке 2 тон постепенно понижается, на участке 3 тон резко повышается. В вопросе с вопросительным словом на участке 1 тон повышается, на участках 2 и 3 тон понижается.

Если повествовательное предложение состоит из двух и более мелодических групп, то все группы произносятся в конце с восходящим тоном, а последняя группа с нисходящим тоном (рисунок 5, приложение 1) [57].

Альтернативные вопросы без вопросительного слова состоят из двух ритмических групп, первая имеет повышение тона, вторая понижение тона (рисунок 6, приложение 1) [57]. Альтернативный вопрос с вопросительным словом имеет следующую траекторию основного тона (рисунок 7, приложение 1).

Интонация восклицательных предложений нисходящая (рисунок 8, приложение 1) [43]. Интонация перечислений имеет два типа кривых, представленные на рисунке 9, приложение 1 [43].

Интонация в китайском языке обусловлена смыслоразличительной функцией тона. Интонационными средствами служат регистровые возможности языка и особый способ произнесения тона последнего слога синтагмы или предложения. Лексическими средствами выражения интонации являются междометия.

Место ритмического ударения зависит от содержания предложения, длины предложения. РС отделяются паузами.

Для предложения немецкого языка характерны два типа мелодики – понижение тона на последнем ударном слоге, повышение тона на последнем ударном слоге. Повышение тона может наблюдаться в середине предложения, при этом за повышением следует пауза, на конце предложения тон понижается. Компоненты фразы могут иметь главное или второстепенное ударение, либо быть безударными. Существует также логическое ударение. Распределение этих ударений зависит от строения предложения, его типа и т.д.

Рассмотрим интонацию персидского языка по работе [64]. Персидский язык характеризуется двумя типами мелодики – мелодикой конечной и неконечной синтагм.

Паузы между словами практически отсутствуют, между синтагмами ощущаются четко.

Логическое ударение – повышение тона гласного ударного слога и увеличения Е. Это ударение приходится не только на знаменательные слова, но и на предлоги и союзы.

Для простого повествовательного предложения характерно понижение тона в последних слогах последнего слова синтагмы. Синтагмы начала и середины фразы имеют ровный тон с незначительным повышением на ударных слогах. На рисунке 10, приложение 1 приведен пример для фразы из трех синтагм.

Интонация вопросительной фразы характеризуется общим повышением тона к концу предложения, последний слог последнего слова более резкий по сравнению с синтагматическими ударениями других синтагм. Пример приведен на рисунке 11, приложение 1.

Если вопрос имеет вопросительное слово, то тон к концу предложения понижается, но не настолько сильно по сравнению с повествовательным предложением.

Вопросительные фразы с вопросительными частицами имеют характер движения тона, показанный на рисунке 12, приложение 1

Побудительные предложения имеют характер движения тона, показанный на рисунке 13, приложение 1.

Могут быть и некоторые другие варианты мелодических контуров.

Интонация в финском языке имеет характер понижения к концу синтагмы или фразы (рисунок 14, приложение 1) [61].

Рассмотрим интонацию французского языка по работе академика Щербы [64].

Во французском языке два основных контура мелодики:

- законченная интонация, имеющая падение тона в конце – для утвердительных предложений;

- незаконченная интонация с подъемом тона в конце – для вопросительных предложений. К какому-либо из двух этих типов относят более частые интонационные контуры [62].

В одночленно фразе каждая ритмическая группа или синтагма, входящая в фразу, имеет наиболее сильное ударение на последнем слоге. Если слогов более трех, то предыдущие слоги могут достигать высоты ударного.

Если фраза утвердительная, то наиболее сильное ударение оказывается на предпоследнем слоге последней ритмической группы, а последний слог резко падает по высоте. Это присутствует и в русском языке. Но если главное понятие высказывания стоит не в крайней ритмической группе, то наибольшее увеличение тона будет на понятии независимо от его положения во фразе. Если фраза вопросительная, то последний слог выше, чем в утвердительной фразе.

Если вопрос выражен грамматическими формами, то мелодика может приближаться к мелодике утвердительной фразы. Но если главное понятие находится не в конце вопроса, то повышение тона переносится на него.

Если объединяются несколько ритмических групп в синтагму, то ударение последней ритмической группы усиливается. В разговорной речи ударения предшествующих ритмических групп одной синтагмы исчезают и остается лишь ударение последней ритмической группы.

Пьер Деллатр выделяет 10 интонационных моделей [62]. Также можно привести кривые нескольких мелодических типов [62]. Здесь приводить их не будем.

Для японского языка интонационные контуры в литературе указываются для двух моделей предложений (рисунок 15, приложение 1) [37]. Модель 1 – простое предложение из подлежащего и именного сказуемого. В утвердительном варианте ударение падает на именное сказуемое. В вопросительном варианте тон повышается на именном сказуемом и на конце предложения. В отрицательном варианте ударение падает на именную часть, также в слове «аримасен» тон повышается, падая к концу слова. Модель 2 – существительное и прилагательное с утвердительной интонацией.

Алгоритм на основе широких фонетических категорий

В качестве широких фонетических категорий в работе [49] использованы 3 категории: вокализованные звуки, невокализованные звуки, пауза. Описание просодических признаков данной последовательностью имеет ряд недостатков, которые связаны с малой информативностью классификации сегментов только на 3 класса. При данном подходе невозможно выделить возрастание/убывание частоты основного тона (ЧОТ), главные и побочные максимумы ЧОТ на отрезках различной длительности, взаимозависимость изменения ЧОТ и кратковременной энергии сегментов сигнала. Это подтвердили эксперименты, которые показали, что использования 3 категорий недостаточно для надежного определения языка аудиосообщения.

Количество широких фонетических категорий предлагается расширить и для определения языка аудиосообщения использовать следующий алгоритм.

Пусть множество L = \L1,L2,...,LN\ есть множество языков, на котором осуществляется процедура определения языка аудиосообщения, где N - общее число языков. Пусть каждый язык представляется множеством аудиосообщений различных дикторов этого языка Ц ={/1,/2,...,/м}, где Mi - общее число аудиосообщений языка Li.

Аудиосообщение разбивается на квазистационарные сегменты я» длительностью К отсчетов, где і - і-й сегмент речевого сигнала, і=1,2…Р, Р -общее число сегментов в аудиосообщении, т = 1,...,к-1. На каждом сегменте і вычисляется признак в соответствии с природой сегмента - вокализованный, невокализованный или пауза

При работе алгоритма без восстановления исходной формы речевого сигнала параметры А, и Ек берутся из кадров вокодерной передачи. Соответственно формируются последовательности А = (А1,А2,...,АР) и Ек = (Ек„Ек2,...,Екр). Если сегмент классифицирован как пауза, то 4 = 0, если классифицирован как невокализованный, то = 1. На каждом вокализованном сегменте вычисляется частота основного тона F0;. = F(s;.(»0), i=1,2…P, где F - операция вычисления частоты основного тона, и формируется последовательность F0 = (F0l,F02,...,F0p). При работе алгоритма без восстановления исходной формы речевого сигнала параметр БО берется их кадров вокодерной передачи. Диапазон изменения ЧОТ аудиосообщения разбивается на 5 интервалов. Для вокализованных сегментов каждый сегмент обозначается цифрой в соответствии с тем, в какой интервал ЧОТ попадает значение ЧОТ на данном сегменте. F0 =UF(F0), i=1,2…P, где FOM.- уровень ЧОТ, UF - операция вычисления диапазона изменения ЧОТ и кодирования каждого сегмента цифровым обозначением, формируется последовательность F0u = (F0ul,F0u2,..F0up) - последовательность из значений ЧОТ на сегментах аудиосообщения. Далее вычисляются сегменты возрастания/убывания кратковременной энергии речевого сигнала Ей= UE(M), i=1,2…P, кодирующиеся Еиі=(+/-)\ в зависимости от того, возрастает или убывает энергия соответственно, где UE - операция вычисления возрастания/убывания кратковременной энергии речевого сигнала. Формируется последовательность Ёи = (Ещ,Еи2,...,Еир). Если данный сегмент относится к участку убыванию кратковременной энергии, цифровое значение ЧОТ умножается на (-1). Для определения побочных и главных ударений определяется главный и побочный максимумы ЧОТ на отрезке между двумя паузами. Если положение максимума ЧОТ и кратковременной энергии совпадают во времени и максимальны на отрезке, то этот сегмент принимается за главный максимум, если максимумы во времени не совпадают, то сегмент принимается за побочный максимум MAX, =(F0u,Eu), где 0 - операция определения главного и побочного максимумов ЧОТ и кратковременной энергии. Формируется последовательность МАХ = (МАХ1,МАХ2,...,МАХР)

Таким образом, окончательная последовательность ШФК аудиосообщения X = {x1,X2,...,Xp) состоит из элементов Xi

На рисунке 3.1 представлены 3 графика - частоты основного тона, кратковременной энергии сигнала, последовательности широких фонетических категорий х, а на рисунке 3.2 и 3.3 - блок-схема алгоритма кодирования сегментов речевого сигнала.

По последовательности широких фонетических категорий х вычисляется автокорреляционная функция где W - операция вычисления автокорреляционной функции. В случае работы алгоритмов без восстановления исходной формы речевого сигнала значения ЧОТ берутся из кадров вокодерной передачи. В случае работы алгоритма с восстановлением исходной формы речевого сигнала требуется выбор алгоритма оценки частоты основного тона.

Для определения ЧОТ существуют различные алгоритмы [31,17]. В данной диссертационной работе были проведены испытания готовых алгоритмов, реализуюших определение ЧОТ по АКФ – алгоритм SIFT, по КФСР – алгоритм AMDF, а также алгоритм оценки ЧОТ из алгоритма кодирования речи MELP [16, 31].

Процент отрезков речевого сигнала с показателями P(ОТ) - правильно определенным ОТ, Р(НВ/В) – принятия вокализованного отрезка за невокализованный, Р(В/НВ) – принятия невокализованного за вокализованный составил . Вектор значений кросскорреляционной функции последовательности широких фонетических категорий подается на вход нейронной сети, которая принимается решение по отнесению данного вектора к какой-либо группе языков.

Алгоритм вычисления признаков представлен на рисунке 3.4.

Создание и настройка нейронной сети

Искусственные нейронные сети представляют собой очень мощный аппарат, основными областями применения которого являются [28]:

классификация образов,

кластеризация/категоризация,

аппроксимация функций,

предсказание и прогноз,

оптимизация,

управление.

Задача распознавания образов в большинстве случаев решается статистическими методами, но в случае речевых данных на различных языках достаточно сложно построить статистическое распределение рассматриваемых параметров, и поэтому в данной работе для классификации отрезков речи применены искусственные нейронные сети.

Поскольку от значений нейронов выходного слоя зависит решение поставленной перед сетью задачи, выделяют несколько способов интерпретации ответов нейронной сети:

победитель забирает все - размерность выходного слоя соответствует числу классов задачи распознавания, для выбора победителя нейрон должен иметь максимальное значение

знаковая интерпретация

порядковая интерпретация

2-на-2 кодирование

другие способы интерпретации в зависимости от решаемой задачи.

Как известно, для задач типа классификации число нейронов во входном слое вычисляется исходя из вектора признаков, который подается на вход [36], а число нейронов выходного слоя зависит от того, какая задача решается и какое применяется правило интерпретации выходных значений [36]. Выбор класса и архитектуры НС является нетривиальной задачей, для решения которой точных методов не существует [36]. Для выбора числа нейронов выделяют два метода:

тем больше нейронов, тем надежнее работа сети,

чем больше число нейронов, тем хуже создаваемая нейронная сеть аппроксимирует функцию.

Эти два метода называются деструктивный и конструктивный. Исходя из этих двух методов, число нейронов и слоев есть минимально необходимое. Алгоритмы формирования НС по этим методам даны в [36].

Рассмотрим обучение НС [28]. Если Х - входной сигнал НС, Y - выходной сигнал НС, то НС реализует функцию G

Функция G определяется архитектурой НС, смещениями в НС и синаптическими весами. Если заданы входные-выходные пары данных (XbYi), (X2,Y2), … (XN,YN), при этом Yj=F (Xi), то обучение НС заключается в поиске функции F, совпадающей с F с точностью до ошибки Е.

В данной работе применяется «обучение с учителем». Поскольку для обучения сети используется лишь набор примеров, то поэтому и вся информация заключается в данном наборе примеров, а следовательно и от данного набора зависит качество обучения.

Переобучение НС заключается в том, что при наличии большого числа весов НС моделирует все более сложную функцию, при этом может иметь значения в тех точках, в которых он существовать не должен [28]. В связи с этим для исключения переобучения используется механизм перекрестной проверки, при котором часть данных в обучении не участвует, а используется для независимой проверки результата. В некоторых случаях, и не только при обучении НС, используются 3 множества - обучающее, подтверждающее и тестовое с примерным соотношением обучающих, подтверждающих и тестовых данных 60/20/20 % либо 70/20/10 %.

В связи с этим, как показывает практика [28] и отсутствие точных методов выбора архитектуры и весов сетей, для решения конкретной задачи необходимо проводить экспериментальное исследование различных сетей по типу и архитектуре и проводя настройку столько раз, сколько потребуется для достижения малой ошибки. Для реализации классификатора на базе нейронной сети был сделан выбор в пользу пакета MATLAB, который включает в себя функционал по нейронным сетям.

В диссертации экспериментальные исследования проводились со следующими сетями:

сеть Кохонена

каскадная НС

сеть Элмана

многослойный персептрон

Сеть Хопфилда

Вероятностная сеть

Сеть с радиальными базисными функциями RBF

НС встречного распространения - LVQ сети

Сеть Кохонена используется для выделения в обучающей выборке кластеров. Применяется при кластерном анализе, распознавании образов, классификации. Сеть Кохонена обучается «без учителя».

Сеть с радиальными базисными функциями - двуслойная сеть без обратных связей, содержащая скрытый слой радиально-симметричных скрытых нейронов. Сети RBF моделируют произвольную нелинейную функцию, промежуточный слой один, обучаются быстро. Недостаток сетей - плохие экстраполирующие свойства.

Вероятностная сеть - модификация RBF. Используются для решения задач классификации. Второй слой - конкурирующий. Преимущества - выходные значения имеют вероятностный смысл, сеть быстро обучается. Недостаток - такие сети громоздки и в связи с этим могут медленно работать.

Сеть Хопфилда применяется для воссоздания образов по неполной и искаженной информации.

Сети встречного распространения LVQ. Отличаются очень малым временем обучения, хорошими обобщающими свойствами, которые позволяют добиться хорошей работы сети при неполных и зашумленных входных векторах [28].

Применяются при распознавании образов, построении ассоциативной памяти, сжатии данных и статистическом анализе. Слой Кохонена обучается без учителя, слой Гроссберга с учителем. Недостатком LVQ сетей является их неспособность строить точные аппроксимации.

Алгоритмы, стандартные в MATLAB, использованные при обучении сетей [28]: квазиньютоновский алгоритм; алгоритм Левенберга-Марквардта с регуляризацией Байеса; метод сопряженных градиентов Флетчера-Ривса; метод сопряженных градиентов Полака-Ривьера; метод сопряженных градиентов Пауэлла-Беаля; базовый метод градиентного спуска; метод градиентного спуска с переменным шагом обучения; алгоритм Левенберга-Марквартда, метод масштабированных сопряженных градиентов; метод градиентного спуска с моментом; метод градиентного спуска с моментом и переменным шагом обучения; метод «One Step Secant»; метод случайных приращений; эластичный алгоритм обратного распространения ошибки.

На первом этапе для построения сокращенных групп из 10 языков эксперименты проводились с отдельной сетью для каждой пары языков, то есть (10) было построено = 45 нейронных сетей.

В результате проведения предварительных вычислительных экспериментов с целью выбора типа НС с указанными сетями для оценки двух указанных ранее алгоритмов, все НС показали неудовлетворительные результаты определения языка. Наилучшие показатели были получены при создании многослойного персептрона, поэтому было принято решение провести более точную настройку данного типа НС. Результаты для персептрона указаны в таблицах 2 и 3.