Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Малков Максим Александрович

Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса
<
Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Малков Максим Александрович. Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса : диссертация ... кандидата технических наук : 05.13.18 / Малков Максим Александрович; [Место защиты: Рос. гос. технол. ун-т им. К.Э. Циолковского (МАТИ)].- Москва, 2009.- 117 с.: ил. РГБ ОД, 61 09-5/2288

Содержание к диссертации

Введение

1. Обзор речевых технологий 13

1.1. Речевой сигнал и формы его представления 13

1.2. Основные речевые технологии 15

1.3. Идентификация голосового сообщения 17

1.4. Обзор математических методов, применяемых при идентификации голосового сообщения 18

1.4.1. Нейросети 18

1.4.2. Частотные цифровые фильтры 20

1.4.3. Фурье-анализ 20

1.4.4. Кепстральный анализ 22

1.4.5. Методы машинного обучения 23

1.4.6. Векторное квантование 24

1.4.7. Гауссовы смеси 25

1.4.8. Вейвлет-анализ 27

1.5. Обзор разработок в области идентификации голоса 27

1.6. Основные характеристики разрабатываемой модели 31

1.7. Выводы 32

2. Структурная схема модели идентификации голосового сообщения 33

2.1. Основные понятия модели идентификации голосового сообщения 33

2.2. Этапы разработки модели идентификации голосового сообщения 34

2.3. Исследование образования звуков русского языка 35

2.4. Построение структурной схемы модели идентификации голосового сообщения 39

2.5. Двоичная и троичная логика принятия решения 51

2.6. Выводы 53

3. Математические методы модели идентификации голосового сообщения ...54

3.1. Деление голосового сообщения на фонемы 54

3.2. Построение образа фонемы 61

3.3. Сравнение образов двух фонем 65

3.4. Матричный анализ сравнения голосовых сообщений 66

3.5. Выводы 70

4. Статистическая оценка качества работы модели идентификации голосового сообщения 71

4.1. Разработка базы данных голосовых сообщений 71

4.2. Метод статистической оценки качества работы модели идентификации голосового сообщения 72

4.3. Оценка качества работы модели в зависимости от варьируемых параметров 75

4.4. Оценка качества работы модели в зависимости от параметров фразы .78

4.5. Выводы 84

Заключение 85

Список литературы 87

Приложение

Введение к работе

Актуальность темы диссертации

В последние годы для идентификации личности человека всё более широкое применение получают биометрические технологии [1, 2, 4, 86]. Они используются в системах разграничения доступа, при проведении финансовых транзакций, при запросах конфиденциальной информации по телефону, при управлении различными устройствами, в криминалистике и т.д. Использование биометрических технологий в этих сферах обладает рядом существенных преимуществ перед традиционными средствами идентификации (например, использование пароля). В первую очередь к таким преимуществам относятся высокая надёжность идентификации и удобство использования для человека [86].

В качестве идентифицирующих параметров, в биометрических технологиях используются физиологические и поведенческие характеристики человека. К таким характеристикам относятся отпечатки пальцев, голос, радужная оболочка глаза, лицо человека, почерк и др.

В настоящее время наиболее распространёнными биометрическими характеристиками человека являются отпечатки пальцев и радужная оболочка глаза [86, 94]. В то же время голос используется не так широко, хотя он обладает рядом существенных преимуществ, например; простота снятия биометрического параметра (достаточно лишь стандартного микрофона), а также удобство использования.

На сегодняшний день в мире существует ряд компаний, занимающихся разработкой систем идентификации голоса [93, 95, 96, 97, 98]. Достигнуты определённые успехи в этой области (вероятность ошибки идентификации 1 - 3%). Однако существующие разработки обладают рядом недостатков.

Алгоритмы достаточно сложны и требуют больших вычислительных ресурсов, что ограничивает область их применения только высокопроизводительными ЭВМ (время идентификации 3-5 секунд при длительности фразы 3 секунды» на ЭВМ с частотой процессора 1,60 ГГц и объёмом оперативной памяти 896 МБ). .Кроме того, во всех системах отсутствует возможность настройки алгоритмов под различные условия применения (уровень шума, особенность голоса конкретного человека, порог ошибок и т.д.).

Также, ни один разработчик не предоставляет средства для тестирования разработанной им системы идентификации голоса, тогда как особенности условий применения могут значительно влиять на качество работы алгоритма.

Большинство алгоритмов не учитывают текстовое содержание произносимой фразы- (фонемную составляющую), выделяя лишь индивидуальные характеристики голоса, что значительно снижает надёжность идентификации.

С учётом сказанного актуальной является задача разработки новой модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса, свободной от представленных недостатков, а также комплекса программ, реализующего1 данную модель и позволяющего её тестировать.

Цель диссертационной работы

Целью диссертационной работы является разработка математической модели идентификации! голосового сообщения по фонемной-составляющей и индивидуальным характеристикам голоса; а также разработка комплекса программ, реализующего данную модель и позволяющего её тестировать. Исходя из поставленных целей, в работе решаются следующие задачи:

• анализ математических методов, которые можно применить к решению задачи идентификации голосового сообщения;

• разработка . математической модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;

• программная реализация разработанной модели идентификации голосового сообщения;

• разработка метода оценки качества идентификации;

• программная реализация метода оценки качества идентификации, голосового сообщения;

• оценка влияния значений варьируемых параметров разработанной модели на качество идентификации;

• оценка влияния различных произносимых фраз на качество

идентификации.

Предмет исследования

Предметом исследования в диссертационной работе являются голосовые сообщения, представленные в оцифрованной форме, математическая модель идентификации голосового сообщения и статистические показатели, характеризующие качество идентификации этой модели.

Методы исследования

Методы исследования заимствованы из следующих областей:

• цифровая обработка сигналов;

• колебания и волны;

• теория речеобразования;

• математический анализ;

• математическое моделирование;

• численные методы;

• теория вероятностей и математическая статистика;

• теория языков программирования;

• теория построения баз данных.

Научная новизна

Научную новизну диссертационной работы составляют результаты, полученные в ходе решения поставленных задач:

• модель идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;

• метод деления голосового сообщения на фонемы;

• метод обработки фонем для их сравнения;

• метод матричного анализа сравнения фонем голосовых сообщений;

• набор параметров модели (варьируемые параметры), изменяя значения которых, можно настраивать её под различные условия применения;

• метод оценки качества идентификации представленной модели. Практическая ценность работы

Практическую ценность работы составляют следующие результаты:

• разработан комплекс программ идентификации голосового сообщения на основе предложенной модели;

• реализован комплекс программ оценки качества идентификации на основе статистических методов;

• выработаны рекомендации по использованию определённых голосовых сообщений в идентификации для повышения качества работы предложенной модели.

Положения, выносимые на защиту

На защиту выносятся следующие положения:

• структурная схема модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;

• метод деления голосового сообщения на фонемы;

• метод обработки фонем для их сравнения;

• метод матричного анализа сравнения фонем голосовых сообщений;

• метод статистической оценки качества работы модели идентификации голосового сообщения;

• статистическая оценка качества работы представленной модели в зависимости от значений варьируемых параметров;

• статистическая оценка качества работы представленной модели в зависимости от различных фраз.

Апробация результатов исследований

Основные результаты, полученные в ходе выполнения диссертационной работы, докладывались на международных молодёжных научных конференциях ХХХП Гагаринские чтения (Москва, 2006 г.), ХХХШ Гагаринские чтения (Москва, 2007 г.), XXXIV Гагаринские чтения (Москва, 2008 г.), X Санкт-Петербургской международной конференции «Региональная информатика - 2006» (Санкт-Петербург, 2006 г.), XI Санкт-Петербургской международной» конференции «Региональная информатика — 2008» (Санкт-Петербург, 2008 г.), VIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2008 г.), Всероссийских научно-технических конференциях: «Новые материалы и технологии — 2006» (Москва, 2006 г.), «Новые материалы и технологии — 2008» (Москва, 2008 г.), а также докладывались и обсуждались на научных семинарах кафедры «Проектирование вычислительных комплексов» «МАТИ» - РГТУ имени К.Э. Циолковского.

Программный комплекс идентификации голосового сообщения, разработанный на основе предложенной модели, прошёл апробацию на кафедре «Проектирование вычислительных комплексов» «МАТИ» — РГТУ имени К.Э. Циолковского, а также в Политехническом музее в рамках Третьего Фестиваля науки в городе Москве (Москва, ноябрь 2008 г.).

Публикации

1. Балакирев Н.Е., Малков М.А. Метод идентификации голосового сообщения // Информационные технологии. 2008. № 12. С. 66-68.

2. Малков Мі А. Идентификационные признаки голоса // Научные труды XXXII Международной молодёжной научной конференции "Гагаринские чтения" в 8 т. Т. 6. М.: МАТИ, 2006; С. 163-164.

3. Балакирев Н.Е., Малков М.А. Выделение звуков из непрерывного речевого сигнала // Новые материалы и технологии (НМТ-2006). Материалы Всероссийской научно-технической конференции. В 3 т. Т. 2. М.: ИЦ МАТИ, 2006. С. 129-130.

4. Балакирев Н.Е., Малков М.А. Выделение звуков из непрерывного речевого сигнала // Материалы X Санкт-Петербургской международной конференции «Региональная информатика - 2006». СПб.: СПИИРАН, 2006.

5. Малков М.А. Выделение звуков из непрерывного речевого сигнала // Научные труды ХХХПІ Международной молодёжной научной конференции "Гагаринские чтения" в 8 т. Т. 6. М.: МАТИ, 2007. С. 239-240.

6. Балакирев Н.Е., Малков М.А. Распознавание речи на основе артикуляторной характеристики звуков // Сборник трудов VIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии» в 2 т. Т. 1. Воронеж: ВГУ, 2008. С. 56-59.

7. Малков М.А. Построение огибающей цифрового сигнала с помощью интерполяционного многочлена в форме Лагранжа // Научные труды XXXIV Международной молодёжной научной конференции "Гагаринские чтения". Т. 6. М.: МАТИ, 2008. С. 197-198.

8. Малков М.А. Матричный метод сравнения двух голосовых сообщений, предварительно разделённых на фонемы // Компьютеры в учебном, процессе. 2008. № 6. С. 49-54.

9. Малков М.А. Статистическая оценка качества работы метода идентификации голоса // Компьютеры в учебном процессе. 2008. № 9. С. 15-24.

10. Балакирев Н.Е., Малков М.А. Программный комплекс для идентификации голосового сообщения // Материалы XI Санкт-Петербургской международной конференции «Региональная информатика-2008». СПб.: СПИИРАН, 2008.

11. Балакирев Н.Е., Малков М:А. Расширение программного комплекса идентификации голосовых сообщений // Новые материалы и технологии (НМТ-2008). Материалы Всероссийской научно-технической конференции. В 3 т. Т. 2. М.: ИЦ МАТИ, 2008. С. 149-150:

Структура и объем работы

Работа состоит из введения, четырёх глав, заключения, списка литературы и четырёх приложений. Работа изложена на 94 страницах и включает 36 рисунков, 12 таблиц, список литературы из 98 наименований, а также приложения на 23 страницах. Общий объём работы - 117 страниц.

Краткое содержание работы

Во введении обосновывается актуальность темы диссертационной работы. Характеризуются область исследования. Обосновываются научная новизна и практическая значимость выполненного исследования. Формулируются цели исследования и основные положения, выносимые на защиту. В первой главе изучается процесс речеобразования и основные подходы к определению речи. Приводится классификация речевых технологий и показывается место идентификации голосового сообщения среди них. Анализируются математические методы, которые могут быть использованы при идентификации голосового сообщения — нейросети, частотные цифровые фильтры, Фурье-анализ, кепстральный анализ, методы машинного обучения, векторное квантование, гауссовы смеси и вейвлет-анализ. Производится анализ разработок ведущих компаний в области идентификации голоса (Центр речевых технологий, компания «Речевые технологии», компания «Voice Security Systems Inc.», компания «Nuance» и компания «Agnitio»). 

Во второй главе формулируются основные понятия модели идентификации голоса. Анализируется образование фонем звуков русского языка, а также проявление индивидуальных характеристик голоса с точки зрения теории речеобразования. Производится построение структурной схемы, модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса. Предлагается двоичная и троичная логика принятия решения о равенстве голосовых сообщений.

В третьей главе разрабатывается математический аппарат деления голосового сообщения на фонемы, построения образа фонемы и сравнения образов двух фонем. Предлагается метод матричного анализа сравнения образов фонем первого голосового сообщения с образами фонем второго голосового сообщения. Выделяются варьируемые параметры модели, которые позволяют производить её настройку. Разрабатывается комплекс программ, реализующий предложенную модель идентификации голосового сообщения.

В четвёртой главе разрабатывается метод оценки качества работы предложенной модели идентификации голосового сообщения. Разрабатывается комплекс программ, реализующий этот метод. Проводится статистическая оценка качества работы модели в зависимости от значений варьируемых параметров, а так же в зависимости от различных параметров произносимой фразы. Даются рекомендации по использованию фраз, соответствующих определённым параметрам (например, длина фразы), для повышения качества работы представленной модели. Делается вывод о её практической применимости.

В заключении приводятся основные результаты и выводы диссертационной работы.  

Идентификация голосового сообщения

Цифровая передача и хранение речевого сигнала — исторически одна из первых областей речевых технологий. Системы цифровой передачи и хранения речевого сигнала применяются для уменьшения полосы частот сигнала, что необходимо для более быстрой передачи сигнала, а также для экономии места хранения сигнала [52, 56, 74].

Системы синтеза речи предназначены для воспроизведения акустического речевого сигнала по тексту [43, 80, 89]. Такие системы применяются в устройствах речевого ответа [4, 91], в которых необходимо экономичное хранение информации- (вместо записи акустического сигнала хранится текст, по которому формируется акустический сигнал). Системы синтеза речи играют большую роль при обучении правильному произношению речи. Ещё одной областью применения таких систем являются телефонные сети, например, когда необходим автоматический ответ на запрашиваемую по телефону информацию [4].

Системы улучшения, качества речевого сигнала применяются для. восстановления искажённого сигнала. Например, в системах связи, куда сигнал может поступать сильно искажённым, следовательно, для, восприятия такого сигнала его необходимо восстановить. Примерами систем улучшения качества речевого сигнала являются системы устранения реверберации, шума и т.д. [56].

Системы распознавания речи преобразуют речевое сообщение в эквивалентный текст [46, 81, 87]. Сложность задачи распознавания зависит от условий произнесения, контекста фразы, наличия или отсутствия возможности настройки на диктора. Системы распознавания речи могут применяться для перевода диктуемой речи в текст, для голосового управления- различными устройствами, а так же для голосового общения с ЭВМ [38, 76].

Системы устранения дефектов речи предполагают обработку речевого сигнала и отображение полученной информации в виде, наиболее приемлемом для конкретного индивида. Например, методы цифровой обработки сигналов для сенсорного и визуального отображения информации при; обучении глухих людей речи [56];

Системы идентификации голоса необходимы для установления подлинности голосаша основе его индивидуальных характеристик [57, 85; 88]. Подлинность голоса- устанавливается на основе произвольной речи? или определённого пароля: Такие системы можно применять при разграничении доступа к какому-либо объекту. В качестве объекта могут выступать: ЭВМ; различные военные иі гражданские объекты,, банковские счета; банковские ячейкиг для хранения5 ценностей;: жилые помещения, автомобили и т.д. [2, 9; 86];. Также возможно применение идентификации голоса в криминалистике: [83]:.

Как было сказано выше; идентификация голоса возможна на основе произвольной речи или- определённого пароля. В связи с чем; методы идентификации? голоса можно разделить на три; больших класса: методы, использующие фонемную составляющую голосового сообщения; методы; использующие индивидуальные; характеристики голоса и- методы; использующие совместно фонемную составляющую и индивидуальные характеристики голоса (рис. 1.4) [9]. В последнем случае говорят об идентификации голосового сообщения.

В соответствии со схемой, изображённойша рис. 1.4 существует три вида; идентификации голоса: идентификация по фонемной составляющей — голос человека неважен, текст сообщения - важен; идентификация по индивидуальным характеристикам;голоса — голос человека важен, текст сообщения — неважен; идентификация по фонемной составляющей и индивидуальным характеристикам голоса — голос человека важен, текст сообщения -важен.

В диссертационной работе будет исследоваться идентификация голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса.

В настоящее время существует множество математические методов, которые применяются при решении задач идентификации голосового сообщения; Одним из наиболее популярных методов, применяемых в современных системах, являются нейросети [24j 48, 84]і Нейросети состоят из элементов двух видов — нейронов и связей между ними.

Каждый нейрон характеризуется своим текущим состоянием,, по аналогии с: головным мозгом, он может быть возбуждён или заторможен. Нейрон может, иметь несколько синапсов - однонаправленных входных связей, и один аксон - выходную связь (рис. 1.5). С аксона сигнал поступает на синапсы других ячеек. Текущее состояние нейрона определяется как взвешенная сумма его входов: Коэффициенты wi представляют веса синаптических связей. Положительное значение wi соответствует возбуждающим синапсам, отрицательное значение Wi — тормозящим синапсам. Выход искусственного нейрона есть функция его состояния: На рис. 1.6 приведён пример нейросети, состоящей из пяти нейронов. Для работы нейросети необходимо произвести её обучение, которое заключается в подборе весов w,- под конкретную задачу. Выбор нейронов и построение связей между ними производится на этапе разработки сети, который предшествует этапу обучения [75, 77, 79]. При использовании данного метода для идентификации голосового сообщения необходимо построить соответствующую нейросеть. Далее записать множество голосовых сообщений. Для каждой пары сообщений необходимо указать - равны они или нет. По этому множеству производится обучение нейросети (подбор весовых коэффициентов синапсов) с помощью критерия минимизации количества ошибок нейросети. Одним из наиболее первых методов, который был применён в задачах идентификации голосового сообщения, являются частотные цифровые фильтры. В зависимости от вида частотной характеристики фильтры делятся на фильтры низких частот (ФНЧ) — пропускание низких и подавление высоких частот, фильтры высоких частот (ФВЧ) — пропускание высоких и подавление низких частот, полосовые фильтры (ПФ) — пропускание или подавление сигнала в определённой частотной полосе (рис. 1.7) [62, 63, 70]. Практика проектирования цифровых фильтров базируется в основном на проектировании ФНЧ; все другие фильтры могут быть получены из ФНЧ путём соответствующих преобразований. ФВЧ получается инверсией ФНЧ1 — вычислением» разности между исходным сигналом и результатом г его фильтрации ФНЧ. ПФ может реализоваться последовательным применение ФНЧ и ФВЧ с соответствующим перекрытием частот пропускания [22, 55, 70].

Этапы разработки модели идентификации голосового сообщения

Процесс разработки модели идентификации голосового сообщения делится на 4 этапа [10]: Исследование голосовых сообщений, представленных в виде цифрового сигнала. На данном этапе выявляются особенности голосовых сообщений которые могут быть использованы для целей идентификации. Разработка модели идентификации голосового сообщения. На данном этапе на І основе результатов первого этапа строится определённая математическая. модель идентификации голосового сообщения: В1 этой математической модели выделяются, варьируемые параметры для её настройки: Статистическая оценка качества идентификации. На данном этапе собирается база различных голосовых сообщений. Далее производится идентификация всех сообщений с помощью разработанной модели. Выявляется процент ошибок первого и второго рода. Эти исследования проводятся для различных значений варьируемых параметров, а так же для различных голосовых сообщений. Анализ результатов. На данном этапе анализируются результаты всех предыдущих этапов на основе статистической оценки.

Строятся зависимости процента ошибок от значений варьируемых параметров. Таким образом, производится подбор подходящих значений параметров. Также строятся зависимости процента ошибок от параметров фразы (длины, количества гласных, количество шипящих и; т.д.): Вырабатываются рекомендации по использованию фраз, соответствующих определённым, параметрам. В случае если анализ даёт неудовлетворительные результаты, происходит возврат ко второму этапу, на котором модифицируется метод идентификации голосового сообщения. Проведём классификацию всех звуков русского языка на основании их образования. Это будет использовано в дальнейшем для деления голосового сообщения на фонемы, а также для анализа того, какие звуки можно использовать для выделения индивидуальных характеристик голоса. На рис. 2.2 приведена разработанная классификация звуков русского языка в зависимости от способа их образования [8, 29, 33].

Все звуки делятся на две большие группы: гласные и согласные. Существует три классификации гласных: по степени подъема языка; по ряду, или месту подъема языка; по наличию или отсутствию лабиализации. По степени; подъема языка (в зависимости от движения языка по вертикали по отношению к нёбу) гласные делятся на звуки верхнегошодъема, звуки среднего подъема и звуки нижнего подъема. При образовании гласных верхнего подъема средняя и задняя часть спинки языка высоко поднимаются к нёбу. К гласным верхнего! подъема относятся:: и, ы, у. При образовании гласных среднего подъема средняя и задняя часть спинки языка сначала высоко поднимаются к нёбу, а затем опускаются вниз. К таким гласным относятся: е, о. При образовании гласных нижнего подъема язык почти не поднимается к нёбу: К гласным нижнего подъёма относится звук а.

По ряду, или месту подъёма языка (в зависимости от движения языка по горизонтали) различают гласные переднего, среднего и заднего ряда. При образовании гласных переднего ряда средняя часть спинки языка продвигается вперед, а кончик языка опускается и упирается в нижние зубы. К таким гласным относятся: и, е. При образовании гласных заднего ряда язык отодвигается назад, а кончик языка прикасается к нижним зубам. К гласным заднего ряда относятся звуки:; о, у. При образовании гласных среднего: ряда язык отодвинут назад в меньшей степени, чем при образовании гласных заднего ряда, а спинка языка высоко приподнята. К этим, гласным относится звук ы. По наличию или отсутствию лабиализации (в зависимости от участия-или неучастия губ в образовании звука) гласные делятся на лабиализованные и нелабиализованные. К лабиализованным гласным относятся: о, у. При образовании этих гласных губы выдвигаются вперед, округляются и образуют узкое выходное отверстие для воздуха. К нелабиализованным гласным относятся: и, ы, е, а. При образовании этих звуков губы, не принимают активного участия. Все согласные звуки делятся на твердые и мягкие, губные и язычные, шумные и сонорные. Мягкие звуки характеризуются тем, что к основной артикуляции согласного прибавляется дополнительная артикуляция - поднятие средней части, языка к твердому нёбу, а у твердых звуков отсутствует дополнительная артикуляция: К мягким звукам.относятся: п\ б , т\ д , ф\ в , с , з\ ч, к\ г , х , м\ н ,р\ л (штрихом обозначается мягкость соответствующего звука). К твердым согласным относятся: п, б, т, д, ф, в, с, з, к, г, х, м, н, р, л. По активному органу все согласные делятся на губные и язычные. К губным согласным относятся: п, п\ б, б\ ф, ф , в, в , м, м , а к язычным: т, т , д, д , с, с , з, з\ ц, ч, ш, ж, к, к , г, г , х, х\ н, и л, л , р, р . В зависимости от степени участия в образовании звуков голоса и шума все согласные делятся на шумные и сонорные. Если голосовые связки напряжены и колеблются, то возникает голос.

Шум возникает при і прохождении воздушной струи через преграды. Соотношение голоса и шума у различных гласных различно. При произношении шумных согласных в полости рта образуются различные преграды, в результате чего возникает шум. К шумным согласным относятся: п, п\ б, б , ф, ф\ в, в , т, т , д, д\ с, с , з, з\ ц, ч, ш, ж, к, к , г, г , х, х . Притіроизношении сонорных согласных в полости, рта также возникают преграды, но слабая воздушная струя, проходящая через эту преграду, образует лишь незначительный шум. Сонорные согласные представляют собой совокупность голоса и шума. К ним относятся: м, м , н, н , л, л\ р, р . Шумные согласные по степени участия голосовых связок в образовании звука делятся на глухие и звонкие. При образовании глухих согласных голос не участвует. К глухим шумным согласным относятся: п, п\ ф, ф\ т, т , с, с , ц, ч, ш, к, к , х, х . Шумные звонкие согласные образуются при помощи шума с добавлением голоса. К ним относятся: б, б , Є, Є у Of 09 3у 3 j ОЮу 2у 2 . По способу образования шума (в зависимости от характера преграды, которая образуется между активными и пассивными органами) шумные согласные делятся на смычные, аффрикаты и щелевые. При образовании смычных согласных активный орган, артикулируя по отношению к пассивному, образует полное смыкание, а выдыхаемый воздух с силой» разрывает это смьжание, в результате чего образуется звук. К смычным согласным относятся: п, п , б, б , т, т\ д, д , к, к , г, г

Матричный анализ сравнения голосовых сообщений

Выше был показан метод деления голосового сообщения на фонемы, способ построения образа каждой фонемы, способ восстановление сигнала по образу фонемы и способ сравнения двух восстановленных сигналов. Однако голосовые сообщения часто состоят из множества фонем, следовательно, необходим метод сравнения, который определяет какие фонемы с какими сравнивать и как на основе этого делать вывод о равенстве или неравенстве голосовых сообщений. Такой метод назовём матричным, его суть в следующем. Сравнивается каждая фонема первого голосового сообщения с каждой фонемой второго голосового сообщения. В результате получается матрица сравнения двух голосовых сообщений, далее на основе этой матрицы делается вывод о равенстве или неравенстве голосовых сообщений (см. работу автора [40]):

Введем матрицу V, размером пхт, где п - количество фонем первого голосового сообщения, am - количество фонем второго голосового сообщения: Элемент матрицы vy определяется следующим образом: У/,—/,.если/-ая фонема первого голосового сообщения равна у-ой фонеме второго голосового сообщения, Vij=0 в противном случае:

Введем ещё одну матрицу W, размер;которой равен пхп, если п т, и равен тхт, если п т. Данная матрица является- квадратной. Получается матрица W из матрицы V следующим: образом: если п = т, то Ж = V, еслш т т, то к матрице V добавляются; справа: (п- т) нулевых столбцов, если т т, то: к матрице г V добавляются снизу (т - п) нулевых строк. Обозначим: размер матрицы W как кхк. Элементы:матрица;JF принадлежат множеству: є{0;1}.

Таким образом, получена матрица W,. по которой можно охарактеризовать степень равенства голосовых сообщений:

Введем две переменные ртіп и р . Переменная ртіп получается следующим образом: где: к - размер матрицы W.

Так как размер матрицы Охарактеризует количество выделенных фонем в голосовых сообщениях, то переменную ртіп можно рассматривать как параметр, характеризующий степень совпадения двух голосовых сообщений, при которой они считаются равными. Другими словами, при сравнении сообщений должен совпасть определенный процент фонем, а переменная ртіп как раз характеризует количество выделенных фонем в голосовых сообщениях..

Далее необходимо определить параметр, характеризующий; совпадение голосовых сообщений на основе конкретной матрицы. После чего можно будет принимать решение о равенстве ключа и эталона на основе сравнения этого параметра с переменной ртт. Обозначим параметр, характеризующий совпадение голосовых сообщений/»\

В идеальном случае/? можно было бы получить следующим образом: где: TrW— след матрицы W.

Таким образом, для равенства голосовых сообщений необходимо было бы выполнение условия р = ртт , что означало бы равенство всех фонем первого голосового сообщения всем соответствующим фонемам второго голосового сообщения. Однако в реальной ситуации некоторые фонемы могут оказаться неравными друг другу, кроме того, количество выделенных фонем первого голосового сообщения может отличаться от количества выделенных фонем второго голосового сообщения. Из этого следует, что необходимо учитывать не только,главную диагональ матрицы W.

Пусть переменная р будет рассчитываться как некоторая сумма по всей матрице W, соответственно, чем больше совпало фонем (wy=l), тем больше будет общая сумма, и наоборот. Второй момент, который надо учесть, это расположение в голосовых сообщениях фонем, которые оказались равными. Например, если первая фонема первого сигнала равна первой фонеме второго сигнала, это один случай, а, если она равна последней фонеме второго сигнала, это другой случай. Во втором случае это совпадение должно вносить в переменную р меньшую составляющую, чем в первом, так как одни и те же голосовые сообщения имеют одну и ту же последовательность фонем. Такой способ расчёта переменной/? допускает, что некоторые фонемы могут быть не выявлены или выявлены лишние фонемы, это будет вносить некоторые искажения в значение р , однако при равенстве большинства фонем, данные искажения будут незначительны. Таким образом, р определяется: q ,q" — коэффициенты пропорциональности (варьируемые параметры).

Коэффициенты пропорциональности q , q" введены для возможности настройки представленного метода.

Для принятия решения о равенстве голосовых сообщений необходимо сравнить значения переменных р и pmin. При использовании троичной логики выберем е-окрестность значения pmim соответствующую случаю неопределённости (при использовании двоичной логики Е=0). Сигналы будут считаться неравными, если равными, если Случаю неопределённости будет соответствовать ситуация:

Таким образом, возможно три результата сравнения голосовых сообщений. Исследование влияния параметров модели q и q" на качество идентификации проведено в главе 4.

Метод статистической оценки качества работы модели идентификации голосового сообщения

Статистической совокупностью называется множество однородных объектов, объединённых по некоторому общему отличительному признаку [26]. Все возможные объекты называются генеральной совокупностью, а часть объектов - выборочной совокупностью (выборкой) [26, 49]. Для выяснения зависимости можно произвести сплошное обследование всей генеральной совокупности. Однако, если количество объектов достаточно велико, то обследуют только часть объектов (выборочную совокупность), а выводьь сделанные из этого обследования обобщают на всю генеральную совокупность объектов. Выборочная совокупность должна быть репрезентативной, то есть такой, по которой можно уверенно судить об интересующем признаке всей генеральной совокупности [26, 54]. При изучении некоторого признака выборки производятся испытания.

Пусть посредством независимых испытаний, проведённых в одинаковых условиях, получены следующие числовые значения: где: п — число объектов выборки. Значения х]гХ2, ...,хп называются вариантами [26]. Среди вариант могут оказаться равные. Тогда ряд (4.1) можно записать следующим образом: В нашем случае объектом генеральной совокупности является результат сравнения двух голосовых сообщений. Генеральной совокупностью являются результаты всех возможных сравнений всех фраз, сказанных всеми людьми. Таким образом, объём генеральной совокупности является очень большим и практически не реализуемым. Поэтому исследуется выборочная совокупность. Для репрезентативности выборки составляются разные фразы, различной длины, с различными соотношениями количеств гласных, согласных и птипящих звуков.

Для произношения этих фраз выбираются люди мужского и женского пола, а так же из разных возрастных групп. Пусть выборочная совокупность составляет L голосовых сообщений. Сформируем матрицу MLXL следующим образом: ту=1, если голосовые сообщения с номерами і и j имеют одинаковые голоса и фразы, ту=0 в противном случае, где m,j - элемент матрицы М . Объём выборки в данном случае будет равен: Сформируем матрицу М следующим образом: т ,у=Д если голосовые сообщения с номерами / и у оказались равными в результате работы модели идентификации, т у=0 в противном случае, где т # - элемент матрицы M LXL. Далее определяется матрица SLXI, которая характеризует количество ошибок первого рода и количество ошибок второго рода. Эта матрица формируется следующим образом: sy=l, если т у=Шу и s,j=0 в противном случае, где stj - элемент матрицы SLXL. Элементы матрицы S , лежащие выше главной диагонали будут представлять собой варианты Х],Х2, ...,хп, где п — количество таких элементов. За вероятность ошибки принимается относительная частота со варианты х,- =0

Похожие диссертации на Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса