Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи Репалов Сергей Анатольевич

Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи
<
Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Репалов Сергей Анатольевич. Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи : Дис. ... канд. физ.-мат. наук : 05.13.18 : Ростов н/Д, 2003 144 c. РГБ ОД, 61:04-1/242-X

Содержание к диссертации

Принятые обозначения и сокращения * 4

Введение 5

1 Обзор и анализ методов идентификации дикторов по их речи 11

1.1 Обзор методов предобработки и представления речевого сигнала используемых
для решения задачи идентификации дикторов 12

  1. Математическое описание сигнала 12

  2. Спектральное представление (дискретное преобразование Фурье) 14

  3. Коэффициенты линейного предсказания (КЛП) 15

  1. Автокорреляционный метод 17

  2. Ковариационный метод 19

  1. Гомоморфная обработка речи. Кепстральное представление 20

  2. Психоакустика. Мел-, Барк- шкалы 22

  3. Мел-спектры 25

  4. Формантные характеристики 26

1.2 Обзор и анализ математической модели и методов решения задачи
идентификации диктора .„ЇЇ^Т^ТГПт^. .—*.. 27

1.2.1 Методы идентификации диктора по произвольному тексту ~Г30

  1. Векторное квантование (ВК) 31

  2. Гауссовы смеси 38

  3. Методы нормализации характеристик 45

  1. Недостатки и направление их разрешения 47

  2. Постановка задачи исследования 51

Выводы 54

2 Построение пространства формантных наборов и математической модели голоса
диктора, использующей формантные наборы ." 55

  1. Построение пространства формантных наборов 56

  2. Построение метрики для сравнения формантных наборов 58

  3. Нахождение центральных формантных наборов, для последовательностей специального вида 76

  4. Построение методов работы с множествами формантных наборов 84

  1. Методы нахождения расстояний между множествами формантных наборов .. 85

  2. Первый метод вычисления подмножества 86

  3. Второй метод вычисления подмножества 92

Выводы 96

3 Построение математических моделей голоса диктора и робастных алгоритмов
текстонезависимой идентификации дикторов 98

3.1 Математические модели индивидуальности голоса диктора, не учитывающие
динамических характеристик 99

  1. Первый метод тестонезависимой идентификации дикторов по их речи 101

  2. Второй метод тестонезависимой идентификации дикторов по их речи 102

  1. Математическая модель индивидуальности голоса диктора учитывающая динамические характеристики 105

  2. Третий метод тестонезависимой идентификации дикторов по их речи 109

Выводы Ill

4 Практическая реализация и анализ разработанных методов 112

  1. Описание алгоритмов вычисления расстояния 112

  2. Сравнение временных характеристик алгоритмов вычисления расстояния 116

  3. Описание программной реализации 118

  4. Сравнение робастности описанных и стандартных методов текстонезависимой

идентификации дикторов 121

Выводы 128

Заключение 129

Литература,

Принятые обозначения и сокращения

DTW - Dynamic time warping (динамическое искажение времени)

НММ - Hidden Markov model (скрытые Марковские модели)

LBG - аббревеатура по первым фамилиям авторов метода Linde, Buzo, Gray

LVQ - Learning Vector Quantization (обучение векторному квантованию)

MFSP - Mel frequency spectrum (мел-спектр)

VQ - Vector Quantization (векторное квантование)

BK - векторное квантование

ДС - дискретный сигнал

КЛП - коэффициенты линейного предсказания

СММ - скрытые Марковские модели

ОВК - обучение векторному квантованию

[l,ft]z - декартово произведение N отрезков целых чисел [1Д]

г<- j - присвоить / значение j

Введение к работе

Актуальность темы идентификации личности по голосу высока, поскольку она оказывается востребованной во многих областях человеческой деятельности. Подтверждением этого является тот факт, что на различных конференциях посвященных акустике и вопросам обработки речи доклады, посвященные вопросам идентификации и верификации дикторов часто выделяются в отдельные секции. Например, на конференции International conference on Acoustics, Speech and Signal Processing (ICASSP) в 2000-м году были представлены 20 докладов, разбитые на две секции. К 2003 году их число увеличилось до 35, а число секций до четырех. Аналогичная картина наблюдается и на других конференциях, например на Eurospeech, международных научных конференциях «Информатизация и информационная безопасность правоохранительных органов».

Возрастающий интерес к задаче идентификации личности по голосу связан как с успехами, достигнутыми в последнее время, так и с большим спектром практических применений данной задачи. Работа крупнейших научных лабораторий и компаний мира, таких как IBM T.J. Watson Research Center, AT&T, Oregon Graduate Institute, MIT Lincoln Laboratory, Philips и т.д., позволила за последние десятилетия перейти от теоретических разработок и лабораторных систем к практическим приложениям обработки речи (управление голосом, диктовка, обеспечение персонализированного доступа) с приемлемыми характеристиками.

Среди направлений практических применений можно выделить такие сферы, как криминалистическая экспертиза фонограмм устной речи с целью установления личности произнесшей записанную на них речь. Это направление, широко используемое в правоохранительных органах, является наиболее проработанным как с практической, так и с теоретической точки зрения. Однако часто, при обработке зашумленных или искаженных записей эксперты вынуждены отказываться от проведения экспертизы. Обусловлено это тем, что до сих пор не разработаны теоретические основы выделения робастных параметров речевого сигнала и методы их обработки.

Системы автоматической идентификации личности по голосу, построенные в последнее десятилетие, достигают значений вероятности ошибок, позволяющих использовать их в практических приложениях. Системы верификации личности по голосу часто используются в банковских приложениях, при доступе клиента к информации своего

банковского счета по телефонной линии. При этом, от пользователя требуют произнесения заранее оговоренной парольной фразы. Системы текстонезависимой идентификации диктора могут использоваться в системах речевого командного интерфейса как для постоянного подтверждения того факта, что команды отдает лицо, имеющее на это право, так и для выделения из непрерывного потока речи команд сказанных заданным диктором. Тем не менее, величина ошибок первого и второго рода даже у лучших систем находится на уровне 10% [20]. Из сказанного вытекает, что задача дальнейшего увеличения точности работы систем текстонезависимой идентификации дикторов является весьма актуальной. При этом, как показывают исследования [36], [33], [31] одной из основных причин ошибок является как аддитивный шум, так и мультипликативный шум, привносимый каналом передачи речевого сигнала.

Существуют и достаточно давно известны различные робастные характеристики речевого сигналаю, но они практически не используются в задачах автоматической и автоматизированной обработки речевого сигнала по причине сложности их обработки. Известно, что характеристики лежащие на просодическом и микропросодическом уровне не подвержены влиянию различных шумов канала передачи, и их учет при принятии решения позволяет значительно повышать точность принимаемого решения [38], [29], [6], [3] и [14]. Все это обуславливает наличие перспективных путей по созданию математических моделей идентификации дикторов по их речи на основе робастиых характеристик речевого сигнала, использующих как статистические, так и динамические характеристики речевого сигнала.

Таким образом, налицо потребность в новых математических моделях идентификации дикторов по их речи, позволяющих разрабатывать робастные алгоритмы текстонезависиомой идентификации дикторов, на основе робастиых характеристик речевого сигнала.

Областью исследования является разработка новых математических основ обработки робастиых характеристик речевого сигнала, и математических методов моделирования в теории распознавания речевых образов.

Предметом исследования являются математические основы методов обработки робастиых характеристик речевого сигнала, а так же математические модели, методы и робастные алгоритмы идентификации дикторов по их речи, использующие робастные характеристики речевого сигнала.

Цель исследования состоит в разработке математической модели голоса диктора, позволяющей строить алгоритмы текстонезависимои идентификации повышенной точности, в условиях использования зашумленных или поврежденных записей речи дикторов

Научная задача, исследования состоит в разработке математических основ обработки робастных характеристик речевого сигнала и разработке методов теории распознавания образов, использующих робастные характеристики речевого сигнала.

Математический аппарат исследования, В работе использовалась теория метрических пространств, теория цифровой обработки сигналов, теория распознавания образов и элементы теории вероятностей и математической статистики.

Границы исследования. В исследовании рассматриваются математические основы обработки робастных характеристик речевого сигнала и методы распознавания образов, использующие эти характеристики речевого сигнала.

Научная новизна работы определяется тем, что впервые разработан и исследован математический аппарат обработки робастных характеристик речевого сигнала. На основании разработанного аппарата, построены методы распознавания образов, использующие робастные характеристики речевого сигнала.

Практическая ценность и реализация. Результаты проведенных исследований нашли непосредственное применение при создании систем текстонезависимои идентификации дикторов по их речи.

Основные результаты исследований использованы в учебном процессе в Саровском государственном физико-техническом институте (г. Сэров), при выполнении хозрасчетных работ "Индус" и "Чарли-Р", а так же в работе выполняемой СКНЦ ВШ в рамках региональной научно-технической программы.

Результаты исследования могут найти применение при построении систем обработки речевых сообщений, например, в системах распознавания речи и голосовых команд, в системах тексозависимой и текстонезависимои идентификации дикторов и в системах верификации дикторов.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на X международной научной конференции «Информатизация правоохранительных систем» (Москва, 2001), на XI сессии Российского акустического общества (Москва, 2001), на международной конференции Speech and Communications

8 (Москва, 2001), на международной научной конференции «Интеллектуальные и многопроцессорные системы- 2001» (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2001), на XI международной научной конференции «Информатизация и информационная безопасность правоохранительных органов» (Москва,2002), на международной конференции International A ssociation for Forensic Phonetics and European Network of Forensic Science Institution (Москва, 2002). Полученные автором результаты изложены в 9 научных статьях и 20 тезисах докладов. Авторство, новизна и полезность принципиальных технических решений защищены патентом РФ. На защиту выносятся следующие основные положения:

  1. Метод выделения робастных характеристик речевого сигнала - форматных наборов.

  2. Способ введения метрики в пространстве формантных наборов.

  3. Математические модели индивидуальности голоса диктора, основанные на формантных наборах.

  4. Сходящийся, итерационный алгоритм формирования параметров математической модели голоса диктора.

  5. Методы тестонезависимой идентификации дикторов по их речи, использующие построенные математические модели индивидуальности голоса диктора.

Краткое описание работы. Работа состоит из введения, четырех глав и заключения.

В первой главе рассматриваются тенденции развития и проблематики задачи текстонезависимой идентификации дикторов по их речи. Анализируются различные преобразования исходного речевого сигнала в последовательность векторов признаков, формантные характеристики речевого сигнала. Выявляется свойство робастности формантных характеристик. Отмечается, что существующие методы текстонезависимой идентификации требуют использования векторов параметров из " линейного или евклидового пространства, что существенным образом сужает применимость этих методов в условиях использования зашумленного речевого сигнала. Далее в главе исследуются различные методы преодоления неробастности используемых векторов параметров на более высоких уровнях, за счет усложнения методов принятия решений. Анализируются различные пути решения проблемы. Обосновывается необходимость развития математического аппарата и методов работы с робастными характеристиками. Формулируются задачи исследования, состоящие в развитии математического аппарата

9 для работы с формантными наборами и создании методов текстонезависимой идентификации дикторов и их исследовании на реальных данных.

Во второй главе представлен новый метод выделения формантных характеристик, состоящий в аппроксимации спектра мощности речевого сигнала суммой функций специального вида, определяется пространство формантных наборов. Доказывается, что оно является метрическим и в явном виде строится метрика. Рассматриваются некоторые задачи общей теории распознавания образов и предлагается ряд методов, позволяющих использовать пространство формантных наборов в качестве пространства наблюдений при решении задач распознавания образов. При этом получены результаты, служащие математической основой методологии использования формантных наборов в теории распознавания образов.

В третьей главе рассмотрены вопросы построения математических моделей индивидуальности голоса диктора. Показана взаимосвязь разрабатываемых моделей и задачи распознавания образов из области искусственного интеллекта. На основании установленной взаимосвязи, а также используя результаты второй главы, производится формальное построение двух методов текстонезависимой идентификации дикторов.-Предлагается метод учета соседних формантных наборов во временной области путем перехода от последовательности формантных наборов к последовательности целых чисел. Рассматриваются подпоследовательности одинаковой длины, получаемые из последовательности целых чисел. Анализируются вопросы построения плотности распределения вероятности. Разрабатывается метод текстонезависимой идентификации дикторов, учитывающий как статистические, так и динамические характеристики речевого сигнала.

Четвертая глава посвящена описанию практической реализации разработанных методов текстонезависимой идентификации дикторов. В ней рассматриваются различные методы вычисления расстояния между формантными наборами. Производится сравнение временных характеристик построенных алгоритмов вычисления расстояния между формантными наборами. Показывается, что при плохой реализации алгоритма увеличение времени вычисления расстояния, по сравнению с наилучшей из предложенных, может достигать 120 раз. Для практической проверки свойства робастности, производится сравнение точности работы построенных методов с существующим методом, основанным на гауссовых смесях. Описывается методика проведения тестирования. На реальных

*

10 данных производится оценка соотношения ошибок первого и второго рода при различных значениях соотношения сигнал/шум. Показывается» что третий из построенных методов при соотношении сигнал/шум хуже 30 дБ, показывает точность, значительно превосходящую точность существующих методов, в том числе широко используемого метода, основанного на гауссовых смесях.

В заключении обобщены итоги и результаты проведенных исследований.

Похожие диссертации на Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи