Содержание к диссертации
Введение
Глава 1. Обзор современных подходов к решению задачи распознавания диктора в отечественной и зарубежной экспертной практике 13
1.1. Классификация методов распознавания диктора, применяемых в рамках проведения фоноскопической экспертизы 13
1.2 Краткое описание полуавтоматических методов распознавания диктора, применяемых в отечественной экспертной практике 14
1.3 Факторы, влияющие на результаты индентификационных сравнений 17
1.4 Проблема вариативности речи, выделение идентификационно важных признаков 24
1.5 Исследования в области распознавания диктора в зарубежной экспертной практике 41
1.6 Методы распознавания диктора в зарубежной экспертной традиции. Обзор и критика известных решений 42
1.7 Спектрографический метод 44
1.8 Аудитивный метод 48
1.9 Акустико-фонетический метод 54
1.10 Автоматический подход к решению задачи распознавания диктора по голосу 55
1.11 Сравнительный анализ акустико-фонетического и автоматического подходов к решению задачи распознавания диктора по голосу 57
1.12 Признаки, анализируемые при решении задачи распознавания диктора 62
1.13 Аудитивные признаки 65
1.14 Акустические признаки
1.15 Использование различного программного обеспечения в целях распознавания диктора 71
1.16 Описание основных компонентов системы распознавания дикторов и оценка её эффективности 75
1.17 Выводы по разделу 78
ГЛАВА 2. Алгоритм автоматического извлечения сегментных длительностных признаков. Алгоритм отбора признаков на основе сравнения статистик длительностей фонем и мелодических признаков . 80
2.1 Алгоритм автоматического извлечения сегментных длительностных признаков. 80
2.2 Экспериментальное исследование алгоритма отбора признаков на основе сравнения статистик длительностей фонем 81
2.3 Экспериментальное исследование алгоритма отбора признаков на основе сравнения статистик длительностей фонем 82
2.4 Выводы по разделу 85
ГЛАВА 3. Алгоритм верификации диктора на основе сравнения статистик длительностей фонем. Алгоритм распознавания диалектов на основе сравнения статистик длительностей фонем на материале диалектов тувинского языка . 86
3.1 Алгоритм верификации диктора на основе сравнения статистик длительностей фонем. 86
3.2 Описание фонемного сегментатора 88
3.3 Расчет оценки сходства дикторов 90
3.4 Использование статистик длительностей гласных для выявления различий между диалектами тувинского языка 92
3.5 Экспериментальные исследования различий длительностей гласных в диалектах тувинского языка 3.6 Выводы по разделу 100
ГЛАВА 4. Описание полуавтоматической системы верификации дикторов на основе анализа длительностных, формантных и мелодических характеристик речи . 101
4.1 Основные модули полуавтоматической системы верификации дикторов101
4.1.1 Алгоритм на основе сравнения формантных признаков 102
4.1.2 Алгоритм на основе сравнения мелодических характеристик 103
4.1.3 Алгоритм на основе сравнения длительностей фонем 104
4.2 Объединение алгоритмов верификации дикторов 104
4.3 Экспериментальные результаты сравнения алгоритмов полуавтоматической верификации дикторов. 105
4.4 Выводы по разделу 107
Заключение 109
Список литературы
- Факторы, влияющие на результаты индентификационных сравнений
- Экспериментальное исследование алгоритма отбора признаков на основе сравнения статистик длительностей фонем
- Описание фонемного сегментатора
- Алгоритм на основе сравнения формантных признаков
Введение к работе
Актуальность темы исследования. В современном обществе отмечается рост числа преступлений в сфере экстремизма, незаконного оборота наркотиков, похищения людей. Увеличение количества уголовных дел, связанных с расследованием подобного рода преступлений, ведет к росту экспертных исследований. Нередко преступники, совершая противоправные действия, используют различные средства голосовой связи и передачи речевой информации. В связи с этим возрастает роль и значение проведения фоноскопических исследований, а также разработка и внедрение в экспертную практику более совершенных методов, алгоритмов и систем анализа речевых сигналов.
Актуальность исследования подтверждается многочисленными
публикациями в таких международных журналах, как IEEE
Transactions on Information Forensics and Security, Expert Systems with
Applications, Information Fusion, IET Biometrics, и докладами по
данной тематике на ведущих международных конференциях: ICASSP,
Interspeech, SPECOM. Следует отметить, что в России
основополагающие работы в области экспертного распознавания
диктора принадлежат Р.К. Потаповой (Московский государственный
лингвистический университет), Н.Б. Кураченковой, Е.И. Галяшиной
(Московский государственный юридический университет им. О.Е.
Кутафина), М.В. Хитиной (Московский государственный
лингвистический университет), А.Ш. Каганову, С.Л. Ковалю (ООО «ЦРТ»), Н.С. Смирновой (ООО «ЦРТ»). За рубежом исследованием данной проблематики занимались H. Hollien, Ph. Rose, F. Nolan, E. Eriksson, L.G. Kersta, H.J. Kunzel и др. ученые. Проведение конкурсов NIST HASR (Human Assisted Speaker Recognition) различных годов национальным институтом стандартов и технологий США (National Institute of Standards and Technology, NIST) также свидетельствует о важности решения данной проблемы.
Речевой сигнал содержит различную информацию, в том числе индивидуальные голосовые характеристики, позволяющие узнать человека по голосу и, как следствие, решить задачу распознавания диктора. Данная задача включает верификацию диктора, в случае если необходимо дать бинарный ответ о тождестве либо различии голосов дикторов на эталонной и тестовой фонограммах, и идентификацию дикторов, в случае если требуется из множества эталонных записей
определить голос, тождественный голосу диктора на тестовой фонограмме.
В процессе проведения фоноскопических исследований с целью
распознавания диктора обычно применяются различные экспертные
методы, совместное использование которых позволяет повысить
точность итогового решения эксперта. При проведении
фоноскопической экспертизы на основе данных методов
предъявляются высокие требования к уровню квалификации
экспертов. Другим ограничительным фактором применения данных
методов является их значительная трудоемкость. Проведение типовой
фоноскопической экспертизы на основе максимально детального
исследования образцов речи может занимать до нескольких дней.
Перечисленные выше факторы препятствуют более широкому
внедрению данных методов в экспертную практику. Кроме того,
нередко эксперт сталкивается с ситуациями проведения
фоноскопической экспертизы в условиях временных ограничений.
Таким образом, существует необходимость дальнейшей автоматизации процессов подготовки данных и принятия решения при проведении фоноскопических исследований с целью повышения эффективности экспертных исследований за счет повышения их точности и снижения трудоемкости.
В диссертации решаются перечисленные выше проблемы повышения точности верификации диктора в рамках проведения фоноскопической экспертизы и автоматизации «ручного» труда эксперта.
Степень разработанности темы исследования.
Значительный вклад в развитие технологий экспертного распознавания диктора внесли как отечественные (Р.К. Потапова, Н.Б. Кураченкова, Е.И. Галяшина, А.Ш. Каганов, С.Л. Коваль, Н.С. Смирнова), так и зарубежные ученые (H. Hollien, F. Nolan, E. Eriksson, L.G. Kersta). Однако несмотря на проведение многочисленных исследований в данной области, в настоящее время не представлены экспертные системы, которые в полной мере удовлетворяют требованиям, предъявляемым к решению практических задач верификации диктора.
Целью исследования является разработка и реализация автоматизированной системы экспертного анализа в задачах верификации дикторов.
Для достижения данной цели были поставлены и решены
следующие задачи:
-
Исследование современных подходов к решению задачи верификации дикторов в отечественной и зарубежной экспертной практике.
-
Исследование методов и алгоритмов извлечения используемых в экспертной практике мелодических признаков речи и признаков, обладающих наибольшей дискриминационной способностью при верификации дикторов.
-
Разработка алгоритма верификации дикторов на основе сравнения статистик длительностей фонем с целью снижения трудоемкости и повышения точности верификации дикторов.
-
Разработка схемы комбинирования алгоритмов верификации дикторов на основе статистик длительностей фонем, значений формант и значений мелодических признаков с целью снижения ошибки верификационного решения.
-
Подготовка речевых баз данных для оценки параметров алгоритмов и тестирования системы верификации дикторов.
-
Проведение экспериментальных исследований для оценки эффективности разработанной системы верификации дикторов.
Объектом исследования являются системы верификации диктора.
Предметом исследования являются алгоритмы верификации диктора при проведении экспертного анализа фонограмм.
Научная новизна
-
Предложен алгоритм отбора мелодических признаков, а также признаков на основе статистик длительностей фонем, обладающих наибольшей дискриминационной способностью при верификации дикторов.
-
Разработан алгоритм верификации дикторов на основе сравнения статистик длительностей фонем, отличающийся низкой трудоемкостью за счет автоматизации процесса извлечения признаков и повышенной точностью за счет высокой дискриминационной способности сегментных длительностных признаков речи.
-
Разработана схема объединения алгоритмов верификации дикторов на основе статистик длительностей фонем, значений формант, а также значений мелодических признаков, позволяющая
повысить точность верификации диктора за счет комбинирования слабо коррелированных классификаторов.
Практическая значимость работы.
Результаты, полученные в ходе выполнения диссертационного исследования, используются на практике для решения задачи верификации дикторов в рамках выполнения фоноскопической экспертизы.
Методы исследования. Методы системного анализа,
распознавания дикторов, цифровой обработки сигналов, теории вероятности и математической статистики.
Положения, выносимые на защиту.
-
Алгоритм отбора мелодических признаков речи и признаков на основе статистик длительностей фонем, обладающих наибольшей дискриминационной способностью при верификации дикторов.
-
Алгоритм верификации дикторов на основе сравнения статистик длительностей фонем, отличающийся низкой трудоемкостью за счет автоматизации процесса извлечения признаков и повышенной точностью за счет высокой дискриминационной способности сегментных длительностных признаков речи.
-
Схема объединения алгоритмов верификации дикторов на основе статистик длительностей фонем, значений формант, а также значений мелодических признаков, позволяющая повысить точность верификации диктора за счет комбинирования слабо коррелированных классификаторов.
Внедрение результатов работы. Результаты диссертационного исследования внедрены при выполнении следующих завершенных научно-исследовательских и опытно-конструкторских работ: НИР «Совершенствование экспертных методов исследования речевых сигналов» (в/ч 68240, 2015), ОКР «Разработка АПК по идентификации лиц, говорящих на иностранных языках (цыганском, таджикском и др.)» (ФСКН, 2005-2013). Также результаты работы были внедрены в изделие «Икар Лаб: комплекс криминалистического исследования фонограмм речи», разработанное в компании ООО “ЦРТ”.
Результаты работы внедрены в учебный процесс на кафедре речевых информационных систем Университета ИТМО в дисциплине «Распознавание дикторов», а также при выполнении НИР №713554, этап 5 «Исследование алгоритмов и программных средств многомодальной биометрии, включая определение физических и
поведенческих характеристик человека, распознавание личности по биометрическим признакам различной модальности».
Достоверность научных положений, выводов и
практических рекомендаций, полученных в рамках данной диссертационной работы, подтверждается корректным обоснованием постановок задач, точной формулировкой критериев, компьютерным моделированием, результатами экспериментальных исследований, нашедших отражение в достаточном количестве публикаций в научных журналах, в том числе из списка ВАК и Scopus, а также представлением основных положений на ведущих международных и отечественных конференциях.
Апробация результатов исследования. Результаты
исследования представлялись для обсуждения на следующих научно-методических конференциях: «XLIII-XLV научные и учебно-методические конференции НИУ ИТМО» (Санкт-Петербург, 2014-2016), «III Всероссийский конгресс молодых ученых» (Санкт-Петербург, 2014), «17th International Conference on Speech and Computer SPECOM 2015» (Афины, Греция), «18th International Conference on Speech and Computer SPECOM 2016» (Будапешт, Венгрия). За научные результаты, достигнутые в процессе выполнения исследования, соискателем был получен диплом победителя конкурса грантов правительства Санкт-Петербурга для аспирантов в 2014 году.
Личный вклад автора состоит в выполнении основного объема
приведённых в диссертационной работе теоретических и
экспериментальных исследований. Автором лично проведен анализ
современных подходов к решению задачи экспертного распознавания
диктора по голосу и речи, произведен выбор наиболее
информативных длительностных и мелодических признаков,
разработан и реализован алгоритм сравнения статистик длительностей фонем, разработана схема объединения алгоритмов верификации дикторов. Подготовка ключевых публикаций проводилась совместно с соавторами, при этом вклад автора был основным.
Публикации. По теме диссертации было опубликовано 9 научных работ, в том числе 2 статьи опубликованы в изданиях из базы данных Scopus, 3 статьи опубликованы в журналах из перечня ВАК.
Объем и структура диссертации. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы.
Факторы, влияющие на результаты индентификационных сравнений
В настоящем обзоре на основе анализа материалов отечественной и зарубежной экспертной и научно-исследовательской практики будет представлено описание существующих подходов анализа речевых сигналов применительно к решению задачи распознавания говорящего по фонограммам устной речи различными методами.
В настоящее время для решения проблемы распознавания диктора широко применяются как автоматические, так и экспертные, в том числе полуавтоматические, методы. Использование экспертных методов в процессе проведения фоноскопических исследований с целью идентификации либо верификации говорящего дает возможность уточнить, скорректировать работу автоматических средств анализа и сравнения речевых сигналов. Однако применение данных методов ограничено необходимостью привлечения высококвалифицированных экспертов. Кроме того, экспертные методы обладают значительной трудоемкостью, что затрудняет их использование в условиях временных ограничений. Общее решение в результате применения экспертных методов во многом субъективно, поскольку зависит от личного опыта эксперта [3]. К числу недостатков экспертных систем анализа речевого сигнала следует также отнести наличие «адаптивных процедур» [3], позволяющих вмешиваться в процедуру принятия решения, что приводит к увеличению влияния человеческого фактора в рамках проведения фоноскопического исследования.
Подавляющее большинство современных методов идентификации дикторов по голосу и речи основаны на статистическом анализе распределения аудитивно-лингвистических или акустических признаков. Анализ современной методической и научной литературы по проблеме идентификации дикторов показал, что в отечественной современной экспертной практике применяются различные полуавтоматические акустические и аудитивно-лингвистические методы. Метод анализа мелодического контура, метод формантного выравнивания и «микроанализ» спектров гласных можно условно назвать акустическими. Метод мелодического контура [4, 5] позволяет эксперту анализировать и сравнивать основные характеристики мелодических структур, представленные в виде наборов значений параметров основного тона для сопоставимых участков мелодического контура (опорных фрагментов). Возможность сравнения мелодического оформления различных фрагментов речевого сигнала обеспечивается их относительной реализационной стабильностью в сопоставимых контекстах, то есть типичностью и повторяемостью в речи конкретного диктора с поправкой на характерную для него специфику контекстной и иной внутридикторской вариативности. Реализованный в настоящее время метод обладает точностью идентификации около 70% (в зависимости от используемой базы) и предполагает проведение экспертной («ручной») разметки на различные интонационные фрагменты.
Метод формантного выравнивания [5, 7] и «микроанализ» спектров гласных [1] являются модификацией распространённого за рубежом метода «voiceprint», который подвергся серьёзной критике в кругу учёных по причине низкой точности идентификации [8]. В качестве недостатка данного метода также можно отметить высокую трудоёмкость. Метод «микроанализа» спектров гласных носит текстозависимый и языкозависимый характер. К аудитивно-лингвистическим методам относятся лингвистический [3] и аудитивный методы [9] распознавания дикторов. Реализованный в настоящее время лингвистический метод состоит из выявления и сравнения признаков как сегментного уровня, касающихся специфики произношения отдельных звуков (гласных и согласных) и их сочетаний в сопоставимых фонетических контекстах, так и признаков супрасегментного уровня, связанных с особенностями проявления фразовой интонации, ударения конкретного языка. Хотя данный вид анализа можно назвать универсальным, набор гласных и согласных фонем, типы фонетических процессов, так же как и мелодические особенности, сильно зависят от языка. Это значит, что лингвистический анализ речи в случае проведения фоноскопических исследований на незнакомом языке невозможен без ознакомления с данным языком даже для квалифицированного эксперта.
Аудитивный метод идентификации диктора [9] представляет собой способ формализации слухового впечатления от голоса и речи на основании сравнения фиксированного набора слуховых характеристик. Данный метод заключается в анализе подготовленным экспертом образцовой и спорной фонограмм и выделении индивидуализирующих дикторских характеристик, подтверждающих или опровергающих факт принадлежности речи одному и тому же диктору.
Проведение полного аудитивного анализа предполагает исследование полного набора аудитивных признаков [9], что требует значительных трудозатрат эксперта. Данный факт можно отнести к недостаткам метода.
Экспериментальное исследование алгоритма отбора признаков на основе сравнения статистик длительностей фонем
Также при аудитивной идентификации большое значение имеет факт знакомства слушателя с идентифицируемым голосом. Известно, что если голос для человека является хорошо знакомым, то и узнавать его он будет чаще, проще и точнее. Г. Холлиен приводит критерий «знакомого голоса»: тестируемый должен обладать хорошим слухом и регулярно слышать голос опознаваемого в течение двух лет. Также автор затрагивает вопрос памяти человека на голоса. Г. Холлиен делает ссылку на масштабную научную работу Ф. МакГи по определению степени забывания голоса в задачах опознания его среди прочих образцов. Согласно результатам исследования на большом количестве испытуемых, через день (и в течение недели) число опознаний снижается до 83 %, через две недели оно составляет уже 68 %, а через три месяца падает до 35 %. Через пять месяцев доля успешных опознаний составляла лишь 13 %. Факт понижения точности опознания по голосу на память с течением времени подтвердил еще ряд исследований.
Г. Холлиен рассматривает акценты, диалекты и иностранные языки в контексте слухового метода идентификации. Влияние диалектных особенностей, которыми обладает речь диктора, на идентификацию оценивается двояко: с одной стороны, диалектные особенности не помогают верно принять диктора в силу их распространенности и как результат невозможности сузить число подозреваемых, с другой стороны, если на сравниваемых фонограммах могут быть услышаны фонетические особенности, относящиеся к разным диалектам, это может помочь слушателю верно отклонить диктора. Идентификация говорящего на родном языке слушателя происходит проще и точнее, на знакомом слушателю иностранном языке – лучше, чем на незнакомом. Автор отмечает, что проблемы акцентов, диалектов и языков, связанные со снижением точности опознания, являются субъективными для слушателя и часто связаны с его низкой компетентностью в этой области.
Г. Холлиен также затрагивает немаловажный для аудитивного метода идентификации вопрос об особенностях самого слушателя и говорит о том, что возрастные изменения слуха, а также просто качество слуха (например, невосприимчивость к некоторым частотам) могут сильно влиять на идентификацию [8].
Нередко аудитивный метод идентификации предлагается использовать и используется в комбинации с акустико-фонетическим методом. В этом случае существует несколько критериев, которым должны соответствовать признаки: они должны быть частотными, легко вычислимыми, устойчивыми к искажению и имитации, на них не должны влиять физический и эмоциональный статус, а также коммуникационный контекст. В подобном подходе речевые образцы детально описываются на нескольких лингвистических уровнях, а также с точки зрения речевого поведения диктора (диалект/региональный акцент, социолект, иностранный акцент, речевые привычки, фонетические особенности, манера речи (ритм, голос и интонация, темп и паузация, речевое дыхание, невербальные привычки)). Метод предполагает идентификацию в несколько шагов: после подготовки материала подготовленный эксперт аналитически прослушивает запись и оценивает ее, готовит детальное описание лингвистических и поведенческих особенностей; далее проводится акустический анализ записи (вычисляются амплитуда, F0, формантные частоты, другие акустические характеристики звуков), эти данные также документируются. Итоговое решение об идентичности/неидентичности дикторов определяется на базе каждого параметра, для заключения обычно используются формулировки вероятностных шкал. Для эффективного и надежного применения данного метода требуется, чтобы записи были сделаны в акустически близких условиях и чтобы на них были представлены сопоставимые фонетические контексты. Если записи сильно различаются по качеству, идентификация значительно затрудняется [8].
Остановимся подробнее также на «наивной» идентификации. «Наивная» идентификация, то есть идентификация диктора человеком, не имеющим специальной подготовки в данной области, не экспертом, выделяется специалистами в качестве метода судебной экспертизы наряду с так называемой «технической», которую проводят специально подготовленные люди, эксперты (данной классификации придерживаются Ф. Роуз, Ф. Нолан [37, 38]). Обычно под «наивной» идентификацией по голосу за рубежом подразумевается опознание говорящего пострадавшим или свидетелем в ходе судебного разбирательства.
Итак, «наивная» идентификация основывается на природной способности человека как носителя языка узнать диктора. Обычно в рамках «наивной» идентификации свидетелю в суде предлагается прослушать ряд фонограмм, содержащих голос подозреваемого и другие («фоновые») голоса. При этом очень тщательно ведется предварительная работа: подбор записей, альтернативных дикторов, предварительная оценка, гарантирующая беспристрастность. Ф. Нолан отмечает, что подготовленные таким образом экспертизы, как правило, очень надежны [38, 39].
Поскольку в зарубежной экспертной практике существует «наивный» подход, нередко ставятся эксперименты с целью сравнить успешность профессиональных экспертов-фонетистов и неподготовленных специально людей в идентификации диктора.
Описание фонемного сегментатора
Для проведения исследования мы использовали классификацию диалектов тувинского языка, предложенную Сатом Ш.Ч. [91]. В соответствии с данной классификацией в тувинском языке могут быть выделены Центральный, Северо-Восточный, Западный, Каа-Хемский, Тере-Хольский и Юго-Восточные диалекты. Относительно мало внимания уделялось сравнению длительностей гласный в различных диалектах. Однако подобный подход применялся для исследования диалектов некоторых других языков [92-96]. Интересно, что некоторые исследования часто рассматривали региональные различия в длительности гласных в контексте темпа речи. Например, X. Фрейман [94] высказывает гипотезу относительно того, что жители южных штатов Америки говорят медленнее по сравнению с жителями северных штатов. Т. Дезер [95], который проводил исследование речи нескольких афроамериканских семей в Детройте, также обнаружил, что статистики длительностей гласных могут являться возможным способом измерения темпа речи. Некоторые исследования посвящены различиям в длительности гласных за пределами англоговорящего мира. Например, значительное влияние диалектного фактора на региональную вариативность гласных голландского языка было описано в [96].
Результаты проведенных экспериментов по изучению 6-ти вышеназванных диалектных зон современного тувинского языка показывают последовательные различия в длительности гласных /а/, /о/, /е/, /и/, /у/, /ы/ в речи тувинцев-билингвов, владеющих тувинским и русским языками. Следует отметить, что эти гласные принадлежат фонологическим системам как тувинского, так и русского языков.
Для проведения экспериментов мы собрали речевую базу данных, состоящую из 258 фонограмм: 40 записей речи носителей Западного диалекта, 30 записей – Каа-Хемского диалекта, 30 фонограмм – Тере-Хольского диалекта, 30 фонограмм – Северо-Восточного диалекта, 98 фонограмм – Центрального диалекта, 30 записей – Юго-Восточного диалекта. Данная речевая база включает русскую и тувинскую речь 129-ти тувинцев (мужчин и женщин), читающих фонетически представительный текст и записанных через микрофонный канал. Каждый диктор принимает участие в 2-х сессиях записи длительностью около 7 минут. Общее количество реализаций гласных фонем в тексте представлено в таблице 4.
В данном разделе будет описан ряд экспериментов по определению различий в длительностях гласных в диалектной речи тувинцев-билингвов. Чтобы вычислить статистики длительностей гласных была использована автоматическая фонемная сегментация на основе записей речи и их текстового содержания. В процессе сегментации рассчитываются временные границы каждого фона. На следующей стадии мы вычислили средние длительности каждой фонемы в соответствии с фонетической разметкой. Принципы сегментации русской речи были подробно изложены в разделе 2.2. Чтобы провести сегментацию тувинской речи, была применена акустическая модель на основе глубокой нейронной сети и скрытых марковских моделей. Данная модель была использована в казахско-русской системе распознавания речи [97]. Так как тувинский и казахский принадлежат к тюркской языковой семье, данные языки имеют некоторые общие фонологические признаки и их фонетические корреляты. Важно отметить, что набор правил транскрибирования был скорректирован с учетом фонетической специфики тувинского языка. Для проверки качества автоматической сегментации тувинской речи были отобраны и размечены вручную 6 фонограмм (по одной из каждой диалектной зоны). Результаты сравнения представлены на рисунке 17.
Как следует из рисунка 17, 82% фонем, представленных в тувинской речи, имеют 0% - отклонение по сравнению с идеальными фонемными границами. Рисунок 18 демонстрирует пример фонемной сегментации. Рисунок 18. Пример фонемной сегментации высказывания «мен деле-гейнин эн-не чараш будунунда чурттап турар» Проведенный тест подтверждает возможность использования фонемной сегментации для дальнейшего расчета статистик длительностей фонем. Результаты сравнения статистик длительностей гласных по 6-ти основным диалектам, представленным на рисунке 19.
Как видно на рисунке 19, в среднем все исследованные тувинские гласные длиннее по сравнению с гласными, реализованными в других тувинских диалектных зонах. В соответствии с [95] можно сделать вывод о том, что все краткие гласные фонемы, реализованные тувинцами, рожденными в Тере-хольской диалектной зоне, произносятся в более медленном темпе. Результаты также демонстрируют различия в длительностях гласных, обусловленных изменением подъема: длительность возрастает с увеличением открытости гласного (в тувинском /и/, /у/, /ы/ -узкие гласные, /a/, /o/, /e/ - широкие гласные). Эта хорошо известная тенденция быда подтверждена еще раз на примере используемой кроссдиалектной базы.
На следующем этапе нашего эксперимента было проведено сравненик длительностей шести русских гласных, произнесенных носителями тувинского языка. Результаты сравнения представлены на рисунке 20.
Рисунок 20 демонстрирует ту же тенденцию, что и рисунок 19. Русские гласные /a/, /o/, /e/, /и/, /у/, /ы/ среди носителей Тере-хольского диалекта длиннее в среднем тех же гласных, произнесенных носителями других диалектов. Интересно отметить, что Тере-хольский диалект имеет ряд отличительных черт и занимает особое место среди тувинских диалектов. Данный факт в том числе может быть объяснен довольно изолированным положением данного региона по причине географической труднодоступности.
Алгоритм на основе сравнения формантных признаков
Результаты, приведенные в таблице 6, показывают, что наибольшая производительность системы достигается в результате объединения алгоритмов на основе слабо коррелированных признаков (мелодических (OT) характеристик, формантных признаков, длительностей фонем), что приводит к снижению ЕЕR и повышению точности автоматизированной системы верификации дикторов в целом.
Как показывают результаты проведенного эксперимента, разработанная система может быть применима для решения задачи верификации диктора по речи в условиях временных ограничений в рамках проведения фоно-скопической экспертизы в связи с низкой трудоемкостью проведения исследования, а также по той причине, что надежность верификации предложенной автоматизированной системы превосходит существующие решения. Система была апробирована на записях, содержащих русскоязычный материал, и может быть рекомендована экспертам-фоноскопистам. DET-кривые для дикторо-мужчин (а) и дикторов-женщин (б). Кривая (1) демонстрирует производительность алгоритма длительностей фонем, (2) – алгоритма на основе сравнения мелодических признаков, (3) – алгоритма на основе формантных признаков, кривая (4) показывает производительность системы в целом. FNR (False Negative Rate), FPR (False Positive Rate)
Полученные данные подтверждают экспериментально установленный вывод [89] о том, что при верификации женских голосов алгоритмы, как правило, показывают худшую эффективность, чем в случае с мужскими голосами.
В разделе рассмотрена разработанная автоматизированная система верификации дикторов на основе объединения признаков, не имеющих ярко выраженной корреляции друг с другом: статистик длительностей фонем, характерных для речи конкретного диктора, формантных признаков и мелодических характеристик. В рамках данного исследования проведены эксперименты, сделаны выводы и обозначены перспективы применения системы.
Преимуществом системы является возможность ее использования для проведения экспресс-анализа фонограмм. Точность работы системы составляет 1,41% на базе, содержащей записи мужской речи, и 3,83% на базе, содержащей записи женской речи, что превосходит существующие решения.
Основным результатом диссертационной работы является разработка алгоритмов верификации дикторов по голосу и речи, обеспечивающих автоматизацию экспертных методов, повышение точности экспертных решений. Полученные результаты были представлены в отчетах НИОКР, в журналах Scopus и ВАК, докладывались на ведущих отечественных и международных конференциях в области речевых технологий. В рамках данной диссертационной работы были получены следующие основные теоретические и практические результаты:
1) Предложен алгоритм отбора наиболее информативных длительност-ных признаков, в результате применения которого выделены фонемы, отличающиеся тем, что их длительности обладают высокой дискриминационной способностью при верификации дикторов. Предложен способ извлечения таких признаков, как фонемные длительности на основе использования автоматической фонемной сегментации. Экспериментально доказано, что наиболее информативными с точки зрения верификации являются речевые участки, соответствующие гласным либо наиболее близким к ним по акустическим характеристикам сонорным согласным. Предложен алгоритм отбора и выделен в результате применения этого алгоритма набор наиболее информативных мелодических признаков, отличающихся тем, что они обладают высокой дискриминационной способностью при верификации дикторов. Экспериментально доказано, что совместное использование таких признаков, как средняя частота основного тона, коэффициент изрезанности мелодического контура и скорость изменения основного тона обеспечивает повышение точности алгоритма по сравнению с использованием полного набора признаков.
2) Разработан алгоритм верификации дикторов на основе сравнения статистик длительностей фонем, отличающийся низкой трудоемкостью за счет автоматизации процесса извлечения признаков и редукции пространства признаков, а также повышенной точностью за счет высокой дискриминационной способности сегментных длительностных признаков. Проведен численный эксперимент, подтверждающий эффективность предложенного алгоритма. Экспериментально доказано, что процесс экспертной обработки пары произнесений на основе предложенного алгоритма верификации сокращается с двух-четырех дней до двух-четырех часов. Также было доказано, что длительности фонем обладают дискриминационной способностью для решения задачи распознавания диалектов.
3) Разработана схема объединения алгоритмов верификации дикторов на основе значений формант, значений мелодических признаков, а также длительностей фонем. Данная схема позволяет повысить точность верификации дикторов за счет комбинирования слабо коррелированных классификаторов.