Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и алгоритмы повышения эффективности автоматического интонационного анализа речевых сигналов Марьев, Александр Александрович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Марьев, Александр Александрович. Методы и алгоритмы повышения эффективности автоматического интонационного анализа речевых сигналов : диссертация ... кандидата технических наук : 05.12.04, 01.04.06 / Марьев Александр Александрович; [Место защиты: Юж. федер. ун-т].- Таганрог, 2012.- 141 с.: ил. РГБ ОД, 61 13-5/410

Введение к работе

Актуальность работы

Автоматический интонационный анализ речевых сигналов в настоящее время представляет собой обширную область научных исследований и инженерных разработок на стыке таких направлений, как радиотехника, акустика и психоакустика, системы искусственного интеллекта и распознавание образов, прикладная статистика, фонетика, лингвистика, психология, физиология.

Традиционно в задачах распознавания речи ставилась задача выделения и интерпретации семантической информации, т.е. смысла сказанного. В то же время, за несколько последних десятилетий существенно возрос интерес к интонационному анализу речи. Интонация является носителем просодической информации, сообщающей о том, в какой манере и с какими эмоциями речь была произнесена.

Среди приложений автоматического интонационного анализа стоит отметить такие, как:

разработка усовершенствованных методов взаимодействия (интерфейсов) человека с компьютером, использующих интонацию как один из способов передачи информации;

повышение надежности распознавания речи;

диагностика психоэмоционального состояния человека по голосу;

совершенствование профессиональных речевых навыков дикторов, работников контакт-центров и представителей иных профессий, в которых особую роль играет общение по речевым каналам связи;

разработка систем, обучающих правильному интонированию при обучении иностранных языков;

коррекционная педагогика, обучение детей правильному выражению эмоций с помощью голоса;

идентификация человека по голосу: установление личности говорящего, либо распознавание его пола, возраста, акцента и т.п.

В нашей стране интонационным анализом занимались и занимаются такие известные ученые, как Л.А. Чистович, В.П. Морозов, И.А. Алдошина, И.Б. Старченко и другие. Среди зарубежных ученых можно отметить имена Г. Фанта, У. Ли. Одной из крупнейших в мире научных школ, разрабатывающих в настоящее время вопросы автоматического интонационного анализа, является немецкая (Felix Burkhardt, Bjorn Schuller, Anton Batliner, Marc Schroeder и др.).

Решение задачи автоматического интонационного анализа сопряжено с существенными трудностями, многие из которых до сих пор в полной мере не преодолены. Первой из таких трудностей является субъективность интонационных характеристик, таких например, как состояние человека, эмоции, тип произношения. Под субъективностью понимается как изменчивость произношения у различных дикторов и у одного и того же диктора с течением времени, так и трудности формализации интонационных параметров и их объективного измерения.

Указанные сложности являются причиной того, что ни в одном из направлений интонационного анализа речи в настоящий момент не существует общепринятых моделей сигналов и интонаций, не стандартизованы способы измерений и алгоритмы обработки сигналов. И, хотя в ряде приложений достигнуты значительные успехи, получены важные результаты (например, в распознавании двух состояний оператора, идентификации пола диктора и др.), они в большинстве своем не носят фундаментального характера. В результате исследователи и разработчики систем автоматического интонационного анализа часто вынуждены в своей работе исходить из эвристических соображений, не имея достаточного количества априорной информации.

Существенным недостатком многих существующих методов обработки речевых сигналов, используемых в интонационном анализе, является формальность их подхода к задаче, недостаточный учет особенностей восприятия и обработки информации человеком. Таковы, к примеру, методы выделения частоты основного тона, основанные на полигармонической модели речевого сигнала, или методы распознавания, предполагающие линейную статистическую связь между интонацией и объективными характеристиками речевого сигнала.

В сложившейся ситуации возрастающего спроса на системы автоматического интонационного анализа для разнообразных приложений существует необходимость поиска новых подходов к решению данной задачи, которые бы обладали достаточной надежностью и универсальностью. Очевидно, для построения подобных систем необходимо более полно учитывать научные знания о человеке.

Объектом исследования являются речевые сигналы, содержащие интонационную (просодическую) информацию.

Предметом исследования являются методы обработки речевых сигналов, позволяющие извлекать просодическую информацию из речевого сигнала и интерпретировать ее.

Целью диссертационной работы является повышение эффективности выделения и интерпретации интонационной информации, содержащейся в речевом сигнале.

Основными задачами, которые требуется решить для достижения поставленной цели, являются:

  1. разработка метода определения минимального набора информативных признаков (характеристик) речевого сигнала, при котором возможно достижение приемлемого качества интонационного анализа;

  2. разработка методов измерения набора информативных характеристик речевого сигнала;

  3. разработка метода классификации интонаций, учитывающего особенности восприятия и обработки информации человеком;

  4. построение структуры и алгоритмов функционирования системы автоматического интонационного анализа, исследование эффективности автоматического интонационного анализа.

Научная новизна

В рамках диссертационной работы получены следующие новые научные результаты:

  1. Предложен метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования.

  2. Разработан метод адаптивного квантования значений признаков, представляющий собой кусочно-постоянное отображение области значений признаков, использующее оценки их статистических характеристик, полученные по обучающей выборке.

  3. Предложен трехэтапный метод снижения размерности пространства признаков речевого сигнала (отбора наиболее информативных признаков), основанный на информационной мере близости признаков, с выделением главных компонент на заключительном этапе.

  4. Разработан метод классификации интонаций, основанный на информационном подходе к задаче распознавания, оптимальный в смысле принципа максимума информации.

  5. Разработана структура системы автоматического интонационного анализа и алгоритмы ее функционирования, в том числе:

    1. алгоритм одновременного измерения параметров речевого сигнала в трех масштабах времени (фрагменты длительностью в десятки мс, отдельные вокализованные звуки, участки длительностью в единицы секунд);

    2. алгоритм адаптивного квантования значений признаков, позволяющий минимизировать потерю информативности признаков при их дискретизации;

    3. алгоритм выделения полносвязных групп признаков максимального размера по критерию средней взаимной информации между ними;

    4. алгоритм обучения классификатора, оптимального в смысле принципа максимума информации.

    Практическая значимость работы

    1. Разработано программное обеспечение, в котором реализован метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования. Показано, что применение данного метода позволяет снизить вероятность появления на оценке траектории ЧОТ грубых случайных ошибок величиной более 20% в 2–40 раз, ошибок более 50% – в 3–300 раз по сравнению с семью популярными методами оценки траектории ЧОТ.

    2. Разработано программное обеспечение для автоматизированного решения задачи снижения размерности пространства признаков речевых сигналов в три этапа:

      1. отбор из первоначального множества признаков подмножества по критерию средней взаимной информации с вектором номеров классов (на основе заданного порога);

      2. объединение признаков из выбранного на первом этапе подмножества в группы максимального размера по критерию, в каждой из которых количество средней взаимной информации между каждыми двумя признаками превышает заданный порог; отбор одного признака из каждой группы;

      3. преобразование отобранных на втором этапе признаков по методу главных компонент, отбор N первых главных компонент по критерию совокупной дисперсии.

      Для выполнения первых двух этапов выполнялось адаптивное квантование значений признаков по разработанному методу. Показана высокая эффективность разработанного программного обеспечения при решении задачи снижения размерности признакового пространства в задаче автоматического распознавания семи эмоциональных состояний по речевому сигналу: наибольшая средняя вероятность правильного распознавания 0,82 была достигнута при использовании 60-ти признаков из первоначального множества 878-ми признаков. В эксперименте с использованием только метода главных компонент для отбора признаков наибольшая средняя вероятность верного распознавания 0,55 была достигнута при использовании 760 признаков из того же первоначального множества.

      Создана программная реализация системы автоматического интонационного анализа, использующей 16 признаков речевого сигнала классификатор, оптимальный в смысле принципа максимума информации либо классификатор типа kNN (распознавание по методу k ближайших соседей). Экспериментально показано, что относительно невысокая вычислительная сложность разработанных алгоритмов допускает распознавание интонаций в режиме реального времени при вычислениях на настольном ПК.

      Установлено, что средняя вероятность правильного распознавания семи эмоциональных состояний диктора по речи составила 0,71 при отсутствии зависимости от диктора. В эксперименте использовалась Берлинская база записей эмоциональной речи. Ряд известных систем-аналогов при сопоставимых результатах различали меньшее число эмоциональных состояний (шесть). Средняя вероятность верного распознавания семи состояний в аналогичном исследовании составила 0,55 при использовании другого типа классификатора.

      Методы исследования основаны на использовании аппарата математической статистики, теории информации, элементов теории графов и теории множеств. Использовались методы статистической радиотехники, акустики, цифровой обработки сигналов, прикладной статистики, теории эвристических решений, а также некоторые результаты из области психоакустики и физиологии. Проверка теоретических выводов производилась путем постановки и проведения эксперимента по распознаванию семи эмоциональных состояний на материале Берлинской базы записей эмоциональной речи.

      Апробация работы

      Основные результаты диссертационной работы докладывались и обсуждались на следующих научных конференциях и научных школах: международной научной конференции «Системы и модели в информационном мире», г. Таганрог, 2009; международной научной конференции «Методы и алгоритмы принятия эффективных решений», г. Таганрог, 2009; научной школе для молодежи «Нейробиология и новые подходы к искусственному интеллекту и науке о мозге», г. Таганрог, 2010; Всероссийской научной конференции «Современные исследовательские и образовательные технологии», г. Таганрог, 2010; Всероссийской научной конференции «Актуальные вопросы исследования общественных и технических систем», г. Таганрог, 2011; VII Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, г. Ростов-на-Дону, 2011; Всероссийской научной школе для молодежи «Фундаментальные, клинические и гигиенические основы и аппаратно-методическое обеспечение системы медико-психологической реабилитации пациентов, подверженных высокому уровню напряженности труда и профессионального стресса», г. Ростов-на-Дону, 2011; Всероссийской научной конференции «Перспективы развития гуманитарных и технических систем», г. Таганрог, 2011; VIII Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, г. Ростов-на-Дону, 2012; Всероссийской научной конференции «Актуальные проблемы современности: человек, общество, техника» г. Таганрог, 2012.

      Внедрение результатов работы

      Результаты диссертационной работы внедрены в госбюджетной работе № 11056/1 и учебном процессе кафедры теоретических основ радиотехники, а также при выполнении НИР по гранту Российского фонда фундаментальных исследований (проект №10-06-00110а).

      Публикации

      По результатам выполненных исследований опубликовано 12 работ, в том числе 2 статьи в рецензируемых журналах из списка ВАК РФ, 10 статей и тезисов докладов в материалах Всероссийских и международных научных конференций и научных школ.

      Основные положения, выносимые на защиту

      1. В качестве объективных характеристик речевых сигналов предложено использовать временные, спектральные, статистические характеристики, параметры модели линейного предсказания и мел-частотные кепстральные коэффициенты а также производные от них статистические характеристики.

      2. Для отбора признаков целесообразно использование методов, основанных на средней взаимной информации как мере статистической связи между признаками и номерами классов, а также между различными признаками.

      3. Адекватным поставленной задаче автоматического интонационного анализа является критерий максимума средней взаимной информации, который использовался в качестве целевой функции при обучении классификатора.

      4. Для верификации разработанных методов и алгоритмов предложеноа методика эксперимента по распознаванию эмоционального состояния человека по речи с применением одной из общедоступных баз записей эмоциональной речи.

      Структура и объем работы.

      Диссертационная работа состоит из введения, четырех глав, заключения и списка использованных литературных источников, содержащего 100 наименований. Общий объем работы составляет 127 страниц машинописного текста, включая 15 рисунков и 8 таблиц.

      Похожие диссертации на Методы и алгоритмы повышения эффективности автоматического интонационного анализа речевых сигналов