Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов Зилинберг, Андрей Юрьевич

Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов
<
Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Зилинберг, Андрей Юрьевич. Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов : диссертация ... кандидата технических наук : 05.13.01 / Зилинберг Андрей Юрьевич; [Место защиты: С.-Петерб. гос. ун-т аэрокосм. приборостроения].- Санкт-Петербург, 2010.- 161 с.: ил. РГБ ОД, 61 11-5/288

Введение к работе

Актуальность темы. Современный этап научно-технического прогресса невозможно представить без использования речевых технологий. «Палитра» речевых устройств и программ предоставляет самые разнообразные функциональные возможности пользователю: от управления персональным компьютером до включения зажигания двигателя автомобиля голосом.

На сегодняшний день задачи анализа речи, автоматической обработки речевых сигналов (PC), синтеза новых алгоритмов составляют отдельное фундаментальное научно-исследовательское направление, находящееся на стыке самых разнообразных наук таких, как лингвистика, психоакустика, статистический анализ, цифровая обработка сигналов, теория распознавания образов и др.

На всем протяжении истории развития алгоритмов обработки речи проводились исследования с целью выделить в PC интервалы (сегментировать речь) в соответствии с языковыми единицами - фонема, морфема, слово и т.д. Современные методы сегментации опираются на теорию кластерного анализа. Они используют такие таксоны как речевые сегменты, аллофоны, дифоны, трифоны. Однако в этом случае возникает не менее сложная проблема соотношения сегментных единиц из PC с лингвистическими единицами, а также их интерпретации с помощь ЭВМ. Успешная реализация данной задачи, особенно фонемной сегментации, позволила бы разработать новые приложения и модернизировать существующие, взаимодействие которых с человеком не отличалось бы от естественного. Однако непосредственно фонемная сегментация русской речи в силу сложности природы PC на сегодняшний день является недостаточно проработанной и не позволяет реализовать в полной мере сегментацию PC с требуемым качеством для широкого круга практических приложений.

Необходимым условием на пути к созданию новых алгоритмов обработки речи (речевых технологий) является разработка системного подхода к задаче автоматической сегментации речевого сигнала, которая является актуальной и требует комплексного исследования в данной области.

Целью работы является разработка и исследование алгоритмов многоуровневой временной сегментации (МВС) речевых сигналов.

Основные задачи: Для достижения цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

  1. Провести анализ существующих алгоритмов сегментации речевых сигналов, а также частных «базовых» алгоритмов, входящих в структуру МВС.

  2. Исследовать структурные особенности и характеристики речевых сегментов.

  3. Разработать иерархическую классификацию типовых структурных элементов PC.

  4. Разработать комплексную структуру временной автоматической сегментации PC.

  5. Разработать алгоритмы многоуровневой временной сегментации речевых сигналов:

алгоритм обнаружения голосовой активности,

алгоритмы анализа структуры речевого сигнала с использованием корреляционного и спектрального подходов,

алгоритмы оценки периода основного тона.

Методы исследования. При выполнении диссертационных исследований и разработок использовались: методы системного анализа, математической статистики, обработки временных рядов, кластерного анализа, теории распознавания образов.

Научная новизна. В процессе выполнения исследований были получены следующие научные результаты:

  1. Предложена обобщенная иерархическая модель речевого сигнала,

  2. Разработан системный подход к реализации многоуровневой автоматической временной сегментации речи.

  3. Разработан алгоритм определения участка голосовой активности (VAD-алгоритм) в речевом сигнале, позволяющий сегментировать сигнал на участки активности и пауз.

  1. Разработаны алгоритмы анализа структуры речевого сигнала с использованием корреляционного подхода для задачи многоуровневой временной сегментации.

  2. Разработаны алгоритмы определения периода основного тона с использованием структурных методов анализа речевых сигналов, для синхронной с периодом основного тона разметки вокализованных сегментов.

Практическая значимость. Разработанная иерархическая модель PC и «базовые» алгоритмы сегментации речевого сигнала на основе исследовательского программного обеспечения позволяют:

  1. Разрабатывать прикладное программное обеспечение для детального анализа и автоматической сегментации PC.

  2. Разрабатывать алгоритмы сегментации речи с использованием фонетических кластеров: фонем, аллофонов, дифонов и др.

  3. Формировать параметрическое описание временных сегментов PC для дальнейшего использования в алгоритмах обработки речи широкого круга задач (связь, IP-телефония, системы распознавания и др.).

  4. Разрабатывать новые методы обработки речи, учитывающие особенности внутренней структуры PC.

Основные положения, выносимые на защиту:

  1. Структура многоуровневой временной сегментации речевых сигналов, использующая обобщенную иерархическую модель речевого сигнала.

  2. Алгоритм определения голосовой активности для сегментации речи на участки пауз и речевой активности.

  3. Корреляционный алгоритм сегментации речевого сигнала по типовым временным сегментам.

  4. Алгоритмы оценки периода основного тона речи, использующие структурные методы анализа речевых сигналов.

Внедрение результатов работы. Основные результаты работы использованы в разработках ЗАО «Hiill «Иста-Системс», а также в учебном процессе кафедры бортовой

радиоэлектронной аппаратуры Санкт-Петербургского государственного университета аэрокосмического приборостроения. Внедрение результатов работы подтверждено соответствующими актами.

Апробация результатов работы. Основные положения и результаты диссертации докладывались и обсуждались на следующих научных конференциях:

  1. научные сессии ГУАП (г. Санкт-Петербург, 2005, 2006, 2007, 2008, 2009);

  2. международные научные конференции на базе Таганрогского государственного радиотехнического университета («ЦМТ-2005», «ИТ-2006», «ИСС-2008», «СМИ-2009»);

  3. XII Международная научно-техническая конференция студентов и аспирантов МЭИ (г. Москва, 2006);

  4. школе-конференции «Мобильные системы передачи данных» Московского Института Электронной Техники (г. Зеленоград, 2006);

  5. межвузовские научно-технической конференции «Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов», ВМИРЭ, (Санкт-Петербург, 2008, 2009);

  6. конференции "Проблемы современных инфотелекоммуникаций" Санкт-Петербургского государственного университета телекоммуникаций имени проф. М.А. Бонч-Бруевича (г.Санкт-Петербург, 2008).

Публикации. По теме диссертации опубликовано 21 печатная работа, в том числе одна - в издании, рекомендованном ВАК РФ.

Структура работы. Диссертационная работа состоит из введения, четырех разделов, заключения, списка использованных источников, включающего 90 наименований, и трех приложений. Общий объем работы составляет 164 страницы, включая 127 страниц основного текста, 75 рисунков и три приложения.

Похожие диссертации на Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов