Введение к работе
Актуальность темы. Современный этап научно-технического прогресса невозможно представить без использования речевых технологий. «Палитра» речевых устройств и программ предоставляет самые разнообразные функциональные возможности пользователю: от управления персональным компьютером до включения зажигания двигателя автомобиля голосом.
На сегодняшний день задачи анализа речи, автоматической обработки речевых сигналов (PC), синтеза новых алгоритмов составляют отдельное фундаментальное научно-исследовательское направление, находящееся на стыке самых разнообразных наук таких, как лингвистика, психоакустика, статистический анализ, цифровая обработка сигналов, теория распознавания образов и др.
На всем протяжении истории развития алгоритмов обработки речи проводились исследования с целью выделить в PC интервалы (сегментировать речь) в соответствии с языковыми единицами - фонема, морфема, слово и т.д. Современные методы сегментации опираются на теорию кластерного анализа. Они используют такие таксоны как речевые сегменты, аллофоны, дифоны, трифоны. Однако в этом случае возникает не менее сложная проблема соотношения сегментных единиц из PC с лингвистическими единицами, а также их интерпретации с помощь ЭВМ. Успешная реализация данной задачи, особенно фонемной сегментации, позволила бы разработать новые приложения и модернизировать существующие, взаимодействие которых с человеком не отличалось бы от естественного. Однако непосредственно фонемная сегментация русской речи в силу сложности природы PC на сегодняшний день является недостаточно проработанной и не позволяет реализовать в полной мере сегментацию PC с требуемым качеством для широкого круга практических приложений.
Необходимым условием на пути к созданию новых алгоритмов обработки речи (речевых технологий) является разработка системного подхода к задаче автоматической сегментации речевого сигнала, которая является актуальной и требует комплексного исследования в данной области.
Целью работы является разработка и исследование алгоритмов многоуровневой временной сегментации (МВС) речевых сигналов.
Основные задачи: Для достижения цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:
Провести анализ существующих алгоритмов сегментации речевых сигналов, а также частных «базовых» алгоритмов, входящих в структуру МВС.
Исследовать структурные особенности и характеристики речевых сегментов.
Разработать иерархическую классификацию типовых структурных элементов PC.
Разработать комплексную структуру временной автоматической сегментации PC.
Разработать алгоритмы многоуровневой временной сегментации речевых сигналов:
алгоритм обнаружения голосовой активности,
алгоритмы анализа структуры речевого сигнала с использованием корреляционного и спектрального подходов,
алгоритмы оценки периода основного тона.
Методы исследования. При выполнении диссертационных исследований и разработок использовались: методы системного анализа, математической статистики, обработки временных рядов, кластерного анализа, теории распознавания образов.
Научная новизна. В процессе выполнения исследований были получены следующие научные результаты:
Предложена обобщенная иерархическая модель речевого сигнала,
Разработан системный подход к реализации многоуровневой автоматической временной сегментации речи.
Разработан алгоритм определения участка голосовой активности (VAD-алгоритм) в речевом сигнале, позволяющий сегментировать сигнал на участки активности и пауз.
Разработаны алгоритмы анализа структуры речевого сигнала с использованием корреляционного подхода для задачи многоуровневой временной сегментации.
Разработаны алгоритмы определения периода основного тона с использованием структурных методов анализа речевых сигналов, для синхронной с периодом основного тона разметки вокализованных сегментов.
Практическая значимость. Разработанная иерархическая модель PC и «базовые» алгоритмы сегментации речевого сигнала на основе исследовательского программного обеспечения позволяют:
Разрабатывать прикладное программное обеспечение для детального анализа и автоматической сегментации PC.
Разрабатывать алгоритмы сегментации речи с использованием фонетических кластеров: фонем, аллофонов, дифонов и др.
Формировать параметрическое описание временных сегментов PC для дальнейшего использования в алгоритмах обработки речи широкого круга задач (связь, IP-телефония, системы распознавания и др.).
Разрабатывать новые методы обработки речи, учитывающие особенности внутренней структуры PC.
Основные положения, выносимые на защиту:
Структура многоуровневой временной сегментации речевых сигналов, использующая обобщенную иерархическую модель речевого сигнала.
Алгоритм определения голосовой активности для сегментации речи на участки пауз и речевой активности.
Корреляционный алгоритм сегментации речевого сигнала по типовым временным сегментам.
Алгоритмы оценки периода основного тона речи, использующие структурные методы анализа речевых сигналов.
Внедрение результатов работы. Основные результаты работы использованы в разработках ЗАО «Hiill «Иста-Системс», а также в учебном процессе кафедры бортовой
радиоэлектронной аппаратуры Санкт-Петербургского государственного университета аэрокосмического приборостроения. Внедрение результатов работы подтверждено соответствующими актами.
Апробация результатов работы. Основные положения и результаты диссертации докладывались и обсуждались на следующих научных конференциях:
научные сессии ГУАП (г. Санкт-Петербург, 2005, 2006, 2007, 2008, 2009);
международные научные конференции на базе Таганрогского государственного радиотехнического университета («ЦМТ-2005», «ИТ-2006», «ИСС-2008», «СМИ-2009»);
XII Международная научно-техническая конференция студентов и аспирантов МЭИ (г. Москва, 2006);
школе-конференции «Мобильные системы передачи данных» Московского Института Электронной Техники (г. Зеленоград, 2006);
межвузовские научно-технической конференции «Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов», ВМИРЭ, (Санкт-Петербург, 2008, 2009);
конференции "Проблемы современных инфотелекоммуникаций" Санкт-Петербургского государственного университета телекоммуникаций имени проф. М.А. Бонч-Бруевича (г.Санкт-Петербург, 2008).
Публикации. По теме диссертации опубликовано 21 печатная работа, в том числе одна - в издании, рекомендованном ВАК РФ.
Структура работы. Диссертационная работа состоит из введения, четырех разделов, заключения, списка использованных источников, включающего 90 наименований, и трех приложений. Общий объем работы составляет 164 страницы, включая 127 страниц основного текста, 75 рисунков и три приложения.