Содержание к диссертации
Введение
Глава 1. Подходы к моделированию системы речевосприятия 12
1.1 Иерархическая структура языка и системы речевосприятия 12
1.2 Структура речевого сигнала 14
1.3 Структура параметрического описания речевого сигнала 27
1.4 Особенности анализа структуры речевого сигнала в системе речевосприятия 33
1.5 Постановка задачи 37
Выводы по главе: 38
Глава 2. Модель обработки речевого сигнала на периферической части слуховой системы 39
2.1 Структура внутреннего уха 39
2.2 Критические полосы и шкала частот 42
2.3 Система фильтров 47
2.4 Тело неопределенности 53
2.5 Одновременная маскировка 57
Выводы по главе: 64
Глава 3. Сегментация речевого сигнала и измерение частоты основного тона ..66
3.1 Алгоритм определения наличия периодической структуры сигнала .66
3.2 Алгоритм сегментации речевого сигнала по наличию голосового источника 72
3.3 Экспериментальные исследования алгоритма сегментации 76
3.4 Исследование погрешности определения частоты основного тона 85
Выводы по главе: 93
Глава 4. Программный комплекс для исследования структуры речевых сигналов дикторов с патологиями речеобразующей системы 95
4.1 Особенности голосообразования при заболеваниях гортани 95
4.2 Существующие методы диагностики и лечения рака гортани 98
4.3 Структура медико-технического комплекса по исследованию речевого сигнала при нарушениях голосообразования 101
4.4 Экспериментальные исследования 107
Выводы по главе: 112
Заключение 113
Список литературы 116
Приложение 1
- Структура параметрического описания речевого сигнала
- Критические полосы и шкала частот
- Алгоритм сегментации речевого сигнала по наличию голосового источника
- Существующие методы диагностики и лечения рака гортани
Введение к работе
Анализ речевых сигналов применяется, прежде всего, при проектировании систем распознавания речи и идентификации дикторов.
Большой вклад в развитие речевых технологий внесли такие ученые, как: Г.Фант, Дж.Фланаган, М.А.Сапожков, В.Н.Сорокин, В.И.Галунов, Б.М.Лобанов, Т.К.Винцюк, Р.К.Потапова, Л.В.Златоустова, А.В.Аграновский, Д.А.Леднов, Н.Г.Загоруйко, Ю.А.Косарев, А.Л.Ронжин, М.В.Хитров, С.Л.Коваль, В.Г.Михайлов, Э.Г.Кнеллер.
Одним из основных направлений создания систем распознавания является распознавание слов и фраз в диалоговых системах, а при наличии большого словаря (от 20000 слов) - в системах по распознаванию речи.
На сегодняшний день существует множество диалоговых систем, используемых в различных областях:
1. информационно-справочные службы (VCDMS, SPEECHLIS [70]);
2. банковские расчёты и оплата услуг по телефону [112];
3. управление компьютерами, роботами;
управление бытовыми приборами (Труффальдино [96]) и др. Распознавание слитной речи и идентификация человека по голосу особенно сложные проблемы для открытого множества дикторов. Основными недостатками существующих программных продуктов являются: необходимость длительного обучения системы и недостаточное качество работы со спонтанной речью.
Так, по данным американского института стандартов (NIST) процент ошибочно определенных при распознавании слов для разговоров по мобильным телефонам составил 23,8%, для конференц-залов - от 26% до 38%, для лекционных залов - от 28% до 52%, для новостных передач - 9,9% [56]. Ещё одна проблема - отсутствие конкурентоспособных систем распознавания слитной речи на русском языке.
Для русского языка на рынке существует считанное количество программных продуктов: Горыныч, Диктограф, VoiceCom (Труффальдино, DiVo), Sakrament ASR Engine.
У VoiceCom точность распознавания 98%. Подобное качество достигается при 100-200 команд с настройкой на диктора, 30-50 - без настройки [96].
Sakrament по заявленным характеристикам распознает слитную речь с максимальной точностью 95-98% [88]. Но качество распознавания зависит от размера используемых словарей, качества транскрипции, показателя связанности распознаваемых слов, от уровня фонового шума, от параметров используемых каналов связи и характеристик микрофонов и т.д., что не позволяет данному продукту получить распространение.
В то же время системы распознавания речи для английского языка получили распространение, особенно в узкоспециализированных областях. У программного продукта Dragon NaturallySpeaking точность распознавания достигает 99%. Для надиктовки текста медицинской тематики создан Dragon NaturallySpeaking Medical. Также одним из лидеров рынка распознавания речи является IBM ViaVoice. Стоимость подобных программных продуктов в полной комплектации словарей составляет около 1000$ [114].
В распознавании речи используются различные методы:
1. скрытые марковские модели [44, 75];
2. динамическое программирование [1,34];
3. нейронные сети [65, 71];
4. генетические алгоритмы [81].
Основным методом, используемым при распознавании, является применение скрытых марковских моделей (СММ) и основанных на нем алгоритмах: Витерби, Баума-Уэлша и др. [108, 109]. Но данный метод дает хорошие результаты только при небольших объемах словаря и достаточно коротких фразах. Например, SPIRIT [44] при тестировании на базе, состоящей из английских цифр, при распознавании изолированных цифр показал точность распознавания 99,9%, а при распознавании цепочек - 97,9%. Программа распознавания, представленная в [75], при тестировании на речевой базе, состоящей из 500 слов, показала надежность 87%.
Из зарубежных продуктов по идентификации диктора можно выделить: Anovea SVLib (3499$) [102]. Из российских систем идентификации наиболее популярна система экспресс-исследований фонограмм речи ТРАЛ-М, надежность которой изменяется в интервале 82-92% в зависимости от длительности сравниваемых сигналов и канала связи [96].
Еще одна область применения анализа речевых сигналов - выделение ключевых слов. Метод выделения ключевых слов - один из эффективных способов автоматического поиска фрагментов фонограмм в звуковых базах или звуковых потоках. Практическое применение продуктов, реализующих данный метод, может быть в системах национальной безопасности, телефонных сервисах, системах контроля качества, системах речевых фильтров и др.
Размер рынка речевых технологий в 2006 году достиг 1 миллиарда долларов, увеличившись на 100% всего за два года, но большая часть рынка -это распознавание голосовых команд и синтез речи [91].
Параметры речевого сигнала могут использоваться при решении проблемы низкоскоростного кодирования речевого сигнала при условии выделения их с приемлемой точностью и дальнейшей сегментацией на однородные участки.
Низкоскоростное кодирование складывается из двух основных процессов:
1. параметрическое представление речевого сигнала минимальным набором параметров, относящихся к определённому типу сегмента;
2. дискретизация параметров для их передачи по каналу связи при использовании минимальной ёмкости канала.
По имеющимся оценкам сегментное кодирование позволит снизить скорость передачи данных до 300 бит/сек [36]. Для сравнения - при скалярном квантовании сколько-нибудь удовлетворительное качество декодированной речи может быть достигнуто при скоростях более 2400 бит/сек, использование векторного квантования может понизить скорость до 800 бит/сек. Векторное квантование, используемое совместно с учётом динамики развития спектра во времени, может позволить передачу данных со скоростью около 400 бит/сек.
Актуальной областью применения анализа речевого сигнала является медицина. Анализ изменений в речевом сигнале позволяет проводить диагностику при заболеваниях речеобразующего тракта. Например, проводятся исследования влияния на характеристики сигнала таких заболеваний, как пневмония, рак гортани, недостаточное развитие речи у детей, заикание в работах Коренбаума, Сорокина, Галунова, Склярова [54,79, 83].
Анализ речевого сигнала может применяться во время речевой реабилитации после полной или частичной резекции гортани. В некоторых случаях проводится постановка пищеводного голоса с учетом таких параметров, как длительность фонации, значение частоты основного тона [55].
На начальном этапе исследования речевых систем обращалось особое внимание на особенности слухового восприятия такими учеными, как Бекеши, Ликлайдер, Молчанов, Фланаган и др. [13, 19, 57, 61, 77, 93]. Затем, в связи с большой вычислительной сложностью, данный подход отошел на второй план.
В настоящее время вновь стали предприниматься попытки создания адекватной модели анализа речи на периферии слуховой системы [43, 46]. Это связано с тем, что многие исследователи считают наиболее перспективным подход к анализу речи, при котором учитываются особенности восприятия речи человеком, установленные в психоакустике. Так в [46] описан подход к первичной обработке сигнала, основанный на математической модели улитки. На необходимость использования моделей восприятия речи для построения систем автоматического распознавания указывает Галунов в работах [35, 37]. Соответственно, для полноценного решения задач в области речевых технологий требуется детальный анализ структуры речевого сигнала. При этом важно, что он должен проводиться с учетом особенностей слухового восприятия.
Таким образом, задача построения модели слухового восприятия речевого сигнала, учитывающей особенности физиологии, нейродинамики, психоакустики и др. является актуальной и может быть использована в различных сферах: распознавании слитной речи, идентификации диктора по голосу, поиске ключевых слов в слитной речи, сжатии речевых сигналов, медицине при диагностике, а также реабилитации пациентов с патологиями органов речеобразования.
Цель исследований - построение модели и алгоритмов анализа и обработки речевых сигналов, учитывающих особенности слухового восприятия человека.
Для достижения поставленной цели необходимо решить следующие задачи:
1. анализ особенностей слухового восприятия (по существующим литературным источникам);
2. построение модели обработки речевого сигнала на периферии слуховой системы, учитывающей иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;
3. разработка алгоритмов, на первых этапах обработки речевых сигналов опирающихся на особенности входных сигналов, а в последующем учитывающих особенности речеобразования;
4. исследование модели и алгоритмов;
5. сопоставление модели с имеющимися данными по функционированию слуховой системы.
Методы исследований. Для решения задач, сформулированных в работе, использовались методы системного анализа, цифровой обработки сигналов, теории образов, численных методов, фонетики, психоакустики.
Достоверность полученных результатов обеспечивается строгостью используемого математического аппарата; адекватностью модели, установленной путем сравнения реакций модели и слуховой системы на тестовые сигналы; большим количеством экспериментальных данных, подтверждающих теоретические результаты.
Научную новизну, полученных в работе результатов определяют:
1. алгоритм и численные методы измерения частоты основного тона;
2. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки;
3. модифицированная иерархическая модель восприятия речевых сигналов на периферии слуховой системы.
Практическая значимость. Разработанные модель и алгоритмы позволяют на основе реализованного программного комплекса:
1. создавать программное обеспечение для детального анализа речевого сигнала;
2. формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи;
3. разрабатывать программное обеспечение по диагностике изменений в речеобразующей системе человека.
Положения, выносимые на защиту:
1. модель восприятия речевых сигналов на периферии слуховой системы, учитывающая иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;
2. алгоритм и численные методы измерения частоты основного тона, обеспечивающие погрешность измерения не более 0,6%;
3. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки, обеспечивающий надежность 0,89-0,93.
Внедрение результатов. Разработанный программный комплекс используется в научно-исследовательской деятельности ГУ НИИ онкологии ТНЦ РАМН, ООО «НПФ «Информационные системы безопасности», 000 «ЛМЭ «Биоток» а также в учебном процессе ТУСУР по дисциплине «Вычислительная математика».
Апробация работы. Основные результаты по теме диссертационной работы отражены в 15 публикациях (в том числе 12 статьях из них 3 в журналах, рекомендованных ВАК). Результаты работы представлялись на: 11-й международной конференции «Речь и компьютер» (SPECOM 06, г. Санкт-Петербург); XVI и XVII сессиях Российского акустического общества (Москва, 2005 и 2006 гг.); Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов «Научная сессия ТУСУР 2005».
Личный вклад. Автором разработаны алгоритм сегментации и параметрическое описание сегментов, проведены исследования алгоритма сегментации и структуры речевого сигнала онкологических больных, разработана структура программного комплекса и осуществлена программная реализация 8 модулей, а также автор принимал участие в разработке и уточнении модели восприятия речевых сигналов, алгоритмов одновременной маскировки и измерения мгновенной частоты и интенсивности речевого сигнала на выходе системы фильтров. Постановка задачи осуществлялась совместно с руководителем - д.т.н., проф. В.П. Бондаренко, разработка программного комплекса проводилась совместно с В.П. Коцубинским.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 113 наименований и 2 приложений. Общий объем работы составляет 129 страниц, в том числе 58 рисунков и 19 таблиц.
Содержание работы.
Во введении обоснована актуальность, научная новизна исследований, определена цель работы и задачи исследований, дана общая характеристика работы, сформулированы основные положения, выносимые на защиту.
В первой главе приводится подход к созданию модели, основывающийся на иерархической модели речевой системы и иерархической системе речевого сигнала, а также постановка задачи.
Во второй главе описана модель обработки речевого сигнала на периферии слуховой системы человека. Представлены: введенная зависимость между шириной критической полосы и шкалой частот, система фильтров, методы измерения интенсивности и мгновенной частоты, метод, применяемый для одновременной маскировки. Приведены исследования тела неопределенности, позволяющие оценить разрешающую способность системы фильтров, а также сравнение характеристик системы фильтров с аналогичными характеристиками слуховой системы человека.
В третьей главе приведены алгоритм сегментации речевого сигнала по признаку наличия/отсутствия голосового источника и алгоритм выделения частоты основного тона (ЧОТ), а также результаты их исследования.
В четвертой главе представлена программная реализация разработанных модели и алгоритмов. Приведена структура программного комплекса по исследованию речевого сигнала. Обоснована возможность применения комплекса в исследованиях, направленных на получение параметров речевого сигнала, позволяющих определить изменения органов речеобразования, характерных для рака гортани различных стадий.
В заключении приводятся результаты выполненной работы и делаются основополагающие выводы по итогам диссертационной работы.
Структура параметрического описания речевого сигнала
Сегментация речевого сигнала неоднозначна и зависит от выбранных критериев. Общепринятым подходом является разбиение сигнала на пересекающиеся и непересекающиеся интервалы времени фиксированной длины в диапазоне от 2 до 50 мс, исходя из предположения, что на интервале данной длины изменение характеристик речевого тракта достаточно незначительно [68]. В то же время, если рассматривать сегмент как минимальный участок, на котором принимается решение относительно принадлежности к какому-либо классу, то подходы к делению речевого сигнала на сегменты базируются на различных уровнях распознавания речи.
Так, например, в диалоговых системах сегментом является слово или фраза. Основа подобной сегментации - создание эталона слова или фразы и дальнейшее сравнение этого эталона с текущим сигналом, разделённым на участки одинаковой длины. После чего происходит принятие решения. Алгоритм распознавания изолированных слов [30]: 1. каждый вновь поступивший і-й участок речевого сигнала сравнивается со всеми допустимыми і-ми участками эталонных слов; 2. допустимыми участками эталонного слова являются те, которые отличаются не более чем на А от оптимального значения; 3. решение о принадлежности к одному из эталонов принимается по максимуму сходства. Алгоритм распознавания слов и слитных фраз [33]: 1. слово представляется некоторой исходной эталонной последовательностью элементов (звуков); 2. каждому слову сопоставляется совокупность эталонных последовательностей, которые получены растяжением элементов эталона по оси времени; 3. распознавание слова осуществляется путём направленного перебора эталонов.
Для слитной речи более применимо деление речевого сигнала на квазиоднородные участки. Алгоритмы, в какой-то мере реализующие подобную сегментацию в амплитудно-временной области, описаны в [54,102]. За основу в данной работе принимается способ, описанный в [62, 63, 64] применительно к сегментации экспериментальных кривых. В этих работах выделено два основных этапа сегментации: 1. Этап выделения характерных фрагментов; 2. Этап присвоения имени выделенным фрагментам состоящего из символов некоторого алфавита, соответствующих определённым типам фрагментов.
Общая идея алгоритма, применяющегося на первом этапе сегментации, основывается на наличии в сигнале участков с малоизменяющимися параметрами и сравнительно коротких переходных участков, характеризующихся быстрым изменением соответствующих параметров. Первый вид участков будет в какой-то мере соответствовать фонемной структуре языка диктора. Также от языка будет зависеть длительность переходных участков в речевом сигнале.
Таким образом, для выделения переходных участков вводится функция, оценивающая степень изменчивости и сложности поведения выбранного параметра. Участки, на которых такая функция принимает локально максимальные значения, принимаются за искомые переходные участки.
Важнейшим обстоятельством, определяющим выбор той или иной функции, является уровень априорной информации о параметрах, от которых зависит функция, на элементарных фрагментах. Можно выделить две группы алгоритмов сегментации в соответствии с двумя уровнями используемых в них априорных знаний о структуре речевого сигнала и о характере отражения этой структуры на используемых параметрах.
Первый высокий уровень априорной информации предполагает, что известно множество элементарных событий, определяющих переходные сегменты речевого сигнала, определен набор параметров, адекватный различиям проявления этих событий, и каждому элементарному событию сопоставлено конкретное сочетание значений параметров на соответствующем фрагменте.
Второй, низкий уровень характеризуется наличием лишь того или иного набора параметров, которые, как предполагается, позволяют различать элементарные фрагменты речевого сигнала, соответствующие отдельным событиям, но не определены ни множество элементарных событий, ни конкретные значения сопоставляемых им параметров сигнала.
Соответственно, при использовании алгоритмов с низким уровнем априорной информации сначала проводится разбиение всего сигнала на участки, после чего происходит классификация полученных сегментов. При использовании алгоритмов с высоким уровнем сегментация уже включает в себя классификацию выделенных участков.
Алгоритмы с высоким уровнем априорной информации могут быть разделены на две группы по принципу проведения сегментации.
К первой группе относятся алгоритмы, задачей которых является выделение границ различных информативных участков. Алгоритм сегментации должен разбить кривую на ряд участков, вплотную примыкающих друг к другу и характеризующихся одинаковым набором значений параметров на каждом из этих участков речевого сигнала. Исследование подобных алгоритмов применительно к сегментации речевых сигналов не дало удовлетворительных результатов [29, 52,104].
Вторая группа алгоритмов основана на выделении участков, соответствующих какому-либо одному определенному классу. В этом случае алгоритм сегментации должен выделять лишь некоторые фрагменты, рассматриваемые как информативные, пропуская остальную часть сигнала. Решение задачи стоящей на втором этапе сегментации, то есть задача присвоения выделенному фрагменту имени фактически представляет собой определение класса фонемы заданного языка.
В общем виде задача определения класса фонемы может рассматриваться как определение некоторого отношения эквивалентности на сегментах речевого сигнала, обладающих заданным свойством [60]. Естественно, чем более мелкое разбиение множества сегментов на классы эквивалентности будет задано, тем с одной стороны оно будет ближе к фонемному составу, с другой - надёжность распознавания этих сегментов в заданном разбиении будет ниже. Один из возможных вариантов решения этой задачи - применение понятия образующей, введённого в работе [42]. Образующую можно рассматривать как некоторый эквивалент выделенного сегмента речевого сигнала. Фактически образующая является достаточно полным описанием сегмента [41, 50].
Критические полосы и шкала частот
Выше были приведены распределение частот по длине основной мембраны внутреннего уха, шкала частот, воспринимаемых человеком, зависимость ширины критической полосы от воспринимаемой частоты, а также распределение волосковых клеток по длине мембраны.
Исходя из этих особенностей слуховой системы человека, для предварительной обработки необходимо выбрать систему фильтров, учитывающую законы восприятия сигналов на периферии слуховой системы [16, 17]. Одним из основных моментов при построении модели обработки речевого сигнала на периферии слуховой системы является установление зависимости между шириной критической полосы и шкалой частот. Особенности обработки сигналов в слуховой системе связаны с тем, что система фильтров формирует нелинейную, близкую к логарифмической, шкалу частот анализа. Это обеспечивает близкую к равномерной относительную погрешность измерения частоты во всем диапазоне.
Зависимость ширины критической полосы от центральной частоты F(x), где/ф(л:) - ширина критической полосы слуховой системы; FKp(x) -ширина критической полосы (моделирование) [18] при а=0,109 и (3=69, На рис. 2.3 представлена зависимость ширины критической полосы от центральной частоты, в которой шкалы распределены логарифмически. Если представить график (рис. 2.4) с распределенными логарифмически резонансной частотой и шириной критической полосы, то данная зависимость выглядит следующим образом (рис. 2.5):
Зависимость ширины критической полосы от центральной частоты, полученная при моделировании Будем считать, что каждой центральной частоте критической полосы соответствует точка на основной мембране внутреннего уха с резонансной частотой F(x). Предположим, что количество п фильтров, которые укладываются на отрезке основной мембраны, соответствующей данной критической полосе постоянно. Основанием этого предположения является то, что волосковые клетки равномерно распределены по длине основной мембраны [89]. Тогда, смещение резонансной частоты соседнего фильтра с координатой х-Ах (Ах - расстояние между соседними резонансами) будет определяться величиной.
Это предположение можно трактовать так, что количество волосковых клеток, попадающих в одну критическую полосу, в среднем постоянно и это обеспечивается тем, что шкала частот, формируемая в слуховой системе, определяется распределением резонансных частот по длине основной мембраны, а ширина критической полосы зависит от резонансной частоты.
Следовательно, последовательность резонансных частот системы фильтров, то есть распределение резонансных частот по длине основной мембраны, будет определяться следующим рекуррентным соотношением.
Учет сформулированных положений позволяет установить функциональную зависимость между шириной критической полосы и шкалой частот. При этом равномерное распределение зависимости ширины критических полос от резонансных частот соответствует данным о примерно постоянном количестве волосковых клеток на участках мембраны внутреннего уха, соответствующих критическим полосам [84]. 2.3 Система фильтров
Экспериментальные данные, полученные Бекеши [13], позволяют взять за основу модели основной мембраны систему резонансных фильтров. При определении свойств будем ориентироваться на данные психоакустики, в основном на понятие критической полосы. Построение модели, учитывающей свойства слуховой системы, возможно при правильном соотношении критических полос слуха и добротностей Q(x) системы фильтров.
Таким образом, предложена система фильтров модели внутреннего уха (основной мембраны). Показано, что она не противоречит экспериментальным данным, полученным Бекеши. Для окончательного определения параметров системы фильтров необходимо установить связь между шириной критических полос и добротностью (2.11). Это возможно на основе анализа разрешающей способности системы фильтров по времени и частоте.
Система фильтров (2.24) имеет конечную разрешающую способность по времени и по частоте, что обеспечивается конечностью окна анализа (2.13). Разрешающие способности по времени и частоте являются взаимосвязанными величинами, поэтому, для их определения удобно воспользоваться понятием тела неопределенности, известного из теории радиолокации [31].
Для определения разрешающей способности системы нет необходимости в полном построении тела неопределенности. Выделить наиболее характерные части тела можно с помощью диаграмм неопределенности.
Алгоритм сегментации речевого сигнала по наличию голосового источника
Определение наличия периодической структуры на сегменте речевого сигнала состоит из нескольких параллельных этапов: 1. определение вокализации временных отсчетов; 2. уменьшение ошибок первого рода, т.е. исключение участков, неверно определенных как вокализованные; 3. уменьшение ошибок второго рода, т.е. добавление к вокализованным интервалов, сначала определенных как невокализованные. Сам сегмент представляет собой интервал времени, все отсчеты которого имеют один и тот же признак вокализованности. Граница сегмента в данном случае - это временной отсчет, при переходе от которого к следующему происходит смена признака вокализованности. Алгоритм выделения вокализованных участков речевого сигнала представлен на рис. 3.7-3.8 [20].
Обозначения, используемые в алгоритме: Vt - бинарный признак вокализации текущего временного отсчета; Vt.\ - бинарный признак вокализации предыдущего временного отсчета; V(t\,t) - бинарный признак вокализации интервала от t\ до t; V(hA) - бинарный признак вокализации интервала от t2 до U; mini - минимальная длительность вокализованного сегмента; mini - минимальная длительность невокализованного сегмента, находящегося между двумя вокализованными; t - текущий момент времени; t\ - момент времени начала текущего вокализованного сегмента; ti - момент времени конца предыдущего вокализованного сегмента; Т- длительность сигнала; Dif- разность номера канала, соответствующего частоте основного тона, на текущем временном отсчете и номера канала на предыдущем временном отсчете, т.е.
Алгоритм определения наличия периодической структуры на временном отсчете речевого сигнала (подпрограмма Vocal) Применение только первого этапа при расстановке границ сегментов (рис. 3.8) приводит к появлению большого числа вокализованных сегментов с малой длительностью, а также невокализованных участков, располагающихся в основном на месте образования звонкой смычки.
Блок сокращения ошибок первого рода состоит из двух частей: 1. проверка изменения частоты основного тона; 2. ограничение минимальной длительности вокализованного участка -порог mini. Частота основного тона по причине инертности механизмов артикуляции не может изменяться скачкообразно, поэтому было введено ограничение на разность между номерами каналов, соответствующих частоте основного тона, соседних временных отсчетов. Эти два канала фильтрации должны быть соседними. Ограничение минимальной длительности позволяет не учитывать непродолжительные участки, определенные как вокализованные.
Выбор порога mini определяется данными из психоакустики. Например, в [67] приводятся данные о восприятии изменения высоты звука человеком: время восприятия подобных изменений зависит от скорости психологических реакций. Для частоты основного тона равной 100 Гц время восприятия составляет примерно 50 мс, для 1000 Гц - 20 мс. В [5] приведены похожие данные: на низких частотах для распознавания высоты тона требуется примерно 60 мс, для частот от 1 до 2 кГц - 15 мс. В тоже время для сложных звуков это время увеличивается, для звуков речи может составлять 20-30 мс.
Таким образом, с учетом определения ЧОТ в диапазоне от 70 до 400 Гц, значение порога mini во время проведения экспериментов было приравнено к 0,033 сек.
Значение порога mini, позволяющего исключить короткие невокализованные участки, которые возникают внутри вокализованных сегментов, выбиралось исходя из данных по разрешающей способности системы фильтров по времени. Неопределенность по времени для частотного диапазона, в котором изменяется частота основного тона, составляет от 0,015 до 0,025 сек (рис. 2.16). Поэтому порог mini был выбран равным 0,025 сек.
Для выбора наилучшего значения порога тіп и оценки надежности сегментации русской слитной речи использовался речевой материал, включающий отрывок текста, состоящий из 36 сегментов, произнесённый 10 дикторами (5 мужчин и 5 женщин). И отрывок другого текста, состоящего из 190 сегментов, произнесённый диктором мужчиной. Общее количество сегментов в исследовавшихся текстах составило 550 сегментов.
Значение исследуемого порога тіп варьировалось от 4 до 8. Весь речевой материал был отсегментирован вручную с точностью до сотых долей секунды. Исследование заключалось в сравнении временных значений границ сегментов, полученных при помощи автоматической сегментации, с границами, полученными при помощи ручной сегментации.
В научных изданиях чаще всего встречаются алгоритмы с приведенными качественными характеристиками сегментации, например [101]. Это связано, в том числе, с отсутствием единой методики анализа результатов сегментации. Так, в [109] в качестве количественной оценки использовалось среднеквадратичное отклонение значения автоматически определенной границы от проставленной вручную.
Более корректной методикой определения качества сегментации следует признать методику, приведённую в [85]. В качестве показателей определения качества сегментации предлагается использовать: процент пропущенных границ; процент границ, положение которых найдено с точностью не менее 15 мс; отношение числа автоматически найденных сегментов к числу сегментов, указанных при ручной сегментации.
Основываясь на данной методике, были выбраны следующие критерии оценки качества сегментации (все значения относительно общего количества границ, проставленных при ручной сегментации): 1. Относительное количество пропущенных существующих границ; 2. Относительное количество определенных несуществующих границ; 3. Относительное количество правильно определенных временных значений границ. В связи с наличием переходных участков между соседними звуками, т.е. коартикуляцией, погрешностью в 0,01 сек можно пренебречь. Соответственно, правильно определенным временным значением границы при автоматической сегментации будет являться отличие от ручной не более чем в 0,01 сек.
Для всех трех опытов количественные характеристики надежности сегментации не слишком различаются, так, например, относительное количество правильно определенных сегментов составила - 0,93, 0,89 и 0,91. Эти результаты позволяют сделать вывод о применимости и равнозначности данного алгоритма к мужским и женским голосам, а также к текстам различной длительности. Таким образом, суммарные количественные характеристики равны: 1. Относительное количество пропущенных существующих границ: Р=0,02; 2. Относительное количество определенных несуществующих границ: Р+=0,09; 3. Относительное количество правильно определенных временных значений границ (с учетом погрешности в 0,01 сек): Р0+ Pi=0,91. Как отмечалось в 1 главе, сегментация по наличию голосового источника является одним из этапов уровня сегментации иерархической модели речевой системы и, соответственно, не зависит от структуры языка. Как следствие, надежность алгоритма сегментации применительно к различным языкам должна быть примерно одинаковой.
Исследование проводилось на 30 фразах с проведенной ручной сегментацией, произнесенных на английском языке диктором-мужчиной носителем языка, взятых на сайте [125].
Предложенная на данном источнике ручная сегментация проводилась по правилам транскрибирования английского языка с добавлением двух видов сегментов: звонкой и глухой смычки, которые учитывались как часть вокализованного и часть невокализованного сегмента соответственно.
Существующие методы диагностики и лечения рака гортани
Одними из основных проблем при диагностике рака гортани являются отсутствие объективных параметров, позволяющих точно определить тяжесть заболевания, и сложность выявления ранних форм заболевания, что зачастую приводит к недостаточно точной диагностике. На данный момент 60-70% больных раком гортани выявляется в III-IV стадии опухолевого процесса. Это происходит по нескольким причинам. Среди них: 1. бессимптомность течения болезни, которая отмечается у 30-35% больных; 2. недостаточная информативность метода непрямой зеркальной ларингоскопии, наиболее часто применяемой ЛОР-врачами; 3. недостаточная онкологическая настороженность врачей поликлинического звена, что в некоторых случаях приводит к ошибочной диагностике. Существует немало видов диагностики рака гортани [28, 72, 90, 100]: непрямая ларингоскопия, диафоноскопия, электронная стробоскопия, фиброларингоскопия, компьютерная томография, магнитно-резонансная томография, рентгенологическое исследование, радиоизотопная диагностика, люминесцентный анализ, биопсия. Многие из этих видов диагностики требуют применения специальных, часто дорогостоящих, приборов, что препятствует их повсеместному использованию. Часть этих методов не обладает необходимой точностью при ранней диагностике рака гортани.
Наиболее распространенным, простым и доступным методом диагностики является зеркальный осмотр, который не всегда позволяет осмотреть гортанную поверхность надгортанника, фиксированный его отдел, переднюю комиссуру, гортанный желудочек, подскладочный отдел. Именно на данных зеркального метода исследования базируется первичный диагноз больного, который дает от 30 до 50% ошибок [90].
Гистологическое исследование материала, полученного при биопсии, является первенствующим методом подтверждения клинического диагноза рака гортани. Однако, внутригортанная биопсия через врожденные пути не всегда возможна, а у разных больных ее приходится выполнять повторно, что отдаляет начало лечения. Более того, результаты гистологического исследования материала, полученного при внутригортанной биопсии, в том числе повторной, могут быть отрицательными, если биопсия взята не из очага ракового роста.
Таким образом, создание метода, позволяющего оценить изменения, происходящие в системе голосообразования человека, без дополнительного привлечения специальных приборов, но с сопоставимым уровнем качества, позволит увеличить процент выявления заболеваний на ранних стадиях.
Предлагаемый подход к ранней диагностике рака гортани заключается в выявлении изменений речевого аппарата вследствие болезни, их влияния на речевой сигнал и, как следствие, формировании критериев анализа речевого сигнала для определения наличия заболевания по голосу.
Основными методами лечения рака гортани являются: лучевая терапия, химиотерапия и хирургический метод.
В случае применения хирургического метода, возможно как полное удаление гортани, так и частичная резекция. При полном удалении гортани человек лишается возможности говорить привычным для себя образом. По отношению к частичной резекции исследования [79] показали, что основное влияние на разборчивость речи (восприятие звонкости/глухости) оказывает объем проделанной резекции, т.е. чем больше объем операции, тем хуже разборчивость речи.
При I-II стадиях заболевания в Европе и США используют лучевую терапию в 81-97% случаев. В Росси лучевая терапия используется реже. В настоящее время в России лучевую терапию применяют в качестве самостоятельного метода при лечении 56,7% больных раком гортани, хотя у 80% из них диагностируют III-IV стадию заболевания. У большинства из них удается добиться лишь временной стабилизации процесса, после чего в течение первого года рост опухоли возобновляется.
При раке гортани I стадии клиническое излечение без рецидивов продолжительностью более 5 лет составляет: при раке голосовых складок - 79-87%, при надскладочной локализации - 48-68%. Применение лучевой терапии при раке гортани II стадии как самостоятельного метода обеспечивает клиническое излечение у 70-76%.
Довольно часто используется комбинированная химиолучевая терапия. В этом случае сначала проводится курс химиотерапии, после чего через 2-3 дня начинают курс лучевой терапии. Если через 2 недели регрессия опухоли ярко выражена (уменьшение опухоли более чем на 50%), то продолжают лучевую терапию [69].
Как лучевая, так и химиотерапия проходят в несколько этапов, в интервалах между которыми необходимо, наблюдать за качеством проводимого лечения с возможностью его прерывания в случае отсутствия улучшений. Это может привести к определенным проблемам в случае невозможности частых рентгенографических или томографических исследований.
Соответственно, наиболее безопасное и простое в применении наблюдение за состоянием больного в ходе лучевой или химиотерапии может быть достигнуто путем анализа изменения характеристик речевого сигнала, вызванного изменением структуры речеобразующего тракта.
Блок выделения параметров речевого сигнала подразделяется на: 1. модуль вычисления массива значений интенсивностей I(t, к) (2.53); 2. модуль вычисления массива значений мгновенных частот F(t, к) (2.55). Блок выделения вокализованных участков речевого сигнала подразделяется на: 1. модуль одновременной маскировки речевого сигнала (2.58); 2. модуль определения наличия периодической структуры на одном временном отсчете речевого сигнала (рис. 3.8) путем свертки речевого сигнала после одновременной маскировки Po(k,t) с набором масок Рм(к,ко) (3.12) в зависимости от величины порога min; 3. модуль сегментации речевого сигнала по наличию голосового источника (рис. 3.7) в зависимости от величины порогов mini и mini; реализован вывод результатов сегментации (временных значений границ сегментов) как на монитор, так и в файл.
Речевые сигналы группы дикторов со второй стадией заболевания характеризуются как нестабильностью частоты и интенсивности основного тона (характерной для первой стадии), так и практически полным исчезновением периодической структуры на звуках, которые должны образовываться с участием голосового источника. У двух дикторов из этой группы на сегментах, соответствующих гласным звукам, периодичность либо наблюдается на отдельных участках, либо отсутствует вовсе (рис. 4.6). При этом формантная структура гласных сохраняется на всём протяжении сегмента.