Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Калюжный Михаил Васильевич

Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи
<
Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Калюжный Михаил Васильевич. Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи : диссертация ... кандидата технических наук : 05.11.17 / Калюжный Михаил Васильевич; [Место защиты: С.-Петерб. гос. электротехн. ун-т (ЛЭТИ)].- Тверь, 2009.- 178 с.: ил. РГБ ОД, 61 09-5/1983

Содержание к диссертации

Введение

Глава 1. Технические средства реабилитации людей с нарушениями зрения 11

1.1. Проблема реабилитации слепых и слабовидящих 11

1.2. Пути решения проблемы реабилитации слепых и слабовидящих . 13

1.3. Электронные компенсационные TCP слепых и слабовидящих 15

1.3.1. Аппаратные средства реабилитации 15

1.3.2. Программные средства реабилитации 16

1.3.3. Автономные средства реабилитации 28

1.4. Оценка эффективности TCP 31

1.5. Качество синтезируемой речи как фактор эффективности средств реабилитации 35

1.6. Постановка задач диссертации 38

Выводы по главе 1 39

Глава 2. Модели просодии речевого сигнала 40

2.1. Классификация речевых сигналов 40

2.2. Влияние строения голосового аппарата на характеристики естественной речи 43

2.3. Элементы речевого сигнала 46

2.4. Частотная характеристика источника возбуждения PC 49

2.5. Характеристики речевого тракта. Форманты 51

2.6. Распределение пауз в речевом сигнале 56

2.7. Методы синтеза речи 57

2.8. Просодическая параметризация в системах синтеза речи 59

2.9. Общая характеристика слуха как аппарата восприятия PC 66

2.10. Эмоции и их проявления в речи 72

2.11. Методика получения образцов эмоционально окрашенного PC... 80

2.12. Методика пофонемной оценки эмоциональности образцов PC . 83

2.13. Локализация эмоциональной компоненты в PC 86

2.14. Эмоциональная разборчивость зашумлённого речевого сигнала 93

Выводы по главе 2 95

Глава 3. Разработка и исследование модели эмоциональных проявлений в речевом сигнале 97

3.1. Параметрическое описание PC 97

3.2. Выделение периодов основного тона 98

3.3. Определение сегментов и их границ 100

3.4. Выбор функции аппроксимации 104

3.5. Дополнение модели просодии параметрами сегментов 108

3.6. Шаблонное представление сегментируемых участков 111

3.7. Средние значения параметров сегментов как признак эмоциональности 114

3.8. Карта принадлежности сегментов 121

3.9. Изменение параметров шаблонных сегментов 121

3.10. Кластеризация параметров шаблонных сегментов в соответствии с эмоциональностью фонем 123

3.11. Коррекция просодических характеристик PC изменением отношений параметров шаблонных сегментов 127

3.12. Кластеризация параметров шаблонных сегментов в скорректированных образцах 138

Выводы по главе 3 141

Глава 4. Программная реализация метода коррекции просодии речевого сигнала 144

4.1. Система реабилитации незрячих и слабовидящих с коррекцией параметров синтезируемого речевого сигнала 144

4.2. Форматы представления данных при анализе и коррекции ЭОР . 154

4.3. Звуковой редактор "Sound" 156

4.4. Функции сегментации вокализованного участка 159

4.5. Алгоритм сегментации 160

4.6. Алгоритм вычисления шаблона 161

Выводы по главе 4 164

Заключение 165

Список литературы 167

Приложения 171

Введение к работе

Современное общество, следуя в своём развитии принципам гуманизма, должно обеспечивать равные права и возможности каждому человеку. Поэтому актуальной проблемой является реабилитация инвалидов и просто людей с ослабленным здоровьем. Согласно определению ВОЗ, «реабилитация — это координированное применение медицинских, социальных, педагогических и профессиональных мероприятий в целях подготовки (переподготовки) индивидуума на оптимум активной жизнедеятельности и трудоспособности» [1]. Современная медицина рассматривает реабилитацию людей с ограниченными возможностями как комплексный процесс, состоящий из нескольких этапов и включающий в себя множество аспектов.

Актуальность темы. Весьма распространённой патологией являются нарушения зрения различного генеза. Для людей с нарушениями зрения применение различных технических средств' является традиционным, распространённым и наиболее эффективным способом реабилитации. В тоже время возможность и эффективность использования того или иного технического средства реабилитации (TCP) зависит от множества факторов, среди которых основными являются характер и степень патологии, а также степень важности задач, решаемых в процессе реабилитации.

Реабилитация людей с нарушениями зрения обычно направлена на решение таких задач, как обеспечение возможности ориентироваться в пространстве и самостоятельно передвигаться, обслуживать себя в быту, заниматься профессиональной деятельностью, общаться с другими людьми, получать информацию из внешних источников и передавать информацию вовне. Таким образом, основной задачей реабилитации слепых и слабовидящих является восстановление информационного обмена между реабилитируемым лицом и внешним миром, нарушенного вследствие зрительной патологии.

Анализ средств реабилитации позволяет выделить два основных подхода к проблеме:

  1. Коррекционный подход — восстановление, коррекция или поддержание на приемлемом уровне функций, утраченных либо ослабленных ввиду патологии.

  2. Компенсационный подход - использование возможностей других функциональных систем организма для компенсации функциональной недостаточности поражённой системы.

Так, при реабилитации людей с нарушением зрения первый подход реализован в применении TCP, позволяющих увеличить резкость, размер или контраст изображения и тем самым дать возможность человеку воспринимать информацию визуально. К таким средствам относятся очки, контактные линзы, оптические увеличители и проч. Второй»подход в данном случае подразумевает использование других каналов восприятия - осязания и слуха, и построен на применении рельефных изображений, специальных рельефных шрифтов, а также звуковых сигналов, главным образом речи.

В последние годы происходит интенсивное развитие речевых технологий, ставшее возможным благодаря развитию вычислительной техники, появлению технологий Multimedia, распространению мобильной связи, появлению новых классов мобильных устройств. Синтез и распознавание речи перестают быть экзотикой, становясь базовыми функциями операционных систем современных компьютеров и других электронных устройств.

В условиях всё возрастающего объёма информации, с которым приходится иметь дело современному человеку, одной из важнейших проблем является оптимальная организация взаимодействия между человеком и информационной средой. В свете этого выглядит перспективным использование речевого интерфейса в качестве дополнительного канала обмена информацией. Однако более важным направлением является применение речевого интерфейса людьми с ограниченными возможностями, например с заболеваниями органов зрения или опорно-двигательного аппарата.

Научно-техническая революция и развитие информационных технологий, повсеместное распространение персональных компьютеров и других

7 классов цифровых вычислительных и коммуникационных устройств отчасти способствовали решению проблемы реабилитации, предоставив людям с различными физическими ограничениями новые возможности для работы, образования, получения информации, общения и отдыха, но вместе с тем породили и новые проблемы.

Так, для людей с ослабленным зрением работа на компьютере, использующим для вывода информации алфавитно-цифровой или графический дисплей, сопряжена с большими трудностями, а иногда и просто невозможна. Поэтому весьма актуальной представляется разработка и внедрение специальных средств реабилитации, позволяющих людям с ослабленным зрением пользоваться!компьютером, не испытывая неудобств.

Проблемная ситуация заключается^ том, что существующие системы синтеза речи не пригодны для длительного использования, поскольку синтезируемый ими речевой сигнал звучит несколько неестественно, что при продолжительном прослушивании негативно. влияет на человека. Проведённые исследования показали, что при длительном прослушивании синтезированной речи у человека значительно ослабевает внимание, появляется ощущение усталости и дискомфорта. Всё это говорит о низкой эргономичности современных речевых интерфейсов.

Разрешение противоречия между требованиями, предъявляемыми к системам синтеза речи и существующими технологиями возможно путём создания качественно новых моделей, позволяющих более полно описывать речевой сигнал, учитывая его характеристики, влияющие на восприятие его слушателями.

Проведённый анализ показывает, что одним из важнейших факторов, влияющих на восприятие речи слушателем и несущим немалую информационную нагрузку, является эмоциональный окрас речи. В то же время моделей, описывающих проявление эмоций в речи* до сих пор не создано. Попытки моделирования эмоционально окрашенной речи (ЭОР) активизировались в последние годы. Это можно объяснить изменившимся взглядом на пер-

8 спективы применения речевых технологий, а также значительным ростом доступных вычислительных ресурсов.

Целью работы является создание моделей, алгоритмов и программного обеспечения, позволяющего синтезировать естественно звучащий речевой . сигнал, и разработка на их основе системы реабилитации слабовидящих.

Задачи исследования. Для достижения поставленной цели в диссертации необходимо решить следующие задачи:

  1. Выполнить функционально-структурный анализ существующих подходов к решению задачи реабилитации незрячих и слабовидящих, а также способов их реализации в современных TCP.

  2. Выполнить анализ роли и места средств речевого вывода в TCP, способов формирования PC и методов оценки качества PC.

  3. Определить параметры, позволяющие количественно описывать характеристики, влияющие на качество сигнала. Разработать алгоритмы, оценки и модификации^ параметров, определяющих различие естественного и искусственного речевых сигналов.

  4. Разработать методику и провести экспериментальные исследования с целью получения образцов PC с заданными характеристиками; а также с целью оценки характеристик естественных и модифицированных PC.

  1. Разработать алгоритмическое и программное обеспечение для анализа и коррекции просодических характеристик PC, обеспечивающее синтез естественно звучащей эмоционально окрашенной речи.

  2. Разработать архитектуру программной системы реабилитации слабовидящих на основе созданных моделей и алгоритмов синтеза естественно звучащей речи, выполнить экспериментальную проверку новых моделей и алгоритмов.

Методы исследования. Для решения' поставленных задач в качестве базовой методологии, являющейся основой исследования, в работе использовались методы структурного системного анализа. Также в работе использовались методы обработки сигналов, теории вероятностей и математической

9 статистики, теории нечётких множеств, методы кластерного анализа, теории биотехнических систем и элементы психологии эмоций. Новые научные результаты:

  1. Информационная модель просодии, описывающая взаимосвязи между факторами, характеристиками и параметрами для естественного и для синтезируемого речевого сигнала.

  2. Экспериментальная методика получения образцов PC, различающихся по эмоциональному окрасу.

  3. Методика пофонемной оценки эмоциональности речевого сигнала.

  4. Экспериментально подтверждённая гипотеза о локализации эмоциональной компоненты на гласных и вокализованных звуках PC.

  5. Сегментарная модель представления вокализованных участков PC. Практическая ценность работы:

  1. Алгоритм коррекции эмоционального окраса речи путём изменения, па-раметровхегментарной модели PC.

  2. Программное обеспечение для коррекции просодических, в т.ч. эмоциональных характеристик PC на основе сегментарной модели, позволяющее проводить сегментацию PC, вычислять параметры шаблона, их приращения и отношения, редактировать значения параметров, работать с файлами параметров, синтезировать PC по заданным параметрам.

  3. Компоненты ПО для речевых движков, реализующие коррекцию эмоциональных характеристик присинтезе речи.

  4. Результаты экспериментальных исследований, подтверждающие достоверность предложенных методик, моделей и алгоритмов.

  5. Архитектура программной системы реабилитации слабовидящих на базе приложения типа «Голосовой менеджер» и речевого движка, реализую-щего синтез речи на основе настраиваемой сегментарной модели. Внедрение результатов. Результаты диссертационной работы внедрены

в ОАО НПП "ЭРГОЦЕНТР" (г. Тверь) ; внедрены в НПО «Вымпел» (г. Тверь); создан учебный стенд, используемый в учебном процессе Тверского

10 государственного технического университета.

Апробация результатов работы. Научные и практические результаты диссертационной работы докладывались и обсуждались в 2005-2008 годах на V Международной научно-технической конференции «Электроника и ин-форматика-2005» (МИЭТ, Зеленоград, 2005), на «Научной сессии МИФИ-2008» (МИФИ (ГУ), Москва, 2008) и на XXI Международной НТК «Математические методы в технике и технологиях (ММТТ-21)» (СГТУ, Саратов, 2008).

Основные положения, выносимые на защиту:

  1. Возможно управление эмоциональной характеристикой синтезируемой речи путём изменения параметров гласных фонем.

  2. Сегментарная модель позволяет описывать гласные участки речевого сигнала без потери качества.

  3. Методика коррекции параметров шаблонных сегментов позволяет изменять эмоциональный окрас речи, сохраняя индивидуальные особенности голоса.

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 7 работах, среди которых 1 публикация в ведущих рецензируемых изданиях, рекомендованных в действующем перечне ВАК, а также 2 статьи в других журналах и изданиях, 3 публикации в трудах международных научно-технических конференций, Основные положения защищены 1 свидетельством на программу для ЭВМ.

Структура и объем работы. Диссертация состоит из введения, 4 глав с выводами, заключения, списка литературы и приложений. Основное содержание работы изложено на 137 страницах машинописного текста, 32 рисунках, 29 таблицах, 2 приложениях. Список использованной литературы включает 69 наименований, среди которых 38 отечественных и 31 иностранных авторов.

Пути решения проблемы реабилитации слепых и слабовидящих

К аппаратным средствам относятся специальные устройства тактильного вывода: брайлевские экраны, отображающие текст рельефно-точечным шрифтом Брайля на специальной панели, прислонив пальцы к которой, пользователь может прочесть сообщение; т.н. тактильные мониторы, отображающие не только текст, но и изображения в рельефном виде; специальные принтеры, способные печатать текст шрифтом Брайля; клавиатуры компьютеров с рельефными метками.

Немецкая компания «BAUM», специализирующаяся на разработке средств реабилитации слепых и слабовидящих, предлагает брайлевские панели «Vario» [4], подключаемые к компьютеру через СОМ- или LPT-порт и размещаемые перед или под обычной клавиатурой. Существуют варианты, отображающие строку длиной 40 или 80 символов азбуки Брайля. Устройство может работать в режиме бегущей строки, направление и скорость смещения настраиваются. «Vario» имеет собственный аккумулятор и может использоваться с ноутбуком в автономном режиме.

В Национальном-институте стандартов и технологии США в 2002 году разработан прототип устройства под названием "тактильный графический дисплей" [5], позволяющий незрячим работать с двухмерными изображениями. Изображения, передаваемые новым устройством, построены на том же принципе, что и шрифт Брайля. Машина использует матрицу, состоящую из тысяч игл, которые по команде компьютера могут приподниматься или опускаться на место, создавая рельефные изображения или текст. Цена устройства около $2000.

Американская компания «ViewPlus» разработала принтер, который печатает шрифт Брайля и видимый текст одновременно на одной стороне листа [6]. Цена устройства $3995. Наряду с рассмотренными специальными средствами, для целей реабилитации могут использоваться также средства общего5 назначения, такие как звуковые карты, микрофоны, наушники и аудиосистемы.

В качестве программных средств, используемых в целях реабилитации, обычно выступают программы экранного доступа (ПЭД) или голосовые менеджеры (ГМ). Программа экранного доступа — приложение, задачей которого является обеспечение доступа пользователей с нарушениями зрения к информации, отображаемой на экране компьютера.

Функциями ПЭД являются увеличенное и контрастное представление фрагментов экрана, обеспечение взаимодействия с устройствами тактильного вывода и управление синтезом речи.

Наиболее распространёнными приложениями данного класса являются «VIRGO» [7] немецкой фирмы «BAUM» и «JAWS» [8] американской компа ний «Freedom Scientific».

Основные компоненты «VIRGO» версии 4 основаны на MSAM-проекте, который был основан фирмой «Microsoft» в сотрудничестве с «BAUM», Испанской Организацией Слепых (ONCE) и компанией «Eurobraille». Эти компоненты непрерывно развиваются участниками проекта и тестируются фирмой «Microsoft» на предмет совместимости с текущими и будущими программными продуктами. «VIRGO» предлагает два режима доступа: режим фокусировки и режим проводника.

Режим фокусировки активизируется в приложениях ОС Windows с помощью клавиатуры или мыши. «VIRGO» следует за фокусом и передает всю важную информацию с экрана через брайлевский дисплей и речевой вывод. Элементы, на которые наводится курсор на экране, отображаются на брай-левском дисплее вместе с указанием типа, элемента, что облегчает пользователю чтение значения элемента.

Режим проводника активизируется всякий раз, когда пользователь перемещает брайлевский дисплей или речевой вывод с помощью навигационных клавиш. Дисплей больше не следует за фокусом, и пользователю доступен полный набор команд по горизонтальному и вертикальному движению брай-левской строки, а также речевой вывод в пределах текущего окна.

«VIRGO» позволяет пользователю выбирать, какую информацию отображать на брайлевском дисплее, а какую произносить голосом. Пользователи могут воспользоваться преимуществом детального вывода на брайль и использовать речь для быстрого краткого обзора текстовой информации, обратной связи, для команд или автоматического чтения всплывающих сообщений. Комплексный подход «VIRGO», сочетая тактильный и речевой вы-вод, с одной стороны, позволяет избежать напряжения, связанного с продолжительным чтением рельефного шрифта, а с другой - избавляет от длительного прослушивания синтезированной речи, способного ввиду невысокого качества речи вызвать дискомфорт и усталость. Сочетание же заставляет пользователя время от времени переключать внимание и позволяет избежать ощущения монотонности занятия. Это делает работу более удобной. «VIRGO» поставляется с речевым синтезатором IBM ViaVoice/Outloud и поддерживает русский, немецкий, английский, французский, испанский и итальянский языки. Можно переключаться с одного языка на другой, или даже дифференцировать языки при чтении. Например, меню могут читаться по-английски, в то время как текст читается по-русски. Эти параметры могут быть легко сохранены в режиме установки параметров. Другие языки можно инсталлировать в стандарте SAPI [9]. «VIRGO» поддерживает сценарии на VisualBasic, что позволяет автоматизировать задачи или оптимизировать конфигурацию. На сайте разработчика доступна библиотека сценариев.

Имеются три системы справок, интегрированные в «VIRGO» и дополняющие друг друга. Руководство пользователя доступне как интерактивная, справка. Нажатием клавиши, «VIRGO» читает описание наиболее важных программных окон, используемых в данный момент.

По функциональности «JAWS» во многом аналогична «VIRGO». Среди особенностей «JAWS» стоит выделить следующие: Поддержка практически всех существующих брайлевских панелей. Настраиваемое распределение выводимой информации между тактильным и речевым выводом. Использование собственных речевых синтезаторов, а также (начиная с версии 3.3) поддержка MS Texto-Speech. Режим выборочного чтения, например, чтение первого предложения каждого абзаца, предложений с заданным словом, и по другим правилам, в т.ч. задаваемым пользователем. » Присвоение названий элементам веб-страниц, которые озвучивают сяпри получении элементом фокуса. Функция полезна в ситуациях, когда на страничках элементы управления выполнены как графические объекты, а тэги альтернативного представления не заданы.

Влияние строения голосового аппарата на характеристики естественной речи

С точки зрения физиологии, речь, являясь акустическим результатом некоторых формализованных движений дыхательных и жевательных органов человека, относится к моторным видам поведения, приобретаемым индивидом в процессе обучения.

Для развития и корректировки речи человека необходимо наличие акустической обратной связи органов слуха и кинестетической обратной связи-мускулатуры органов речи. Слуховая и кинестетическая информации систематизируются и координируются центральной нервной системой, после чего используются для управления речевой деятельностью. Повреждение любого из этих управляющих механизмов обычно понижает эффективность работы голосового аппарата. Об этом- свидетельствуют не только трудности, испытываемые слабослышащими людьми при обучении устной речи, но и трудности, испытываемые каждым человеком при обезболивании части ротовой полости для лечения или удаления зубов.

На звучание естественной речи оказывает влияние то, чем располагает человек для её порождения (особенности строения голосового тракта) и как он этим пользуется (сенсомоторные навыки).

В формировании звуков участвуют лёгкие, бронхи, трахея, гортань, глотка, носовая и ротовая полости.

Легкие играют роль источника энергии. При сжимании грудной клетки лёгочное давление возрастает. Воздух, вытесняемый из лёгких, проходит через трахею к гортани. На хрящевой основе гортани укреплены голосовые связки — две плёнки из связочной и мышечной ткани. Щелевой проход между связками называется голосовой щелью. Голосовые связки смыкаются и размыкаются, и эти действия носят колебательный характер.

Каждый период данного колебания протекает следующим образом. В начальный момент времени массивные и натянутые голосовые связки сомк нуты. Вследствие постоянного сокращения мышц грудной клетки и брюшных мышц подсвязочное давление возрастает до величины, достаточной, чтобы раздвинуть связки с ускорением в поперечном направлении. По мере нарастания скорости воздушного потока давление в проходе между связками падает в соответствии с законом Бернулли, и возникает усилие, возвращающее связки в сомкнутое положение. При сближении связок воздушный поток уменьшается, и местное давление уравнивается с подсвязочным давлением. После этого цикл колебаний повторяется. Цикл колебаний может начаться и с разомкнутыми связками. В этом случае давление сначала приводит к смыканию связок. Период колебаний голосовых связок в основном определяется их массой и упругостью, а также величиной подсвязочного давления. Этот период обычно короче собственного периода колебаний связок, т.е. колебания связок являются вынужденными.

Колебания голосовых связок модулируют проходящий через голосовую щель воздушный поток, вследствие чего он приобретает вид последовательности импульсов. Частота импульсов называется частотой основного тона. Форма импульсов, зависящая от различий в строении голосовых связок и их тонуса, во многом задаёт тембр голоса. Звуки речи, в которых присутствует основной тон, называются вокализованными.

Сила воздушного потока, проходящего через голосовую щель, зависит (хотя и не строго пропорционально) от площади ее поперечного сечения. При средней громкости и средней частоте основного тона импульсы, создаваемые голосовой щелью, имеют форму, близкую к треугольной, а отношение длительности импульса к общему периоду колебаний, или скважность, составляет величину порядка 0,3 - 0,7. Однако форма импульсов может существенно изменяться в процессе разговора, в зависимости от частоты основного тона и интенсивности звука. Звуки малой интенсивности с низкой частотой основного тона образуются при низком подсвязочном давлении, большой скважности и малой амплитуде импульсов. Звуки большой интенсивности с высокой частотой основного тона характеризуются высоким подсвязочным давлением, небольшой скважностью импульсов и большой амплитудой. Величина поперечного смещения голосовых связок при образовании звуков речи, а следовательно, и максимальная площадь голосовой щели практически не зависят от интенсивности звука. Среднее пиковое значение площади голо-совой щели взрослого мужчины составляет величину порядка 15 мм" [34].

Воздушный поток, модулированный колебаниями голосовых связок, проходя через речевой тракт, возбуждает в нем акустические колебания на частотах его резонансов. Эти частоты определяются формой и объёмом полостей, а также состоянием их стенок, зависящим от мышечного и сосудистого тонуса. Нёбная занавеска делит воздушный поток между ротовой и носовой полостями в различной пропорции. При значительном перераспределении в носовую полость получаются назализованные (то есть произносимые «в нос») звуки. При определённой, артикуляции языка, зубов и губ в речевом тракте могут образовываться сужения (щели), проходя которые воздух за-вихряется, создавая шумы. Так образуются шумящие и шипящие звуки, называемые щелевыми. Источник возбуждения шумовых согласных может находиться и в голосовой щели, если её стенки не вибрируют.

Когда мы говорим, происходит постоянное изменение формы резонансных областей ротовой и носовой полостей, движение языка, нижней челюсти и губ, раскрытие и смыкание голосовых связок. Трудности акустического моделирования речевого тракта заключаются, прежде всего, в том, что речевой тракт представляет собой цепь с распределёнными параметрами. И описать процесс генерации звука можно только сложными волновыми уравнениями, даже без учета перестройки речевого аппарата при артикуляции. Поэтому на практике применяют упрощенные подходы, не всегда дающие удовлетворительный результат [35].

Наименьшим элементом речевого сигнала является звук. Звуки речи по способу их образования делятся на две большие группы: гласные и согласные. Гласные образуются при прохождении воздушного потока через ритмично колеблющиеся голосовые связки. Спектр гласного состоит из гармоник основного тона (ОТ), соответствующего частоте колебаний голосовых связок.

Большинство согласных имеют твердую и мягкую формы. По источнику возбуждения согласные делятся на вокализованные или сонорные (м, н, л, р) и шумовые (все остальные). Последние, в свою очередь, делятся на глухие (б, в, г, д, ж, з, й) и звонкие (к, п, с, т, ф, х, ц, ч, ш, щ). По месту образования звуки, как твердые, так и мягкие делятся на губные и губно-зубные (п, б, ф, в, м), переднеязычные зубные (с, з, т, ц, н, л), переднеязычные нёбные (ш, ж, ч, р), среднеязычные (й) и заднеязычные (к, г, х). Гласные делятся на передние и задние. По способу образования согласные делятся на шипящие (ф, с, ш, х, в, з, ж), взрывные (п, т, к, б, д, г), аффрикаты (ц, ч), носовые (м, н) ротовые или плавные (р, л).

Вокализованные согласные звуки, как и гласные, образуются вследствие колебательного движения голосовых связок (поэтому их спектр включает гармоники ОТ), а шумовые согласные образуются из-за турбулентностей, возникающих при прохождении воздушным потоком сужений речевого тракта.

Средние значения параметров сегментов как признак эмоциональности

По значениям отдельного столбца матриц Н, L, или К можно вычислить среднее значение соответствующего параметра сегмента. Установлено, что средние значения параметров большинства сегментов в шаблонах гласных фонем поддаются кластеризации в соответствии со степенью эмоционального окраса фонемы. Так, несколько образцов одной фонемы, отличающихся по степени эмоциональности, были просегментированы и преобразованы в шаблон. Затем были вычислены средние значения параметров /, h и к каждого сегмента шаблона на протяжении фонемы. По полученным результатам построены гистограммы, отражающие среднее значение параметра конкретного сегмента в различных образцах. В таблице 3.2. приведены средние значения длительности шаблонных сегментов нескольких образцов. В последнем столбце таблицы заданы границы интервалов, т.е. определены правила группировки значений. Е-интервал, содержащий значения преимущественно эмоциональных образцов, обозначен буквой «Е», а N-интервал с преимущественно нейтральными образцами — буквой «N». (Под эмоциональными здесь понимаются образцы, получившие при экспертной оценке (п. 2.4) средний балл 3 и более, а под нейтральными — образцы с баллом менее 3.) Таблица 3.3. имеет тот же размер, но вместо числовых значений в ячейках указан интервал, в который попадает данное значение. Так, если средняя длительность сегмента 2 образца о2е4ех05 имеет значение 17,25 и при этом интервалы для данного сегмента определены как E 28 N, то в таблице 3.2. в соответствующей ячейке будет указана литера «Е».

Если же количество литер «Е» в любом столбце таблицы 3.2. соотнести с количеством всех литер данного столбца, можно получить вероятность попадания средней длительности любого из выделенных сегментов в Е-интервал: Таким же образом были получены оценки вероятности для средних значений высоты и коэффициента формы (таблицы 3.4-3.7).

Результаты, полученные у большинства образцов, совпадают с нормализованным (переведённым из пятибалльной шкалы в диапазон значений [0,0..1,0]) средним баллом экспертных оценок, либо имеет близкое к нему значение (таблица 3.8).

Иными словами, частота попадания параметра в Е-интервал соответствует нормализованной экспертной оценке эмоциональности образца. Данное утверждение в большей мере справедливо для средней длительности и среднего коэффициента формы шаблонных сегментов. Возможно также сопоставление нормализованной экспертной оценки со средним значением частоты, вычисленным для всех параметров (/, h, к) выбранных сегментов данного образца.

Полученные гистограммы (рис. 3.8-3.9) наглядно указывают на возможность группировки средних значений в соответствии со степенью эмоциональности образцов. То есть на числовой оси, представляющей область возможных значений, можно выделить интервалы, содержащие значения образцов с преимущественно равной степенью эмоциональности.

Использование средних значений параметров шаблонных сегментов возможно лишь в задаче анализа эмоционального окраса PC, выполнить же коррекцию эмоциональности на основе средних невозможно, т.к. здесь никак не учитывается динамика параметров сегментов.

Для реализации алгоритма коррекции эмоционального окраса PC предлагается доработать подход на основе шаблонов следующим образом. При расчёте шаблона его следует рассматривать не как замену, а как дополнительную характеристику исходного сигнала. Если первоначально формирование шаблона подразумевало удаление «лишних» сегментов с малыми высотами, то теперь оно сводится только к их группировке.

Для решения этой задачи вводится новое понятие — карта принадлежности сегментов — таблица, составляемая при расчёте шаблона, в которой отражается, какие из сегментов исходного сигнала (назовём их нативнылш) войдут в состав того или иного шаблонного сегмента. При этом параметры шаблонных сегментов рассчитываются по-прежнему: длительность / и высота h любого шаблонного сегмента равны сумме соответствующих параметров нативных сегментов, а параметр формы к подбирается исходя из минимальной ошибки интерполяции.

Подобный подход позволяет реализовать алгоритмы коррекции на основе изменения параметров шаблонных сегментов, тогда коррекция сигнала сведётся к умножению параметров нативных сегментов, составляющих данный шаблонный сегмент, на коэффициент пропорциональности, равный отношению нового и старого значения параметра шаблонного сегмента.

Исходя из того, что эмоциональную характеристику звука определяет динамика параметров сегментов, дополнительно к шаблонному предложен и реализован следующий способ описания сигнала. Итак, просегментировав вокализованный участок PC, состоящий из Р периодов ОТ и рассчитав шаблон размером S, можно получить матрицы параметров L, Н, размером P S каждая ( 3.6.). Имея набор значений параметров конкретного сегмента, можно вычислить их изменения, соотнеся текущее значение параметра со значением в предыдущем периоде ОТ. Так, изменение параметров можно выразить через абсолютные приращения

Форматы представления данных при анализе и коррекции ЭОР .

Метод анализа и коррекции эмоционального окраса PC на основе разработанной: сегментарной модели вокализованных звуков, реализован программно в виде набора классов функций, позволяющих работать со следующими представ л ениями сигнала: 1. WAV - стандартный формат звуковых файлов в ОС Windows, использующий амплитудно-кодовую модуляцию (PCM — pulse code modulation) сигнала. В данной работе все операции с wav-файлами выполнялись в режиме моно, с частотой дискретизации 22050 Гц и разрядностью 16 бит: . 2. SEG— формат, разработанный для сохранения результатов сегментации WAV-файлов или их фрагментов. Данные представлены в ASCII-коде в виде таблицы, первая строка, которой содержит названия параметров, а все последующие—значения параметров І сегмен-тов, в том числе: Pos - позиция сегмента в файле, ВТ — номер периода ОТ, содержащего сегмент, NS — номер сегмента в периоде, L - длительность сегмента , Н - высота сегмента, H/Hbt - относительная высота сегмента в периоде ОТ, H/Hfr - относительная высота сегмента во фрагменте, К — коэффициент формы сегмента, SQO - среднеквадратичное отклонение значений отсчётов сегмента, рассчитанных по модели, от наблюдаемых значений отсчётов сегмента, D - дисперсия рассчитанных по модели и наблюдаемых . значений отсчётов.сегмента. 3. SHA - формат для сохранения шаблонов, рассчитанных в.соответ ствии с 3.6. Данные представлены; в ASCII-коде в виде таблицы, первая строка которой содержит названия параметров, а все после дующие - значения параметров сегментов, в том числе: Pos — пози ция сегмента в файле, ВТ - номер периода ОТ, ShS - номер шаб лонного сегмента в периоде, L - длительность сегмента , Н - высота сегмента. 4. SSH - формат для сохранения средних значений параметров шаблонных сегментов. В файл записывается последовательность значений, разделённых символом табуляции. Сначала среднее значение длительности нулевого сегмента, затем первого, и т.д. Затем в той же последовательности записываются средние значения высоты, а после - коэффициента формы. В конце через символ «%» записывается имя wav-файла, содержащего исходный сигнал. 5. MSH - формат для сохранения отношений параметров шаблонных сегментов.

В файл записывается последовательность значений, разделённых символом табуляции. Первое значение отражает, сколько отношений вычислено для каждого сегмента (что на единицу меньше числа сегментированных периодов ОТ), второе —-размер шаблона. Далее следуют значения отношения длительностей, найденные по формуле (3.31): сначала все значения для нулевого сегмента, затем для первого, и т.д. Затем в той же последовательности записываются отношения высот, найденные по формуле (3.32). В конце через символ «%» записывается имя wav-файла, содержащего исходный сигнал. Преобразование сигнала без ощутимой потери качества возможно только между WAV- и SEG-представлениями. Все остальные представления служат для анализа или коррекции просодических характеристик PC. Иными словами, имея набор данных сегментации в SEG-файле, можно получить звуковой ряд в формате wav. Если же имеется SHA-, SSH- или MSH-файл, то получить из него качественный звук возможно только при наличии WAV-или SEG-файла, который может быть модифицирован в соответствии с заданными параметрами шаблонных сегментов. Первоначально функции, позволяющие выполнять сегментацию звукового файла и получать звук исходя из заданных параметров сегментов, были реализованы в программе [68] для работы с экспериментальным материалом - образцами фонем, полученных из записей дикторов и различных по степени эмоционального окраса. При разработке программы за основу было взято демонстрационное приложение — звуковой редактор «Sound», описанный в [34]. Данное приложение позволяет работать с файлами формата wav: создавать, открывать, сохранять на диск, записывать в открытый файл сигнал со входов аудиокарты, воспроизводить файл. Редактор «Sound» является MDI-приложением, открытие каждого нового wav-файла вызывает появление нового окна документа, содержащего осциллограмму записанного сигнала. Редактирование сигнала выполняется путём выделения курсором нужной части осциллограммы и использованием операций с буфером («вырезать», «копировать», «вставить»). Функциональность приложения была расширена путём добавления следующих возможностей: сегментация выделенного фрагмента wav-файла, расчёт параметров сегментов и вывод в окно редактирования; редактирование рассчитанных либо загруженных параметров в специальном окне; расчёт шаблонов заданного размера; работа с файлами параметров (seg, sha, ssh, ash, msh); модификация звукового файла в соответствии заданными параметрами сегментов. Работа с приложением организована следующим образом: 1. Пользователь, открыв и прослушав wav-файл, выделяет в окне документа нужный фрагмент осциллограммы и выбирает в меню Операции - Сегментация (рисунок 4.3). 2. Процедура сегментации включает выделение периодов основного тона (ПОТ), их разбивку на сегменты, вычисление параметров сегментов. Вычисления производятся в соответствии с 3.2-3.4. Все вычисленные параметры фиксируются в соответствующих переменных, являющихся элементами двумерных массивов, первый индекс которых соответствует номеру ПОТ, второй - номеру сегмента. Результат вычислений выводится в виде таблицы в окно редактирования (рисунок 4.4). 3. Сохранение таблицы параметров сегментов в файл формата xls, txt, seg. Возможно копирование в буфер, а также редактирование в окне. 4. Вычисление шаблона в соответствии с 3.6. При нажатии кнопки «Шаблон» появляется одноимённое окно (рисунок 4.5), в котором необходимо задать размер вычисляемого шаблона (т.е. количество сегментов, приходящихся на один период ОТ), указать, следует ли вычислять средние значения параметров каждого сегмента в последовательности периодов. 5.

Сохранение параметров шаблонных сегментов в sha-, ssh-, ash- или msh-файл. 6. Анализ либо модификация параметров сегментов в других приложениях (Matlab, Excel и т.п.) и сохранение результата в файл (или буфер). 7. Загрузка модифицированных параметров сегментов в окно сегментации. Выполняется нажатием кнопки "Загрузить" в окне "Сегментация" и выбором нужного файла. Возможна вставка данных из буфера. 8. Модификация PC в соответствии с загруженными параметрами сегментов. Процедура выполняется при нажатии кнопки "Применить" в окне "Сегментация" и включает коррекцию (при необходимости) длины wav файла, последовательный расчёт новых значений отсчётов сигнала в соответствии с загруженными параметрами сегментов и вставку рассчитанных значений в выделенную область. 9. Воспроизведение получившегося речевого сигнала. 10. Сохранение изменённого PC в wav-файл. Также предусмотрены функции коррекции данных сегментации, используемые на нетиповых участках сигнала. К таким функциям относятся: добавление сегмента нулевой длины в нужную позицию, а также опрерации с конкретными сегментами: разбиение на три, удаление и сдвиг начала сегмента на нужное число отсчётов. Они вызываются кнопкой «Коррекция» окна «Сегментация» и установкой в открывающемся окне (рисунок 4.6) нужных параметров. Разработка позволила автоматизировать процесс обработки экспериментальных данных и верификации разрабатываемых алгоритмов коррекции эмоционального окраса PC. Для реализации описанных возможностей в исходный код программы «Sound» добавлено несколько новых классов, в том числе: CFragment - класс для работы с выделенным фрагментом сигнала, содержащий переменные и функции, позволяющие определять границы периодов основного тона ( 3.2) и границы сегментов ( 3.3), сдвигать, добавлять и удалять граничные точки. CSegment - класс для расчёта параметров сегмента ( 3.4) на участке сигнала, заданном граничными отсчётами. CShablon - класс для расчёта шаблонных сегментов ( 3.6), построения таблицы соответствия нативных и шаблонных сегментов, а также вычисления приращений и отношений параметров ( 3.9). CSegmDlg - класс диалогового окна «Сегментация» (рисунок 4.4). Содержит функции и переменные для взаимодействия с пользователем через элементы окна, в том числе обработчики событий, таких как нажатие кнопок 160 и изменение значений параметров в области редактирования. Также класс включает функции чтения и записи файлов параметров. CSegUseDIg - класс диалогового окна «Коррекция» (рисунок 4.6). CShabDlg - класс диалогового окна «Шаблон» (рисунок 4.5). Листинги классов приведены в приложении 1, ниже приведены блок-схемы алгоритмов некоторых ключевых функций. Разработка защищена свидетельством Роспатента на программу для ЭВМ. [69] Блок-схема алгоритма сегментации представлена на рисунке 4.7. Исходными данными для вычисления параметров сегмента являются: номера начального Beg и конечного End граничных отсчётов сегмента.

Полученные функцией значения сохраняются во внутренних переменных bs и es. Сначала вычисляются длительность / сегмента и высота / . Затем производится расчёт коэффициента формы Для каждого из возможных значений коэффициента по формуле (3.18) рассчитываются оценочные значения отсчётов ХІ и оценивается их соответствие наблюдаемым значениям с помощью суммы квадратов отклонений sd. Если значение sd при данном к оказывается наименьшим, чем при других значения к, оно фиксируется в переменной sdmin, а значение к - в переменной coeff. Таким образом, при выходе из цикла по достижению границы интервала (к=ктах) переменная coeff содержит значение коэффициента формы, обеспечивающее наилучшую интерполяцию значений сигнала внутри сегмента.

Похожие диссертации на Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи