Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Преобразование речи в текст. Фонемный подход Медведев Максим Сергеевич

Преобразование речи в текст. Фонемный подход
<
Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход Преобразование речи в текст. Фонемный подход
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Медведев Максим Сергеевич. Преобразование речи в текст. Фонемный подход : диссертация... канд. техн. наук : 05.13.17 Красноярск, 2007 111 с. РГБ ОД, 61:07-5/2893

Содержание к диссертации

Введение

1 Анализ способов построения систем распознавания речи 8

1.1 Сравнительные характеристики систем распознавания речи 8

1.2 Особенности русской речи 12

1.3 Выбор единицы распознавания 14

1.4 Подходы к построению систем распознавания речи 18

1.4.1 Функциональный подход 19

1.4.2 Нейросетевой подход 21

2 Система преобразования речи в текст 30

2.1 Акустическая составляющая системы 31

2.1.1 Ввод речевого сигнала 31

2.1.2 Предварительная обработка сигнала 32

2.1.3 Вычисление признаков речевого сигнала 35

2.2 Лингвистическая составляющая системы 37

2.2.1 Алгоритм формирования фонетической формы слова на

основе вероятностей сочетаний фонем русского языка 37

2.2.2 Алгоритм формирования грамматической формы слова 39

2.3 Вероятностно-нейросетевая система "Речь-текст" 42

3 Исследование моделей фонем 52

3.1 Классификация фонем 53

3.2 Модель фонемы на основе гомоморфного анализа 53

3.2.1 Модель образования речи 53

3.2.2 Кепстральный анализ речевого сигнала 54

3.3 Модель фонемы на основе вейвлет-преобразования 60

3.3.1 Вейвлет-преобразование речевого сигнала 63

3.3.2 Выбор вейвлет-базиса 65

3.3.3 Параметры модели фонемы на основе вейвлет-преобразования ,.66

4 Разработка программного обеспечения 70

4.1 Среда разработки Matlab 7 70

4.2 Особенности программной реализации системы "речь-текст" 71

4.3 Компоненты системы "речь-текст" 77

4.4 Создание базы данных фонем русского языка 80

4.5 Оценка качества распознавания речи 81

Заключение 89

Список литературы

Введение к работе

Актуальность проблемы. Устная речь и сегодня остается самым оперативным и распространенным способом передачи информации в любой сфере человеческой деятельности, являясь основной формой выражения намерений, целей, желаний. Это продуктивный, естественный и удобный способ передачи информации. В современных компьютерных системах все больше внимания уделяется построению интерфейса речевого ввода-вывода, эффективность которого основана на практически неограниченных возможностях формулировки на естественном языке всевозможных задач в самых различных областях человеческой деятельности. Системы речевого ввода являются наиболее перспективными на сегодняшний день.

Существующие системы понимания речи пока еще значительно уступают речевым способностям человека, что свидетельствует об их недостаточной адекватности и ограничивает применение речевых технологий в промышленности и быту. Из имеющихся программных продуктов рынка систем распознавания речи лишь немногие поддерживают русский язык.

Разработка эффективных алгоритмов распознавания русской речи является ключевым моментов в решении задач:

преобразования речи в текст,

понимания речи,

голосового управления,

автоматического перевода,

- распознавания речи в телефонии (голосовые меню вместо набора
цифр).

Исследованиям проблем распознавания речи занимаются: университет Карнеги Меллон (США), университет Иллинойс (США), Орегонский институт науки и технологий (США), Вычислительный центр РАН (Ю. И. Журавлев, В. Я. Чучупал), Институт проблем передачи информации РАН (В. Н. Сорокин), Институт математики СО РАН и Новосибирский государственный университет (Н. Г. Загоруйко и В. М. Величко),

5 Московский государственный университет им. М. В. Ломоносова (О. Ф. Кривнова), МГТУ им. Н. Э. Баумана (Ю. Н. Жигулевцев), Московский энергетический институт (А. И. Евсеев), Московский государственный лингвистический университет (Р. К. Потапова), Московский технический университет связи и информатики (Ю. Н. Прохоров), Санкт-Петербургский государственный университет (В. И. Галунов), Санкт-Петербургский институт информатики и автоматизации РАН. В данной области ведут исследования такие компании как IBM, Philips, Dragon Systems, Cognitive Technologies, Истрасофт, Сакрамент и др., что говорит об ее актуальности.

Цель. Основная цель работы заключается в исследовании моделей фонем русского языка, разработке методов и алгоритмов преобразования речи в текст, позволяющих сократить время обучения и повысить качество распознавания. Для решения поставленной задачи необходимо:

- систематизировать методы и алгоритмы, используемые для
построения систем распознавания речи;

провести сравнительный анализ характеристик существующих систем распознавания речи;

организовать и сформировать обучающую выборку фонем русского языка;

разработать архитектуру и алгоритмы вероятностно-нейросетевой системы преобразования речи в текст;

выполнить программную реализацию системы преобразования речи в текст;

оценить качество распознавания разработанной системы.

Методы исследования. Методы исследования связаны с цифровой обработкой сигналов, теорией нейронных сетей, временных рядов, теорией вероятности, математической статистикой и случайными процессами, фонологией и программированием.

Научная новизна.

  1. Построена модель фонемы русского языка с использованием кратномасштабного вейвлет-преобразования (базис Добеши 8).

  2. Разработаны алгоритмы построения грамматической формы слова с использованием вероятностей фонемных сочетаний русского языка, для корректного преобразования речи в текст.

  3. Создана программная реализация вероятностно-нейросетевой системы преобразования речи в текст, основанной на фонемном подходе, не требующем дополнительного обучения системы при расширении словаря распознаваемых слов.

Практическая ценность. Созданные методы, алгоритмы и программные средства системы преобразования речи в текст являются практически значимыми. Разработанное программное обеспечение позволяет автоматизировать процесс ввода текстовой информации в ЭВМ, проводить экспериментальные исследования в области распознавания речи. База данных фонем русского языка может использоваться для разработки и экспериментальной оценки качества работы речевых приложений.

Апробация работы. Основные положения диссертации были представлены на семинаре ВЦ СОР АН г. Красноярск (2006), Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2004), Международной конференции "Системный анализ и информационные технологии" (Переславль-Залесский, 2005), Международной конференции молодых ученых «Информационные технологии в науке, образовании, телекоммуникации и бизнесе» (Украина, Крым, Ялта-Гурзуф, 2005), IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых "Молодежь и современные информационные технологии" г. Томск, 2006. Демонстрационные работы внедрены в учебный процесс.

Сведения о внедрении. Система преобразования речи в текст внедрена в учебный процесс в Красноярском Государственном Техническом Университете (акт о внедрении №190000/5126 от 18.12.2006).

Публикации. По результатам работы опубликованы статьи в Вестнике КрасГУ 2006'8, Вестнике СибГАУ 1(14) 2007, две статьи, депонированные в ВИНИТИ (рег.№ 1300- В2005, 1544-В2006), а также 7 докладов на Международных, Всероссийских и межвузовских конференциях.

Структура работы. Диссертационная работа состоит из введения, четырех глав, заключения и библиографического списка использованных источников. Она содержит 98 страниц основного текста, 37 рисунков и 10 таблиц, расположенных в тексте диссертации. Список литературы включает 100 наименований.

1 Анализ способов построения систем распознавания речи

1.1 Сравнительные характеристики систем распознавания речи

В настоящее время рынок систем распознавания речи представлен множеством приложений. Рассмотрим наиболее известные из них:

Dragon Naturally Speaking Preferred фирмы Dragon Systems [74].
Коммерческая система намного превосходит остальные в распознавании
текста делового письма, обеспечивает высокую безошибочность
распознавания и простоту использования. Для каждого пользователя
создается голосовая модель, что существенно влияет на качество
распознавания. Система позволяет легко переключается между диктовкой,
правкой и форматированием.

Характеристики: качество распознавания составляет 90%, словарь содержит 62 000 слов. Отсутствует поддержка русского языка.

Программа распознавания русской речи - "Комбат" московской
фирмы "Байт Груп" [98]. Является надстройкой над пакетом Dragon
NaturallySpeaking. Позволяет вводить русские тексты и управлять Рабочим
столом русских версий Windows 3.x, 95/98 и NT.

Характеристики: недостаточное качество распознавания при диктовке - 30% (если говорить идеально, с расстановкой). Объем словаря составляет 26 000 словоформ с возможностью расширения до 30 000. Единица распознавания - слово.

ASR, Automatic Speech recognition от группы компаний Spirit
[33]. Данная система распознавания речи может быть использована

9 в различных домашних, бизнес и офисных приложениях, где требуется автоматическое распознавание речи, таких как голосовой набор номера для устройств громкой связи, ввод PIN-кода для входа в систему, работа с голосовым меню и т.д. Система распознавания речи может быть настроена на работу водном из двух режимов: распознавание фраз с фиксированным числом команд и распознавание фраз произвольным числом.

Характеристики: высокое качество распознавания гарантировано только при небольшом словаре - до 50 команд и составляет 99%. В режиме распознавания слитной речи словарь составляет 12 слов/цифр. Система рассчитана на любой язык. Для распознавания используются скрытые Марковские модели, акустические параметры основаны на мел-частотных кепстральных коэффициентах.

iVoice - система распознавания голоса от компании Autonomy
[84]. Данное приложение позволяет пользователю управлять компьютером с
помощью голоса так же легко, как это делается с помощью клавиатуры или
мыши. Другими словами, голосовые данные ничем не должны
отличаться от текстовых, или любых других, воспринимаемых компьютером.
iVoice была разработана на базе технологии распознавания голоса фирмы
SoftSound.

Характеристики: отсутствует поддержка русского языка.

Пакет MedSpeak/Radiology от компании IBM [91] представляет
собой интенсивно использующую центральный процессор систему клиент-
сервер, работающую под управлением Windows NT. Ее способность
распознавания почти в реальном времени и высокая точность, показанная во
время испытаний, предвещают этой системе хорошее будущее.

Характеристики: узкая специализация, отсутствует поддержка русского языка. Объем словаря - 25 000 слов.

Sakrament ASR Engine - программная разработка белорусской
компании «Сакрамент» [98], рассчитанная на применение в различных
аппаратных системах и программных приложениях, использующих
технологии распознавания речи, таких как: IVR-системы, мобильные
электронные устройства, бытовая техника и т.д. Распознавание слитной речи
осуществляется в виде выражений и небольших предложений.

Характеристики: точность распознавания 95%;

дикторонезависимость; языконезависимость; нет возможности обучения -дополнительные словари создаются по заказу, самой компанией «Сакрамент».

VoiceMode - разработка компании VoiceSignal Technology [93],
предназначена для набора текста в электронной почте, SMS, моментальных
сообщениях и других программах на мобильном телефоне.

Характеристики: единица распознавания - слово. Для распознавания используются скрытые Марковские модели. Система рассчитана для работы с большим набором языков. В качестве недостатков стоит отметить низкую скорость распознавания и ограниченную сферу применения (мобильные телефоны).

SIRIUS - модуль распознавания слитной русской речи,
разработка Санкт-Петербургского института информатики и автоматизации
РАН [60]. Внедрена в автоматизированную справочную систему с голосовым
доступом к ресурсам электронного каталога посредством телефона
(автоматизированный call-центр).

Характеристики: коэффициент распознавания 94%. Для распознавания используются скрытые Марковские модели, акустические параметры основаны на мел-частотных кепстральных коэффициентах и энергетических характеристиках. Единица распознавания - фонема. Размер словаря составляет 1 850 слов.

HMM/ANN Hybrids for ASR - разработка «Центра понимания разговорного языка» Орегонского института науки и технологий (США) [88]. Система распознавания речи с использованием нейронных сетей и Скрытых Моделей Маркова.

Характеристики: Для распознавания используется нейронная сеть и скрытые Марковские модели. Акустические параметры основаны на мел-частотных кепстральных коэффициентах. Единица распознавания - фонема в виде трифона. Отсутствует поддержка русского языка.

Результаты сравнительного анализа систем распознавания речи представлены в таблице 1.1.

Таблица 1.1- Сравнительный анализ систем распознавания речи

Рассмотрев представленные программные продукты рынка систем распознавания речи, заключаем, что разработчики создают либо крупные специализированные дикторонезависимые системы или комплексы для разработки, дающие высокую точность распознавания при небольшом словаре команд; либо пользовательские приложения, дающие возможность голосового управления компьютером и речевого ввода текста. Данный класс систем нуждается в обучении под конкретного диктора и, в связи с этим, не дает высокого качества распознавания.

Кроме того, работа почти всех систем основана на спектральном анализе речевого сигнала на основе преобразования Фурье. Из имеющихся систем лишь немногие поддерживают русский язык.

1.2 Особенности русской речи

Отсутствие поддержки русского языка в речевых системах, объясняется необходимостью проведения дополнительных исследований процесса преобразования речи в текст, в связи с особенностями русской речи. На сегодняшний день активнее всего ведутся исследования и разработки систем автоматического распознавания английской речи, поэтому далее приведены отличия русского и английского языков.

Выделены следующие особенности русского языка:

  1. В русском языке по сравнению с английским более сложная структура словообразования (приставки, суффиксы, окончания) [29], в результате чего необходимо использовать гораздо больший распознаваемый словарь, что значительно уменьшает точность и скорость распознавания [60].

  2. Большинство словоформ одного и того же слова отличаются только в окончаниях, которые произносятся обычно не так четко как начала слов. Ошибки в окончаниях при распознавании слов приводят к тому, что

13 происходит ошибка в распознавании всей фразы из-за несогласованности слов [60].

  1. Порядок слов в предложении русского языка не задан жестко, а может варьироваться без потери смысла предложения, в отличие от английского, где используются жесткие грамматические конструкции [4]. Это затрудняет создание статистических моделей и грамматик для русского языка и понижает их эффективность.

  2. Большое количество фонем - 36 согласных и 6 гласных [80]. Среди них велико число согласных, распознавать которые сложнее, так как они менее стабильны и имеют гораздо меньшую длительность [12]. Для сравнения: в английском языке выделяют всего 36 фонем (14 гласных, 22 согласных) [76].

  3. Длина слова в среднем значительно длиннее, чем в других языках, что замедляет процесс распознавания, так как необходимо анализировать более длинные участки сигнала. В среднем слово русского языка состоит из 7,2 фонем [36], для примера в английском языке средняя длина слова - 4,7 фонемы [77].

  4. Сложность распознавания русской речи связана также с тем, что Россия является многонациональной страной. В результате русскоговорящее население обладает большой вариативностью национальных акцентов и стилей произношения, которые весьма сложно учесть при создании систем распознавания речи, поскольку необходимо создавать очень большие базы данных обучения акустических моделей [18].

  5. Для создания эффективных систем распознавания для английского языка существуют многочисленные речевые базы данных (обычной речи, телефонной, и т.д.) в том числе и свободно доступные. Для русского языка такие базы данных только начинают создаваться и, как правило, являются закрытыми для общего пользования [70].

1.3 Выбор единицы распознавания

При разработке системы распознавания речи одной из важных задач является выбор единицы распознавания. Это решение существенно влияет как на описательные признаки, так и на архитектуру системы в целом. В качестве единиц распознавания могут быть использованы фонологические единицы: аллофоны, фонемы, дифоны, слоги, слова или некоторые их сочетания [22]. Предполагается, что некоторые типы признаков будут выделены из речевого сигнала, и задача состоит в том, чтобы на основе этих признаков найти одну или несколько фонологических единиц, максимально полезных в системе распознавания.

Проведен анализ основных фонологических единиц, которые можно использовать для распознавания речи (рисунок 1.1).

г:

Речевые единицы

Аллофоны

Слова

Фонемы

Дифоны

Слоги

Рисунок 1.1 - Речевые единицы

Аллофоны

Термином «аллофон» называют набор звуков, которые имеют одинаковые свойства, или одинаково информативны [30].

Известно, что определенные аллофоны дают информацию о границах слогов и слов, которая может быть полезна при распознавании.

Другое преимущество использования аллофонов заключается в том, что многие акустико-фонетические правила можно применять на более низком уровне. Выбор аллофонов в качестве речевой единицы для распознавания требует соответствующих измерительных комплексов, т.к.

15 программные методы определения аллофонов достаточно сложны; общее число аллофонов для любого языка чрезмерно велико (измеряется тысячами); различение многих аллофонов зависит от их окружения.

Фонемы

Под «фонемой» подразумевается вся совокупность аллофонов, которые имеют одинаковые функции и не создают смысловых различий в данном языке [13].

Количество фонем в языке обычно невелико и колеблется в пределах от 20 до 60. Кроме того, фонема непосредственно включается в лексические системы, которые по своей природе обычно фонемны, но акустически распознать фонемы и их границы сложно. Определенные звуки могут в равной степени принадлежать более чем одной фонеме, и, если возможны многочисленные выборы фонем, это потребует больше работы на уровне согласования слов.

Дифоны

Единица, называемая «дифон» представляет собой сегмент от центра согласного к центру гласного в последовательности согласный-гласный, а в последовательности гласный-согласный - сегмент от центра гласного к центру согласного. Большая часть акустической информации, используемой для различения согласных данного языка, находится именно на этих переходах между гласными и согласными [66].

Дифон содержит переходную информацию, которая необходима для многих различений. Другое преимущество состоит в том, что дифон включает некоторую информацию о правилах сочленения звуков внутри его самого, так как эта информация находится на переходе между ними.

Но количество дифонов может быть сравнительно большим и измеряться тысячами, большинство существующих фонологических правил нелегко применить к дифонам.

Слоги

В общем виде под слогом подразумевают ядро гласной (или слоговое ядро) и функционально связанные с ним соседние согласные [9].

Выбор слога в качестве речевой единицы в системах автоматического распознавания речи, обеспечивает легкость его обнаружения и распознавания. Использование слога в распознавании, как и дифона, отображает коартикуляционные эффекты конкретного диктора. Слоговые границы включены в фонологические правила.

Тем не менее, автоматическое нахождение слоговых границ не является простой задачей. При обширных словарях список слогов может быть очень большим. Его размер обычно не достигает размеров списков аллофонов или слов, но существенно превышает размер списка фонем.

Слова

Преимущество прямого перехода от акустически определенных параметров и признаков к самому слову состоит в том, что исключается большой объем распознавательной деятельности. Будет сэкономлено много времени и усилий.

Но при обширных словарях подбор шаблонов становится очень трудным. Кроме того, описания словесных границ, выраженные соединительными фонологическими правилами, т.е. изменениями сегментов на границах слова, сложно отобразить в словарных статьях для ЭВМ [40].

В настоящее время наибольшее распространение при построении систем распознавания речи для формирования эталонов получило использование целых слов (данный метод удобен для использования в системах с ограниченным словарем, например, для ввода небольшого набора команд) или фонем. Использование фонем связано с их выделением из речевого потока. В этом случае при увеличении количества распознаваемых слов не возникает необходимости дополнительного обучения системы.

17 Результаты анализа использования различных речевых единиц в задаче распознавания русской речи представлены в таблице 1.2.

Таблица 1.2 Анализ речевых единиц для русского языка

Сравнив методы распознавания целых слов и фонем, можно утверждать, что при небольшом количестве слов, используемых диктором, более высокую надежность и скорость работы будут иметь системы распознавания целых слов, но при увеличении словаря, эти характеристики резко падают. Предположительно, размер словаря системы распознавания уже в сотню слов требует перехода на более низкий уровень (слог, фонема).

18 Преимущество фонемного подхода связано с использованием наименьшего числа отличительных фонологических классов, которые должны быть распознаны. Данный подход является универсальным и не требует дополнительного обучения при расширении словаря.

Таким образом, при построении системы преобразования речи в текст в качестве распознаваемых единиц целесообразно использовать фонемы.

1.4 Подходы к построению системы преобразования речи в текст

В большинстве систем распознавания речи присутствует этап сравнения входного сигнала с имеющимися эталонами. Обобщенная структурная схема системы распознавания речи представлена на рисунке 1.2.

БД эталонов фонем

БД слов

Речевой сигнал

Вычисление

признаков

речевого сигнала

фонемы

Распознавание фонем

Формирование слов

Выходные -> данные распознавания

Рисунок 1.2 - Общая структурная схема системы распознавания речи

Вне зависимости от наличия или отсутствия предварительной обработки сигнала (выделение основных признаков, преобразование в другую форму в новом параметрическом пространстве и т. д.) сигнал представляет собой вектор в установленном параметрическом пространстве, который в дальнейшем будет сравниваться с хранящимися векторами, для определения его принадлежности к определенному классу. В зависимости от

19 способов реализации составляющих системы распознавания, разделяют функциональный и нейросетевой подходы [49].

Функциональный подход к распознаванию - сопоставление входного образа с эталонами, хранящимися в памяти. Распознаваемый образ (неизвестного класса) сравнивается с эталоном каждого класса. Классификация основывается на заранее выбранном критерии подобия, т.е. если входной образ лучше соответствует эталону і-ого класса, чем любому другому, то входной образ классифицируется как принадлежащий і-ому классу. Для сравнения необходимо сделать измерения на входном образе. Представление речевых элементов через систему признаков сложно. Даже фонема не является стационарным участком речи, также сильное влияние оказывают соседние звуки. Проблемы, возникающие при принятии решения, обусловлены изменчивостью границ слова и просодических параметров, поэтому приходится применять методы динамического программирования, скрытых цепей Маркова [45].

Нейронные сети хороши в качестве инструмента по распознаванию образов и классификаторов со способностями обобщения и принятия решений, основанных на неполном или нечетком наборе входных данных.

1.4.1 Функциональный подход

В ходе процесса распознавания осуществляется принятие решения о соответствии данного сегмента речевого сигнала эталону фонемы из базы. Для того, чтобы сравнить сегмент с эталоном, надо путем деформаций оси времени совместить участки, соответствующие одним и тем же звукам, измерить остаточные различия между ними и просуммировать эти частные расстояния, взятые с некоторыми весовыми коэффициентами [87].

Для нормализации темпа делались неоднократно попытки линейного сжатия (растяжения) описаний речи [75]. Причем деформации темпа носят явно нелинейный характер.

Для нелинейного согласования речи применяют методы градиентного спуска, марковское моделирование, наиболее широко используют алгоритмы динамического программирования [20].

Исследования показали, что алгоритм динамического программирования с двукратной деформацией дает минимум ошибок распознавания [43].

Работа алгоритмов динамического программирования основана на использовании рекуррентных ДП-уравнений. Пусть сравниваемые описания слова А и эталона В представлены в виде последовательностей векторов признаков:

А = а|,аг,..., а,,..., щ\

B = bbb2, ...,bj,..., bj.

Пусть в пространстве векторов признаков выбрана некоторая метрика d(i, j), позволяющая определить меру различия соответствующих векторов а; и bj. Тогда задача нормализации темпа сводится к поиску оптимальной траектории (траектории сходства) на фазовой плоскости (i, j), встречающихся на этой траектории, взятых с определенными весовыми коэффициентами.

w\

Рисунок 1.3 -Вид диаграммы переходов на (і,^-плоскости

ДП-уравнение двукратной деформации:

g(/,y) = min

g(i-l,j-2) + 2d(i, j-l) + d(i,j), g(i-l,j-l) + 2d(i, j), g(i-2,j-l) + 2d(i-l,j) + d(i,j).

(1.1)

21 где g(i, j) - целевая функция, имеющая смысл ДП-расстояния между отрезками длиной і и j реализаций А и В; d(i, j) - расстояние между векторами векторов ^ и bj, вычисленное по выбранной метрике.

Наиболее функциональной и простой является следующая метрика [63]:

d(A,B) = jpai-bl)2 (1.2)

1.4.2 Нейросетевой подход

Классификация образов является одной из основных задач решаемых с помощью нейросетей, среди которых наиболее распространены:

Распознавание зрительных, слуховых образов; огромная область применения: от распознавания текста и целей на экране радара до систем голосового управления;

Ассоциативный поиск информации и создание ассоциативных моделей;

Формирование моделей различных нелинейных и трудно описываемых математически систем, прогнозирование развития этих систем во времени; применение на производстве; прогнозирование природных процессов, изменений курсов и т.д.

Системы управления и регулирования с предсказанием; управление роботами, другими сложными устройствами - разнообразные конечные автоматы: системы массового обслуживания и коммутации, телекоммуникационные системы;

Принятие решений и диагностика, исключающие логический вывод; особенно в областях, где отсутствуют четкие математические модели: в медицине, криминалистике, финансовой сфере;

Нейросети особенно эффективны там, где нужен аналог человеческой интуиции для распознавания образов [47], поэтому они широко применяются в речевых системах.

22 Основные характерные свойства искусственных нейросетей:

Обучаемость. Одним из этапов функционирования нейронной сети является обучение, в процессе которого на ее вход поочередно поступают данные из обучающего набора с целью корректировки весовых коэффициентов синаптических связей для получения наиболее адекватного сигнала на выходе нейронной сети.

Способность к обобщению. Отклик сети после обучения может быть до некоторой степени нечувствителен к небольшим изменениям входных сигналов (шуму или вариациям входных образов).

Способность к абстрагированию. Если при обучении предъявить сети несколько искаженных вариантов входного образа, то сеть может создать на выходе идеальный образ, который не входил в обучение.

Параллельность обработки и реализуемости нейросетей.

Универсальность. Хотя почти для всех перечисленных задач существуют эффективные математические методы решения и, несмотря на то, что сети проигрывают специализированным методам; благодаря универсальности и перспективности они являются важным направлением исследования, требующим тщательного изучения.

Искусственные нейронные сети индуцированы биологией, так как они состоят из элементов, функциональные возможности которых аналогичны большинству элементарных функций биологического нейрона. На рисунке 1.4 показана обобщенная модель нейрона, используемая в качестве основного строительного блока в нейросетях [67].

Рисунок 1.4 - Искусственный нейрон с активационной функцией

23 На входы нейрона подается множество сигналов, каждый из которых умножается на вес, и затем произведения суммируются. Результат суммирования s (1.3) служит аргументом функции активации. Значение функции активации соответствует отклику нейрона у (1.4) на произвольную комбинацию входных воздействий. Иными словами, посредством активации нейрона осуществляется трансформация множества входных воздействий в выходной сигнал с желаемыми характеристиками.

Р
s= I w.*. + w0, (1.3)

/ = 1

У = /(з), (1.4)

где Wj - вес синапса, (i=0,l,2...p); w0 - значение смещения; s - результат суммирования; Xj - компонента входного вектора (входной сигнал), (i=l,2,...p); у - выходной сигнал нейрона; р - число входов нейрона; / - нелинейное преобразование (функция активации).

В общем случае входной сигнал, весовые коэффициенты и значения смещения могут принимать действительные значения. Выход у определяется видом функции активации и может быть как действительным, так и целым. Во многих практических задачах входы, веса и смещения могут принимать лишь некоторые фиксированные значения. Синаптические связи с положительными весами называют возбуждающими, с отрицательными весами - тормозящими. Таким образом, нейрон полностью описывается своими весами w, и активационной функцией f(x) [67]. Вместе с правилами корректировки весовых коэффициентов на входе нейрона, правилами обучения, отличительной особенностью многих нейронных структур является выбор функции активации/ Активационная функция может быть обычной линейной функцией (1.5).

y=k(s), где к - постоянная велечина;

Также используется пороговая функция (1.6):

(1.5)

У =

\0,sT'

(1.6)

где Т- некоторая постоянная пороговая величина.

Если функция активации сужает диапазон изменения величины s (1.3) так, что при любых значениях s значения у (1.4) принадлежат некоторому конечному интервалу, то / называется "сжимающей" функцией. В качестве "сжимающей" функции часто используется логистическая или "сигмоидальная" (S-образная) функция, показанная на рисунке 1.5.

Рисунок 1.5 - Сигмоидальная функция

Эта функция задается формулой (1.7).

/(*) =

1 + ехр(-х)

(1.7)

Хотя один нейрон и способен выполнять простейшие процедуры распознавания, сила нейронных вычислений проистекает от соединений

25 нейронов в сетях. Нейронная сеть представляет собой структуру нейронов, соединенных между собой и характеризуется их внутренними свойствами, индивидуальной топологией (архитектурой), а также правилами обучения для получения желаемого выходного сигнала.

Сеть обучается, чтобы для некоторого множества входов давать желаемое множество выходов. Каждое такое входное (или выходное) множество рассматривается как вектор. Обучение осуществляется путем последовательного предъявления входных векторов с одновременной подстройкой весов в соответствии с определенной процедурой. В процессе обучения веса сети постепенно становятся такими, чтобы каждый входной вектор вырабатывал выходной вектор.

Существуют алгоритмы обучения "с учителем", "без учителя" (самообучение) и смешанные. В первом случае веса нейронной сети настраиваются так, чтобы сеть производила ответы как можно более близкие к известным. При обучении "без учителя" раскрывается внутренняя структура данных или корреляции между образцами в системе данных, что позволяет распределить образцы по категориям. При смешанном обучении часть весов определяется посредством обучения с учителем, в то время как остальная получается с помощью самообучения. Алгоритмы «с учителем» и "без учителя" предназначены для решения разных задач.

Одной из основных архитектур нейронных сетей, успешно применяемых для решения задачи классификации является однослойный персептрон, который представляет собой наиболее простую нейросетевую архитектуру. Он состоит из одного слоя искусственных нейронов, соединенных с помощью весовых коэффициентов со множеством входов (рисунок 1.7). Слой - это совокупность нейронов с единым входным сигналом. Элемент S умножает каждый вход х на вес w и суммирует взвешенные входы. Если эта сумма больше заданного порогового значения, выход равен единице, в противном случае - нулю.

У'

> yn

Xn

Рисунок 1.7- Персептрон

Персептрон обучают, подавая множество образов по одному на его вход и подстраивая веса до тех пор, пока для всех образов не будет достигнут требуемый выход. Применение такой топологии оправдано только для линейно разрешимых задач. Например, можно построить нейросеть, разбивающую точки (0,0) и (1,1) на два класса для двумерного сигнала, но невозможно решить задачу по разбиению точек (0,0), (1,1) - в первый класс, и (0,1), (1,0) - во второй. Это широко известный пример неспособности простого персептрона решить задачу «исключающее или» [67]. Имеется обширный класс функций, нереализуемых однослойной сетью.

Серьезное ограничение однослойными сетями можно преодолеть, добавив дополнительные слои. Например, двухслойные сети можно получить каскадным соединением двух однослойных сетей. Они способны выполнять более общие классификации. Такая сеть может моделировать функцию практически любой степени сложности, причем число слоев и число элементов в каждом слое определяют сложность функции [67].

На рисунке 1.8 изображена двухслойная сеть, которая может обучаться с помощью процедуры обратного распространения.

Входной слой Скрытый слой Выходной слой

Рисунок 1.8 - Двухслойный персептрон

Нейроны одного и того же слоя друг с другом не связаны, и каждый нейрон связан со всеми нейронами последующего слоя (кроме последнего слоя - его выходы являются выходами сети в целом). Первый слой нейронов (соединенный с входами) служит лишь в качестве распределительных точек, суммирования входов здесь не производится. Входной сигнал просто проходит через них к весам на их выходах. Получив входные сигналы, нейрон следующего слоя суммирует их с соответствующими весами, затем применяет к этой сумме активационную функцию (1.4) и передает результат на один из входов нейрона второго слоя, который в свою очередь, суммирует полученные от первого слоя сигналы с некоторыми весами и т.д. Прямое функционирование сети описывается следующими соотношениями:

/=х, (1.9)

у)=їС^УкЛї = \-п{к), (1.10)

/=1

где х - входной сигнал; у'у - значениеу'-го выхода нейрона к-то слоя; wtJ -

вес связи от / -го нейрона (к -1)-го слоя ку'-му нейрону &-го слоя;/ - функция активации; п(к) - число нейронов в &-м слое.

В качестве активационной функции в сетях обратного распространения обычно используется сигмоидальная функция (1.7). Многослойные нейронные сети обладают большей представляющей мощностью, чем однослойные, только в случае присутствия нелинейности. Сжимающая функция обеспечивает требуемую нелинейность [6].

Для обучения многослойных нейронных сетей применяется алгоритм обратного распространения ошибки. Если при прямом функционировании входной сигнал распространяется по сети от входного слоя к выходному, то при подстройке весов ошибка сети распространяется от выходного слоя к входному.

Применительно к задаче распознавания речевых сигналов, как при обучении, так и при распознавании входные вектора признаков будут являться нечеткими, т.е. возникнет небольшой разброс параметров, принадлежащих к одному классу [85]. В связи с этим нейросеть, осуществляющая распознавание, должна обладать определенной способностью к статистическому усреднению. Напротив, может оказаться, что группа векторов находится в непосредственной близости друг к другу, но все они представляют разные классы. Тогда нейросеть должна определять тонкие различия между векторами [41].

Многослойные сети с обратным распространением ошибки являются наиболее распространенной на сегодняшний день архитектурой нейросети. К их достоинствам можно отнести сравнительную простоту анализа и достаточно высокую эффективность классификации. Благодаря использованию непрерывной функции возбуждения такие сети способны к обобщению обучающей выборки. Использование нейронных сетей в задаче распознавания речи обладает рядом преимуществ по сравнению с традиционными алгоритмами [94,100].

В следующей главе будет подробно рассмотрено построение системы преобразования речи в текст на основе нейронной сети.

Выводы. В первой главе был проведен сравнительный анализ характеристик систем распознавания речи. Выделены фонологические особенности русского языка, требующие дополнительных исследований лингвистической составляющей преобразования речи в текст.

Анализировались речевые единицы русского языка, определялись их достоинства и недостатки для использования в задаче распознавания речи. Установлено, что наиболее предпочтительным системы является фонемный подход, т.к. набор фонем представляет наименьшее число фонологических классов, что позволяет сократить время формирования обучающей выборки.

Рассматривались подходы построения систем распознавания речи. Показана целесообразность применения нейросетевого подхода.

зо 2 Система преобразования речи в текст

Процесс распознавания речи включает две основные составляющие: лингвистическую и акустическую (рисунок 2.1). Каким образом речь (акустический сигнал) преобразуется в текст (лингвистическая составляющая) зависит от используемого алгоритма.

Лингвистическая составляющая

Речевой сигнал

Акустическая составляющая

Текст

Рисунок 2.1 - Схема преобразования речи в текст

w^iAjiw.lSiw,)), (2.1)

где W; - /-е речевое высказывание; Aj{wt) -j-e акустическое представление речевого высказывания; 5(^,.)- символьное представление информации, содержащейся в речевом высказывании; S - словарь.

Акустическая составляющая выполняет:

  1. Преобразование речевого сигнала в цифровую форму, выделение фонем из слов;

  2. Предварительную обработку речевого сигнала (нормализация, шумоподавление);

  3. Вычисление признаков речевых единиц.

Лингвистическая составляющая системы преобразования речи в текст включает этапы на которых привлекается априорная информация, характерная для используемого языка [2]:

  1. Создание базы знаний вероятностей сочетаний фонем, накладывающих ограничение на структуру слова, подчиняясь особенностям распознаваемого языка;

  2. Построение корректной фонетической транскрипции из последовательности фонем;

  3. Разработка базы словоформ русского языка;

  4. Формирование грамматической формы слова.

В качестве алгоритма, преобразующего результат работы акустической составляющей системы преобразования речи в текст в исходные данные для лингвистической составляющей может выступать нейронная сеть, скрытые Марковские модели, динамическое программирование [59]. На данном этапе определяется принадлежность вычисленных признаков речевых единиц к определенному фонетическому классу. Далее подробно рассматриваются этапы акустической и лингвистической составляющих процесса преобразования речи в текст, которые применялись при создании системы «Речь-текст» в рамках данной работы.

2.1 Акустическая составляющая системы

2.1.1 Ввод речевого сигнала

Для анализа речи её необходимо преобразовать в форму, понятную вычислительной системе. Это может быть аналоговая форма, цифровая форма, спектральное представление, представление в виде оптического излучения и т.д. Так как в работе затрагивается исследование речи на персональном компьютере, то рассматривается только один вид представления речевого сигнала - в цифровой форме. Как известно, звук представляет собой продольные волны разрежения-сжатия, распространяющиеся в акустически-проводящей среде [56]. Посредством

32 звукозаписывающих устройств (например, микрофона) он преобразуется в электрический сигнал, колебания которого повторяют звуковые колебания.

Затем этот сигнал фильтруется с целью отсечения частот, превышающих некоторую частоту /max. После этого он подается на аналого-цифровой преобразователь, который с некоторой частотой fd, называемой частотой дискретизации, записывает текущий уровень сигнала в цифровой форме, т.е. квантует сигнал по времени и по амплитуде. Как следует из теоремы Котельникова [25]:

/max < &-. (2.2)

Таким образом, параметрами, определяющими качество оцифровки сигнала, являются частота дискретизации и разрядность преобразования (сколько единиц информации кодируется один отсчет). Частота дискретизации определяет максимальную частоту сигнала, которую можно записать. Типичные значения - 11025, 22050, 44100 Гц [61]. От разрядности зависит точность кодирования информации при аналого-цифровом преобразовании. Стандартные значения - 4 бит, 8 бит, 16 бит на отсчет. Естественно, чем больше разрядность и частота дискретизации, тем точнее записывается звук, но и тем больше поток информации и тем сложнее его обработать [8].

2.1.2 Предварительная обработка сигнала

Входной речевой сигнал необходимо подготовить для дальнейшей обработки. На данном этапе осуществляется очистка сигнала от шума, удаление пауз речи, нормализация сигнала. Также проводится разбиение сигнала на фиксированные интервалы (сегменты) во временной области, на которых будут рассчитываться описательные признаки. Длительность этих сегментов выбирается, исходя из следующих соображений: во-первых, они

33 должны быть значительно меньше временных интервалов, затрачиваемых на нормальное произнесение гласных и согласных звуков; во-вторых, они должны давать возможность выделять характерные признаки. В дальнейшем эти сегменты могут быть отнесены к одной из фонетических категорий. Выбор длины сегмента речевого сигнала подробно рассмотрен в разделе 3.3 третьей главы.

Особенности русской речи

При разработке системы распознавания речи одной из важных задач является выбор единицы распознавания. Это решение существенно влияет как на описательные признаки, так и на архитектуру системы в целом. В качестве единиц распознавания могут быть использованы фонологические единицы: аллофоны, фонемы, дифоны, слоги, слова или некоторые их сочетания [22]. Предполагается, что некоторые типы признаков будут выделены из речевого сигнала, и задача состоит в том, чтобы на основе этих признаков найти одну или несколько фонологических единиц, максимально полезных в системе распознавания.

Проведен анализ основных фонологических единиц, которые можно использовать для распознавания речи (рисунок 1.1).

Термином «аллофон» называют набор звуков, которые имеют одинаковые свойства, или одинаково информативны [30].

Известно, что определенные аллофоны дают информацию о границах слогов и слов, которая может быть полезна при распознавании.

Другое преимущество использования аллофонов заключается в том, что многие акустико-фонетические правила можно применять на более низком уровне. Выбор аллофонов в качестве речевой единицы для распознавания требует соответствующих измерительных комплексов, т.к. программные методы определения аллофонов достаточно сложны; общее число аллофонов для любого языка чрезмерно велико (измеряется тысячами); различение многих аллофонов зависит от их окружения. Фонемы

Под «фонемой» подразумевается вся совокупность аллофонов, которые имеют одинаковые функции и не создают смысловых различий в данном языке [13].

Количество фонем в языке обычно невелико и колеблется в пределах от 20 до 60. Кроме того, фонема непосредственно включается в лексические системы, которые по своей природе обычно фонемны, но акустически распознать фонемы и их границы сложно. Определенные звуки могут в равной степени принадлежать более чем одной фонеме, и, если возможны многочисленные выборы фонем, это потребует больше работы на уровне согласования слов.

Дифоны

Единица, называемая «дифон» представляет собой сегмент от центра согласного к центру гласного в последовательности согласный-гласный, а в последовательности гласный-согласный - сегмент от центра гласного к центру согласного. Большая часть акустической информации, используемой для различения согласных данного языка, находится именно на этих переходах между гласными и согласными [66].

Дифон содержит переходную информацию, которая необходима для многих различений. Другое преимущество состоит в том, что дифон включает некоторую информацию о правилах сочленения звуков внутри его самого, так как эта информация находится на переходе между ними.

Но количество дифонов может быть сравнительно большим и измеряться тысячами, большинство существующих фонологических правил нелегко применить к дифонам. Слоги

В общем виде под слогом подразумевают ядро гласной (или слоговое ядро) и функционально связанные с ним соседние согласные [9].

Выбор слога в качестве речевой единицы в системах автоматического распознавания речи, обеспечивает легкость его обнаружения и распознавания. Использование слога в распознавании, как и дифона, отображает коартикуляционные эффекты конкретного диктора. Слоговые границы включены в фонологические правила.

Тем не менее, автоматическое нахождение слоговых границ не является простой задачей. При обширных словарях список слогов может быть очень большим. Его размер обычно не достигает размеров списков аллофонов или слов, но существенно превышает размер списка фонем. Слова

Преимущество прямого перехода от акустически определенных параметров и признаков к самому слову состоит в том, что исключается большой объем распознавательной деятельности. Будет сэкономлено много времени и усилий.

Но при обширных словарях подбор шаблонов становится очень трудным. Кроме того, описания словесных границ, выраженные соединительными фонологическими правилами, т.е. изменениями сегментов на границах слова, сложно отобразить в словарных статьях для ЭВМ [40].

Предварительная обработка сигнала

Для анализа речи её необходимо преобразовать в форму, понятную вычислительной системе. Это может быть аналоговая форма, цифровая форма, спектральное представление, представление в виде оптического излучения и т.д. Так как в работе затрагивается исследование речи на персональном компьютере, то рассматривается только один вид представления речевого сигнала - в цифровой форме. Как известно, звук представляет собой продольные волны разрежения-сжатия, распространяющиеся в акустически-проводящей среде [56]. Посредством звукозаписывающих устройств (например, микрофона) он преобразуется в электрический сигнал, колебания которого повторяют звуковые колебания.

Затем этот сигнал фильтруется с целью отсечения частот, превышающих некоторую частоту /max. После этого он подается на аналого-цифровой преобразователь, который с некоторой частотой fd, называемой частотой дискретизации, записывает текущий уровень сигнала в цифровой форме, т.е. квантует сигнал по времени и по амплитуде. Как следует из теоремы Котельникова [25]:

Таким образом, параметрами, определяющими качество оцифровки сигнала, являются частота дискретизации и разрядность преобразования (сколько единиц информации кодируется один отсчет). Частота дискретизации определяет максимальную частоту сигнала, которую можно записать. Типичные значения - 11025, 22050, 44100 Гц [61]. От разрядности зависит точность кодирования информации при аналого-цифровом преобразовании. Стандартные значения - 4 бит, 8 бит, 16 бит на отсчет. Естественно, чем больше разрядность и частота дискретизации, тем точнее записывается звук, но и тем больше поток информации и тем сложнее его обработать [8].

Входной речевой сигнал необходимо подготовить для дальнейшей обработки. На данном этапе осуществляется очистка сигнала от шума, удаление пауз речи, нормализация сигнала. Также проводится разбиение сигнала на фиксированные интервалы (сегменты) во временной области, на которых будут рассчитываться описательные признаки. Длительность этих сегментов выбирается, исходя из следующих соображений: во-первых, они должны быть значительно меньше временных интервалов, затрачиваемых на нормальное произнесение гласных и согласных звуков; во-вторых, они должны давать возможность выделять характерные признаки. В дальнейшем эти сегменты могут быть отнесены к одной из фонетических категорий. Выбор длины сегмента речевого сигнала подробно рассмотрен в разделе 3.3 третьей главы.

Разделение фразы на речь и паузы

Для повышения точности вычисления признаков и уменьшения числа операций по обработке сигнала необходимо отделить сигнал от пауз. Для определения границ слов обрабатывается входной оцифрованный сигнал S(n). Измеряется кратковременная энергия речевого сигнала. При обработке речи, как правило, оперируют не с исходным речевым сигналом, а с его параметрами, вычисленными на кадре. Длина кадра обычно выбирается такой, чтобы его длительность по времени составляла 10-20 мс, что обусловлено инерционностью артикуляционных органов. На данном интервале параметры сигнала практически неизменны [39]. Пусть на текущем кадре длины N наблюдается последовательность отсчетов su...,sk,...,su . Тогда выражение для средней кратковременной энергии речевого сигнала примет следующий вид [65]: N Ес=- T,s;. (2.3) Требуется отделить кадры, содержащие речь, от кадров, содержащих паузу. Предполагается, что первые 10 кадров не содержат речевого сигнала. На этом участке вычисляется среднее значение энергии шума і 10 Е =—YE . , (2.4) где Еср( - средняя кратковременная энергия кадра, содержащего шум. С учетом этой характеристики вычисляется порог энергии Р. Для расчета значения порога экспериментально была определено следующее соотношение: Р=68-Есрмума (2.5)

Если среднее значение энергии превышает установленный порог Р, то в данной точке фиксируется начало участка речи, если среднее значение энергии кадра станет меньше определенного порога, то отмечается конец участка. Каждому кадру сопоставляется в соответствие двоичный признак, равный 1, если кадр содержит речь, и 0 - в противном случае. Таким образом, исходный сигнал разбивается на участки, содержащие речь, называющиеся реализациями слов, и на паузы. Данный алгоритм используется в разработанной системе «Речь-текст» для выделения слов из речевого потока.

Модель фонемы на основе гомоморфного анализа

Система фонем русского языка насчитывает 42 единицы [80]. По акустическим признакам они подразделяются на:

1. Тональные - образуются голосом при почти полном отсутствии шумов, что обеспечивает хорошую слышимость звуков: гласные а, э, и, о, у, ы;

2. Сонорные (звучные) - чье качество определяется характером звучания голоса, который играет главную роль в их образовании, а шум участвует в минимальной степени: согласные м, м , н, н , л, л , р, р , й;

3. Шумные - их качество определяется характером шума: звонкие шумные длительные: в, в , з, з , ж; звонкие шумные мгновенные: б, б , д, д , г, г ; глухие шумные: ф, ф , с, с , ц, ч, ш, щ, х, х , п, п , т, т , к, к .

Предположение о независимости вида источника возбуждения и характеристик голосового тракта является основным почти для всех систем обработки речи. Именно эта независимость источника и тракта и позволяет

Одной из основных проблем, возникающих в процессе создания систем распознавания речи, является выбор признаков, позволяющих наиболее полно описать речевой сигнал. Если сравнить два временных представления одного и того же слова, произнесенного дважды одним и тем же человеком, а тем более разными людьми, то можно увидеть значительные отличия уровней, длительностей участков и формы колебаний (рисунок 3.1).

Процесс построения моделей фонем русского языка связан с выбором метода вычисления признаков речевого сигнала фонемы. Существует некоторое число математических методов, анализирующих речевой спектр. Наиболее распространенным является преобразование Фурье. Данный математический аппарат хорошо себя зарекомендовал в области анализа сигналов, имеется множество методик обработки речи, использующих в своей основе преобразование Фурье [11]. Не смотря на это, постоянно ведутся работы по поиску иных путей параметризации речи. Одним из таких направлений, является вейвлет-анализ, который стал применяться для исследования речевых сигналов сравнительно недавно. Теория данного метода сейчас быстро развивается, и многие исследователи возлагают большие надежды на использование инструмента вейвлет-анализа для распознавания речи [92].

Система фонем русского языка насчитывает 42 единицы [80]. По акустическим признакам они подразделяются на:

1. Тональные - образуются голосом при почти полном отсутствии шумов, что обеспечивает хорошую слышимость звуков: гласные а, э, и, о, у, ы;

2. Сонорные (звучные) - чье качество определяется характером звучания голоса, который играет главную роль в их образовании, а шум участвует в минимальной степени: согласные м, м , н, н , л, л , р, р , й;

3. Шумные - их качество определяется характером шума: звонкие шумные длительные: в, в , з, з , ж; звонкие шумные мгновенные: б, б , д, д , г, г ; глухие шумные: ф, ф , с, с , ц, ч, ш, щ, х, х , п, п , т, т , к, к .

Предположение о независимости вида источника возбуждения и характеристик голосового тракта является основным почти для всех систем обработки речи. Именно эта независимость источника и тракта и позволяет ввести передаточную функцию голосового тракта и рассматривать его возбуждение любым из трех источников. В этом случае можно построить следующую модель формирования речи [57] (рисунок 3.2).

Источниками возбуждения служат генератор импульсов с внешней синхронизацией с периодом основного тона, также генератор случайных чисел. Генератор импульсов через определенный интервал вырабатывает импульс, соответствующий очередной порции воздуха. Интервал между импульсами называется периодом основного тона. Он равен величине, обратной частоте следования порций воздуха или частоте колебания голосовых связок. Выходная последовательность генератора случайных чисел имитирует турбулентный поток. Каждый из источников (или оба) может быть соединен с входом линейного цифрового фильтра с переменными параметрами, моделирующего голосовой тракт. При этом коэффициенты фильтра отражают свойства голосового тракта [57].

Особенности программной реализации системы "речь-текст"

В программной модели модуля преобразования речи в текст реализованы следующие функции: формирование обучающей выборки; обучение нейросети для классификации фонем; преобразование в текст речевого сигнала представленного в виде изолированного слова; сохранение обучающей выборки в виде подключаемой БД вейвлет-признаков фонем; импорт БД признаков фонем; автоматическая сегментация сигнала на речь и паузы, с построением списка выделенных сегментов, с возможностью их прослушивания и сохранения на диск в виде wav. файла; формирование эталонов фонем, путем их выделения в графическом окне отображения речевого сигнала; создание и редактирование словаря грамматических форм распознаваемых слов, с возможностями его сохранения и загрузки; настройка параметров моделирования нейронной сети; сохранение значений весов связей обученной нейросети; импорт нейросети; настройка параметров нейронной сети (размер скрытого слоя, ошибка обучения); настройка параметров записи (частота дискретизации, разрядность); импорт данных, хранящихся в виде wav - файлов; сохранение сигнала в формате .wav - файла; воспроизведение сигнала; просмотр речевого сигнала в отдельном окне с возможностью масштабирования; формирование фонем-эталонов путем их графического выделения из слов.

Управление программой осуществляется пользователем через графический интерфейс, созданный в среде разработки пользовательского интерфейса Matlab GUIDE.

Разработанный интерфейс (рисунок 4.1) позволяет пользователю сформировать базу данных фонем, провести обучение нейронной сети с заданными параметрами на сформированной обучающей выборке и выполнить преобразование в текст речевого сигнала, представленного в виде изолированного слов. Также предоставляются возможности управления записью/воспроизведением звука, настройки параметров записи, открытия и сохранения звуковых файлов с помощью диалоговых окон, а также графического отображения речевого сигнала.

Управление записью и воспроизведением осуществляется с помощью панели управления (кнопки: Запись, Воспроизведение, Пауза, Стоп). Открытие и сохранение wav - файлов выполняется с помощью диалоговых окон, вызываемых через соответствующие команды в меню Файл.

Открытый файл или записанный сигнал отображается в графической области приложения (рисунок 4.1).

Для выделения слов в речевом потоке предназначена функция Сегментация. При использовании этой функции слитные участки речи из сигнала выделяются в отдельные сегменты, которые отображаются в Списке сигналов (рисунок 4.1). Выбрав из списка сигнал, его можно просмотреть, прослушать и сохранить в .wav файл. Для использования данной функции необходимо, чтобы первые 100 мс сигнала не содержали речи.

Формирование базы фонемных эталонов, для которых будут вычисляться признаки, производится путем выделения фонем из слов. Для этого необходимо запустить Режим выделения, в котором предоставляется возможность графически отметить временной интервал речевого сигнала, соответствующий конкретной фонеме. По команде Выделить выбранный участок слова помещается в Список сигналов, где его можно прослушать, или сохранить на диск в виде .wav файла. В данном режиме включается разметка графика сигнала, и появляется возможность масштабирования (Нажатие левой кнопки мыши - увеличение, правой - сжатие, есть возможность выделения участка сигнала для просмотра под увеличением).

Обучающая выборка формируется с помощью команды Добавить, путем добавления нужных фонем-эталонов из Списка сигналов в Список фонем с указанием их символьного обозначения в диалоговом окне (рисунок 4.3). При этом выполняется предварительная обработка, и рассчитываются признаки выбранных фонем.

Для распознавания необходимо записать слово, или открыть заранее записанный .wav файл. После процедуры сегментации для выделения изолированного слова, по команде Распознавание открывается окно, в котором отображается текстовая строка распознанных слов (рисунок 4.5).

Без использования словаря при распознавании в окне с текстом будет отображаться фонетическое представление слова. Для создания и изменения существующего словаря предоставляется инструмент - Редактор словаря, доступный в меню Словарь. С помощью пользовательского интерфейса Редактора словаря (рисунок 4.6) можно сформировать новый словарь грамматических словоформ распознаваемых слов, добавить или удалить слова из уже подключенного словаря. Результат работы редактора можно сохранить с помощью соответствующей команды в меню Словарь.

Похожие диссертации на Преобразование речи в текст. Фонемный подход