Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении Краишкин Анатолий Викторович

Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении
<
Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Краишкин Анатолий Викторович. Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении : диссертация ... кандидата технических наук : 05.13.06.- Москва, 2006.- 134 с.: ил. РГБ ОД, 61 06-5/3431

Содержание к диссертации

Введение

Глава 1. Функционирование диспетчерской системы управления на железнодорожном транспорте и определение возможных путей ее совершенствования 13

1.1. Модель человеко-машинной системы управления движением поездов (ДНЦЧМС) 13

1.2. Надежность профессиональной деятельности в ЧМС 22

1.3. Аспекты применения речевого ввода информации в диспетчерском

управлении 25

1.4. Анализ возможностей речевого ввода информации 29

1.5. Выводы 31

Глава 2. Анализ систем распознавания речи 32

2.1. Историческая справка 32

2.2. Классификация систем распознавания речи 37

2.3. Общая структура системы распознавания речи 40

2.4. Выводы 43

Глава 3. Теоретические основы распознавания речи 44

3.1. Основные механизмы образования и восприятия речи 44

3.2. Цифровое представление речи 48

3.3. Выделение речи на фоне шума 50

3.4. Сегментация речи 50

3.5. Спектральный анализ речи 51

3.6. Классификация речевых образцов 70

3.7. Лексический анализ 78

3.7. Выводы 83

Глава 4. Разработка методов распознавания речи для практического применения на транспорте 84

4.1. Разработка технических требований к СРР 84

4.2. Методы распознавания речи 84

4.3. Словарный запас и грамматика системы 100

4.4. Архитектура программного комплекса 106

4.5. Результаты эксперимента 120

Заключение 124

Список литературы

Введение к работе

Актуальность исследования. Диспетчерское управление находит свое применение не только в железнодорожной отрасли, но и в авиационной, атомной и других отраслях. Везде, где применяется диспетчерское управление, оно показывает свою высокую эффективность.

Современные тенденции развития диспетчерского управления свидетельствуют об увеличении количества выполняемых диспетчером функций в его повседневной работе. Многочисленные попытки создания «автодиспетчера» приводят к выводу о необходимости разработки мер, направленных, во-первых, на частичную автоматизацию часто выполняемых функций, во-вторых, на предоставление диспетчеру дополнительного канала ввода информации. Значительный вклад в разработку методов и моделей решения задач автоматизации управления движением поездов железных дорог внесли российские ученые Абрамов В.М., Баранов Л.А., Беляков И.В., Горелов Г.В., Дмитренко И.Е., Ерофеев Е.В., Жербина А.И., Иванченко В.Н., Козлов П.А., Кравцов Ю.А., Лисенков В.М., Лисицын А.Л., Никифоров Б.Д., Розен-бергЕ.Н., Сапожников В.В., Сидоренко В.Г., Тишкин Е.М., Феофи-лов А.Н., Шалягин Д.В., Шубинский И.Б. и многие другие.

В настоящее время, помимо ручного способа ввода информации все большее распространение приобретает речевой ввод. Это в первую очередь связано с возросшей мощностью компьютеров, которые уже сейчас позволяют распознавать речь в режиме реального времени. Речевой ввод информации особенно актуален при диспетчерском управлении, когда диспетчер подвергается постоянным стрессовым нагрузкам, действуя в условиях дефицита времени. Большой вклад в разработку методов распознавания и обработки речи внесли российские ученые Бондарко Л.В., Венцов А.В., ВинщокТ.К., Галунов В.И., Горелик А.Л., Загоруйко Н.Г., Златоустова Л.В., Михайлов В.Г., Мясников Л.Л., Назаров М.В., Прохоров Ю.Н., Чистович Л А., Шелухин О.И. и многие другие.

Цель и задачи исследования. Целью диссертационного исследования является разработка методов и пакета прикладных программ речевого ввода информации применительно к диспетчерским системам управления (на примере железнодорожного транспорта). Для реализации поставленной цели решались следующие взаимосвязанные задачи:

анализ структуры и процесса функционирования диспетчерского управления на ж.д. транспорте; построение модели человеко-машинной системы (ЧМС) диспетчерского управления движением поездов, с целью выяснения областей применения речевого ввода информации;

оценка эффективности применения речевого ввода по следующим критериям: вероятность ошибочного формирования ответственной команды при применении речевого ввода в качестве завершающего этапа; скорость ввода команд;

разработка архитектуры системы распознавания речи (СРР) на основе анализа существующих;

анализ существующих методов распознавания речи, выбор и разработка эффективных методов для решения поставленной задачи;

разработка принципов формирования словаря и организации грамматики команд;

разработка программного обеспечения, реализующего мо
дель управления движением поездов с использованием речевого
ввода команд управления, в качестве дополнительного канала ин
формации.

Объектом исследования выступает ЧМС диспетчерского управления движением поездов.

Предметом исследования является математическое, алгоритмическое и программное обеспечение поддержки работы систем диспетчерского управления и их функциональных модулей.

Методологической основой исследования явилось использование методов системного анализа, спектрального анализа, распознавания образов, теории вероятностей, теории конечных автоматов, искусственной нейронной сети (ИНС), скрытой марковской модели (СММ), объектно-ориентированного программирования (ООП).

Исследование работоспособности и достоверности разработанных алгоритмов проводилось методом вычислительного эксперимента с помощью созданного комплекса программ на языке программирования C++ общим объемом около 15000 строк (часть исходных кодов включена в приложение).

Научная новизна.

1. Разработана методика обучения ИНС, позволяющая сократить время ее обучения, перейти от минимизации целевой функ-

ции в виде суммы квадратов ошибок обучения к минимизации максимальной ошибки.

  1. Определен критерий эффективности использования нейрона в ИНС, позволяющий получать более устойчивые решения.

  2. Разработан метод масштабирования при обучении СММ, позволивший упростить вычисление модифицированных прямых и обратных переменных.

Практическая ценность. Разработано программное обеспечение, которое позволяет в режиме диалога производить настойку словаря и грамматики команд, для конкретной системы диспетчерского управления.

Разработана методика обучения ИНС.

Произведена настройка словаря и грамматики команд для применения в работе поездного диспетчера (ДНЦ), которая позволяет ему с помощью речевого ввода выполнять следующие операции:

управление устройствами железнодорожной автоматики;

навигацию по станциям участка, с отображением подробной информации по выбранной станции;

запись диспетчерских приказов в звуковой файл и сохранение их в едином информационном массиве;

подтверждение выполнения ответственной команды.

Апробация работы. Основные положения и результаты диссертации докладывались, обсуждались и получили одобрение на заседании кафедры «Электроника и защита информации»МИИТ (2006 г.), на заседании кафедры «Вычислительная техника» РГОТУПС (2005, 2006 гг.), в Российском научно-исследовательском и проектно-кон-структорском институте информатизации, автоматизации и связи (2006 г.).

Публикации. По материалам диссертации опубликовано пять научных работ. Список приведен в конце автореферата.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы и приложения. Работа содержит 134 страницы машинописного текста, 3 таблицы и 55 рисунков. Список литературы состоит из 103 наименований.

Модель человеко-машинной системы управления движением поездов (ДНЦЧМС)

Термин человеко-машинная система (иначе эргатическая система) был официально зафиксирован в 1960 на I Конгрессе Международной федерации по автоматическому управлению для обозначения системы, содержащей в качестве функционального компонента человека-оператора/9/.

Транспортные эргатические системы, прежде всего, характеризуются наличием цели, исполнительными и управляющими органами, обратными связями, влиянием внешней среды и мощными потоками информации. Они, как правило, состоят из большого числа подсистем не только с детерминированными, но и стохастическими, вероятностными параметрами функционирования. Диспетчерские системы на железнодорожном транспорте принадлежат именно этому классу. Функции человека в них различны и зависят от положения его в иерархии управления перевозочным процессом, но в каждой человек необходим и роль его как элемента системы центральная [10]. Комплекс формализмов, представляющих модель ЧМС, имеет вид следующего кортежа [11]: MMS= KB,MP , (1.1) где KB - база знаний и данных о ЧМС, отображающая все реальные и концептуальные сущности, составляющие в совокупности "тело" ЧМС, и взаимосвязи между ними; MP - модель процессов функционирования ЧМС, отображающая последовательность действий и операций компонентов ЧМС. База знаний и данных (KB) представляется в виде следующего кортежа: KB = КВС, КВО , (1.2) где КВС - база знаний и данных о компонентах ЧМС, т.е. информация о том из каких типов и из каких конкретных реальных объектов она состоит; КВО -база знаний и данных об организации ЧМС, т.е. информация о взаимосвязи компонентов ЧМС между собой. База знаний и данных о компонентах ЧМС (КВС) представляется в виде следующего кортежа: КВС = КВРЕ, KBCS , (1.3) где КВРЕ - база знаний и данных о результатах функционирования ЧМС в виде продуктов и последствий; KBCS - база данных о компонентных структурах ЧМС. База знаний и данных о результатах функционирования База данных и знаний о результатах функционирования состоит из следующих составляющих [И]: КВРЕ = КВРг, КВЕ , (1.4) где КВРг - база данных и знаний о продуктах труда ЧМС; КВЕ - база данных и знаний о последствиях функционирования ЧМС. База знаний и данных о продуктах труда ЧМС является основным компонентом, определяющим функционально-целевое назначение данной ЧМС, и включает в себя следующие составляющие: KBPr = Pr, Re , (1.5) где Рг - множество знаний об основных продуктах труда; Re - множество знаний о побочных продуктах. Знания об основных продуктах труда имеют следующий вид: Pr = NPr, QPr , (1.6) где NPr - имя продукта труда; QPr - множество характеристик качества продукта труда. В качестве основного продукта труда, анализируемой человеко-машинной системы, выступает график исполненного движения, обладающий следующими количественными и качественными показателями [2]: Количественные показатели: размеры движения пассажирских и грузовых поездов, а также число проложенных «ниток» с учетом необходимого резерва; передача поездов и вагонов по стыкам с подразделениями на груженые и порожние; вагонообороты технических станций; пробеги поездов, вагонов и грузов (поездо-км, вагоно-км, т-км); пробеги локомотива (локомотиво-км) отдельно от пассажирского и грузового движения. Основные качественные показатели: техническая скорость (км/час) - средняя скорость движения поездов по участку с учетом чистого времени хода и времени на разгоны и замедления; участковая скорость (км/час) - средняя скорость движения поездов по участку с учетом чистого времени хода, времени на разгоны и замедления, а также времени стоянок поездов на промежуточных станциях; коэффициент скорости - отношение участковой скорости к технической; маршрутная скорость на направлении (км/сут) - средняя скорость движения поездов по направлению с учетом чистого времени хода, времени на разгоны и замедления, времени стоянок поездов на промежуточных и всех технических станциях; среднесуточный пробег локомотивов (км/сут) - среднее расстояние, которое прошел локомотив за сутки; средняя масса поезда (т); средняя длина поезда (ваг.);

К побочным продуктам труда относятся такие продукты, которые получаются вынужденно вследствие несовершенства процессов функционирования (технологический брак, ошибки персонала и т.п.). В ДНЦ ЧМС к побочным продуктам труда можно отнести: сбой графика движения, сход и столкновение поездов и т.п. База знаний и данных о последствиях функционирования является дополнительным компонентом, определяющим влияние процессов функционирования ЧМС как на внутренние элементы ЧМС, так и на ее окружение. В ДНЦ ЧМС все последствия можно разделить на четыре основные группы [11]: 1. Технические последствия: износ оборудования, расход ресурсов; 2. Психологические последствия: расход психологических ресурсов (утомление), стресс; 3. Социальные последствия: травматизм, профессиональные заболевания; 4. Экономические последствия: в настоящее время на долю железнодорожного транспорта приходится 80% грузовых и 40% пассажирских грузов.

Историческая справка

Достижения в обработке акустической информации. Распознавание речи является междисциплинарной проблемой, уходящей корнями в столетия изучения языка, звука, психологии, физиологии и автоматизации. Однако до двадцатого века не было достаточных знаний и устройств, позволяющих серьезно заниматься машинным распознаванием. К началу двадцатого века стало, наконец, ясно, что звуковой сигнал можно разложить на простые синусоидальные компоненты с помощью частотного спектрального анализа. Стало известно, что речь, воспроизводимая голосовыми органами человека, содержит большое число звуков различных частот, часть из которых заметно выделяется с помощью рта и гортани, действующих подобно акустической трубе специальной формы. Такая труба обладает "резонансами", которые зависят от ее геометрической формы. Эти естественные резонансы голосовых органов человека называют формантами [36]. Другим важным свойством речи является дискретность, т.е. речь состоит из предельно четко выраженных, характерно различающихся между собой звуковых элементов. Одни звуки речи произносятся без колебаний голосовых связок и называются "глухими звуками" (например, согласные с, к), в то время как для произнесения других (гласных, а также согласных, таких, как м и и) необходимо использование голосовых связок. Поэтому такие звуки называют "звонкими". Можно выделить также другие классы звуков речи, например шипящие "фрикативные" звуки (с, ф, и т.д.), особым образом произносимые "придыхательные согласные" (п, т, к, б, д, г) и "носовые" (для произнесения которых часть воздуха проходит через нос: м, н). Более подробные сведения о звуках русской речи и их основных характеристиках приведены в [29].

Ранние разработки. Первая серьезная попытка автоматического распознавания речи описана Дрейфусом-Графом в 1950 г. [35]. В этой системе речевой акустический сигнал пропускался через шесть полосовых фильтров. Наличие сигналов на выходах фильтров приводит -к появлению на экране электронно-лучевой трубки светящейся точки, положение которой зависит от относительной энергии сигналов в каждом из шести частотных диапазонов. При этом различной последовательности звуков соответствовали различные траектории точки на экране.

В 1952 г. Девис, Биддалаф и Балашек из фирмы Bell Telephone Laboratories разработали первый законченный образец распознавателя [35]. В нем частотный диапазон разделялся на два диапазона (меньше и больше 900 Гц) и подсчитывалось, как часто уровни двух сигналов проходят через нуль (пересечение оси). Последнее соответствует эквивалентной частоте максимума энергии сигналов в каждом диапазоне. Образец входного сигнала после этого сравнивался со спектральными образцами, соответствующими цифрам от нуля до девяти. Более 97% времени машина верно распознавала слова, произносимые любым человеком, образцы слов для которого содержались в памяти. Таким образом, это был первый зависящий от конкретного пользователя цифровой распознаватель речи.

Первая система распознавания речи с использованием цифрового вычислителя была выполнена в 1959-1960 гг. Денис и Мэтыоз ввели важную концепцию временной нормализации, благодаря чему более короткое высказывание автоматически "вытягивалось" или нормализовалась до необходимой продолжительности [35]. Многократные эксперименты, проведенные со многими людьми, показали, что нормализация сообщений приводит к существенному уменьшению числа ошибок при распознавании.

В 1960-е годы появились специализированные электронные устройства для распознавания изолированных слов [35]. Один из таких приборов размером с небольшой чемодан, демонстрировавшийся на всемирной ярмарке в Сиэтле в 1962 г, обычно называли "чемоданным распознавателем фирмы IBM". В 1964 г. Итакура разработал систему для распознавания 200 японских географических названий, произносимых по телефону при уровне шума 68 дБ. Система обладает достаточно высокой точностью, примерно 99% [35].

В обзоре состояния дел в области распознавания речи, сделанном Линдгреном в 1965 г., звучал призыв к применению лингвистики более высокого уровня в области распознавания так, чтобы предполагаемые и грамматически допустимые фразовые структуры произносимых предложений и критерии "осмысленности" последовательностей слов могли быть использованы для ограничения машинного выбора формулировки трудно произносимых предложений [35].

В 1968 г. появились распознаватели позволяющие оперировать с 50 -500 словами. Голд добился 86% точности распознавания при словаре объемом 54 слова и работе с 10 различными людьми. Бобров и Клэтт смогли достичь точности 97% при выполнении той же задачи при наличии двух говорящих. Большим шагом в увеличении объема словаря было создание системы распознавания Висенса, которая работала достаточно успешно со словарем 500 слов.

Важным событием в истории распознавания речи, происшедшим в 1972 г. был выпуск первых промышленных образцов устройства распознавания фирмами Scope Electronics и Threshold Technology [35]. Обычно точность распознавания, составляющая 99% и выше, достигается только в лабораторных условиях при отсутствии помех, соответствующей подготовке операторов и установившихся особенностях речи. Однако при испытании в реальных условиях очень редко удается достичь таких высоких показателей, и точность 97% является высокой для большинства систем, работающих в реальных условиях.

В 1971 г. была начата разработка самого крупного проекта, когда -либо предпринимавшегося в области распознавания речи, после того, как Advanced Research Projects Agency (ARPA) министерства обороны США приняло 5-летний проект стоимостью 15 млн. долларов по созданию машин, которые позволяют "понимать" произносимые слитно предложения и объем словаря, которых составлял 1000 слов. В ARPA была создана исследовательская группа, состоящая сначала из пяти подрядчиков, которые должны были построить отдельные системы понимания речи. В конце 1976 г. были продемонстрированы несколько систем, способных понимать произносимые предложения. Университет Карнеги - Меллона представил две системы - HARPY и HEARSAY II, фирма Bolt, Beranek and Newmen представила систему HWIM, а еще одна система была поставлена фирмой System Development Corporation (SDC). Только система HARPY университета Карнеги - Меллона в основном удовлетворяла всем требованиям проекта. Эта система понимала 95% произносимых пятью операторами предложений, используя словарь объемом 1011 слов и строго ограниченную грамматику предложений. Другие системы, разработанные по проекту ARPA, обладали большим коэффициентом ошибок[35].

За несколько лет до принятия проекта ARPA были начаты работы по самому крупному проекту в области распознавания речи, которым руководила фирма IBM. Исследователи фирмы IBM построили иерархическую систему ARCS, в которой слитная речь разделялась на короткие переходные элементы - транземы, простирающиеся от статистического центра одной фонемы до центра следующей. В 1973 г. система ARCS была первой, которая выполняла автоматическое распознавание слитной речи, состоящей из реальных команд. Характеристики ее были достаточно хорошими. Точность определения слов была равна 93%, в то время как 73% предложений были распознаны совершенно верно. В 1978 г. исследовательская группа IBM сообщила, что система, основанная на анализе десятимиллисекундных фрагментов речи, обеспечивает распознавание предложений в 95% случаев и распознавание слов командного языка из 250 слов, в 99% случаев[35].

Основные механизмы образования и восприятия речи

Основной особенностью этой модели является ТО, ЧТО источник возбуждения и голосовой тракт рассматриваются как отдельные системы. Генератор возбуждения формирует квазипериодическую последовательность импульсов для вокализированной речи и шумоподобный процесс для невокализированной речи. Линейная система с переменными параметрами отображает резонансные явления в голосовом тракте. Предполагается, что параметры линейной системы постоянны на интервалах 10-20 мс. Области спектральных максимумов, соответствующие резонансным частотам голосового тракта, называются формантами. Наиболее полное и всестороннее изучение форматной структуры звуков русской речи на мужском голосе выполнил Фант (Стокгольмский технологический институт)[43]. Полученные результаты легли в основу акустической теории речеобразования, утверждающей, что каждому звуку речи соответствует своя форма акустического речевого тракта (артикуляция) с присущей ему структурой формант. Примеры показаны на рисунке 3.3.

Рис. 3.3. Положение тракта для разных звуков речи и распределение их формант

Форманты звонких звуков занимают полосы частот 150...900 Гц (первая форманта Ф1), 550...2800 Гц (вторая форманта Ф2) и 1500...3400 Гц (третья форманта ФЗ), форманты глухих звуков 1000...3500 (Ф1), 2500...6000 Гц (Ф2) и 1500...4000 Гц (антиформанта). С вероятностью 0.98 частотный диапазон формант звонких звуков Ф1 равен 200...850 Гц, Ф2 -850...2550 Гц и ФЗ - 2100...3300 Гц. Частотные положения формант имеет тесную взаимосвязь, характеризуемую коэффициентом взаимной корреляции г=0,78 для первой и второй формант, г=0,82 для второй и третьей формант и г-0,95 для третьей и четвертой формант[29]. Артикуляционные возможности речевого тракта при образовании звуков чрезвычайно разнообразны, и могут быть использованы для создания огромного многообразия звуков. Однако для речи используется ограниченный набор звуков (количество фонем в разных языках мира в основном не превышает 50...70) [43, 44]. Для разных звуков для речи были отобраны те виды артикуляции, которые создают существенные акустические и слуховые различия.

Слуховая система является своеобразным приемником информации и состоит из периферической части и высших отделов слуховой системы[43]. Обычно периферическую слуховую систему делят на три части: внешнее, среднее, и внутреннее ухо[36]. Внешнее ухо состоит из ушной раковины и слухового канала, заканчивающегося тонкой мембраной, называемой барабанной перепонкой. Среднее ухо - заполненная воздухом полость, соединенная с носоглоткой евстахиевой трубой для выравнивания атмосферного давления. В среднем ухе находятся три маленькие слуховые косточки: молоточек, наковальня и стремечко. Внутреннее ухо находится в лабиринте каналов в височной кости, и включает в себя орган равновесия и улитку. Улитка играет основную роль в слуховом восприятии. Она представляет собой трубку переменного сечения, свернутую три раза. В развернутом состоянии она имеет длину 3,5 см. По всей длине она разделена двумя мембранами на три полости: лестница преддверия, срединная полость и барабанная лестница. Сверху срединная полость закрыта мембраной Рейсснера, снизу - базилярной мембраной. Все полости заполнены жидкостью. Базилярная мембрана состоит из нескольких тысяч поперечных волокон. На внутренней стороне базилярной мембраны находится "орган Корти", а в нем имеются специализированные слуховые рецепторы -волосковые клетки. Волокна слухового нерва контактируют с волосковыми клетками. Слуховой нерв представляет собой перекрученный ствол, сердцевина которого состоит из волокон, отходящих от верхушки улитки, а наружные слои - от нижних ее участков. Войдя в ствол мозга, нейроны взаимодействуют с клетками различных уровней, поднимаясь к коре и перекрещиваясь по пути так, что слуховая информация от левого уха поступает в основном в правое полушарие, а от правого уха в левое полушарие.

Общий механизм передачи звука упрощенно может быть представлен следующим образом[45]:

1. Звуковые волны проходят звуковой канал и возбуждают колебания барабанной перепонки;

2. Колебания барабанной перепонки через систему косточек среднего уха передаются овальному окну, которое толкает жидкость в верхнем отделе улитки - лестнице преддверия, в ней возникает импульс давления, который заставляет жидкость переливаться из верхней половины в нижнюю половину через барабанную лестницу;

Ширина полосы этих слуховых фильтров называется "критической полосой слуха" (существует специальная единица измерения барк, равная ширине критической полосы во всем диапазоне слышимых частот). Ширина критических полос меняется в зависимости от частоты. Внутри критической полосы слух производит интегрирование поступившей звуковой информации; 4. Механические колебания мембраны преобразуются внутри "органа Корти" в дискретные электрические импульсы нервных волокон; 5. Поток нервных электрических импульсов несет всю необходимую информацию о поступившем звуковом сигнале в мозг для дальнейшей переработки и реагирования.

Исходные данные для анализа речевого сигнала представляют собой непрерывные изменения звукового давления, снимаемые с датчика (микрофона). Для подготовки данных к дальнейшему анализу необходимо произвести ряд операций, с помощью которых сигналы с датчика переводятся в цифровую форму. Процесс перевода сигнала в цифровую форму состоит из двух не связанных друг с другом операций: дискретизации; квантования.

Дискретизация - процесс определения моментов времени, в которые должны быть получены значения сигнала с датчика[48]. Для того чтобы дискретная реализация содержала все те же частоты, что и исходный непрерывный сигнал, на каждый цикл соответствующего колебания должно приходиться, по крайней мере, два отсчета.

Квантование - перевод значений отсчетов, полученных в процессе дискретизации, в цифровую форму[48]. Поскольку числовое значение каждого отсчета должно быть выражено некоторым конечным числом цифр, континуум значений непрерывного процесса можно описать с помощью конечного числа уровней квантования лишь приближенно. Как бы ни была точна шкала, необходимо сделать выбор между двумя ее соседними значениями (рис. 3.5).

Разработка технических требований к СРР

Классификация спектральных векторов в базисе фонем русского языка производится с помощью ИНС. Для обучения данной нейронной сети нами была разработана модификация алгоритма обратного распространения ошибки, которая позволяет минимизировать не суммарную ошибку обучения, а максимальную. Решение данной задачи с помощью классического алгоритма обратного распространения ошибки, как правило, является недостижимым, так как ошибка обучения для некоторой совокупности обучающих пар ( входной вектор, выходной вектор ) может быть максимальной. Причину данного явления следует искать в уравнении (3.22). Данное уравнение показывает, что при увеличении разницы между текущим и желаемым значением равным 1 (0) величина ошибки постепенно возрастает, но при разнице больше или равной - величина ошибки начинает резко падать (рис. 4.5 и рис. 4,6). Данный эффект является положительным при решении задач, в которых предполагается, что исследователь мог ошибочно отнести какой-либо входной вектор не к тому классу, В задачах, требующих точного соблюдения отнесения входного вектора к нужному классу это недопустимо (например, определение по показаниям датчиков возникновения аварийной ситуации).

Представленный ранее метод (модифицированный алгоритм обратного распространения ошибки) обучения искусственной нейронной сети является локальным. Он ведет к одному из локальных минимумов целевой функции, лежащему в окрестности точки начала обучения. Только в ситуации, когда значение глобального минимума известно, удается оценить, находится ли найденный локальный минимум в достаточной близости от искомого решения. Если локальное решение признается неудовлетворительным, следует повторить процесс обучения при других начальных значениях весов и с другими управляющими параметрами. Можно либо проигнорировать полученное решение и начать обучение "с чистого листа" при новых значениях весов, либо изменить случайным образом найденное локальное решение и продолжить обучение сети. Последняя методика, имеющая название "jog of weights" (встряхивание весов), представляется вполне разумной, поскольку ее применение позволяет использовать полученные ранее результаты обучения. Нами была предложена модификация данной методики, заключающаяся в том, что встряхивание весов выполняется только для тех нейронов сети, которые являются "неактивными" более чем на 80%-90% обучающих выборок. Нейрон считается "неактивным" для обучающей выборки, если при подаче данной выборки на вход сети выход нейрона больше 0,99, либо меньше 0,01 (нейрон перешел в стадию насыщения). Таким образом, предложенная модификация определяет целенаправленный характер встряхивания весов нейронов. В результате, время амнезии сети при использовании модифицированной методики "jog of weights" меньше времени амнезии сети при использовании классической методики "jog of weights".

Для решения данной задачи в нашей программе используется скрытая марковская модель (рис. 4.9), которая позволяет оценить вероятность генерирования ею (моделью) имеющейся последовательности кодовых символов. Количество состояний для конкретной модели слова определяется как удвоенное количество букв слова плюс два. Первое и последнее состояние описывают шум. В нашем случае каждое слово описывается четырьмя кодовыми последовательностями символов. В качестве критерия оценки близости произнесенного слова и слова из словаря используется вероятность того, что хотя бы две последовательности кодовых символов представляют рассматриваемое слово из словаря. То слово из словаря, у которого данная оценка максимальна и превышает некоторый порог, ставится в соответствие произнесенному слову. Если же данная оценка не превышает порог, то представление (в виде последовательности кодовых символов) произнесенного слова направляется в обучающий буфер.

Основной проблемой, возникающей при обучении СММ, является масштабирование, которая заключается в том, что при обновлении параметров в формулах 3.32, 3.33, 3.34 происходит перемножение и сложение очень малых величин (значение зависит от длины последовательности кодовых символов, уменьшаясь экспоненциально), в результате чего теряется точность вычислений.

С каждой последующей итерацией масштабирующий коэффициент г, будет уменьшаться, в идеале стремясь к единице. Достоинством данного метода, по сравнению с классическим методом, является уменьшение количества арифметических операций для вычисления модифицированных прямых и обратных переменных и адаптивное изменение масштабирующего множителя. 4.3. Словарный запас и грамматика системы

Возможными областями применения речевого ввода, на примере диспетчерского управления на ж. д., являются: Управления устройствами автоматики; Навигация по станциям участка, с отображением подробной информации по выбранной станции (пример команды - станция Куровская); Запись диспетчерских приказов в звуковой файл (пример команды -запись распоряжение конец); Подтверждение выполнения ответственной команды. Исходя из указанных областей применения речевого ввода, приведем примерный словарный запас разрабатываемой системы [90, 91]. Для упрощения понимания, представим данный словарный запас в виде множества категорий, где каждая категория есть совокупность слов. Словарный запас состоит из следующих категорий: Устройства автоматики; Цифры: ноль, один, два, ..., девять; Порядковый номер: первый, второй, и т.п.; Цвет: зеленый, желтый, красный, синий, белый, мигающий; Тип светофора: входной, выходной, маршрутный, проходной, прикрытия, заградительный, предупредительный, повторительный, локомотивный, маневровый, горочный; Положение стрелки: прямое, боковое; Станции участка: совокупность наименований станций; Запись диспетчерских приказов: запись, стоп; Подтверждение ответственной команды: подтверждаю, выполнить; Общая категория - совокупность слов выполняющих вспомогательные функции: станция, положение, отмена. Отметим, что порядок следования слов данного словарного запаса должен подчиняться определенным правилам грамматики построения предложений рассматриваемой системы. Помимо того, что грамматика исключает возможность появления бессмысленных предложений, она увеличивает производительность работы системы распознавания.

Похожие диссертации на Разработка методов и пакета прикладных программ речевого ввода информации в диспетчерском управлении