Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием Изилов Яков Юноевич

Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием
<
Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Изилов Яков Юноевич. Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием : Дис. ... д-ра техн. наук : 05.13.06 : СПб., 2004 267 c. РГБ ОД, 71:05-5/587

Содержание к диссертации

Введение

Глава 1. Постановка цели и задач диссертационного исследования 16

1.1. Обработка деталей на станках с ЧПУ в условиях мелкосерийного и единичного производства 16

1.2. Проблемы программного управления промышленными роботами 24

1.3. Совершенствование человеко-машинного взаимодействия 31

1.4. Современное состояние автоматизированного оборудования и систем с речевым управлением 33

1.5. Постановка цели и задач диссертационного исследования 40

Глава 2. Математическое моделирование речевых сигналов 42

2.1. Векторное квантование 42

2.1.1. Обобщённая структурная схема процесса векторного квантования 44

2.1.2. Математическое описание задачи векторного квантования 46

2.1.3. Измерение расстояний 47

2.1.4. Кластеризация 49

2.1.5. Достоинства и недостатки векторного квантования 56

2.2. Скрытая модель Маркова 57

2.2.1. Определение скрытой модели Маркова 58

2.2.2. Нуль переходы 61

2.2.3. Моделирование длительности 62

2.2.4. Типы моделей Маркова 62

2.2.4.1. Дискретная СММ 63

2.2.4.2. Непрерывная СММ 65

2.2.4.3. Полунепрерывная СММ 66

2.2.5. Обучение и распознавание на основе СММ 68

2.2.5.1. Метод итераций 70

2.2.5.2. Метод Баума 73

2.2.5.3. Метод динамического программирования 78

2.2.5.4. Метод Витерби 80

2.2.6. Достоинства и недостатки СММ 84

2.3. Искусственная нейронная сеть 86

2.3.1. Биологическое строение нейронной сети 87

2.3.2. Модель искусственного нейрона 89

2.3.3. Классификация искусственных нейросетей 92

2.3.4. Анализ функциональных возможностей нейронных сетей 99

2.3.5. Простая персептронная нейросеть 106

2.3.6. Многослойный персептрон 116

2.3.7. Достоинства и недостатки нейросетей 129

2.4. Выводы 131

Глава 3. Теоретические основы автоматического анализа речевых указаний 132

3.1. Метод моделирования слов в слитной речи при неизвестном законе распределения PC 132

3.1.1. Взаимовлияние слов друг на друга при автоматическом анализе слитной речи 132

3.1.2. Представление эталонного акустического состояния «-мерной областью, независимой от закона распределения 135

3.1.3. Формирование эталонов акустических состояний 140

3.1.4. Предварительные этапы построения ориентированного графа лексического декодирования 141

3.1.5. Построение ориентированного графа лексического декодирования 142

3.1.6. Автоматический анализ слов в слитной речи ориентированным графом лексического декодирования 151

3.2. Метод лексической интерпретации слитной речи 153

3.2.1. Представление акустических состояний слов в слитной речи на основе аллофонов 153

3.2.2. Предварительные этапы построения ориентиванного графа лексической интерпретации слитной речи 158

3.2.3. Построение ориентированного графа лексической интерпретации 161

3.2.4. Лексическая интерпретация слитной речи 169

3.3. Выводы 170

Глава 4. Автоматизированное управление оборудованием с интегрированным речевым взаимодействием 172

4.1. Устройство речевого взаимодействия для оборудования с ЧПУ 172

4.2. Интеграция устройства речевого взаимодействия в УЧПУ на уровне операционной системы Microsoft Windows 175

4.3. Алгоритм ввода речевого сигнала в УЧПУ 179

4.4. Преобразование речевых указаний в команды управления 181

4.5. Построитель лексических гипотез 187

4.5.1. Структурная схема построителя лексических гипотез с блоком лексической обработки типа 1 187

4.5.2. Структурная схема блока лексической обработки типа 2 191

4.6. Программная часть устройства речевого взаимодействия 195

4.7. Структурные решения человеко-машинных систем

с интегрированным речевым взаимодействием 198

4.8. Выводы 201

Глава 5. Оценка достоверности научных результатов 203

5.1. Метод экспериментального исследования речевых указаний 203

5.1.1. Программный комплекс для аудио-визуального исследования речевых указаний 203

5.1.2. Определение количества измерений акустического состояния 209

5.1.3. Определение количества контрольных испытаний акустического состояния 213

5.1.4. Расчёт доверительных областей эталонных акустических состояний 216

5.2. Исследование измерения времени и вероятности понимания речевых указаний 222

5.3. Сравнительный анализ технологической подготовки работы оборудования с ЧПУ с клавиатурным вводом данных и человеко-машинной системы с речевым взаимодействием 224

5.4. Выводы 242

Заключение 243

Список литературы 245

Список условных сокращений 262

Приложение: Акты использования результатов

Введение к работе

В диссертации представлены исследования по проблеме автоматиза
ции многономенклатурного мелкосерийного и единичного производства.
Данная работа развивает направление создания систем с речевым управ-
лением в области автоматизации.

В этом направлении выполнено много теоретических разработок. Из
вестны примеры их практической реализации, показывающие высокую эф
фективность применения. Эффективность выражается прежде всего сокра
щением временных затрат на подготовительные работы и снижением тре
бований к специальной подготовке исполнителей этих работ. Однако из-
вестные реализации не выходят за рамки частных решений. Широкое ис
пользование методов речевого управления связано с решением ряда про
блем. Главной из них является математическое моделирование устной
речи, В данной работе предложены фрагментарные проработки этой про
блемы.
На основе теоретических исследований, проведенных в работе, пред-

ложены технические идеи и разработки, ориентированные на создание человеко-машинной системы (ЧМС) с интегрированным речевым взаимодействием (РВ) и обеспечивающие решение задач по ускорению технологической подготовки автоматизированного оборудования.

Актуальность. Важнейшие цели государственной политики в области
** развития науки и технологий сформулированы в документе - "Основы

политики Российской Федерации в области развития науки и технологий на период до 2010 года и дальнейшую перспективу", утвержденном Президентом Российской Федерации В.В. Путиным 30 марта 2002 года. Развитие науки и технологий служит решению задач социально-экономического прогресса страны и относится к числу высших приоритетов Российской Федерации.

Для достижения поставленных целей Правительством Российской Федерации утвержден ряд федеральных целевых программ развития науки и техники. В частности, федеральная целевая научно-техническая программа "Исследования и разработки по приоритетным направлениям развития науки и техники" на 2002 - 2006 годы; федеральная целевая программа "Национальная технологическая база" на 2002 - 2006 годы; федеральная целевая программа "Реформирование и развитие оборонно-промышленного комплекса на 2002 - 2006 годы". Исследования подчинены решению важных народно-хозяйственных проблем, в том числе: разработке базовых и прикладных технологий взаимодействия человек-машина на основе виртуальной реальности, а также разработке оборудования для технического перевооружения имеющихся производств с целью обеспечения их гибкости, повышения производительности труда и увеличения объемов выпуска продукции.

Приоритет развития базовых и прикладных технологий взаимодействия человек-машина и их народно-хозяйственное значение обусловлено ростом масштабов работ по интенсификации и компьютеризации технологического производства.

Создание основ для построения человеко-машинной системы, обеспечивающей диалог с виртуальным оператором посредством речевого взаимодействия, позволяющих не только разработать новую технику, но и модернизировать существующее оборудование с целью повышения производительности труда и увеличения объемов выпуска продукции, является актуальной проблемой.

За последние два десятилетия временной период нахождения изделия в производстве значительно сократился, а средняя продолжительность цикла технической подготовки производства (ТПП) - увеличилась. В условиях многономенклатурного мелкосерийного и единичного производства продолжительность ТПП стала соизмеримой с продолжительностью нахождения изделия в производстве, а во многих случаях превышает её. Это

8 обусловлено ростом трудоемкости и сложности процесса ТПП.

В этой связи актуальное значение приобретает задача сокращения непроизводительного времени, повышения оперативности и удобства управления оборудованием (станков с ЧПУ, промышленных роботов, гибких производственных систем и т.д.), решение которой требует разработки новых методов и средств автоматизации производственных процессов.

Одним из таких методов является речевое управление. Его использование позволяет сократить количество ручных операций на стадиях подготовки документации, разработки и редактирования управляющей программы (УП) и технологической наладки оборудования с ЧПУ при переходе от обработки одного вида деталей к обработке другого, отличающегося по конструктивно-технологическим признакам. Вместе с тем он позволяет повысить уровень "интеллектуальности" систем управления станков с ЧПУ, промышленных роботов (ПР), гибких производственных систем (ГПС) и т.д., а также автоматизированных систем управления (АСУ) различного назначения. Реализация такого метода управления требует разработки теоретических и научно-практических решений, что является актуальной проблемой.

Совокупность проблем, возникающих на различных этапах технической подготовки производства и проблем оперативного управления оборудованием в условиях многономенклатурного мелкосерийного и единичного производства, с одной стороны, и с другой - видимая возможность универсального решения для многих из них на основе создания методов и средств автоматизированного управления с речевым человеко-машинным взаимодействием рассматриваются автором как объективные признаки актуальности данной работы.

Цель и задачи исследования. Целью диссертационной работы является создание методов и средств автоматизированного управления оборудованием с интегрированным речевым взаимодействием для повышения его функциональных и эксплуатационных возможностей. Для достижения поставленной цели необходимо решить следующие задачи:

  1. Разработка метода построения автоматизированных систем с интегрированным речевым взаимодействием и элементами интеллектуальной поддержки процесса управления.

  2. Анализ адекватности известных математических методов моделирования речевых сигналов с точки зрения их применимости в создаваемой автоматизированной системе с речевым взаимодействием.

  3. Разработка теоретических основ автоматического анализа речевых указаний, позволяющих решить проблему автоматического понимания речевых команд для последующего формирования управляющих воздействий на автоматизированное оборудование.

  1. Разработка пакета прикладных программ для аудио-визуального исследования параметров речевых указаний, функционирующего под управлением операционной системы Microsoft Windows, обеспечивающего простоту и удобство использования.

  2. Разработка устройства речевого взаимодействия на основе предложенных научных положений, обеспечивающего поддержку русского языка.

  3. Определение объёма обучающей выборки для достижения правильного понимания речевых указаний устройством речевого взаимодействия.

  4. Разработка структурных решений человеко-машинных систем с интегрированным речевым взаимодействием, позволяющих расширить функциональные возможности, повысить оперативность и удобство управления промышленных роботов, станков с ЧПУ и другого автоматизированного оборудования.

Методы исследования. В диссертационной работе использовались методы: теории вероятностей, теории графов, теории распознавания образов, теории скрытых моделей Маркова, теории искусственных нейронных сетей, теории цифровой обработки сигналов, акустической теории речеоб-разования, теории планирования и постановки эксперимента.

10 Научная новизна работы. Представленная на защиту диссертация является обобщением, проведённых автором исследований и разработок, в результате которых решена научная проблема создания методов и средств автоматизированного управления оборудованием с интегрированным речевым взаимодействием на русском языке, имеющая важное народно-хозяйственное значение для деятельности отечественных предприятий в условиях восстановления и дальнейшего развития отечественных производств. Конкретные результаты, обладающие научной новизной, состоят в следующем:

1. Метод построения автоматизированных систем с интегрированным
речевым взаимодействием и элементами интеллектуальной поддержки
процесса управления.

  1. Результаты анализа современного состояния систем речевого управления, которые позволили определить возможности их использования для автоматизации производственных процессов.

  2. Результаты анализа наиболее распространенных математических методов моделирования речевых сигналов.

  3. Теоретические основы автоматического анализа речевых указаний, позволяющие упростить процесс их математического моделирования и повысить вероятность их правильного понимания при формировании управляющих воздействий на автоматизированное оборудование.

  4. Метод экспериментального исследования речевых указаний, позволяющий определить объём обучающей выборки для достижения их правильного понимания устройством речевого взаимодействия.

Практическая значимость полученных результатов. Результаты исследований легли в основу разработок для создания автоматизированной системы с речевым взаимодействием.

Разработаны устройство речевого взаимодействия и способ его интеграции в системы ЧПУ класса Industrial PC на уровне операционной системы (ОС) Microsoft Windows, что позволяет реализовать человеко-машинную

систему с речевым взаимодействием.

Разработан пакет прикладных программ для аудио-визуального исследования речевых указаний на IBM PC-совместимом компьютере, функционирующий под управлением ОС Microsoft Windows, обеспечивающий простоту и удобство использования.

Разработанные структуры человеко-машинных систем с интегрированным речевым взаимодействием на основе использования предложенных теоретических положений и устройства речевого взаимодействия со встроенным модулем преобразования речевых указаний в команды управления, содержащим блоки акустической и лексической обработки и алгоритмическое обеспечение ввода речевых сигналов в устройство управления оборудованием, позволяют расширить функциональные возможности и повысить уровень "интеллектуальности" систем управления станков с ЧПУ, ПР, ГПС и других автоматизированных систем.

Создание на научной основе автоматизированной системы с речевым взаимодействием позволит модернизировать не только большой парк станков с ЧПУ и прочего автоматизированного оборудования, которые эксплуатируются в условиях единичного и мелкосерийного производства, но и автоматизированные системы управления (АСУ) широкого назначения, в том числе технологическими процессами (АСТП), производствами (АСУП), технической подготовкой производства (АСТПП) и т.д. Это доступно практическому внедрению, как на крупных, так и на малых предприятиях. Капиталовложения на проведение этой модернизации несоизмеримо малы по сравнению с приобретением нового оборудования.

Полученные в диссертации научные положения, методы и рекомендации могут быть использованы при компьютеризации технологического производства; для организации запросов баз данных; подготовки и корректировки документов; организации автоматических контрольно-пропускных пунктов; в кабинах летательных аппаратов; в диспетчерских пультах атомных и гидроэлектростанциях; в условиях перегрузок, темноты или рез-

кого изменения освещённости; при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, и там, где существует большое количество аварийных, предупреждающих и уведомляющих сигналов.

Кроме того, результаты работы могут использоваться в учебном про-
^ цессе при постановке лабораторных и курсовых работ, в рамках лекцион-

ных курсов для студентов машиностроительных и других специальностей, включающих в себя вопросы автоматизации и управления техническими системами.

Основные положения диссертации, выносимые на защиту:

1. Метод построения автоматизированных систем с интегрированным

речевым взаимодействием и элементами интеллектуальной поддержки процесса управления.

2. Теоретические основы автоматического анализа речевых указаний,
позволяющие упростить процесс их математического моделирования и по
высить вероятность их правильного понимания при формировании управ-

ляющих воздействий на автоматизированное оборудование.

3. Структурные решения человеко-машинных систем с интегрирован
ным речевым взаимодействием, построенные с использованием предло
женных теоретических положений и устройства речевого взаимодействия со
встроенным модулем преобразования речевых указаний в команды управле
ния, содержащим блоки акустической и лексической обработки и алгорит-

* мическое обеспечение ввода речевых сигналов в устройство управления

оборудованием, которые позволяют расширить функциональные возможности и повысить уровень "интеллектуальности" систем управления промышленных роботов, станков с ЧПУ и других автоматизированных систем.

4. Метод экспериментального исследования речевых указаний, позво
ляющий определить объём обучающей выборки для достижения их пра-
вильного понимания устройством речевого взаимодействия.

і 13

Достоверность научных положений, выводов и рекомендаций подтверждается: корректным использованием теории графов, теории цифровой обработки сигналов, акустической теории речеобразования, теории распознавания образов, теории планирования и постановки эксперимента; доста-точным совпадением экспериментальных и расчётных данных и успешной проверкой решений, полученных на основе теоретических разработок.

Результаты использования. Результаты диссертационной работы использованы в ЗАО "Станкостроительный завод "Свердлов", ФГУП "Центральный научно-исследовательский институт технологии судостроения" (ЦНИИ ТС).

* Публикации. По теме диссертационной работы опубликовано 23 науч-

ные работы, в том числе 2 монографии и 2 патента РФ на изобретение, в которых полностью отражены полученные результаты.

Апробация работы. Основные теоретические положения, результаты, выводы, рекомендации докладывались и обсуждались: на Российской научно-технической конференции "Инновационные наукоёмкие технологии для России", (Санкт-Петербург, 1995); на научной военно-технической конференции "Автоматизация процессов управления соединениями и частями ПВО, информационные технологии. Состояние и перспективы создания единой автоматизированной радиолокационной системы", (Санкт-Петербург, 1996); на международной научно-технической конференции "Информационные технологии в моделировании и управлении", (Санкт-Петербург, 1996).

Структура и объём диссертации. Диссертация состоит из введения,
пяти глав, заключения, списка литературы, списка условных сокращений и
приложения (акты использования результатов диссертационной работы).
Общий объём диссертации составляет 267 страниц, в том числе 226 страниц
составляет основной текст, который поясняется 76 рисунками и 14 табли-

цами. Список литературы насчитывает 210 наименований.

В первой главе исследуются проблемы обработки деталей с использованием металлорежущих станков (МС) с ЧПУ и промышленных роботов (ПР) в условиях многономенклатурного мелкосерийного и единичного производства. Анализируются конструктивные особенности деталей и особенности процессов технологической подготовки работы МС с ЧПУ и ПР для их обработки. Предлагается наиболее перспективный подход к созданию автоматизированных систем на основе речевого взаимодействия, позволяющий повысить уровень "интеллектуальности" систем управления станков с ЧПУ, ПР, ГПС и т.д., а также автоматизированных систем управления (АСУ) различного назначения.

Проводится обзор современного состояния автоматизированного оборудования и систем с речевым управлением, который показывает, что их номенклатура и сфера применения постоянно расширяется. Вместе с этим, серийных систем и устройств отечественного производства, позволяющих осуществить речевое управление на русском языке, не обнаружено. В конце главы формулируются цель и задачи диссертационной работы.

Во второй главе рассматриваются наиболее распространённые математические методы, пригодные для моделирования речевых сигналов (PC), которые основаны на векторном квантовании, скрытых моделях Маркова и нейронных сетях. Проводится подробный анализ каждого из них. Показывается необходимость разработки новых теоретических основ автоматического анализа речевых указаний, позволяющих решить проблему автоматического понимания речевых команд для последующего формирования управляющих воздействий на автоматизированное оборудование.

В третьей главе рассматриваются разработанные автором теоретические основы автоматического анализа речевых указаний, позволяющие упростить процесс математического моделирования речевых указаний и повысить вероятность их правильного понимания при формировании управляющих воздействий на автоматизированное оборудование.

Четвёртая глава посвящена разработке структурных решений и принципов автоматизированного управления оборудованием с ЧПУ, используя речевое взаимодействие. Приводятся описание разработанного устройства речевого взаимодействия и способ его интеграции в УЧПУ. Рассматриваются разработанные структурные решения человеко-машинной системы с речевым взаимодействием, предназначенной для автоматизации процесса технологической наладки и интеллектуальной поддержки процесса управления промышленного робота и горизонтально-расточного станка с ЧПУ.

Пятая глава посвящена оценке достоверности научных результатов, предложенных в предыдущих главах. Рассматривается метод экспериментального исследования речевых указаний, который позволяет установить объём экспериментальных работ и определить размер обучающей выборки для достижения необходимой вероятности их правильного понимания устройством речевого взаимодействия. Проводится сравнительный анализ технологической подготовки работы оборудования с ЧПУ с клавиатурным вводом данных и человеко-машинной системы с интегрированным речевым взаимодействием. Показываются различные примеры условий эффективного использования человеко-машинной системы с речевым взаимодействием.

В заключении приводятся основные выводы и результаты диссертационной работы.

В списке условных сокращений указаны основные сокращения, используемые в диссертационной работы.

В приложении приводятся акты использования результатов диссертационной работы.

Современное состояние автоматизированного оборудования и систем с речевым управлением

Новым техническим решением для автоматизации различных производственных процессов стало появление систем с речевым управлением. Они сочетают в себе множество функциональных возможностей, легкость обучения и эксплуатации.

В связи с тем, что количество научно-исследовательских групп, работающих в области создания автоматизированного оборудования и систем с речевым управлением в мире очень велико, приведенный ниже обзор не может охватить описание всех существующих разработок. Тем не менее, были выбраны те системы и устройства, которые, по мнению автора, представляют наибольший интерес с научной и практической точки зрения. Наиболее важными характеристиками систем речевого управления являются быстродействие и точность (или вероятность) распознавания речевых сигналов (PC). Кроме этого, следует выделить не менее значимые характеристики:

Режим ввода речи. Эта характеристика определяет способ подачи PC, то есть изолированно (дискретно) или слитно (непрерывно).

Размер словаря. Размер словаря является наиболее важной характеристикой, влияющей на быстродействие и вероятность распознавания. Он определяется количеством словарных статей или очень часто - количеством слов. Словарной статьей может быть буква, слово, словосочетание, фраза или даже при необходимости целое высказывание. Чем больше словарь, тем больше вероятность содержания в нём акустически схожих словарных статей. В этой связи, увеличение размеров словаря требует большего количества обучающей выборки и большего периода времени для их обнаружения.

Дикторозависимость. Дикторозависимые (ДЗ) системы предназначены для автоматического анализи и идентификации речи, произнесённой одним конкретным диктором. Дикторонезависимые (ДНЗ) системы предназначены для идентификации речи, произнесённой любым новым диктором. Очень часто ДЗ системы достигают лучшего результата, чем ДНЗ. Это связано с ограничениями изменчивости PC, поступающего от одного и того же диктора. ДНЗ системы требуют более сложного акустического моделирования для описания изменчивости PC между дикторами. Очень часто это оказывает неблагоприятное воздействие на быстродействие и вероятность правильной идентификации.

Приемлемые характеристики систем идентификации (или распознавания) речи часто достигаются за счёт ограничения размера словаря, ограничения манеры произнесения и ограничения числа дикторов. Однако даже такие ограничения иногда не позволяют достичь необходимых результатов. Поэтому большинство исследований направлено на совершенствование характеристик существующих систем распознавания с небольшими, но полезными словарями, такими как словарь цифр или словарь букв.

Наиболее интересным оборудованием, которое было специально разработано английской компанией Newall Electronics [179] в 2001 году для ускорения процесса технологической наладки металлорежущего станка, является система iPRO.

В основу системы компания положила фундаментальный принцип: если что-нибудь отвлекает квалифицированного наладчика или оператора станка от работы, то это, вероятно, снижает производительность его труда.

Эта разработка представляет собой беспроводную персональную систему, которая крепится на голове и на поясе пользователя. На пояс натягивается ремень, к которому присоединён микрокомпьютер, а на голову надевается устройство со встроенными микрофоном, наушником и подвесным проекционным мини экраном (рис. 1.9). Радиус действия системы составляет несколько сотен метров. Такое нововведение позволяет пользователю свободно передвигаться вокруг станка, осуществлять контроль и обеспечить оперативное управление станком с помощью речевых команд.

По заявлению президента компании Newall Electronics Дэнни Донэлд-сона (Danny Donaldson), система iPRO предлагает беспрецедентную безопасность, удобство и производительность [179]. Она была разработана специально для того, чтобы помочь наладчикам и операторам станков лучше выполнять их задания, намного быстрее, с увеличенной точностью и комфортом. Система iPRO позволяет наладчику или оператору станка всегда иметь необходимую информацию прямо перед своими глазами, не отвлекаясь от работы. Это стало возможным посредством использования расположенного на уровне глаз подвесного проекционного мини экрана. Он сделан из специальной оптики и, вмонтированного в неё 1.1 дюймового полупрозрачного микродисплея. Габариты подвесного экрана в два раза меньше пластиковой кредитной карточки. За счёт применения специальной оптики проектируемое изображение кажется достаточно больших размеров и таким, как на полноцветном 15-ти дюймовом мониторе.

На подвесной мини экран с помощью речевых команд может быть выведена информация, например, о значениях координат положения исполнительных механизмов станка, числа оборотов вращения шпинделя, скорости подачи, глубины резания без нарушения обзорности зоны обработки. На рис. 1.10 представлен фрагмент подобной информации.

Представление эталонного акустического состояния «-мерной областью, независимой от закона распределения

Основные достоинства и недостатки искусственных нейронных сетей были рассмотрены для каждой конкретной модели НС в разделах 2.3.4 -2.3.6. В данном разделе приводятся достоинства и недостатки, затрагивающие использование нейросетей при моделировании PC в целом.

Искусственные нейронные сети (ИНС) позволяют решить ряд про блем, которые возникают при моделировании PC традиционными мето дами статистической обработки данных. В частности, метод классической статистической обработки данных, в большинстве случаев, опирается на утверждение о том, что обрабатываемые данные подчинены одному из известных законов распределения [10,44], хотя это утверждение не всегда верно. Вместе с этим важными достоинствами ИНС являются: (] 1) Нелинейность. Достоинством использования ИНС для моделирова ния PC является нелинейное преобразование последовательности вход У ных параметрических векторов в последовательности сетевых выходов. Это достоинство потому, что именно нелинейность - характерное свойство речевых сигналов. 2) Сокращение числа распознаваемых состояний. ИНС можно рассматривать как некоторую "модернизацию" метода векторного квантования. При этом предоставляется возможность сократить размер кодовой книги, и, как следствие, сократить в некотором смысле период процесса обучения. 3) Параллелизм. ИНС предоставляет возможность массового параллельного выполнения большого числа операций типа сложения, умножения и нелинейных преобразований. 4) Обучение. В процессе обучения ИНС могут изменять свое поведение в зависимости от внешней среды. Более того, они обладают возможностью самонастраиваться таким образом, чтобы обеспечивать требуемую реакцию. Эта способность вызывает к ним особый интерес. 5) Обобщение. После обучения ИНС может быть до некоторой степени нечувствительна к небольшим изменениям входных сигналов. Следовательно, ИНС обладает свойством фильтрации случайных помех, присутствующих во входном сигнале. С одной стороны, эта способность позволяет видеть образ сквозь шум и искажения, что очень важно для распознавания образов в реальных условиях. Кроме того, она позволяет преодолеть требование строгой точности, которое предъявляется обычным компьютером. С другой стороны, она позволяет избежать применения алгоритмов сглаживания экспериментальных зависимостей при статистической обработке данных, что тоже очень важно. Однако наряду с перечисленными достоинствами существуют и недостатки: 1) На эффективность функционирования НС большое влияние оказывает её конфигурация, то есть количество нейронных слоев и количество нейронов в каждом из них. 2) Основная и критическая проблема, возникающая при использовании ИНС - это процесс обучения, то есть метод программирования ИНС. В процессе обучения должно адаптивно обеспечиваться желательное взаимодействие НС с распознаваемыми образами. 3) Ловушки локальных минимумов характерны для большинства алгоритмов обучения, основанным на поиске минимума (включая сети с РБФ и МП) представляют серьезную и широко распространенную проблему, которой часто не замечают. 4) Возможности НС не позволяют осуществить моделирование внутренней структуры слов, словосочетаний и фраз. Анализ наиболее распространённых математических методов, которые могут быть использованы при моделировании PC, позволяет сделать следующие выводы: # 1. Метод ВК требует выбора оптимального числа эталонов и рацио нального размещения их в параметрическом пространстве с целью мини мизации погрешности квантования. При этом универсального критерия выбора оптимального числа эталонов нет. Тем не менее, снизить погреш ность квантования возможно путём увеличения размера кодовой книги. Однако это ведёт к увеличению времени, необходимого для поиска в ней щ вектора и увеличению объёма памяти, требуемого для хранения кодовой книги. Вместе с тем, в отдельности, он не позволяет смоделировать внутреннюю структуру слов, словосочетаний и фраз. По этой причине, использование метода В К для моделирования PC возможно только совместно с другими методами, позволяющими смоделировать изменяющиеся во времени последовательности векторов данных. 2. Возможности нейросетей также не позволяют в достаточной мере осуществить моделирование изменяющихся во времени последовательно стей векторов данных, таких как PC. 3. Адекватное моделирование PC с применением СММ возможно осуществить при помощи дополнительных изменений и расширений основ данного подхода. Однако для этого требуется проведение отдельных ис следований. Таким образом, осуществление процесса управления с речевым взаимодействием требует разработки теоретических основ автоматического анализа речевых указаний, позволяющих смоделировать структуру произносимых слов, словосочетаний и фраз в виде изменяющей во времени последовательности векторов данных для дальнейшего формирования управляющих воздействий на автоматизированное оборудование.

Преобразование речевых указаний в команды управления

Автоматический анализ слов в слитной речи происходит следующим образом. Периодически с произнесением речевого высказывания берут выборки акустического оцифрованного сигнала этого высказывания через фиксированные интервалы времени с заданной частотой квантования в этом интервале. По совокупности этих выборок производят анализ спектра и вычисляют параметры, определяющие текущее акустическое состояние речевого сигнала [25].

Одновременно по вычисленным значениям параметров текущего АС, используя ОГЛД, строят гипотезы о словах, которые могут иметь место в высказывании.

ОГЛД представляет собой различные последовательности проверок, результатов и классификаций - ветви решений. Все ветви решений начинаются в главной вершине, называемой корнем ОГЛД. Из каждой вершины исходят дуги к следующим ожидаемым вершинам. Каждой вершине соответствует некоторая доверительная область значений параметров АС на фиксированном временном интервале. С целью исключения проверки текущего АС во всех вершинах, порождаемых корнем ОГЛД, производится грубая оценка его местоположения. Для определения грубого местоположения текущего АС в вершинах, порождаемых корнем ОГЛД производится поиск подмножества вершин с близким к вычисленному (текущему) сортировочному коэффициенту ]. После этого происходит сравнение по совокупности параметров текущего АС с эталонными. Если описание рассматриваемой реализации речевого сигнала содержит все параметры Vi,V2,V3,...v„, которые накрываются доверительной областью по формуле (3.20), соответствующей рассматриваемой вершине, то текущее АС в этой вершине идентифицировано. В этом случае процесс автоматического анализа перемещается в следующие ожидаемые вершины, на которые указывают дуги исходящие из текущей вершины. После прохождения нескольких вершин может быть достигнута концевая (граничная) вершина. Каждой граничной вершине (ГВ) соответствует множество реализаций образа слова, описания которых содержит комбинацию эталонов АС, необходимых для достижения этой ГВ. Следовательно, любая реализация образа слова имеет свою последовательность вершин (путь) в ОГЛД. Найденный путь отображает транскрипцию произнесённого слова, по которой формируются наиболее близкие варианты лексических гипотез заданного словаря.

ОГЛД использует такое представление словаря, при котором объединены общие части различных слов. Поэтому процедура просмотра всего словаря легко реализуема с вычислительной точки зрения и не требует отдельного рассмотрения каждого слова. При этом акустико-фонетические знания проявляются в удобной и доступной форме, в результате чего упрощается процесс оптимизации выбора наилучшего пути.

В соответствии с рис. 3.7 начальная вершина (корень ОГЛД) представляет собой АС, характеризующее паузу. Каждая вершина первого уровня (в порядке следования слева направо и сверху вниз) ОГЛД представляет собой объект, связанный с одним участком квантованной фразы. Каждая вершина второго уровня содержит АС, связанное со следующими возможными состояниями и т. д. Каждая вершина допускает переход в саму себя (на рис. 3.7 такой переход не показан, чтобы не загромождать схему). Это приводит к тому, что две и более вершины могут быть связаны с одним и тем же акустическим состоянием.

Таким образом, в процессе сравнения текущих АС с эталонными, могут возникнуть дополнительные АС, в то время как их отсутствие приводит к существенным проблемам. Поэтому потенциально отсутствующие АС должны рассматриваться как дополнительные АС при создании ОГЛД.

Обнаружение текущего АС, зависит от результата проверки его параметров с эталонными АС - доверительными областями. Кроме того, обнаружение АС, применяемое на каком-либо разветвлении зависит от исхода предыдущих проверок. Проверка текущего АС на принадлежность к какому-либо эталону осуществляется в соответствии с неравенством (3.20).

С помощью метода, изложенного в разделе 3.1, процесс автоматического анализа слов в слитной речи происходит на основе принятия решения об акустической схожести произнесённой последовательности АС с имеющимися эталонами в словаре. Причём, в случае присутствия хотя бы одного слова во входном высказывании, для которого нет эталона (последовательности АС) в словаре происходит отказ от автоматического анализа всего высказывания. В этом случае диктору необходимо произносить высказывание до тех пор, пока не произойдёт обнаружение соответствующих эталонных слов.

Отличительной особенностью метода лексической интерпретации слитной речи является предварительная классификация произнесённого высказывания без принятия однозначного решения. Окончательное решение принимается после результатов анализа речевого сообщения на более высоких уровнях обработки.

В этом разделе рассматривается процесс создания словаря (базы данных слов), на примере речевых указаний, рассмотренных в разделе 3.1. Создание словаря связано с построением ориентированного графа лексической интерпретации (ОГЛИ), вершинами которого являются АС [28]. Процесс лексической интерпретации слитной речи основан на поиске оптимальной последовательности вершин в ОГЛИ.

Любое речевое сообщение может быть образовано только путём непрерывных во времени и упорядоченных в соответствии с заданной программой речеобразования движений артикуляторных органов [88,90]. Известно также, что каждое движение артикуляторных органов генерирует определенный речеобразующий акустический элемент.

В данном разделе диссертационной работы в основу представления элементов анализа PC положен принцип последовательного разложения фонем на аллофоны, а аллофонов - на составляющие их АС. Аллофоны легко различимы акустически, вследствие чего исчезает потребность применения фонологических правил на более низких уровнях. Они содержат информацию о границах между слогами и словами. Такую информацию предлагается получать посредством представления аллофонов в виде трёх последовательных АС: начального, серединного и конечного. При этом тип серединного АС зависит только от типа выбранного аллофона, а тип начального или конечного (переходного) АС зависит, кроме того, от типа предшествующей и последующей фонемы.

Программный комплекс для аудио-визуального исследования речевых указаний

При автоматическом анализе речевых указаний естественным является создание промежуточного представления непрерывного сигнала в виде последовательности дискретных символов некоторого конечного алфавита. В качестве подобного алфавита в диссертационной работе используются акустические состояния (АС). Средством для установления соответствия между модельным (математическим) и фонологическим представлением речевого указания является база данных АС. По своей сути, база данных АС включают в себя: - речевой материал, специально отобранный таким образом, чтобы он был, при сохранении возможно меньшего объема, как можно более представительным (то есть содержал все возможные варианты звуков с сохранением их естественной частоты встречаемости); - описание этого материала, в простейшем (и наиболее часто используемом) случае, состоящий из орфографической записи материала, записи его в звуковых единицах и маркировки, соотносящей каждую единицу записи с соответствующим ей участком в непрерывном сигнале. Таким образом, имея подобную базу данных, можно решать следующие задачи: - находить количественные характеристики различных звуков речи; -подстраивать параметры моделей в соответствии с реальными данными; - тестировать модели, а также точным образом (с указанием вероятности правильной идентификации любого типа звука) сравнивать различные виды моделей между собой; - обучать системы автоматического анализа, использующие классификаторы образов, рассчитанные на обучение учителем.

Получить базу данных АС делается возможным, разработав систему визуализации речевых сигналов (PC). Более того, визуализация PC полезна как неформальный метод сравнения различных параметрических систем для описания сигналов и т.д.

Несмотря на очевидную необходимость и простую сущность, систем визуализации PC не так много, а специализированные фонетические базы данных ("базы знаний о языке") имеются только в нескольких наиболее развитых капиталистических странах. У нас в стране подобные базы данных только создаются. Это связано с тем, что, кроме необходимости иметь такого рода базу данных, нужно ещё создать соответствующий инструмент, то есть систему визуализации и обработки PC, пригодную для создания баз данных, а затем и соответствующее наполнение самой базы.

Таким образом, это многодисциплинарная задача. Для её решения требуются: совместные и координированные усилия специалистов по методам автоматического анализа речи, знающих, как предстоит эксплуатировать базу данных и в каком виде ей лучше представлять данные; лингвистов, которые могут подобрать достаточно правильный материал; программистов, способных реализовать соответствующий программный продукт так, чтобы им можно было пользоваться. При этом нужно иметь ещё и специализированную аппаратуру для ввода/вывода PC.

Ниже приводится описание специально разработанного программного комплекса "Звукоинженер" [32], который реализован персональном компьютере, совместимом с IBM PC и функционирует в ОС Microsoft Windows. Данный программный комплекс предназначен для аудио-визуального исследования речевых указаний и подготовки базы данных АС. Он разработан на языке C++ в ОС Microsoft Windows. Объектно-ориентированный язык C++ выбран в качестве базового вследствие нескольких причин: 1. C++ является языком многоцелевого назначения с возможностью создания независимых от конкретной вычислительной платформы программ. 2. Реализация в языке C++ объектно-ориентированного подхода к программированию делает возможным разделить разрабатываемую программу на легко контролируемые части, что позволяет ускорить разработку и отладку больших программных продуктов [76]. 3. Возможность использовать алгоритмы, написанные на других языках, с помощью процесса динамической компоновки MS Windows. "Звукоинженер" отличается улучшенным пользовательским интерфейсом, который выполнен в максимальном соответствии с требованиями стандарта интерфейсов с пользователем (Common User Access), что облегчает использование программы [46]. Для представления информации используется мультидокументальный интерфейс (MDI), который является частью спецификации CUA фирмы IBM. В рамках данной работы описать все функциональные возможности программного комплекса "Звукоинженер" не представляется возможным. Поэтому приведём наиболее интересные из них. Пользователь может открывать, редактировать, просматривать сразу несколько документов различных типов. Под документом стандартом MDI понимается любая файло-ориентированная задача. Каждый открытый файл закрепляется за индивидуальным окном документа, которое имеет свои атрибуты и может быть перемещено в пределах области главного окна "Звукоинженера". Для исследования PC необходим следующий минимальный набор параметрических форм представления сигналов и функциональных возможностей, которые обеспечивает "Звукоинженер": - график осциллограммы сигнала; - график общей энергии сигнала; - график числа переходов через ноль; - график основного тона; - сонограмма (спектрограмма); - мгновенный спектр; - возможность представления отдельных участков PC перечисленными выше формами и их масштабирование; - возможность маркировки участков сигнала (расстановка и удаление меток, их запоминание в файле и считывание из файла); - возможность вывода перечисленных выше форм представления PC на принтер; -запись с выбором частоты дискретизации и разрядности квантования; - сохранение PC в файл; - воспроизведение всего файла с PC и отдельного его фрагмента. Важным достоинством разработанного программного комплекса является связь с реальными сигналами. Различные технические средства ввода/вывода создают файлы с различными форматами представления сигналов, поэтому в программном комплексе "Звукоинженер" предусмотрена работа с различными форматами исходных данных, в том числе их запись и воспроизведение.

Похожие диссертации на Научные основы автоматизированного управления оборудованием с интегрированным речевым взаимодействием