Содержание к диссертации
Введение
ГЛАВА I. Проблема организации речевого ввода в диалоговых системах 17
1.1. Общее состояние проблемы 17
1.2. Современные системы автоматического распознавания речи и особенности их эксплуатации 24
1.3. Основные принципы построения систем автоматического распознавания речи 31
1.4. Анализ известных методов построения матобеспечения распознающих систем 35
1.5. Принципы построения тестов для проверки и диагностики систем и устройств распознавания речи 48
Заключение 57
ГЛАВА 2. Бионический подход к проблеме автоматического распознавания речи. Разработка структуры специализированного матобеспечения 58
2.1. Структура речевого сигнала и сегментно-целостная структура речевого сообщения 58
2.2. Бионическая модель системы автоматического распознавания речи 63
2.3. Алгоритмы блоков бионической системы автоматического распознавания речи 74
Заключение 89
ГЛАВА 3. Оптимизация признаков и выбор алгоритмов распознавания 91
3.1. Проблема выбора информативных признаков 93
3.2. Использование различных модификаций уравнения динамического программирования в задачах распознавания речевых образов 103
3.3. Специализированное матобеспечение диалоговых систем, рассчитанных на произвольного диктора 116
3.4. Экспериментальная проверка надежности работы системы распознавания речевых образов, основанной на бионическом принципе 122
3.5. Влияние шумов на точность автоматического распознавания речевых сигналов в системах с речевым вводом информации 129
Заключение 130
ГЛАВА 4. Математическое обеспечение систем и устройств 132
4.1. Автоматическая система распознавания изолированно произнесенных слов (10 цифр), рассчитанная на произвольного диктора (номеронабиратель с голоса) 133
4.2. Система распознавания искаженных сигналов гелиевой речи для осуществления связи с акванавтами при сверхглубоких погружениях 140
4.3. Диалоговая система анализа речевых сообщений 148
Заключение 156
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ 160
СПИСОК ЛИТЕРАТУРЫ 163
ПРИЛОЖЕНИЕ 183
- Современные системы автоматического распознавания речи и особенности их эксплуатации
- Структура речевого сигнала и сегментно-целостная структура речевого сообщения
- Использование различных модификаций уравнения динамического программирования в задачах распознавания речевых образов
- Автоматическая система распознавания изолированно произнесенных слов (10 цифр), рассчитанная на произвольного диктора (номеронабиратель с голоса)
Введение к работе
Разработка систем автоматического распознавания и синтеза речи является в настоящее время одним из основных направлений развития средств автоматизации. Такие системы позволяют повысить эффективность технического обслуживания различных систем в народном хозяйстве и допустить широкий круг пользователей, не обладающих специальной подготовкой, к эксплуатации сложных технических комплексов, в частности, вычислительных машин.
Диапазон потенциального практического использования устройств, воспринимающих речевые команды и выдающих информацию или управляющие сигналы голосом, необычайно широк [бЗ, 59, 66, 74,105, 130] .
Широта возможных практических применений таких устройств определяется рядом специфических свойств речевого способа передачи информации [б4] : - речь является для человека естественным способом обмена информацией, не требует специального обучения, относительно устойчива к изменению психофизиологического состояния оператора ; - речевой обмен информацией и речевое управление оставляют свободными глаза и руки, которые зачастую оказываются перегруженными в процессе практической деятельности ; речевой обмен информацией и речевое управление возможны в условиях пониженной (или нулевой) освещенности и при физических перегрузках ; для речевого управления и обмена информацией возможно использование стандартных каналов связи и стандартного периферийного оборудования.
Кроме того, системы распознавания речи могут работать от голоса конкретного пользователя ("санкционированный" доступ к органам управления), а также от речи, генерируемой в условиях искусственной дыхательной среды (например, "гелиевая речь").
С перечисленных выше позиций разработка практических устройств распознавания речевых сигналов, включающая в себя математическое и программное обеспечение всех блоков этих устройств, является актуальной задачей, важной как с научной, так и с прикладной точек зрения.
Несмотря на очевидные преимущества систем автоматического распознавания речи и многолетние исследования в этой области, достигнутые успехи пока недостаточны. Связано это с чрезвычайной сложностью структуры речевого сигнала. Во-первых, элементы речевого потока весьма изменчивы, что определяется индивидуальными особенностями говорящего, его психофизиологическим состоянием, контекстом и просто мгновенно сложившейся артикуляторно-акустической ситуацией. Во-вторых, при общении человека с человеком речь включена в широкий неречевой контекст и чаще всего предполагает контрольный ответ (диалог). Система же автоматического распознавания речи имеет дело только с этим сообщением и редуцированность сигнала становится труднопреодолимой [24] .
Наиболее широкое развитие и применение нашли способы автоматического распознавания речи, основанные на использовании точных математических методов при сравнении входных и эталонных реализаций, которые рассматривают речевой сигнал, не учитывая его биологическую природу, выражающуюся в неопределенности описания и многовариантности сигнала, отражающего не только смысл сказанного, но и эмоции говорящего, его индивидуальность и т.д. Это делает системы, основанные на отношении к речевому сигналу, несущему одно смысловое содержание, очень зависящими от диктора и условий, в которых он находится при произнесении высказывания. Большинство современных реальных промышленных систем не учитывают природу речи из-за трудностей ее моделирования. В отличие от более общего математического направления исследований в настоящей работе предлагается бионический подход, базирующийся на изучении основных закономерностей речевосприятия. Такой подход позволяет создавать системы, наиболее полно учитывающие способности человеческого мышления к восприятию реальных речевых сигналов.
Системы автоматического распознавания речи - это в первую очередь программные системы, которые должны работать в реальных условиях (в акустических шумах помещения, с множеством дикторов, не являющихся профессиональными пользователями вычислительных машин и т.д.). Реальные условия накладывают свои требования на системы речевого ввода и на их математическое обеспечение. Кроме того, современные системы распознавания должны быть экономичными с точки зрения памяти и вычислительных ресурсов. Вследствие этого актуальной проблемой построения таких систем является выбор модели распознавания, для которой развивается матобеспечение, связанной с выбором алгоритмов отдельных этапов дешифрации речи.
Цель данной работы - разработать специализированное программное обеспечение для систем и устройств с речевым вводом информации, обеспечивающим работу этих устройств в условиях акустических помех и искажений, характерных для практических задач. Ставилась задача совместить достоинства бионической модели процесса восприятия речи человеком и модели, на которой основываются большинство современных практических систем распознавания речи, не обладающих достаточной для применения в реальной практике устойчивостью.
Для решения этих задач было необходимо: определить архитектуру системы распознавания речевого сигнала, реализующей бионический подход к распознаванию речевого сообщения ; проанализировать старые и разработать новые методики и алгоритмы анализа и распознавания речи (включая оптимизацию признаков первичного описания) ; разработать математическое и программное обеспечение систем и устройств, работающих в реальных условиях ; экспериментально проверить работу предложенных алгоритмов и программ.
В диссертации, посвященной разработке специализированного матобеспечения речевого ввода информации, рассматриваются следующие вопросы: исследуется общая структура блоков речевого ввода в диалоговых системах ; анализируются методы и алгоритмы первичной обработки речи и методики автоматического распознавания речевых сигналов ; формулируются принципы построения тестов для проверки и диагностики систем и устройств распознавания речи ; предлагается бионический подход к организации процесса - II - распознавания в системах автоматического распознавания речи, который наряду с традиционными статистическими методами обработки речевого сигнала учитывает основные принципы восприятия речи человеком ; разрабатывается матобеспечение для систем автоматического распознавания речи, основанной на бионическом принципе ; оптимизируется система различительных признаков речевого сигнала; выбираются оптимальные параметры алгоритма нелинейного сравнения входной речевой реализации и эталонных произнесений ; разрабатывается специализированное матобеспечение для систем распознавания речевых образов, ориентированных на произвольного диктора ; предлагается модель системы автоматического распознавания изолированных слов на ЭВМ типа ЕС, основанная на бионическом принципе, позволяющая проводить сквозные эксперименты по выбору оптимальных параметров распознающей системы; проведена проверка работы системы в шумах ; предлагается матобеспечение для автоматического телефонного номеронабирателя, работающего с голоса произвольного диктора ; разрабатывается специализированное матобеспечение для обработки искаженных гелиевой средой сигналов для осуществления связи с акванавтами ; разрабатывается матобеспечение для диалоговой системы анализа речевых сигналов.
Общая методика проведения исследований в данной работе направлена на поиск оптимальных алгоритмов отдельных блоков матобеспечения речевого ввода и предусматривает: использование результатов биологических, психологических, психолингвистических исследований процесса восприятия речи человеком ; использование статистических методов обработки информации ; использование спектральных методов для анализа речевого сигнала ; использование метода динамического программирования для решения задач распознавания речевых образов; применение методов кластерного анализа для формирования эталонных реализаций речевых сигналов ; использование методов теории алгоритмов и организации банков данных для представления знаний в памяти ЭВМ.
Научная новизна работы заключается: в разработке и программной реализации новых алгоритмов анализа и распознавания речевых сигналов для систем, работающих в сложных условиях ; в оптимизации параметрического представления речевых сигналов для систем с речевым вводом информации ; в выборе оптимального варианта процедуры нелинейной деформации масштаба времени при сравнении распознаваемого и эталонного речевых сигналов методом динамического программирования ; в разработке специализированного математического и программного обеспечения для систем автоматического телефон- - ІЗ - ного номеронабирателя, работающего от голоса произвольного диктора; в разработке матобеспечения для системы связи с акванавтами, находящимися в гелиево-кислородной дыхательной среде ; в разработке математического и программного обеспечения диалоговой системы анализа акустических сигналов с речевым запросом информации ; в формировании тестов для проверки и диагностики систем автоматического распознавания речи с целью исследования их применимости в сложных условиях.
Практическая ценность работы, подтвержденная актами использования результатов диссертации, определяется тем, что разработанные методики, алгоритмы и программы используются в конкретных системах и устройствах автоматического распознавания речи и в отдельных узлах таких систем, работающих, как правило, в сложных условиях (в шумах производственного помещения, в гелиевой среде, в телефонном канале).
Диссертация состоит из введения, четырех глав и заключения.
В первой главе рассматриваются вопросы, связанные с особенностями проектирования диалоговых систем "человек - ЭВМ" с речевым вводом информации. Перечислены проблемы, возникающие при построении систем распознавания речи, работающих в реальных условиях. Проведен обзор научных и практических достижений в области создания систем автоматического распознавания речи, рассмотрены принципы построения тестов для проверки и диагностики распознающих систем и устройств. Приводится общая - Ik - структура распознающей системы и анализируются методы построения матобеспечения речераспознающих систем.
Современные системы автоматического распознавания речи и особенности их эксплуатации
Речевые исследования в мире интенсивно ведутся в течение последних тридцати-сорока лет. Однако лишь в последние годы наметились сдвиги в практическом применении полученных научных результатов. В Советском Союзе работы в области распознавания речевых образов появились еще в сороковых годах [65] . С 1965 года регулярно проводится Всесоюзная школа-семинар "Автоматическое распознавание слуховых образов" (АРСО). Прошедшая в сентябре 1982 г. APC0-I2 [і] показала, что вопросами распознавания и синтеза речи в настоящее время в СССР занимается несколько десятков организаций; идейный уровень научных работ в этом направлении в некоторых из них не отстает от уровня зарубежных разработок, однако в области создания реальных коммерческих систем распознавания и синтеза речи и их внедрения отставание велико.
В ближайшее время ожидается перелом в отношении промышленности к системам распознавания и синтеза речи. Ряд министерств и ведомств начинает экспериментальный выпуск первых изделий и намечает программы разработок специальных интегральных схем для них. В настоящее время можно отметить всего несколько законченных разработок.
Устройство распознавания речи "Икар", разработанное в НИИ счетного машиностроения [72,53] , предназначено для пословного ввода и распознавания устных команд, произносимых одним диктором, и реализовано на базе жесткой логики. Объем словаря - 200 слов, время распознавания - 0.5 сек, вероятность правильного распознавания - 95$. Число повторений команды при обучении - I раз. Устройство предназначено для изделий вычислительной аппаратуры в информационных системах и САПР.
Киевским институтом кибернетики АН УССР совместно с Минским отделом МОНИИС {Минсвязи СССР разработана система речевого диалога СРД - "Речь-I" на базе мини-ЭВМ "Электроника-60" [22J . Объем словаря 200 слов; проводится обучение на данный словарь и голос данного диктора, скорость обучения - 20 слов в минуту. Надежность распознавания для 120 слов - 96%, для 200 слов - 9h%. Ответ пользователю - голосом. Предполагаемое использование - в САПР печатных плат и энергомашиностроения, в АСУ производственными процессами [20,19] .
Демонстрационные системы распознавания речи на базе мини-и микро-ЭВМ создаются в КБ завода "Россия" [5б] , в МОНИИС (г.Минск) [б], в МВТУ им.Баумана [73] , Новосибирском государственном университете [l7] , ВЦ АН СССР (г.Москва) [57], Томском политехническом институте, Каунасском политехническом институте [б9] .
Структура речевого сигнала и сегментно-целостная структура речевого сообщения
При проектировании систем автоматического распознавания речи в настоящее время наблюдаются две тенденции [25] . Одна из них связана с чисто инженерным подходом к этому вопросу. При разработке распознающих устройств пользуются довольно ограниченными сведениями о природе и структуре речевого сигнала, а положительный результат распознавания достигается за счет использования статистических сведений о речевом сообщении. Такой подход вполне приемлем при построении распознающих систем и устройств, ориентированных на ограниченный набор изолированно произнесенных слов или коротких словосочетаний. И, более того, часто ориентированных на конкретный словарь. Однако при распознавании (или понимании) слитного текста, наговоренного произвольным диктором, такие системы просто не пригодны. Это прежде всего объясняется тем, что в структуре таких систем не учтены важные особенности реального речевого сообщения.
Основные положения, которыми пользуются разработчики при построении систем распознавания речи с ограниченным словарем, сводятся к тому, что речевые образы подчиняются условиям, характерным для статистической теории распознавания образов:
- для каждого образа можно выделить некий эталон (среднее);
- разброс конкретных реализаций относительно этого образа носит чисто случайный характер ;
- следовательно, при любом формальном правиле принятия решения данному образу в пространстве признаков соответствует некоторая замкнутая область.
И по такому алгоритму обрабатываются либо речевые сегменты, либо полностью слова. В первом случае слово разбивается на некоторые ограниченные во времени участки (сегменты), которые подчиняются описанным выше требованиям. На основе определенных логических правил принимается решение о принадлежности сегмента тому или иному классу, а далее - объединенное решение о произнесенном слове. Естественно, при организации такого процесса существует множество тонкостей и допущений (например, предполагается, что разбиение слова возможно и т.д.). Однако, в общем случае процесс принятия решения происходит именно по такой схеме. Второе направление - распознавание слова как единого неделимого целого - в настоящее время получило более широкое распространение [ііб] . И здесь предположение об эталонно-статистическом характере соотносится уже с этой единицей.
Использование различных модификаций уравнения динамического программирования в задачах распознавания речевых образов
При конкретном использовании алгоритмов динамического программирования в задачах распознавания речевых сигналов необходимо оптимальным образом выбрать ряд параметров, обеспечивающих заданную надежность распознавания при возможно меньших затратах. К таким параметрам относятся:
- различные варианты описания речевого сигнала;
- выбор метрики сравнения признаков речевых образов ;
- определение возможных локальных деформаций оси времени (модификации основного уравнения оптимального пути) ;
- определение области допустимых деформаций оси времени (выбор "коридора") ;
- определение допустимых отклонений начальной (конечной) точки динамического пути от начала (конца) координат по обеим осям.
I. Различные варианты описания речевого сигнала рассмотрены в предыдущем разделе.
2. Выбор метрики пространства признаков определяется прежде всего выбором первичного описания сигнала.
Автоматическая система распознавания изолированно произнесенных слов (10 цифр), рассчитанная на произвольного диктора (номеронабиратель с голоса)
Одним из возможных конкретных применений систем автоматического распознавания речи является автоматический набира-тель телефонных номеров с голоса. Предполагаемая система должна заменить (или задублировать) механический - клавишный или дисковый - номеронабиратель в телефонном аппарате, т.е. соединение с абонентом должно происходить в результате распознавания нужного номера телефона, произнесенного голосом. Кроме того, данное устройство может быть использовано и в других целях, когда необходим небольшой словарь (10-15 слов). Например, в системах управления роботами, выполняющими ограниченное количество команд.
4.I.I. Характерные особенности системы телефонного набирателя с голоса [її, 12] . Система предназначена для соединения абонентов с семизначными телефонными номерами. Но так как распознавание слитнопроизнесенных слов содержит определенные трудности, в целях повышения надежности распознавания система работает с изолированно произнесенными цифрами, т.е. номер телефона 238-67-54 произносится: 2-3-8-6-7--5-4. Из проблемной постановки задачи следует, что система должна быть ориентирована на произвольного диктора.
Таким образом, задача формулируется следующим образом: создать матобеспечение для системы распознавания изолированно произнесенных цифр О, I, 2, 3, 4, 5, 6, 7, 8, 9, рассчитанной на произвольного диктора.
Для того, чтобы лучше понять основные идеи, заложенные в систему, на рис.4.1 и рис.4.2 приводятся блок-схемы предлагаемого устройства и акустического распознавателя отдельно. Модель системы реализована на ЗВМ ЕС 1033.
4.1.2. Принцип работы модели системы. Блок-схема автоматического номеронабирателя представлена на рис.4.2.- Пользователь пословно произносит цифры телефонного номера, используя описанный ранее формат произнесения.
Речевой сигнал пропускается через гребенку полосовых фильтров, выбранную в соответствии с рекомендациями главы 3. Полученные значения через электронный коммутатор и преобразователь аналог-цифра квантуются и поступают в ЭВМ, где нормализуются по срезам к сумме всех составляющих огибающей по времени. Полученное таким образом характерное описание неизвестного речевого образа сравнивается с эталонными реализациями слов, хранящихся в памяти ЭВМ. При каждом таком сравнении методом динамического программирования определяется мера подобия неизвестного речевого образа и очередного эталона, и результатом работы системы распознавания является множество мер подобия для каждого неизвестного слова.