Введение к работе
Актуальность проблемы. Создание систем распознавания речи приобретает в последнее время особо ванное значение ввиду расширения сфер применения вычислительных систем и увеличения числа пользователей этих систем. Поскольку речь является наиболее естественной и привычной формой общения человека, введение речевого канала связи человек-ЭШ позволяет увеличить число пользователей ЗВЇІ, значительно улучшает эргономические . показатели вычислительных систем.
В настоящее время одним из главных препятствий на пути широкого распространешія устройств распознавания речи является их относительно высокая стоимость. Высокая стоимость этих устройств несоизмерима с их довольно огршшченными возможностями. Поэтому следует признать актуальным резєние двух задач: упрощение архитектуры существующих устройств распознавания речи и существенное улучшение их основных функциональних параметров.Архитектура современных устройств распознавания речи характеризуется наличием различных специализированных устройств. Алгоритмы, реализуемые эти-:*,;: специализированными устройствами, являются обычно довольно трудоемкими и в большинстве случаев не могут быть реализованы на современных микропроцессорах. С другой стороны, развитие современ -ных вычислительных средств на микропроцессорной основе, в частности персональных ЭВМ, требует развития таких подходов к обработке речи, которые бы не нуждались вгиспользовшвга сложных и дорого -стоящих специализированных вычислительных устройств. В первую очередь, это относится к проблемам реализации в реальном масштабе времени цифрового спектрального анализа и процедуры нелинейного согласования во времени речевых сигналов. Цифровой спектральный анализ в большинстве систем распознавания речи строится или пу -тем реализации цифровых фильтроз, или с помощью быстрого преобра* зованкгя Оурье (БПЭ). Основная вычислительная нагрузка как в алгоритме БІК, так и в алгоритмах цифровых фильтров приходится на операцию умножения. С другой стороны, существует ряд ортогональных преобразований, которые,во-первых, не использует операцию умножения, а во-вторых, не требуют обработки в комплексной плоскости.
Важнейшим представителем этого класса преобразований является преобразование Уолта.-Существуют различные варианты преобразо-
1-100/у
вания Уолша, для реализации которых могут быть использованы соответствующие алгоритмы быстрого преобразования Уолша (БПУ). Обычно алгоритмы БПУ требуют выполнения NCogAN действительных сложений (вычитаний), что является приемлемым для реализации этих алгоритмов в реальном масштабе времени на современных быстродействующих микро-ЭВМ.
Большинство систем распознавания речи, в которых использовались функции Уолша для описания речевых сигналов, давали до сих пор хорошие результаты только по скорости получения спектрального описания речевых сигналов. Однако, объем распознаваемого словаря в этих системах был небольшой и составлял, в лучшем случае, несколько десятков слов. Уровень ошибок распознавания был также неудовлетворительным.
Цель работы - сравнительное исследование эффективности применения для распознавания речи различных вариантов преобразбва-ния Уолша; существенное улучшение параметров системы распознавания речи в базисе Уолша за счет оптимизации первичного описания речевых сигналов и совершенствования процедур обучения и распознавания . "
Задачи исследования:
-
Сравнительное исследование различных вариантов преобразования Уолша с точки зрения получаемых < их помощью параметров системы распознавания речи: достоверности распознавания речевых сигналов, времени на получение энергетического спектра Уолша и необходимых для реализации преобразования Уолша ресурсов памяти.
-
Исследование эффективности применения обобщенного преобразования Уолша для описания речевых сигналов.
> 3. Изучение целесообразности применения принципов векторного квантования для кодирования речевых сигналов в базисе Уолша.
-
Разработка быстродействующей процедуры для нелинейного согласования во времени речевых сигналов и их эталонов.
-
Исследование методов оптимизации принятия решений при представлении речевых сигналов несколькими группами эталонов.
-
Исследование эффективности дифференциации параметрического описания речи в различных классах речевых сигналов.
7. Разработка промышленной системы распознавания речи в базисе Уолша.
Методы исследования. Для решения поставленных задач использовались методы цифровой обработки сигналов, теория распознавания образов, статистические методы обработки информации, клас -терный анализ, сведения из теории дискретной оптимизации и методы планирования эксперимента. При разработке промышленной системы распознавания речк использовались также эвристические методы, . а при непосредственном создании программного обеспечения для этой системы привлекались методы структурного программирования.
Научная новизна. Научная новизна работы состоит в следующем:
доказана возможность'использования преобразования Уолша для первичного представления речевых сигналов в задачах распознавания словарей объемом в несколько сотен слов; показана возмож -ность программной реализация в реальном масштабе времени преобразования Уолша применительно к задаче вычисления энергетического спектра речевых сигналов;
исследована эффективность применения обобщенного преобразования Уолша для первичного описания речевых сигналов в системе распознавания речи; сформулированы и доказаны теоремы, дающие теоретическую оценку производительности различных алгоритмов быстрого обобщенного преобразования Уолша;
показана эффективность применения принципов векторного квантования для кодирования речевых сигналов, представленных энергетическими спектрами в базисе Уолша; преложена процедура выбора начальных значений кодовых векторов, оптимизирующая выполнение процедуры векторного квантирования - алгоритма к-средних»
разработан метод апостериорных коэффициентов информативности, оптимизирующий процесс принятия решений при представлений речевых сигналов несколькими группами эталонов; применение этого метода позволяет повысить достоверность распознавания речевых сигналов;
доказана эффективность дифференциации параметрического описания речи в различных классах речевых' сигналов; для решения задачи оптимизации дифференцированного описания речи разработан специальный алгоритм дискретной оптимизации ( Л-алгоритм);
на основе предложенных подходов разработана промышленная система распознавания речи; для компенсации вариабельности речевых сигналов, связанной с различием громкости гслосов разных дик-
торов и изменением расстояния диктора до микрофона, для этой системы разработаны алгоритмы программного управления коэффициентом усиления; на основе предложенной модели упрощенного фонетического описания речевых- сигналов разработан метод повышения быстродейсг.вия алгоритмов распознавания;
-. разработал специализированный язык описания фраз; использование этого языка предоставляет пользователям системы речевого ввода дополнительные возможности по повышению достоверности и уменьшению времени распознавшая речевых сигналов.
Практическая ценность. Ка основе принципов, изложенных в диссертационной работе, было разработано промышленное устройство распознавания речи. Особенности архитектуры данного устройства -в первую очередь, отсутствие спецпроцессоров для цифрового спектрального анализа и динамического программирования, могут быть трансформированы при^разработке других устройств распознавания речи. Использование быстродействующих алгоритмов цифрового спектрального анализа на основе преобразования Уолша и метода квази-опткмальноК сегментации речевых сигналов может быть полезным при разработке микропроцессорных систем распознавания рзчи.
Реализация тгезультатов. Диссертационная работа выполнялась в секторе автоматического распознавания речи ВЦ АН СССР и в Специальном конструкторско-технологическо,м бюро вычислительной техники Черновицкого производственного объединения "Электронмо" Кинприбора СССР в рамках НИР "Разработка алгоритма функционирования системы речевого ввода технологической информации" (№ гос. регистрации 01.82.0071866) и ОКР "Модуль анализа речевых сигналов ПС 7801" (№ гос.регистрации 01.84.004II50). В результате проведения отих работ было разработано промышленное устройство распознавания речи - модуль" анализа речевых сигналов ПС 7Є0І. Данное устройство предназначено для использования в АСУ технологическими процессами.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на:
Всесоюзной научно-технической коифорсндаг "Проблемы иатс-матического, программного и информационного обеспечения АСУ технологическими процессами" (Черновцы, 1979 г.);
Всесоюзной конференции "Теория адаптивных систем и ее применения" (Ленинград, 1983 г.);
Всесоюзной школе-сшикаре "Автоматическое рапознавание слуховых образов APC0-I3" (Новосибирск, I9B4 г.);
Всесоюзном семинаре "Автоматическое распознавание слуховых образов APC0-I4" (Каунас, 1936 г.);
Всесоюзной научно-технической конференции "Опыт разработки и внедрения технических к программных средств СМ ЭВМ и АСЗТ-ПС (Северодонецк, 1986 г.);
XI Международном конгрессе фонетических наук (Таллина, 1987 г.);
семинаре сектора автоматического распознавания речи ВЦ АН СССР (Москва, 1990 г.).
Публикации. По материалам диссертации опубликовано 10 ра -бот, ь1 том числе, один научно-технический отчет.
Структура и объем работы. Диссертация состоит из введения, четырех глав и заключения, изложенных на 156 страницах машинописного текста; содержит 22 рисунка, 8 таблиц, список литературы, состояний из 127 наименований, и 3 приложения.