Введение к работе
Актуальность темы диссертации
Применение систем распознавания речи позволяет реализовать наиболее удобное взаимодействие человека с технической системой. Управление с помощью голоса может оказаться особенно полезным, если руки оператора заняты, при воздействии на оператора ускорений, при проведении работ в экстремальных условиях, когда важна скорость реакции и т.д.
Для многих задач необходимо применение дикторонезависимьк систем распознавания изолированных слов (команд). Это вопросно-ответные системы, системы с неизвестным заранее диктором, приложения компьютерной телефонии. Разработка таких устройств осложняется рядом теоретических и практических проблем, связанных со значительной вариабельностью параметров речевого сигнала в зависимости от диктора.
Актуальной остается проблема улучшения характеристик существующих и создание новых речевых систем. Необходимость и своевременность проведения научно-исследовательских работ в данном направлении обуславливается объективными требованиями совершенствования человеко-машинного интерфейса в условиях быстрого расширения областей применения автоматических технических систем.
Необходимым условием для широкого использования речевых технологий является повышение вероятности правильного решения и увеличение быстродействия систем дикторонезависимого распознавания речи. Повышение быстродействия систем распознавания речи особенно важно при работе с большими словарями, т.к. при традиционном подходе время анализа речевого сигнала пропорционально числу слов в словаре.
Одним из перспективных подходов к улучшению характеристик систем распознавания является применение двухуровневой обработки с использованием различных методов анализа речевого сигнала на первом и втором уровнях, однако вопросы построения таких систем изучены недостаточно.
В настоящее время распространенным является сегментный метод анализа речевого сигнала, который предполагает вычисление набора признаков на интервалах длительностью 5-20 мс. Для про-
ведения распознавания по полученной последовательности векторов признаков необходимо применять ресурсоемкие методы для снижения влияния изменений темпа речи.
Другим направлением является выявление и анализ признаков, характеризующих все слово в целом. Такие признаки называют це-лословными. В этом случае анализируемый речевой сигнал характеризуется вектором значений целословных признаков, что позволяет снизить время сравнения с эталонами.
Для повышения эффективности систем распознавания речи целесообразно исследовать возможность объединения целословного и сегментного методов, а также разработать методы использования информации о слове в целом в системах распознавания речи, методы организации взаимодействия отдельных блоков двухуровневой системы распознавания речи.
Целесообразность построения двухуровневой системы распознавания с использованием целословного и сегментного анализа подтверждается психофизическими экспериментами слуховой системы человека, которые показали, что человек наряду с сегментной использует некоторую целословную информацию о речевом сигнале.
Работа выполнена на кафедре Систем автоматического управления Балтийского государственного технического университета в соответствии с программой ^Университеты России".
Цапь работы: Совершенствование характеристик систем распознавания изолированных слов на основе применения двухуровневой обработки речевых сигналов.
Основные задачи исследований:
-
Обоснование целесообразности применения двухуровневой обработки речевого сигнала с использованием блоков целословного и сегментного анализа.
-
Выбор метода проведения целословного анализа речевого сигнала на основе применения робастной статистики для дикторонезависимых систем распознавания изолированных слов.
-
Выбор рациональной организации межуровневого взаимодействия целословного и сегментного блоков.
-
Разработка рабочего места исследователя речевых систем и экспериментальной дикторонезависимой системы распознавания изолированных слов.
Метода исследования: При выполнении работы использовались методы теории распознавания образов, математической статистики, теории планирования эксперимента и теории вероятностей.
Для выполнения поставленных задач применялись методы экспериментального исследования с использованием аппаратно-программного комплекса на базе персональной ЭВМ и специально разработанных программных средств.
Основныэ результаты работы:
-
Алгоритм целословного анализа, построенный на основе применения методов робастной статистики, позволяет увеличить вероятность правильного решения в блоке целословного анализа. Для цифрового словаря вероятность правильного решения блока ЦА составила 0.994.
-
Метод двухуровневой обработки речевого сигнала с переспросом, позволяющий сократить время анализа речевого сигнала и повысить вероятность правильного распознавания в системе. Для цифрового словаря достигнуто снижение числа неправильных решений в 1.5 раза (от 7.7% до 5.1%) и уменьшение времени анализа речевого сигнала в среднем в 2 раза.
-
Алгоритм принятия решений для двухуровневой системы распознавания с переспросом, учитывающий распределения расстояний от анализируемого речевого сигнала до эталонов целословного и сегментного блоков.
-
Рабочее место исследователя речевых систем, позволяющее производить настройку алгоритмов распознавания на конкретный словарь пользователя и экспериментальная дикторо-независимая система распознавания изолированных слов, обеспечивающая управление ЭВМ с помощью речевых команд.
Научная новизна исследования:
Предложен и реализован метод двухуровневой обработки речевых сигналов с применением целословного и сегментного анализа и механизма переспроса. На основании проведенного сравнительного анализа вариантов межуровневого взаимодействия блоков установлено, что целесообразной организацией двухуровневой обработки речевого сигнала является последовательное соединение целословного и сегментного блоков с применением механизма переспроса.
Предложена система целословных признаков для дикторонеза-висимого распознавания речевого сигнала.
Разработан алгоритм целословного анализа с использованием робастных оценок и построенных на их основе нелинейных функций расстояния, что обеспечивает повышение вероятности правильного распознавания и устойчивости целословного анализа к отклонениям значений параметров речевого сигнала. Предложен алгоритм определения наиболее вероятных альтернатив с подстройкой параметров решающего правила.
Разработан алгоритм принятия решений с использованием информации, поступающей от целословного и сегментного блоков.
- Проведен теоретический анализ работы двухуровневой системы распознавания, позволяющий определить характеристики системы по параметрам отдельных блоков. .
Предложен и реализован метод динамического ввода речевого сигнала в ЭВМ.
Разработана методика построения дикторонезависимых систем распознавания изолированных слов для малых словарей.
Достоверность научных положений и выводов определяется достаточным объемом теоретических и экспериментальных исследований, выполненных с использованием средств вычислительной техники. Оценка надежности результатов экспериментальных исследований производилась с достоверностью 0,95-0,99.
Практамеская ценность диссертационной работы:
Предложенный метод двухуровневой обработки речевого сигнала позволяет увеличить быстродействие и вероятность правильного распознавания для дикторонезависимых систем распознавания изолированных слов.
Предлагаемые в работе методы и алгоритмы организации двухуровневой обработки речевого сигнала доведены до уровня программного обеспечения, готового к практическому использованию.
Разработано рабочее место исследователя речевых систем, позволяющее производить анализ и настройку алгоритмов распознавания для конкретного словаря.
Разработана дикторонезависимая система распознавания изолированных слов, функционирующая в многозадачных средах, позволяющая обеспечить управление с помощью речевых команд стандартных и специализированных приложений.
Результаты внедрения
Основные положения диссертационной работы и разработанная дикторонезависимая система распознавания изолированных слов использованы в НИР "Методы и средства речевого общения с компьютером". Полученные результаты отражены в отчетах по НИР БГТУ УЗ-72-2095, У4-03-3527, У4-03-3509 за 1994,1995,1996 гг. Результаты диссертационной работы применяются при проведении исследовательских работ по развитию перспективных систем управления в Центральном конструкторском бюро морской техники "Рубин". Предложенная в работе структура двухуровневой системы распознавания и разработанные программные продукты использованы в Центре цифровой Обработки Сигналов Государственного Университета Телекоммуникаций. Материалы диссертации применяются в учебном процессе факультета СУ БГТУ. Внедрение результатов работы подтверждено соответствующими документами.
Апробация работы
Основные положения и результаты диссертационной работы докладывались и обсуждались на международном семинаре SPECOM'96 International Workshop "Speech and Computer",Санкт-
Петербург, 1996; ІІІ-ей , IV-ой, V-ой Санкт-Петербургских Международных Конференциях "Региональная информатика", г. Санкт-Петербург, 1994, 1995, 1996 гг. соответственно; на второй межведомственной научно-технической конференции "Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах", г.Пушкин, 1995.; а также в Центре Цифровой Обработки Сигналов Государственного Университета Телекоммуникаций.
Публикации
По материалам диссертации опубликовано 10 печатных работ, в том числе, подана заявка о выдаче патента Российской Федерации на изобретение "Способ дикторонезависимого распознавания изолированных речевых команд" № гос. регистрации 97101846.
Объем и структура диссертации