Введение к работе
Актуальность темы диссертации.
Речевая информатика является бурно развивающейся наукой, которая занимается решением различных задач: автоматическое распознавание речи, синтез речи, идентификация личности диктора аи голосу, определение состояния говорящего, кодирование информации для ее компактного хранения, передачи и воспроизведения. Развитие и углубление знаний по всем этим направлениям создало предпосылки для решения вопроса о создании систем управления с речевым вводом. Решение данной задачи имеет значительную практическую ценность, поскольку речь обладает целым рядом неоценимых преимуществ при использовании в системах управления. Главными из них являются высокая скорость обмена информацией и помехозащищенность речевого сообщения. На настоящий момент можно считать решенной задачу однодикторного распознавания изолированных слов, но многие другие важные задачи еще далеки от решения.
Одной из важнейших задач современной речевой информатики является решение проблемы дикторонезависимого распознавания речи. Перспективным подходом к этой задаче представляется создание анализаторов, осуществляющих маркировку фонемоподобных сегментов в речевом сигнале (квазифонетическое кодирование). Однако вопросы построения таких анализаторов исследованы недостаточно.
Сложность решения многих задач обусловлена многофункциональностью речевого сигнала, который содержит как смысловую информацию, так и информацию об индивидуальности голоса и психофизиологическом состоянии говорящего. В любых системах обработки речи присутствует уровень акустической обработки, задачей которого является параметризация речевого сигнала с целью последующего выделения информации различного типа: смысловой, личностной, эмоциональной. Поэтому улучшение характеристик существующих и создание новых речевых систем определяет необходимость проведения сравнительного анализа и совершенствования методов обработки речевого сигнала.
Цель работы: создание акустико-фонетического анализатора на основе совершенствования методов и средств цифровой обработки речевого сигнала.
Работа представляет собой часть плановых исследований кафедры Систем автоматического управления Балтийского государственного технического университета, выполненных в рамках программ "Университеты России" и "Человек в экстремальных условиях". Основные положения выносимые на защиту:
-
Метод квазифонетического кодирования на основе алфавита фонемоподобных сегментов-,
-
Параметрическое описание речевого сигнала для реализации метода квазифонетического кодирования;
-
Алгоритмы оценки психофизиологического состояния человека-оператора по речевому сигналу;
-
Структура аппаратно-программного комплекса для анализа речевого сигнала и создания экспериментальных систем обработки речи.
Методы исследований.
При проведении работ использовались методы распознавания образов и теории вероятностей. Экспериментальные исследования выполнены на основе теории планирования эксперимента и обработаны с использованием аппарата математической статистики. Научная новизна исследования состоит в том, что:
разработаны элементы теории квазифонетического кодирования для многодикторного распознавания речи;
проведен сравнительный анализ различных методов параметрического описания речевых сигналов;
предложена и реализована многоуровневая система частотных признаков для обработки речевого сигнала на акустико-фоне-тическом уровне;
разработана методика оценки числа фонемоподобных сегментов, необходимых для распознавания речи при квазифонетическом кодировании;
предложена и реализована схема квазифонетического кодирования речевого сигнала;
разработаны решающие правила для маркировки различных фонемоподобных сегментов.
получены данные о надежности маркировки вокализованных сегментов речевого сигнала для различных дикторов.
Практическая ценность диссертационной работы состоит в том, что:
разработано программное обеспечение, позволяющее осуществить частичное фонетическое кодирование речевого сигнала, и проведены экспериментальные исследования в рамках работ по многодикторному распознаванию изолированных слов;
создан аппаратно-программный комплекс для анализа речевого сигнала, разработки и тестирования экспериментальных и опытных систем обработки речевых сигналов;
разработан экспериментальный образец прибора для анализа психофизиологического состояния человека-оператора. Результаты внедрения.
Описанный в работе подход к построению акустико-фонетичес-кого уровня анализа речевого сигнала был положен в основу разрабатываемой по теме "Методы и средства речевого общения с компьютером" системы дикторонезависимого распознавания изолированных слов. Полученные результаты отражены в отчетах по НИР БГТУ УЗ-72-2095, У4-03-3527, У4-03-3509. Результаты исследований внедрены в учебный процесс по элективному курсу "Речевая информатика", читаемому для студентов факультета Систем управления. Основные положения работы и элементы программного комплекса были использованы при проведении плановых работ в ГНИЙ "Тест" Комитета при Президенте РФ по политике информатизации. Внедрение результатов работы подтверждено соответствующими документами.
Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на научно-практической конференции "Безопасность жизнедеятельности: современные проблемы и пути их решения", Санкт-Петербург, 1993г.; на Ш-ей Санкт-Петербургской Международной Конференции "Региональная информатика- 94", Санкт-Петербург,1994г.; на проблемном научно-техническом семинаре "Автоматизация процессов управления в ВШ. Информационные технологии и вычислительная техника", Санкт-Петербург, 1994г.; на семинаре кафедры фонетики русского языка Санкт-Петербургского государственного университета, Санкт-Петербург, 1995г., на IV-ой Санкт-Петербургской Международной конференции "Региональная информатика - 95", Санкт-Петербург, 1995; на второй межведомственной научно-технической конференции "Проб-
лемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах", г.Пушкин, 1995.
Публикации. По материалам диссертации опубликовано 10 печатных работ.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы, включающего 175 наименований, трех приложений. Основная часть работы изложена на 110 страницах машинописного текста. Работа содержит 29 таблиц и 50 рисунков. В приложении приведены основные сведения об аппаратно-программном комплексе, фрагмент текста динамической библиотеки и материалы внедрения.