Введение к работе
Актуальность теш. Современный этап развития человеческого общества характеризуется интенсификаодей информащонных процессов. Непрерывно увеличивается объем передаваемой и накапливаемой информации, которая ныне удваивается каждые 2Є месяцев против бе лет в сер. xvn в. В результате объем научной, экономической, статистической, военной и прочей информации столь велик, что возникла существенная диспропорция между скоростью получения информации и возможностью ее обработки. Это привело к необходимости самого широкого использования ЭВМ для оперативной обработки и анализа информации. Однако сдерживающим фактором являются существующие способы взаимодействия компьютера и человека.
Эксперименты, в которых исследовались различные способы коммуникаций, показали, что наиболее быстрым средством передачи информации человеком является речь и, кроме того, такой способ передачи информации, по субъективной оценке испытуемых, сопровождается значительным снижением психофизиологической напряженности.
Речевой диалог имеет следующие преимущества:
общение ведется на естественном языке;
общение с ЭВМ по речевому каналі' не ограничивает мобильность оператора ;
речевой диалог может вестись при любой освещенности и температуре, при механической вибрации к других неблагоприятных условиях;
речевой канал является самым быстродействующим,-
возможность защиты от несанкционированного доступа и идентификации личности оператора с помощью распознавания голоса;
в систему "человек-компьютер" могут быть включены люди с физическими недостатками;
легко осуществляется сопряжение с телефонными каналами и радиоканалами.
Однако при всех своих достоинствах речевое общение имеет и недостатки, к которым откосятся подверженность шумовым помехам, трудность выделения случайных включений из больших объ-
емов информации, невозможность неограниченного ввода данных в ЭВМ в течении длительного времени.
К настоящему времени разработано множество систем автоматического распознавания, в основном, это системы распознавания изолированных слов из заданного ограниченного словаря для одного или нескольких дикторов. Однако проблема распознавания естественной речи человека без всяких ограничений еще далека от решения.
Цель работы. Целью работы является создание системы го-элементного (фонемного) распознавания речевых сигналов русского языка на базе ПЭВМ.
Для достижения поставленной цели в диссертации решаются следующие задачи:
анализ современного состояния методов и систем автоматического распознавания речи, их характеристик;
исследование свойств полного и клишированного речевого сигнала;
-уточнение модели системы поэлементного распознавания изолированных СЛОВ;
разработка алгоритма выделения периодов основного тона речевого сигнала;
разработка методов распознавания некоторых групп фонем;
разработка алгоритма автоматического транскрибирования словаря предметной области;
практическая реализация разработанных алгоритмов на
КОМПЬЮТере;
- экспериментальная проверка распознавания слитной речи.
Методы исследований. Состоят в изучении свойств полного
и клишированного речевого сигнала с использованием средств вычислительной техники, методов математической статистики, теории распознавания речи и аудивизузльных методов исследований.
Научная новизна. Новый подход к распознаванию речевых сигналов на основе учета параметров как полного, так и клиппиро-ванного речевого сигнала.Разработан метод автоматического выделения периодов основного тона полного речевого сигнала. Предложены алгоритмы распознавания "гласных" и "шипящих" фонем. Разработан метод автоматического транскрибирования лексических единиц из словаря предметной области, учитывающий особенности системы распознавания. Проведен эксперимент по рас-
познаванию слитной речи.
Практическая ценность. Разработанная экспериментальная система распознавания изолированных слов мужской русской речи может служить основой для создания систем управления и автоматизации различного типа. Разработанные алгоритмы выделения периодов ОТ, распознавания "гласных" к "шипящих" могут использоваться при исследовании речевого сигнала.
Реализация результатов. Диссертационная работа является частью работ, проводившихся в соответствии с плавом НИР совместно z ИЛИ РАК и з МПГУ имени В.И.Ленина "Распознавание и синтез речевых образов", номер государственной регистрации 0187.0005141.
Программное обеспечение реализовано на языках програмиро-вэния Си и Ассемблер для персональных компьютеров типа ism рс.
Апробация работы. Основные результаты докладывались и ебсуадались еэ 2 международном советскс-геризнском семинаре по анализу изображении и распознаванию образов сг. С-Петорбург, 1991), на международном российско-американском семинаре по новым информационным технологиям (г. Москва, 1994), на научных семинарах "Распознавание и синтез образов" в ИЛИ РАН. на методическом семинаре "Использование НИТ в учебном процессе" кафедры информатики и дискретной математики МПГУ им.В.И.Ленина {руководитель Матросов В.Л.)
Структура работы. Диссертация состоит из введения, трех глав, заключения, списка литературы, содержащего 183 источника и приложения. Всего 137 стра^итт. ?.т рипунК. і т?б*иц«.