Введение к работе
Актуальность темы. Современный этап развития человеческого общества характеризуется интенсификацией информационных процессов. Непрерывно увеличивается объем передаваемой и накапливаемой информации, которая ныне удваивается каждые 20 месяцев против 5S лет в сер. xvii в. В результате объем научной, экономической, статистической, военной и прочей информации столь велик, что возникла существенная диспропорция между скоростью получения информации и возможностью ее обработки. Это привело к необходимости самого широкого использования ЭВМ для оперативной обработки и анализа информации. Однако сдерживающим фактором являются существующие способы взаимодействия компьютера и человека.
Эксперименты, в которых исследовались различные способы коммуникаций, показали, что наиболее быстрым средством передачи информации человеком является речь и, кроме того, такой способ передачи информации, по субъективной опенке испытуемых, сопровождается значительным снижением психофизиологической напряженности.
Речевой диалог имеет следующие пренмугцеетва:
общение ведется на естественном языке;
общение с ЭВМ по речевому каналі' не ограничивает мобильность оператора ;
речевой диалог может вестись при любой освещенности и температуре, при механической вибрации и других неблагоприятных условиях;
речевой канал является самым быстродействующим;
возможность зашиты от несанкционированного доступа и идентификации личности оператора с помощью распознавания голоса;
в систему "человек-компьютер" могут быть включены люди с физическими недостатками;
легко осуществляется сопряжение с телефонными каналами и радиоканалами.
Однако при Есех своих достоинствах речевое общение имеет и недостатки, к которым относятся подверженность шумовым помехам, трудность выделения случайных включения из больших объ-
вмов информации, невозможность неограниченного ввода данных в ЭВМ в течении длительного времени.
К настоящему времени разработано множество систем автоматического распознавания, в основном, это системы распознавания изолированных слов из заданного ограниченного словаря для одного или нескольких дикторов. Однако проблема распознавания естественной речи человека без всяких ограничений еще далека от решения.
Цель работы. Целью работы является создание системы поэлементного (фонемного) распознавания речевых сигналов русского языка на базе ПЭВМ.
Для достижения поставленной цели в диссертации решаются следующие задачи:
анализ современного состояния методов и систем автоматического распознавания речи, их характеристик-,
исследование свойств полного и клиппированного речевого сигнала;
уточнение модели системы поэлементного распознавания изолированных СЛОВ;
разработка алгоритма выделения периодов основного тона речевого сигнала;
разработка методов распознавания некоторых групп фонем;
разработка алгоритма автоматического транскрибирования словаря предметной области;
практическая реализация разработанных алгоритмов на
КОМПЬЮТере;
- экспериментальная проверка распознавания слитной речи.
Методы исследований. Состоят в изучении свойств полного
и клиппированного речевого сигнала с использованием средств вычислительной техники, методов математической статистики, теории распознавания речи и аудивизуальных методов исследований.
Научная новизна. Новый подход к распознаванию речевых сигналов на основе учета параметров как полного, так и клиппированного речевого сигнала.Разработан метод автоматического выделения периодов основного тона полного речевого сигнала. Предложены алгоритмы распознавания "гласных" и "шипящих" фонем. Разработан метод автоматического транскрибирования лексических единиц из словаря предметной области, учитывающий особенности системы распознавания. Проведен эксперимент по рас-
познаванию ежгнои речи.
Практическая ценность. Разработанная экспериментальная система распознавания изолированных слов мужской русской речи может служить основой для создания систем управления и автоматизации различного типа. Разработанные алгоритмы выделения периодов ОТ, распознавания "гласных" к "шипящих" могут использоваться при исследовании речевого сигнала.
Реализация результатов. Диссертационная работа является частью работ, проводившихся в соответствии с таком НИР совместно z ИЛИ РАН к в МГц У имени В.И.Ленина "Распознавание и синтез речевых образов", номер государственной регистрации 0187.0005141.
Программное обеспечение реализовано на языках програмиро-вания Си и Ассемблер для персональных компьютеров типа IBM PC.
Апробация работы. Основные результаты докладывались и обсуждались иа 2 международном советско-германском семинаре по анализу изображении и распознаванию образов с г. С-Петербург, 199D, на международном российско-американском семинаре по новым информационным технологиям (г. Москва, 1994), на научных семинарах Распознавание и синтез образов" в ИЛИ РАН, на методическом семинаре "Использование НИТ в учебном процессе" кафедры информатики и дискретной математики МЕТУ им.В.И.Ленина (руководитель Матросов В.Л.)
Структура работы. Диссертация состоит из введения, трех глав, заключения, списка литературы, содержащего 103 источника и приложения. Всего 187 стратять ?.т ртяс.ункок. і т?б;цы.