Содержание к диссертации
Введение
1. Применение ИНС в задачах обработки сигналов 11
1.1. ИНС, основные понятия 11
1.1.1. Узлы искусственных нейронных сетей 11
1.1.2. Топологии нейронных сетей 12
1.2. Классификация образов при помощи ИНС 13
1.2.1. Вероятностные классификаторы 15
1.2.2. Пшершюскостные классификаторы (Hyperplane Classifiers) 15
1.2.2.1. Сеть прямого распространения (многослойный персептрон) 15
1.2.2.1.1. Обучение 18
1.2.2.2. Классифицирующие деревья 26
1.2.2.3. Сети высокого порядка 27
1.2.3. Ядерные классификаторы (Kernel Classifiers) 28
1.2.3.1. Классификаторы с радиальными базисными функциями 29
1.2.4. Классификаторы по образцу 29
1.2.4.1. Карты признаков 30
1.2.4.2. Обучающиеся векторные квантователи 31
1.2.4.3. Гиперсферные классификаторы 31
1.2.5. Выбор классификатора 31
1.3. Приложения ИНС в задачах обработки сигналов 32
1.3.1. Фильтрация 34
1.3.2. Фазовая автоподстройка частоты 36
1.3.3. Определение типа модуляции 36
1.3.4. Детектирование 36
1.3.5. Распознавание речи 38
1.4. Выводы 40
2. Применение ИНС в задаче детектирования фонем без сегментирования речевого сигнала 42
2.1. Определение размеров нейросетевого классификатора 44
2.2. Формирование набора параметров сигнала для распознавания фонем 45
2.2.1. Коэффициенты линейного предсказания 46
2.2.2. Частотно-временной анализ (банк фильтров) 47
2.2.3. Кепстральные коэффициенты 47
2.2.4. Коэффициенты вейвлет-преобразования 48
2.3. Влияние способа параметризации на эффективность распознавания 49
2.4. Анализ пространств признаков речевого сигнала 52
2.5. Распознавание фонем без сегментирования речевого сигнала 54
2.5.1. Обучение, не требующее сегментации 54
2.5.2. Экспериментальное применение метода обучения без сегментации 55
2.6. Выводы 59
3. Применение ИНС в задачах обнаружения и детектирования модулированных сигналов в условиях непостоянства параметров 60
3.1. Детектирование фазоманипулированных сигналов 61
3.1.1. Нейросетевой метод детектирования 61
3.1.2. Символьная синхронизация 64
3.1.3. Определение параметров сети 64
3.1.4. Выбор способа параметризации сигнала
3.1.5. Формирование выборки для обучения, исследование устойчивости к шуму и сдвигу частоты 69
3.1.6. Влияние полосы пропускания на эффективность детектирования 72
3.2. Детектирование частотно-манипулированных сигналов 74
3.3. Обнаружение фазоманипулированных сигналов 77
3.4. Выводы 80
4. Реализация нейросетевых алгоритмов и эксперимент на реальных сигналах 82
4.1. Реализация нейросетевых алгоритмов обработки сигналов 82
4.1.1. Метод ускорения обучения с минимизацией энтропии ошибки 82
4.1.2. Исследование метода обучения и результаты 84
4.2. Эксперимент на реальных сигналах 85
Заключение 89
- Классификация образов при помощи ИНС
- Приложения ИНС в задачах обработки сигналов
- Анализ пространств признаков речевого сигнала
- Детектирование частотно-манипулированных сигналов
Введение к работе
Начиная с ранних работ Винера по адаптивным фильтрам [1] для определения параметров адаптивных систем обработки сигналов, включая искусственные нейронные сети (ИНС), в качестве критерия оптимальности почти исключительно использовалась среднеквадратическая ошибка. Основаниями для этого были, прежде всего, аналитическая простота и предположение о соответствии большинства случайных процессов в природе распределению Гаусса. Гауссово распределение вероятностей полностью описывается статистиками первого и второго порядка. Следовательно, в предположении гауссовости среднеквадратичной ошибки достаточно для извлечения из набора данных, полностью описываемых средним и дисперсией, всей возможной информации. В то же время не для всех процессов описание может быть ограничено статистиками второго порядка, поэтому велись и ведутся разработки алгоритмов, не ограничивающихся гауссовой моделью. Одним из направлений исследований в данной области является применение ИНС для обработки сигналов. Понятие нейронной сети было формализовано Маккалоком и Питтсом [2]. Хебб предложил модель человеческого обучения, ставшую основой методов обучения ИНС (правила Хебба) [3]. Затем Розенблатом была предложена однослойная сеть — персептрон, которая легла в основу большинства нейросетевых методов [4]. Хопфилд предложил ИНС для вычислительно эффективной минимизации квадратичной нормы при распознавании образов [5], Кохонен разработал сеть для кластеризации многомерных данных. Однако наибольшее распространение ИНС получили как универсальные аппроксиматоры функций многих переменных. Теоретическим основанием применения ИНС для аппроксимации функций многих переменных является работа А.Н. Колмогорова [6]. На практике ИНС стали широко применяться в этой области после создания группой авторов алгоритма обратного распространения ошибки для обучения многослойных сетей [7]. Среди отечественных учёных, развивающих теорию ИНС, А.И. Галушкин [8], А.Н. Горбань, В.Л. Дунин-Барковский [9]. Применение ИНС в задачах обработки сигналов позволяет отказаться от предположений линейности, стационарности и гауссовости. В частности это достигается благодаря использованию при обучении информационных критериев, основанных на понятии энтропии. Понятие энтропии распределения вероятностей введено Шенноном [10] и представляет собой скалярную величину, отражающую количество информации, содержащееся в распределении. Энтропия по определению относится ко всему распределению, а не к выделенным статистикам.
ИНС не содержат качественных ограничений на модель процесса, присущих традиционным методам обработки сигналов. ИНС — это параллельная и распределённая система обработки информации, состоящая из простых вычислительных элементов: искусственных нейронов, соединённых связями друг с другом и с входами и выходами сети. При
распространении сигналов по сети значение сигнала, передаваемого от нейрона к нейрону, умножается на весовой коэффициент, отдельный для каждой связи. Значения весовых коэффициентов определяются из набора экспериментальных данных, эту процедуру называют обучением. Модель процесса, соответствующая экспериментальным данным, формируется при обучении ИНС.
В свете сказанного выше целью настоящей диссертационной работы является разработка методов обработки сигналов в отсутствии предположений о моделях процессов, порождающих сигналы, с применением искусственных нейронных сетей. При построении системы обработки сигналов на базе ИНС необходимо выбрать структуру сети, определить способ параметризации сигналов и обучить сеть с помощью алгоритма, позволяющего максимально использовать информацию, содержащуюся в данных эксперимента. Решению этих вопросов посвящена работа. В работе предлагаются нейросетевые методы решения задач распознавания фонем (в рамках общей задачи распознавания речи), детектирования сигналов с угловой модуляцией, обнаружения модулированных сигналов.
Актуальность работы. Задача распознавания речи имеет большое значение для человеко-машинного взаимодействия. Прежде всего, распознавание речи используется для ввода информации в компьютеры. Постоянно растёт круг устройств с голосовым управлением: компьютеры, телефоны, бытовая техника.
Благодаря высокой помехоустойчивости и эффективному использованию спектральной полосы всё более широкое применение в системах цифровой связи находят различные виды угловой модуляции: прежде всего это фазовая и частотная манипуляция с малым числом уровней фаз и частот соответственно. При этом стандартные алгоритмы детектирования ведут себя неустойчиво в условиях высоких уровней шумов и нестабильности параметров канала передачи. В частности, такая ситуация возникает в спутниковых системах связи. Высокий уровень шумов обуславливается большими расстояниями между источниками и приёмниками и тем, что не всегда возможна работа в главном лепестке диаграммы направленности антенной системы. Орбитальное движение приводит к переменному эффекту Доплера, выражающемуся в смещении несущей частоты и масштабировании спектра. Построение и реализация оптимальных методов обнаружения и детектирования модулированных сигналов затрудняются тем, что статистические свойства шумов и величина доплеровского сдвига непостоянны. Применение ИНС в составе системы обработки сигналов позволяет путём обучения ИНС в текущих условиях приёма формировать локальные по времени модели сигнала и шума и строить адаптивные методы обнаружения и детектирования.
Научная и практическая ценность. Традиционные методы распознавания речи требуют сегментации речевого сигнала как в процессе настройки системы (при обучении), так и при распознавании. Это относится как к
акустически-фонетическому подходу к распознаванию речи, так и к методам распознавания по образцу [11]. При использовании первого подхода выделяются отрезки сигнала с постоянными характеристиками, а при использовании второго подхода сигнал сегментируется эквидистантно для последующей (при обучении - ручной) пометки сегментов. Ручные сегментация и пометка являются рутинными, трудозатратными процедурами, кроме того ошибки оператора при выполнении этих процедур негативно сказываются на работе конечной системы распознавания речи. В диссертационной работе предложен метод обучения ИНС для распознавания фонем без ручных процедур сегментации и пометки сигналов.
Традиционные методы детектирования сигналов с угловой модуляцией требуют точного знания значения несущей частоты или введения в систему схем автоподстройки. При детектировании фазоманипулированных сигналов из-за накопления ошибки возможен переход системы в режим «обратной работы», при таком переходе происходит смена полярности детектируемых символов. Традиционные методы обнаружения и детектирования опираются на статистические характеристики шума, которые непостоянны или совсем неизвестны в ряде практических задач. Предлагаемые в диссертационной работе методы обнаружения и детектирования обладают устойчивостью к небольшим изменениям несущей частоты и не требуют задания модели шума, т.к. обучаются на примерах сигналов, содержащих шум эфира и искажения, связанные с переменной несущей частотой.
Научная новизна работы. Для решения задачи автоматического распознавания речи в диссертационной работе предложен метод обучения нейронной сети, позволяющий обучать систему детектирования фонем без ручного сегментирования и пометки образцов речи. В отличие от традиционных методов предлагаемый метод не вносит в систему ложной информации, связанной с неточной сегментацией.
Для решения задач обнаружения и детектирования модулированных сигналов цифровых систем связи в диссертационной работе предложены нейросетевые методы, позволяющие проводить обнаружение и детектирование в условиях узкополосного шума и априорно неизвестного сдвига несущей частоты.
Предлагаемый в диссертационной работе метод обучения ИНС обеспечивает вычислительно эффективную оптимизацию информационного критерия обучения (энтропии ошибки). Кроме неявной оптимизации энтропии ошибки предлагаемый метод позволяет реализовывать дообучение на новых сигналах без «забывания» предыдущих.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались:
на всероссийской научно-технической конференции «Информационные системы и технологии», Нижний Новгород, НГТУ, 2005, 2006, 2007 гг;
на 14-ой Международной конференции по нейрокибернетике, Ростов-на-Дону, 2005 г;
на V международной научно-технической конференции «Электроника и информатика - 2005», Зеленоград, МИЭТ, 2005;
на VIII, IX, X всероссийских научно-технических конференциях «Нейроинформатика», Москва, МИФИ, 2006, 2007, 2008 гг;
на IV международной конференции "Signal Processing Pattern Recognition and Applications", Австрия, 2007;
на IX, X международных конференциях «Цифровая обработка сигналов и ее применение». Москва, ИЛУ РАН, 2007, 2008 гг;
на XIII международной научно-технической конференции студентов и аспирантов «Радиоэлектроника, электротехника и энергетика». Москва, МЭИ, 2007 г.;
на VIII международной научно-технической конференции "Искусственный интеллект-2007. Интеллектуальные системы", пос. Дивноморское, 2007 г.
на X, XI научных конференциях по радиофизике. Нижний Новгород, РФ ИНГУ, 2006, 2007 гг;
на международном симпозиуме "International Symposium on Communications, Control and Signal Processing", Мальта, 2008 г.;
и опубликованы в статьях:
в журнале "Optical Memory & Neural Networks (Information Optics)", 2005 г.;
в журнале «Вестник Нижегородского университета им. Н.И. Лобачевского. Серия Радиофизика», 2005 г.;
в журнале «Известия ВУЗов. Радиофизика», 2007 г.;
в журнале «Радиотехника и электроника», 2007 г.;
в журнале «Вестник Нижегородского университета им. Н.И. Лобачевского», 2007 г.
Основные положения, представляемые к защите:
Метод обучения нейронных сетей, основанный на информационном критерии энтропии ошибки и реализация нейросетевых алгоритмов на последовательных вычислительных машинах.
Метод детектирования фонем с использованием ИНС, не требующий сегментирования речевых сигналов.
Метод параллельного обнаружения и детектирования сигналов с угловыми видами манипуляции (фазо- и частотно-манипулированных), основанный на применении ИНС.
Результаты моделирования и исследования устойчивости предложенных методов детектирования в условиях шумов и сдвига несущей частоты.
Классификация образов при помощи ИНС
Элементы вектора представляют собой характеристики; объекта, выбранные в качестве признаков для классификации. Входной образ можно понимать как точку во входном пространстве размерности N. Назначение классификатора - разделить это многомерное пространство на : области,. относящиеся, к классам, и определять, к какой области относится тот или иной входной образ. В традиционных Байесовых классификаторах для описания классов используют функции плотности распределения-вероятностей входных значений и Байесову теорию принятия решений для формирования границ областей классов по этим плотностям вероятностей: [16]. При построении адаптивных непараметрических классификаторов функции плотностей вероятностей в явном виде не оцениваются,- вместо этого для формирования областей, принятия решений используются-классифицирующие функции. Применение классификатора образов прежде всего требует выбора характеристик объекта.. Характеристики должны содержать достаточно информации для различения І между классами и при этом не зависеть от характеристик, не относящихся к данной задаче классификации. Кроме: того характеристик должно быть как можно меньше, чтобы не снижать производительность и не увеличивать требуемый объём обучающих данных. Измерение характеристик должно производиться автоматически, без обработки вручную, чтобы, исключить возможность внесения ложных предположений. После выбора.характеристик необходимо сформировать отдельные наборы образцов для обучения и тестирования. При обучении ограниченное количество данных (обучающая выборка) и априорные знания о предметной области используются для определения структуры классификатора и настройки, его параметров. После обучения полученный классификатор тестируется на данных из второго набора. Новые для классификатора образцы (из выборки для тестирования) классифицируются, и по доле ошибок классификации оценивается способность полученного классификатора к обобщению. Для настройки параметров классификаторов и кластеризаторов используются методы обучения с учителем, без учителя, а также смешанные методы.
Обучение с учителем подразумевает включение в обучающую выборку дополнительной информации о принадлежности образцов к классам (метка или требуемый выход классификатора для каждого образца из обучающей выборки). Алгоритмы кластеризации (векторного квантования) используют процедуры обучения без учителя, группируя непомеченные данные в кластеры. Смешанное обучение классификаторов, как правило, состоит из двух этапов: сначала проводится кластеризация непомеченных данных, затем найденные кластеры помечаются. В качестве пометки найденные кластеры могут быть заменены небольшим количеством помеченных данных. Сбор и ручная пометка образцов для обучения весьма трудоёмки, поэтому смешанное обучение применяется с целью уменьшения количества требуемых для обучения помеченных данных. Нейросетевые классификаторы отличаются друг от друга по способу формирования областей принятия решений. По этому способу классификаторы могут быть разделены на пять больших групп, изображенные на рис. 4. В левой колонке приведены названия групп классификаторов; во второй колонке изображены примеры формирования регионов принятия решений; в третьей колонке представлены вычислительные элементы (узлы ИНС), реализующие вычисления на самом низком уровне; в правой колонке приведены названия характерных классификаторов для каждой из групп. Четыре первые группы образованы классификаторами, в составе которых есть только одна ИНС. Верхняя группа содержит традиционные вероятностные (Байесовы) классификаторы, три следующие группы содержат адаптивные классификаторы. Эти классификаторы позволяют формировать произвольные регионы принятия решений, могут быть реализованы с высокой степенью параллелизма вычислений и используют сравнительно несложные вычисления для последовательной адаптации. Пятая группа образована классификаторами, состоящими более чем из одной ИНС и имеющими иерархические структуры: сети, основанные на решении (decision-based neural network - DBNN); смесь экспертов (mixture of experts - МОЕ network); эксперты в классе (experts-in-class network); классы в эксперте (classes-in-expert network) [15]. Использование вероятностных классификаторов предполагает априорное знание распределений вероятностей для входных характеристик. Чаще всего используется гауссово распределение или сумма гауссовых распределений. Параметры распределений, как правило, определяются в процессе обучения с учителем, при этом все данные для обучения должны быть доступны одновременно. Эти классификаторы обеспечивают оптимальное качество классификации, если используемые распределения являются точной моделью тестовых данных и доступно достаточное для точного определения параметров количество обучающих данных. Эти два условия часто не выполняются для нестационарных систем и данных реального мира (результатов измерений). Гиперплоскостные классификаторы формируют сложные области принятия решений, используя узлы, которые формируют границы принятия решений в виде гиперплоскостей в пространстве входов. Как правило, узлы вычисляют нелинейную функцию от взвешенной суммы входных значений. Чаше всего используется сигмовидная нелинейность, но также используются другие нелинейности, включая полиномы высокого порядка.
Эти классификаторы имеют малую вычислительную сложность и требуют мало памяти в процессе классификации, но могут требовать много времени для обучения и/или сложные алгоритмы обучения. Сюда входят многослойные персептроны, машины Больцмана [17], классифицирующие бинарные деревья [18], сети высокого порядка [19], сети, формируемые методом Group Method of Data Handling (GMDH) [20]. Сеть прямого распространения, или многослойный персептрон (МСП), представляет собой структуру из простых вычислительных элементов (узлов/нейронов), сгруппированных в соединённые последовательно слои. В пределах слоя узлы работают параллельно. Работа персептрона описывается следующими выражениями: здесь і — номер входа, j - номер нейрона в слое, / - номер слоя, х# - входы узлов, yji - выходы узлов, w,ji — весовые коэффициенты, ф}1 — пороговые уровни узлов,/- нелинейная функция активации. Классификаторы на основе многослойных персептронов с сигмовидными функциями активации формируют области принятия решений сложной формы [8]. МСГТ обучается с учителем. Наиболее распространены способы обучения на основе градиентного спуска, при этом отыскивается минимум функции ошибки. Чаше всего в качестве функции ошибки используется или суммарное квадратичное отклонение выходов персептрона от требуемых значений из выборки для обучения, или взаимная энтропия. В задачах классификации требуемые выходные значения задаются малыми (обычно, нулевыми) для всех узлов выходного слоя, кроме одного узла, соответствующего классу, к которому относится текущий образ (входной вектор). Для соответствующего текущему классу узла требуемое выходное значение задаётся высоким, как правило, единицей. Каждый узел выходного слоя вычисляет классифицирующую функцию, которая разделяет все входные на два группы: относящиеся к соответствующему узлу классу и относящиеся к другим классам. Эту схему обучения называют «1 из N-классификатор». Было показано [21], что при таком выборе требуемых значений при обучении выходы многослойного персептрона аппроксимируют апостериорные вероятности отнесения к классам. Точность аппроксимации возрастает при увеличении обучающей выборки. На ранней стадии интерес к МСП был вызван предположением о его применимости к биологическим нейронным сетям.
Приложения ИНС в задачах обработки сигналов
Классические методы обработки сигналов основываются на фиксированной теоретической модели известного процесса с неизвестными параметрами. Настройка метода под конкретную задачу состоит в определении параметров модели для сигналов, искаженных шумами с известными статистическими характеристиками [70]. Сюда входят корреляционные методы когерентного и некогерентного детектирования фазо- [71] и частотно-манипулированных сигналов [72], оптимальные в предположении гауссовости методы обнаружения [73]. Для случая нестационарных шумов существуют более сложные адаптивные методы, предполагающие возможность изменения параметров модели в процессе работы системы [74]. Применительно к сигналам с угловыми видами модуляции это различные схемы фазовой автоподстройки частоты [75], [76]. Структура системы ещё больше усложняется, если статистика шума неизвестна. Наиболее сложной является задача обработки нестационарных сигналов, распространяющихся в нестационарной среде с неизвестной статистикой. Такая ситуация типична для сигналов радиолокационных систем, гидролокационных систем, подвижных систем связи и других систем, работающих в нестационарной среде. И хотя принимаемый сигнал в таких системах может быть квазистанионарным на коротких по времени участках, а также при усреднении по очень длинным интервалам, на практически важных интервалах средней длины принимаемый сигнал может быть существенно нестационарным. Например в системах радиосвязи обычно выполняется предположение о стационарности неимпульсных помех на интервалах порядка миллисекунд и секунд, а также при усреднении по месяцам. Солнечная компонента такого шума изменяется на пятиминутных интервалах солнечных состояний, 26-дневных периодах вращения Солнца и 11-летних солнечных циклах. В радиолокационных сигналах обнаруживается влияние циклостационарных помех [77]. Для обработки сигналов с шумами с неизвестной статистикой могут быть использованы нейронные сети. ИНС обладают рядом свойств, которые обеспечивают преимущества при обработке сигналов. Во-первых, ИНС предоставляет возможность подстройки свободных параметров под изменения статистических свойств среды.
При этом для успешного применения свойства адаптивности ИНС необходимо найти баланс между пластичностью и стабильностью. Это означает, что постоянная времени системы должна быть достаточно большой, чтобы игнорировать паразитные возмущения, и достаточно малой, чтобы реагировать на существенные изменения в среде. Традиционные адаптивные фильтры также обладают возможностью автоматического изменения параметров в соответствии со статистическими вариациями в среде [78], но их возможности адаптивной обработки сигналов ограничены их структурой. В работе [79] описан метод применения многослойного персептрона для построения адаптивной системы с долговременной и кратковременной памятью. Такая архитектура позволяет определять модель процесса не априорно, а по реализациям. Построенная модель благодаря наличию кратковременной памяти подстраивается под изменения в среде. Во-вторых, ИНС предоставляет возможность непараметрического подхода к нелинейному анализу данных. Сети прямого распространения (МСП, РБФ) подвергаются обучению, в процессе которого их параметры (весовые коэффициенты и пороговые уровни) настраиваются так, чтобы минимизировать функцию стоимости (ошибки). При обучении сеть по примерам строит отображение «вход-выход» для решаемой задачи непараметрическим образом. Термин «непараметрический» используется здесь в статистическом смысле, это означает, что знание лежащих в основе распределений вероятностей не требуется. Традиционный подход математической статистики предполагает использование математически хорошо изученных моделей, предполагающих идеализированные условия линейности, стационарности в широком смысле, гауссовости. При этом параметры модели (например, среднее, стандартное отклонение) предполагают асимптотическую оценку при стремлении числа примеров к бесконечности, но определяются по небольшому набору обучающих примеров. Методы, основанные на нейронных сетях, привлекательны для практических приложений благодаря возможности ИНС работать с нелинейностями, нестационарностями и в отсутствии предположения о гауссовости [80], [81], [82]. Во многих случаях нейросетевые методы работают лучше, чем сравнимые статистические методы, такие как «projection pursuit» [83], сплайны, многомерные адаптивные регрессивные сплайны — МАРС (multivariate adaptive regression splines - MARS) [83]. Метод «projection pursuit» подобен и математически эквивалентен МСП. Сплайны близки к РБФ-сетям. МАРС можно рассматривать как дерево, каждый лист которого является нейроном специального вида. Превосходство нейронных сетей объясняется различиями в соответствующих процедурах оптимизации. В статистических методах, как правило, оптимизация параметров базисных функций ведётся последовательно, ошибки при принятии решений на ранних стадиях оптимизации не всегда могут быть впоследствии исправлены. В нейронных сетях, напротив, весь набор базисных функций, представляемый выходами нейронов скрытых слоев, оптимизируется одновременно итеративным образом. Такая процедура более устойчива. Математический аппарат, разработанный для ИНС, находит применение и в других распределённых системах.
В частности, методы обучения ИНС используют для настройки параметров адаптивных антенных решеток [84]. В-третьих, нейронные сети, обучаемые с учителем, являются универсальными аппроксиматорами непрерывных отображений «вход-выход». Это позволяет использовать сети для определения отношения правдоподобия в задачах детектирования и классификации. В таких случаях ИНС обучается на нескольких реализациях принятого сигнала. Применения такого подхода описаны в [85], [86], [87]. В этих работах рассматриваются ИНС прямого распространения с временными задержками. На вход сетей поступает короткий отрезок сигнала. В [88] показано, что такие сети являются универсальными аппроксиматорами нелинейных динамических систем, но их применение ограничено стационарными процессами. Применение ИНС для нестационарных процессов требует учёта временной природы сигналов в структуре сети [89], специального обучения рекуррентной ИНС [90], или применения методов предобработки, учитывающих нестационарность [91]. Благодаря перечисленным свойствам нейронные сети могут использоваться в условиях частичной определённости [92] и находят применение в различных задачах обработки сигналов. В отличие от традиционного аналитического подхода к получению выражений для фильтра, нейросетевые фильтры синтезируются по реализациям процесса, которые могут быть смоделированы или получены из эксперимента. При этом не требуется традиционных предположений о линейности, нормальном распределении, аддитивности шума, марковости и т.п. Нейросетевой фильтр с подходящей архитектурой, обученный должным образом, извлекает наиболее информативные статистики и аппроксимирует оптимальный метод для любой заданной точности. Благодаря параллельной архитектуре нейросетевой фильтр может быть реализован для работы в реальном времени.
Анализ пространств признаков речевого сигнала
Для интерпретации результатов классификации было проведен анализ пространств признаков [143], [144], образуемых при различных способах параметризации. Пространства признаков имеют высокую размерность (240 признаков), поэтому для анализа были применены самоорганизующиеся карты Кохонена. Сеть Кохонена обучается без учителя и позволяет выделять группы в наборе данных и отображать многомерное пространство в пространство меньшей размерности. При этом пространство меньшей размерности сохраняет часть свойств начального пространства: если точки близки в начальном пространстве, то близки и их отображения. Это свойство позволяет анализировать наборы данных с высокой размерностью, отображая их в пространство, которое легко изобразить, в частности, двумерное. Сеть Кохонена использовалась нами для проведения кластеризации наборов данных, полученных путем извлечения характеристик речевого сигнала названными выше способами. В работе использовалась двумерная самоорганизующаяся карта размером 50x50 узлов. Каждый узел обладал 240 входами. Для обучения использовался алгоритм с модификацией весов у всех узлов сети на каждом шаге [14]. Вектор весовых коэффициентов узла с индексом k изменялся следующим образом: где / - индекс «узла-победителя», х - текущий входной (изучаемый) образ, ju - шаг обучения, #(/,&) — «функция соседства», зависящая от расстояния на карте между текущим узлом и «узлом-победителем»: где г - радиус-вектор узла на карте, a - параметр, определяющий число соседних узлов, веса которых подвергаются значительной коррекции. Анализ наборов данных при помощи обученных сетей Кохонена показал, что признаки на основе линейного предсказания образуют большое число мелких кластеров. Для банка фильтров и других способов параметризации число кластеров заметно меньше, а сами кластеры имеют большие размеры [145]. На рис. 15 приведены карты для коэффициентов линейного предсказания, банка фильтров с логарифмической шкалой по энергии, кепстральных коэффициентов, коэффициентов вейвлет-преобразования. Такие результаты согласуются с результатами классификации персептроном.
Пространство с большим количеством кластеров требует для аппроксимации более сложную систему, в случае персептрона - большее число нейронов. При фиксированном числе нейронов качество аппроксимации, а значит и классификации, выше для способа параметризации, порождающего меньшее число кластеров в пространстве параметров, так как в этом случае данные, относящиеся к разным классам, лучше разделяются. При использовании персептрона в качестве классификатора фонем, также как и в случаях использования других классификаторов, возникает проблема сегментации слов из обучающей выборки. При обучении нужно как можно точнее указать классификатору положения всех фонем в слове. В реальной речи переходы между фонемами плавные, точно указать границы трудно. Приблизительное указание границ фонем вносит в систему ложную информацию. В данной работе предлагается техника обучения, не требующая указания границ фонем. Схемы работы традиционной и предлагаемой систем распознавания представлены на рис. 10 и рис. 16 соответственно. Основными отличиями предлагаемой схемы является исключение трудоёмкой процедуры сегментации и автоматическое формирование акустических моделей в нейронной сети в процессе обучения. Предполагается, что для слов из обучающей выборки приведены транскрипции (последовательности фонем без указания длительности). Персептрон относится к нейронным сетям, обучаемым с учителем, поэтому для всех образцов из обучающей выборки должны быть предоставлены требуемые значения для выходов персептрона. Обучение персептрона - итерационная процедура. Одна итерация состоит из прямого и обратного проходов. Прямой проход - это представление образца сети и вычисление выхода. Обратный проход состоит в вычислении коррекций параметров сети по полученным и требуемым значениям на выходах сети. Когда известен класс (в данной работе фонема), к которому относится образец, персептрон обучается как І-из-N классификатор, целью обучения является выход вида (0, 0, ..., 0, 1, 0,..., 0), «1» на единственном выходе, соответствующем известному классу. Теперь рассмотрим произвольный фрагмент речевого сигнала, соответствующий некоторому слову из обучающей выборки. По приведенным выше причинам нельзя сказать, к какой фонеме относится этот фрагмент, но можно перечислить фонемы, к которым он заведомо не относится: фонемы, не содержащиеся в транскрипции данного слова. Соответствующие отсутствующим фонемам выходы классификатора предлагается обучать на «О». Для выходов классификатора, соответствующих имеющимся в слове фонемам ничего нельзя утверждать наверняка, поэтому предлагается «не трогать» эти выходы при обучении на данном слове. Это может быть сделано следующим образом. После прямого прохода на выходах персептрона получается вектор значений (уі.. .ут), где т — число выходов. Для выходов персептрона, которые соответствуют фонемам, содержащимся в транскрипции, полученные значения предлагается использовать как требуемые, то есть использовать требуемый выход вида (0, ..., О, уа, О, ..., О, ,0,...0), где а, Ъ и так далее -индексы выходов, . соответствующих фонемам, содержащимся в транскрипции.
Тогда на данной итерации ошибка на этих выходах будет считаться нулевой, и соответствующие весовые коэффициенты изменяться не будут. Их настройка производится на других итерациях (при работе с другими словами из выборки для обучения). Таким образом, на каждой итерации предложенная процедура использует только известную информацию о слове, то есть его транскрипцию [146], [147], при этом для модификации весовых коэффициентов может быть использован любой из стандартных методов. Предложенная процедура испытана на задаче распознавания фонем (звуков) русского языка. В системе распознавании мягкие и твёрдые звуки не различались. Распознавался 31 звук русского языка. Такого набора звуков достаточно для восстановления транскрипции распознаваемой речи. В большинстве случаев (кроме омонимов) написание слова может быть однозначно определено по транскрипции. В работе использовались изолированные слова русского языка. Соответствующие речевые сигналы были дискретизованы с частотой 22500 Гц. Для формирования набора параметров речевого сигнала в работе применен банк фильтров. При формировании конечной системы распознавания фонем учтены результаты исследований, упомянутые выше, и в качестве входных данных персептрона использовались зависящие от времени энергии в частотных полосах. Эксперимент состоял из двух частей: обучение персептрона на словах из обучающей выборки и распознавание транскрипций новых (не использованных при обучении) слов. Объем выборки для обучения — 280 слов. Вначале для обучения использовались только фрагменты из начальных и конечных участков речевых сигналов, т.к. для них точно известны классы -соответственно, первая и последняя фонемы транскрипции. Затем выборка для обучения дополнялась фрагментами речевого сигнала из остальных частей слов. По начальным и конечным фонемам обучение велось стандартным образом. Для обучения на фрагментах сигнала из оставшихся частей слов, для которых неизвестен класс, использовался предложенный метод. Распознавание состояло в скольжении входом персептрона по речевому сигналу новых слов и вычислении значений на выходах персептрона. Пример такого распознавания представлен на рис. 17. На рисунке показаны зависимости выходов классификатора звуков от времени при обучении на фрагментах, помеченных стандартным образом (вручную).
Детектирование частотно-манипулированных сигналов
Как при фазовой манипуляции, так и при частотной, информация передаётся через фазу сигнала, при этом амплитуда сигнала остаётся постоянной. Это сходство указывает на возможность обобщения нейросетевого метода детектирования ФМ сигналов на детектирование частотно-манипулированных (ЧМ) сигналов. Предлагаемая неиросетевая схема детектирования ЧМ сигналов, подобная той, что использовалась для детектирования ФМ сигналов представлена на рис. 30. Далее описывается метод детектирования ЧМ2 сигналов, который при необходимости легко может быть обобщён на ЧМ сигналы с большим числом частот. Математически дискретизованный ЧМ2 сигнал может быть представлен в виде: где n - номер отсчета, AQ - амплитуда, Т - период дискретизации, /о -несущая частота, к - индекс модуляции, /я - частота манипуляции, d -передаваемый символ (для ЧМ2 принимает значение 0 или 1), 1{пТ) -изменение частоты, вызванное различными факторами, в том числе эффектом Доплера, g(nT) - шум. На вход обученной нейронной сети подаётся фрагмент дискретизованных IQ компонент сигнала. Также как и для ФМ сигнала, длина фрагмента, т.е. число отсчетов и, соответственно, число пар входов ИНС выбирается равной длине символьного сегмента. По выходу персептрона определяется величина изменения частоты на данном участке сигнала. Число выходов персептрона равно числу возможных изменений частоты, так, для ЧМ2 сигнала оно равно двум. При последовательной подаче на вход нейронной сети отсчетов IQ компонент на выходах формируются сигналы, отражающие вероятности скачкообразных изменений частоты в зависимости от времени. Пример работы ИНС представлен на рис. 30. Значения на выходах ИНС показаны цветом: белым -ноль, чёрным - единица, серым - промежуточные. Для уменьшения влияния шумов каждый из сигналов выходных сигналов сглаживается по времени при помощи свертки с прямоугольным окном. После сглаживания сигналы передискретизуются с частотой, равной частоте манипуляций, и для определения символов используется критерий максимального правдоподобия.
Результатом дискретизации является набор векторов, где каждый вектор соответствует одной манипуляции. Величина изменения частоты при манипуляции определяется по наибольшему значению в соответствующем векторе, таким образом восстанавливаются передаваемые символы. Исследование схемы детектирования ЧМ сигналов проводилось аналогично исследованиям схемы для ФМ сигналов: сеть обучалась на фрагментах специально сгенерированных ЧМ сигналов. Поскольку предполагается детектирование в условиях аддитивных шумов, то выборка для обучения была составлена из IQ реализаций зашумленных сигналов с ОСШ +10дБ. После обучения проводились статистические испытания. В работе проводилось детектирование ЧМ2 сигнала с минимальным сдвигом (индекс модуляции равен 0,5). Параметры сигнала: спектральная полоса — 40 кГц, частота манипуляций - 16000 бит/с, частота дискретизации IQ компонент -192 кГц. На вход персептрона одновременно подавались 12 отсчетов I и 12 отсчетов Q компоненты, что соответствует отрезку сигнала, содержащему один период манипуляции. После каждого сдвига по времени на один отсчет производилась новая подстановка и вычисления, связанные с обработкой сигнала нейронной сетью. Как и для схемы детектирования ФМ сигналов, объем вычислений предлагаемого метода может быть уменьшен за счет увеличения шага между двумя последовательными подстановками отсчетов сигнала на вход нейронной сети. Для определения устойчивости построенной системы к шуму перед детектированием на сигнал накладывали аддитивный шум в той же спектральной полосе, что и сигнал. При моделировании начальная фаза несущего колебания выбиралась случайным образом, что соответствует ситуации некогерентного приёма. Для определения чувствительности построенной системы к изменению несущей частоты были произведены испытания при несущих частотах, отличающихся от той, на которую настроен цифровой приёмник (базовой). При этом IQ компоненты получаются на ненулевой частоте. Результаты статистических испытаний предложенного метода детектирования представлены на рис. 31. Каждая точка на графиках получена в результате детектирования 105 символов. На рисунке показаны графики зависимости вероятности битовой ошибки Ре от отношения сигнал/шум для тестовых сигналов с различными несущими частотами [160]. Для наглядности на рисунке представлены графики для сигналов с несущей частотой, превышающей заданную, в случае отрицательного отклонения частоты графики аналогичные. Для сравнения на этом же рисунке приведены зависимости вероятности битовой ошибки при детектировании стандартным методом на основе двух полосовых фильтров [72]. Можно видеть, что при отсутствии смешения несущей частоты эффективность предлагаемого метода детектирования сравнима с эффективностью традиционного метода. Из графиков также видно, что предлагаемый метод более чувствителен к изменению несущей частоты, чем метод на основе фильтров: кривая вероятности ошибки нейросетевого метода при отклонении частоты величиной 1 кГц приближенно соответствует кривой вероятности ошибки стандартного метода при отклонении частоты величиной 2 кГц.
При этом предлагаемый метод не требует априорного определения характеристик сигнала и адаптивен благодаря обучению на реализациях принимаемого сигнала. В современных системах передачи цифровой информации по радиоканалам часто применяются узкополосная передача модулированного сигнала и устройства автоматической регулировки усиления (АРУ). В ряде задач узкая полоса и выравнивание мощности делают сигнал и шум плохо различимыми, что затрудняет формализацию алгоритма обнаружения. Использование ИНС позволяет построить алгоритм обнаружения, не требующий определения формальных признаков, а обучаемый на примерах обрабатываемых сигналов [161]. В данном разделе рассматривается нейросетевой метод одновременного обнаружения и детектирования ФМ сигнала. Метод носит общий характер и может использоваться для сигналов с многопозиционной модуляцией (ФМ2, ЧМ2, ФМ4, ЧМ4, ФМ8, ЧМ8 и т.д.), но в деталях рассматривается на примере широко используемых сигналов ФМ4. На рис. 32 изображена схема системы для обнаружения. ФМ4 сигналов. Обрабатываемый сигнал фрагментами поступает в блок предварительной обработки, служащий для уменьшения потока обрабатываемой информации и выделения информативных признаков сигнала. Признаки поступают на вход классификатора, персептрона с пятью выходами. При обучении нейронная сеть настраивается так, чтобы четыре выхода из пяти служили для различения манипуляций, а пятый выход активировался при отсутствии фазоманипулированного сигнала. Учитывая результаты описанных выше исследований способов параметризации, в системе обнаружения в качестве блока предобработки использовался блок формирования выборок из выходных сигналов цифрового приёмника. На вход нейронной сети подавался фрагмент дискретизованных I и Q компонент сигнала. Длина фрагмента, так же как и при детектировании, выбирается равной длине символьного сегмента. При последовательной подаче на вход нейронной сети отсчетов IQ компонент на выходах формируется четыре сигнала, отражающих вероятности скачкообразных изменений фазы в зависимости от времени, и сигнал наличия модуляции. Пример выходных сигналов сети при обнаружении, представлен на рис. 32, как и в случае с фазограммой, значения на выходах ИНС показаны цветом: белым — ноль, чёрным - единица, серым -промежуточные. Для уменьшения влияния шумов каждый из сигналов сглаживается по времени при помощи свертки с прямоугольным окном, после чего передискретизуется с частотой, равной частоте манипуляций.