Содержание к диссертации
Введение
Глава 1. Нейронные сети для обработки информации 11
1.1 .Информационные технологии обработки радиолокационной информации 11
1.2. Введение в искусственные нейронные сети 26
1.3.Теоретические основы для построения нейронных сетей 42
Выводы по главе 1 47
Глава 2. Разработка и исследование моделей и алгоритмов статистических обнаружителей сигналов 49
2.1. Основные теоретические предпосылки для построения статистических алгоритмов 49
2.2. Статистические параметрические обнаружители сигналов 58
2.3. Статистические непараметрические обнаружители сигналов 69
Выводы по главе 2 84
Глава 3. Анализ и синтез неиросетевых моделей обнаружения сигналов 86
3.1. Основные предпосылки обработки радиолокационных сигналов нейронными сетями 86
3.2. Многослойные персептроны 91
3.3. Сети с самоорганизацией Кохонена 100
3.4. Нейронная сеть на основе радиально-базисных функций активаций 108
3.5. Нейронная сеть Хемминга 125
3.6. Сравнительный анализ математических моделей неиросетевых обнаружителей сигналов 131
Выводы по главе 3 135
Глава 4. Программное обеспечение информационных процессов обнаружения сигналов 137
4.1. Имитационное моделирование систем обнаружения сигналов 137
4.2. Компьютерная реализация имитационных моделей статистических и нейросетевых обнаружителей сигналов 142
4.3. Сравнительный анализ компьютерных моделей обнаружителей сигналов 159
Выводы по главе 4 166
Основные выводы по диссертации 167
Библиографический список использованной литературы 169
- Введение в искусственные нейронные сети
- Основные теоретические предпосылки для построения статистических алгоритмов
- Сети с самоорганизацией Кохонена
- Имитационное моделирование систем обнаружения сигналов
Введение к работе
Актуальность темы. Информатизация российского общества востребована массовым пользователем и идет в последние годы достаточно быстро. Использование технологий высокопроизводительной обработки данных увеличивает эффект проводимых исследований и сокращает затраты на проектирование передовых, сложных образцов продукции, а также повышает качество промышленных изделий.
Одним из направлений построения эффективных систем обработки данных является использование новой информационной технологии - технологии нейронных сетей. Данная технология дает возможность компьютерной системе обучаться на примерах. Искусственные нейронные сети позволяют получать решения многих проблем, ранее считавшихся неразрешимыми. При этом достигается гибкость и адаптивность работы, робастность, способность к обобщению. Кроме того, за счет использования специальных архитектур, основанных на множестве одинаковых, достаточно простых элементов, появляется возможность применения параллельных вычислительных средств, причем простота элементов позволяет реализовывать массовую параллельность вычислений. Среди большого числа приложений нейронных сетей есть и приложения в области радиолокации. В настоящее время американское военное командование финансирует целый ряд научно-исследовательских работ, которые посвящены этой тематике. Агентство по перспективным исследованиям DAPRA начало финансирование исследований в области применения нейронных сетей для обработки радиолокационной информации.
В настоящее время известно достаточно большое число зарубежных исследований, в которых рассматривается возможность создания нейросетевых обнаружителей. Например, в работах Andina D and Sanz-Gonzalies J.L., Kuck M., Guo С, Kuh A., Bhattacarya Т.К., Chilingarian А. обсуждаются особенности использования нейронных сетей для решения задач обнаружения целей, такие как выбор формы желаемого отклика, стабилизация уровня ложной тревоги, последовательное обнаружение, работа в существенно нестационарных условиях, обнаружение слабых сигналов на фоне интенсивных шумов, демонстрируются их преимущества перед традиционными обнаружителями. Из российских исследователей, занимающихся данной проблемой, можно назвать Перова А.И., Татузова А.Л., Галушкина А.Н. В работе Перова А.И., Соколова Г.Г. рассматривалась проблема обнаружения и оценки параметров сигнала нейросетевыми методами. К сожалению, по данной работе нельзя судить полностью о работе нейросетевых алгоритмов применительно к задаче обнаружения сигналов, так как не рассмотрена проблема ложных тревог. В работе Татузова А.Л. рассмотрены методы обучения нейронных сетей для задач обнаружения сигналов. Математическая постановка задачи обнаружения сведена к задаче распознавания с учетом важности вероятности ошибок ложных тревог, как редких событий. Автором предложен алгоритм обучения многослойного персептрона с постоянным уровнем ложных тревог. Следует заметить, что сходимость алгоритма достигается за достаточно большое число итераций, а, следовательно, и времени обучения, что является серьезным недостатком.
Особенностью этой и многих других работ является отсутствие оценок уровня ложных тревог, что не позволяет судить о качестве полученных обнаружителей. Кроме того, исследуется обнаружение сигнала только на фоне гауссовского шума, хотя на практике обнаружитель часто работает в условиях воздействия не только шума, но и импульсных помех. Таким образом, тема диссертации, посвященная разработке и
исследованию математических моделей нейросетевых и статистических обнаружителей сигналов, а также проведение сравнительного анализа рассмотренных обнаружителей, представляется актуальной.
Диссертационная работа выполнена в рамках одного из основных научных направлений факультета прикладной математики информатики и механики ВГУ «Математическое моделирование, программное и информационное обеспечение, методы вычислительной и прикладной математики и их применение в естественных науках»
Цель работы и задачи исследования. Цель диссертационной работы: разработать и исследовать математические модели и алгоритмы обработки радиолокационной информации как нейросетевыми, так и статистическими обнаружителями сигналов при воздействии шумов и помех и осуществить сравнительный анализ разработанных моделей.
Для достижения поставленной цели необходимо решить следующие задачи.
Исследовать возможность и особенности применения нейронных сетей для обработки радиолокационных данных.
Разработать модели статистических параметрических и непараметрических обнаружителей сигналов при наличии шумов и помех.
Создать и исследовать модели обнаружения закономерностей в радиолокационных данных с использованием нейронных сетей.
Реализовать рассмотренные статистические и нейросетевые алгоритмы в вычислительном эксперименте и провести сравнительный анализ их работы
Разработать программное обеспечение компьютерного моделирования систем обнаружения сигналов.
Методы проведения исследований. При решении поставленных в диссертации задач использовался аппарат теории случайных процессов, статистической теории обнаружения сигналов; методы теории вероятностей и математической статистики; технологии программирования; методы и технологии статистического имитационного моделирования, а также аппарат искусственных нейронных сетей.
Научная новизна работы заключается в разработке математических и компьютерных моделей, методов, алгоритмов и программного обеспечения, позволяющих решить поставленные в работе задачи.
Разработана статистическая модель обнаружения сигналов с использованием как параметрических, так и непараметрических методов, отличающаяся тем, что сигналы обнаруживаются не только на фоне шума, но и на фоне хаотических импульсных помех и аддитивной смеси шума и помех.
Произведена модификация моделей нейронных сетей Хемминга, Кохонена и двухслойного персептрона для решения задачи обнаружения закономерностей в радиолокационных данных и осуществлена их компьютерная реализация, позволяющая оценить эффективность их работы.
На основании теорем Ковера и универсальной аппроксимирующей теоремы синтезирован алгоритм обучения нейронной сети с радиально-базисными функциями активации (РБФ сеть), оптимизирующий задачу обнаружения сигналов при воздействии шумов и помех.
Создано специальное программное обеспечение для проведения вычислительных экспериментов и сравнительного анализа эффективности функционирования статистических и нейросетевых обнаружителей.
Основные результаты, выносимые на защиту. На защиту выносятся следующие результаты, впервые достаточно полно развитые или полученные в диссертации.
Компьютерная модель статистических параметрических и непараметрических обнаружителей радиолокационного сигнала на фоне гауссовского шума и смеси гауссовского шума и хаотической импульсной помехи для проведения сравнительного анализа с другими моделями.
Компьютерная модель нейросетевых алгоритмов Хемминга, Кохонена, двухслойного персептрона обнаружения радиолокационного сигнала на фоне гауссовского шума и смеси гауссовского шума и хаотической импульсной помехи для оценки эффективности их работы по сравнению со статистическими моделями.
Алгоритм обучения нейронной сети РБФ, позволяющий работать сети как оптимальный приемник Байеса при обнаружении сигналов на фоне гауссовского шума и смеси гауссовского шума и хаотической импульсной помехи.
Анализ результатов вычислительного эксперимента с использованием созданных моделей для выявления оптимальных обнаружителей радиолокационного сигнала, полученных при различных условиях обнаружения.
Достоверность результатов работы. Результаты исследований, сформулированные в диссертации, получены на основе корректного использования взаимно дополняющих друг друга теоретических и экспериментальных (имитационное моделирование) методов исследований.
Значимость для науки и практики. Значимость результатов диссертационной работы заключается в возможности использования разработанного информационного и программного обеспечения для принятия решений в задачах обнаружения сигналов. Для науки большое значение имеют результаты сравнительного анализа методов обнаружения. Практические результаты диссертационной работы положены в основу прикладных программ, зарегистрированных в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам (ФГУ ФИПС): "Обнаружение сигналов нейронными сетями при воздействии шумов и помех". Per. № 2011611899 от 28.02.2011.
Область исследования. Содержание диссертации соответствует специальности 05.13.17 - «Теоретические основы информатики» по следующим областям исследований: разработка и анализ моделей информационных процессов и структур (п.2 паспорта специальности); разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях (п. 5 паспорта специальности).
Реализация научных результатов. Разработанное программное обеспечение для обнаружения сигналов в условиях гауссовских шумов и импульсных помех на базе предложенных алгоритмов, может быть использовано в системах извлечения информации, к которым относятся радиолокационные системы, радионавигационные системы, а также в радиосвязи и автоматизированных системах управления для принятия оптимальных решений.
Разработанное программное обеспечение внедрено в работу цеха измерений ЗАО «ВЗПП-Микрон» г. Воронеж с целью проведения автоматизированного мониторинга измерительного оборудования на наличие шумов и помех.
Теоретические результаты диссертации используются в учебном процессе Воронежского государственного университета при чтении спецкурсов и вьшолнении курсовых и дипломных работ, магистерских диссертаций.
Личный вклад автора. Основные результаты по теме диссертации получены лично автором и опубликованы в соавторстве с научным руководителем. В этих работах постановка задачи и определение направлений исследований выполнены научным руководителем. Автором определены методы исследований, предложен алгоритм обучения нейронной сети РБФ, разработан программный комплекс по обнаружению сигналов нейросетевыми и статистическими методами, проведен вычислительный эксперимент и сравнительный анализ обнаружителей сигналов.
Публикации. По теме диссертации (лично и в соавторстве) опубликовано 12 работ, из них 4 работы - в изданиях, рекомендованных ВАК РФ.
Апробация работы. Основные положения диссертации докладывались и обсуждались на следующих конференциях: IX и XI Международной научно-технической конференции «Кибернетика и высокие технологии XXI века» (Воронеж, 2008, 2010), XVI Международной конференции студентов, аспирантов и молодых ученых «Ломоносов» (Москва, 2009), Международной конференции «Актуальные проблемы прикладной математики, информатики и механики» (Воронеж 2009-2010), Воронежской весенней математической школе «Понтрягинские чтения - XX», «Понтрягинские чтения - XXI» (2009-2010), научных сессиях Воронежского государственного университета (2007-2011).
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и списка литературы из 98 наименований. Объем диссертации составляет 177 страниц, включая 164 страницы основного текста, содержащего 37 рисунков и 30 таблиц.
Введение в искусственные нейронные сети
В настоящее время нейронные сети и нейросетевая технология получили широкое распространение. Под нейросетевой технологией понимается использование моделей нейронных сетей для выполнения функций информационных технологий [26].
Разработка искусственных нейронных сетей началась еще на заре XX столетия, но только в 90-х годах, когда были преодолены некоторые теоретические барьеры, а вычислительные системы стали достаточно мощными, нейронные сети получили широкое признание. При этом понятие искусственной нейронной сети до сих пор не имеет однозначного определения, что часто приводит к неоднозначному пониманию этого термина.
В классических трудах по теории нейронных сетей приводятся различные определения.
Агентство перспективных исследований Пентагона DARPA, одно из первых профинансировавшее научно-исследовательские работы прикладного направления этой тематики, определяет нейронную сеть следующим образом [66]:
Нейронная сеть - это система, состоящая из множества простых работающих параллельно процессорных элементов, функционирование которой описывается структурой сети, силой связей и обработкой, осуществляемой на каждом вычислительном элементе или узле сети.
Автор нескольких классических трудов по теории нейронных сетей С.Хайкин (Simon Haykin) [54] дает менее строгое, но более метафоричное определение:
Нейронная сеть — это громадный распределенный параллельный процессор, состоящий из элементарных единиц обработки информации, накапливающих экспериментальные знания и предоставляющих их для последующей обработки. Нейронная сеть сходна с мозгом с двух точек зрения.
1. Знания поступают в нейронную сеть из окружающей среды и используются в процессе обучения.
2. Для накопления знаний применяются связи между нейронами, называемые синаптическими весами.
Для того чтобы проиллюстрировать ширину спектра восприятия понятия нейронных сетей ниже приводятся еще два определения этого термина.
Под нейронными сетями подразумеваются вычислительные структуры, которые моделируют простые биологические процессы, обычно ассоциируемые с процессами человеческого мозга. Адаптируемые и обучаемые, они представляют собой распараллеленные системы, способные к обучению путем анализа положительных и отрицательных воздействий [19].
Искусственные нейронные сети представляют собой устройства параллельных вычислений, состоящие из множества взаимодействующих простых процессоров. Такие процессоры обычно исключительно просты, особенно в сравнении с процессорами, используемыми в персональных компьютерах. Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам, и, тем не менее, будучи соединенными в достаточно большую сеть с управляемым взаимодействием, такие локально простые процессоры вместе способны выполнять довольно сложные задачи.
Российская школа нейрокомпьютерных исследований тоже имеет ряд полезных определений. В фундаментальном труде А.И. Галушкина [6], обобщающем результаты исследований по теории нейронных сетей за несколько десятилетий в России, дается следующее определение нейрокомпьютера.
Нейрокомпьютер — это вычислительная система с архитектурой аппаратного и программного обеспечения, адекватной выполнению алгоритмов, представленных в нейросетевом базисе. При этом под логическим базисом нейронных ЭВМ понимается в простейшем случае группа операций ( ,a,x,sign).
Еще один известный специалист в области теории нейронных сетей А.Н. Горбань не дает однозначного определения нейронной сети как целого, но дает описание основных элементов, из которых они состоят.
Это адаптивный сумматор, нелинейный преобразователь, точка ветвления и линейная связь - синапс [10].
В целом можно утверждать, что уже сложилось достаточно устойчивое представление об области, которая определяется термином нейронные сети, а имеющиеся некоторые, иногда весьма существенные, отличия в определениях, не мешают единому пониманию предмета исследований.
В настоящей работе в качестве термина "нейронная сеть" будем использовать определение Хайкина.
Нейросетевая вычислительная структура состоит из сети нейронов, сильно связанных друг с другом. Такая сеть представляет собой компьютерное устройство. Задачи и функции, которые оно выполняет, определяются сформированными связями. Конфигурация связей является своеобразным аналогом программы.
В нейронных сетях элементы соединены между собой однонаправленными связными каналами. Каждый нейрон проводит действия над величинами, которые он получает по своим связям, в результате чего его уровень активности, описывающий состояние, меняется, влияя на величину выхода.
Искусственный нейрон состоит из элементов трех типов. Элементы нейрона - умножители (синапсы), сумматор и нелинейный преобразователь. Синапсы осуществляют связь между нейронами, умножают входной сигнал на число, аналогичный синаптической силе, - вес синапса. Сумматор выполняет сложение сигналов, поступающих по синаптическим связям от других нейронов, и внешних входных сигналов. Нелинейный преобразователь реализует нелинейную функцию одного аргумента - выхода сумматора. Эта функция называется "функция активации" или "передаточная функция" нейрона. Она ограничивает амплитуду выходного сигнала нейрона. Обычно нормализованный диапазон выхода нейрона лежит в интервале [0,1 ] или [-1,1]. Нейрон в целом реализует скалярную функцию. На рис. 1.2 представлена модель, реализующая эту идею.
Обучение нейронных сетей. Самым важным свойством нейронных сетей является их способность обучаться на основе данных окружающей среды и в результате обучения повышать свою производительность. Повышение производительности происходит со временем в соответствии с определенными правилами. Обучение нейронной сети происходит посредством интерактивного процесса корректировки синаптических весов.
С понятием обучения ассоциируется довольно много видов деятельности, поэтому сложно дать этому процессу однозначное определение. С позиции нейронной сети можно использовать следующее определение.
Обучение - это процесс, в котором свободные параметры нейронной сети настраиваются посредством моделирования среды, в которую эта сеть встроена. Тип обучения определяется способом подстройки этих параметров.
Сеть обучается, чтобы для некоторого множества входов давать желаемое (или, по крайней мере, сообразное с ним) множество выходов. Каждое такое входное (или выходное) множество рассматривается как вектор. Обучение осуществляется путем последовательного предъявления входных векторов с одновременной подстройкой весов в соответствии с определенной процедурой. В процессе обучения веса сети постепенно становятся такими, чтобы каждый входной вектор вырабатывал выходной вектор. Не существует универсального алгоритма обучения, подходящего для всех архитектур нейронных сетей. Существует лишь набор средств, представленный множеством алгоритмов обучения, каждый из которых имеет свои достоинства. Алгоритмы обучения отличаются друг от друга способом настройки синаптических весов нейронов. Еще одной отличительной характеристикой является способ связи обучаемой нейросети с внешним миром.
Основные теоретические предпосылки для построения статистических алгоритмов
Одним из главных назначений информационных систем является обнаружение и выделение сигналов, несущих информацию из смеси сигналов с помехами. При этом как сигналы, так и помехи представляют собой случайные величины. В связи с этим при обработке радиолокационной информации широко используются методы теории вероятностей, теории случайных процессов и математической статистики, а сам прием сигналов, в том чисел и их обнаружение, рассматривается как некоторая статистическая задача.
Статистическая задача обнаружения формулируется следующим образом. Пусть наблюдается процесс x(t), который является либо шумом, либо смесью полезного сигнала и шума. Требуется по результатам наблюдения реализации этого случайного процесса в течение некоторого времени выяснить, какая из возможных ситуаций имеет место: есть сигнал или нет сигнала. Причем сделать это желательно оптимальным (в соответствии с принятым критерием качества) способом.
Решения, принимаемые в результате наблюдения случайного процесса x(t), носят статистический характер. Поэтому, чтобы создать алгоритм работы оптимального обнаружителя, необходимо воспользоваться прежде всего результатами теории статистических решений. Последняя изучает статистические решения о наблюдаемых реализациях случайного процесса и дает методы построения оптимальных решающих правил [45].
"Сырьем" для статистического исследования служит совокупность результатов наблюдений; эти результаты представляют собой значения случайных величин X, распределение которых Рв хотя бы частично известно. О параметре в предполагается известным лишь то, что это один из элементов некоторого множества Q (пространства параметров). Статистические выводы используют материал наблюдений для получения информации относительно X (или значения параметра в, от которого оно зависит).
Принимаемое решение основывается на значениях некоторой случайной величины X, о которой известно, что ее распределение принадлежит данному классу ЧЯ = {Рв,вєО}. Предположим, что если бы было известно, то можно было бы сказать - верна гипотеза или нет. Соответственно, распределения класса $R могут быть разделены на две группы: для одной из групп гипотеза верна, а для другой - нет. Эти группы будут обозначаться Я0 и Я,, а соответствующие им подмножества Q -буквами QH и QH , так что H0[jH] = ЧЯ и QH \JQH =& Математическая гипотеза эквивалентна утверждению, что Рв принадлежит Я0. Поэтому удобно отождествить гипотезу и это утверждение, и обозначить ее также Я0. Аналогично мы называем распределения из Я, альтернативными к Я0, так что Я, есть класс альтернатив.
Обозначим через 8{х) - правило, которое каждому возможному значению х случайных величин приписывает решение у = S(x). Тогда решения, состоящие в принятии или отклонении Я0, обозначим буквами у0 и ух соответственно. Нерандомизированная процедура проверки гипотезы предписывает каждому возможному значению х случайной величины X одно из двух решений. Тем самым выборочное пространство делится на два взаимно дополнительных множества Х0 и Х}. Если X попадает в Х0, то гипотеза принимается, в других случаях она отвергается. Множество Х0 называется областью принятия гипотезы, а множество Хх - областью отклонения или критической областью.
В процессе проверки гипотез можно или прийти к правильному решению, или совершить одну из двух ошибок: отвергнуть гипотезу, когда она верна (ошибка первого рода), или принять гипотезу, когда она неверна (ошибка второго рода). Последствия этих ошибок часто оказываются совершенно различными. Например, если проверяется наличие некоторого заболевания, то неправильное заключение о необходимости лечения может создать пациенту неудобства. С другой стороны, неудача в попытке обнаружить имеющееся заболевание может привести к смерти пациента.
Желательно провести проверку гипотез таким образом, чтобы свести к минимуму вероятности обоих типов ошибок. К сожалению, когда число испытаний задано, мы не можем управлять обеими вероятностями ошибок одновременно. Обычно задают границу для вероятности отклонения Н0, когда она верна, и при этом условии стремятся минимизировать вероятность другой ошибки. Иными словами, выбирают число а между 0 и 1 (называемое уровнем значимости) и налагают условие Pe{S(X) = ух) = Рв{Х є X,} а для всех в є Пщ . (2.1)
При этом условии желательно сделать минимальной Рв{8(Х) - у0} для всех в є QH или, что то же самое, сделать минимальной Рв {5{Х) = ух} = Ре {X є Х]} для всех в є Qщ (2.2) хотя обычно из (2.1) вытекает, что supPffiXeX a (2.3)
Удобно для левой части равенства (2.3) ввести специальное название: ее называют размером критерия или критической областью.
Обычно выбор уровня значимости а до некоторой степени произволен, поскольку в большинстве ситуаций нет точной границы для "разрешенной" вероятности ошибок первого рода.
Рассмотрим структуру рандомизированного критерия. При любом х такой критерий приводит к выбору между двумя решениями - принятием или отклонением гипотезы, и этот выбор осуществляется с зависящими ОТ X вероятностями, которые будут обозначаться р(х) и 1 - ср(х) соответственно. Если X принимает значение х, то производится случайный эксперимент с двумя возможными исходами: R и R, вероятности которых равны р(х) и \-(р(х). Если эксперимент заканчивается исходом R, то гипотеза отвергается, а в противном случае принимается. Рандомизированный критерий, таким образом, полностью характеризуется (р - критической функцией, 0 ср(х) 1 при всех х.
Если X распределена по закону Рв и используется критическая функция р, то вероятность отвергнуть гипотезу равна Мв(р{х) = jcp(x)dPe{x), то есть равна условной вероятности отклонения гипотезы при данном х, проинтегрированной по распределению X. Задача состоит в выборе такого р, чтобы сделать мощность рф (в) = Мв(р(х) для всех в є nWi максимальной при условии Мв р(х) а для всех 0 є QHo
Теорема 1 (фундаментальная лемма Неймана-Пирсона). Пусть Р0 и Р] распределения вероятностей, обладающие плотностями р0 и рх соответственно, по отношению к некоторой мере JU .
Сети с самоорганизацией Кохонена
Основу самоорганизации нейронных сетей составляет подмеченная закономерность, что глобальное упорядочение сети становится возможным в результате самоорганизующих операций, независимо друг от друга проводящихся в различных локальных сегментах сети. В соответствии с поданными входными сигналами осуществляется активация нейронов, которые вследствие изменения значений синаптических весов адаптируются к поступающим обучающим выборкам. В процессе обучения наблюдается тенденция к росту значений весов, из-за которой создается своеобразная положительная обратная связь: более мощные возбуждающие импульсы -более высокие значения весов - большая активность нейронов. При этом происходит естественное расслоение нейронов на различные группы. Отдельные нейроны или их группы сотрудничают между собой и активизируются в ответ на возбуждение, создаваемое конкретными обучающими выборками, подавляя своей активностью другие нейроны. При этом можно говорить как о сотрудничестве между нейронами внутри группы, так и о конкуренции между нейронами внутри группы и между различными группами [31].
Модель была предложена известным финским ученым Кохоненом в 1982 г. [75] на основе более ранней работы [74]. Метод обучения Кохонена является развитием метода обучения на основе соревнований. Алгоритмы Кохонена основываются на технике обучения без учителя. После обучения подача входного вектора из данного класса будет приводить к выработке возбуждающего уровня в каждом выходном нейроне; нейрон с максимальным возбуждением представляет классификацию. Структурная схема сети представлена на рис.3.6 [19].
Рассмотрим архитектуру сети Кохонена и правила обучения подробнее. Сеть состоит из одного слоя нейронов. Число входов каждого нейрона п равно размерности вектора параметров объекта. Количество нейронов m совпадает с требуемым числом классов, на которые нужно разбить объекты (меняя число нейронов, можно динамически менять число классов)
Обучение начинается с задания небольших случайных значений элементам весовой матрицы W. В дальнейшем сети последовательно предъявляются входные сигналы (вектора действительных чисел), при этом требуемые выходные сигналы не определяются. После предъявления достаточного числа входных векторов, синаптические веса сети определяют кластеры. Веса организуются так, что топологически близкие нейроны чувствительны к похожим сигналам. Каждый столбец весовой матрицы представляет собой параметры соответствующего нейрона-классификатора. Для каждого j-ro нейрона (j = l,..m) определяются расстояние от него до входного вектора X:
Далее выбирается нейрон с номером /, 1 / т, для которого это расстояние минимально (то есть сеть отнесла входной вектор к классу с номером / ).
Здесь степень подобия векторов определяется на основе Евклидова расстояния. Для примера предположим, что существует некоторый вектор х, размерности m Хі 1-Х;1 Л:,2 -- Л:;т]
Все его элементы - действительные числа, а обозначение т указывает на то, что матрица транспонирована. Вектор х, определяет некоторую точку в m-мерном Евклидовом пространстве. Евклидово расстояние между парой m-мерных векторов х; и х вычисляется как
d(xl,xJ) \\x[-xJ = АУ {х1к-х]к)2 , V Л:=1 где xlk и xjk -k-e элементы векторов х( и \j соответственно. Отсюда следует, что степень сходства между входными сигналами, представленными векторами х, и х;, является величиной, обратной Евклидову расстоянию между ними dix Xj). Чем ближе друг к другу отдельные элементы векторов х, и Xj, тем меньше Евклидово расстояние j(x;,x7) и тем выше сходство между векторами х, и х Этот метод измерения расстояния между векторами можно представлен нарис. 3.7.
Алгоритм обучения сети Кохонена [52]
1. Инициализация сети. Весовым коэффициентам сети wu,i= 1,..п, j =l,..m присваиваются малые случайные значения. Задается а -начальный темп обучения и D - максимальное расстояние между весовыми векторами (столбцами матрицы W).
2. Предъявление сети нового входного сигнала X.
3. Вычисление расстояния ё,от входного сигнала X до каждого нейрона j
После обучения классификация выполняется посредством подачи на вход сети испытуемого вектора, вычисления расстояния от него до каждого нейрона с последующим выбором нейрона с наименьшим расстоянием как индикатора правильной классификации.
Согласно рекомендациям Кохонена [75], для получения хорошей статистической точности количество обучающих циклов должно быть, по крайней мере, в 500 раз больше выходных нейронов.
Доказано, что если хотя бы один из векторов х или w подвергается нормализации, то процесс самоорганизации всегда приводит к связному разделению пространства данных [31]. Нормализация выполняется с помощью деления каждой компоненты входного вектора на длину вектора. Эта длина находится извлечением квадратного корня из суммы квадратов х компонент вектора. Это превращает входной вектор в единичный вектор с тем же самым направлением, т.е. в вектор единичной длины в n-мерном пространстве. Также следует перед обучением и после каждой итерации процесса обучения осуществлять нормировку весов каждого нейрона (столбцов матрицы W). Окончательные значения весовых векторов после обучения совпадают с нормализованными входными векторами. Поэтому нормализация перед началом обучения приближает весовые векторы к их окончательным значениям, сокращая, таким образом, обучающий процесс.
Сеть Кохонена способна функционировать в условиях помех, так как число классов фиксировано. Веса модифицируются медленно, и настройка весов заканчивается после обучения [18].
Для реализации математической модели нейросетевого обнаружителя нейронной сети Кохонена на компьютере была поставлена задача (3.2).
Число входных нейронов для сети Кохонена, так же как и для двухслойного персептрона зависит от размера входной выборки. Число выходных нейронов равно двум. При обучении нейронной сети Кохонена на вход случайным образом предъявлялись обучающие выборки, содержащие либо гауссовский шум, либо смесь гауссовского шума и сигнала, и в процессе предъявления на вход сети обучающих примеров определялся выход сети. Изменение весовых коэффициентов происходило в соответствии с алгоритмом обучения. Обучение проводилось до тех пор, пока весовые коэффициенты не достигнут точности 10 10.
В самом начале функционирования сети Кохонена в окрестности любого из нейронов находятся все нейроны сети, но с каждым шагом эта окрестность сужается. В конце этапа обучения подстраиваются веса только одного определенного нейрона по формуле (3.4). В связи с тем, что сеть Кохонена имела 2 нейрона, следовательно, при обучении потребовался расчет 200 коэффициентов.
Были проведены две серии вычислительных экспериментов. В первой серии сигнал обнаруживался на фоне гауссовского шума. Во второй серии обнаружения сигнала производилось на фоне гауссовского шума и хаотической импульсной помехи.
В результате проведения вычислительных экспериментов получены вероятности правильного обнаружения, вероятности ложных тревог и вероятности пропуска сигнала в зависимости от отношения сигнал/шум. Эти вероятности рассчитывались как частота события по 1000 реализациям для каждого значения сигнал/шум при объеме выборки в 100 значений.
Имитационное моделирование систем обнаружения сигналов
Информационная система - сложная человеко-машинная система, целевое назначение, элементный состав и структура которой ориентированы на различного рода преобразования данных и информации в интересах обеспечения потребностей пользователей. При этом информационное взаимодействие, в какой бы форме оно не осуществлялось, как правило, рассматривается в виде некоторого процесса. Таким образом, информационный процесс - целенаправленно организованный процесс изменения информационных состояний системы, в результате которого осуществляются преобразования информации, при которых она может изменять свою форму и/или содержание в пространстве и/или во времени
При проведении исследований информационных систем могут быть использованы аналитические математические модели. Однако даже самый мощный аппарат современной математики позволяет адекватно описать поведение только относительно простых систем. При исследовании сложных систем приходится идти на существенное и зачастую неоправданное упрощение моделей, что не позволяет изучить все необходимые аспекты их поведения [1,55].
В связи с этим для моделирования процессов и систем, имеющих сложный и многоаспектный характер поведения, используются технологии компьютерного имитационного моделирования [1].
Американский специалист в области моделирования Шеннон дает следующее определение имитационного моделирования: «Имитационное моделирование есть процесс конструирования модели реальной системы и постановки экспериментов на этой модели с целью либо понять поведение системы, либо оценить различные стратегии, обеспечивающие функционирование данной системы» [58].
Имитационное моделирование является одним из самых мощных инструментов анализа, которыми располагают люди, ответственные за разработку и функционирование сложных процессов и систем. Оно дает возможность пользователю экспериментировать с системами (существующими или предлагаемыми) в тех случаях, когда делать это на реальном объекте практически невозможно или нецелесообразно. Имитационное моделирование зиждется главным образом на теории вычислительных систем, математике, теории вероятностей и статистике. Но в то же время имитационное моделирование и экспериментирование во многом остаются интуитивными процессами [58].
Конечной формой имитационного моделирования является программа или программный комплекс, реализованные в используемой языковой среде. С этой точки зрения существо процесса имитационного моделирования в рамках классического алгоритмического подхода к программированию сводится к следующим основным этапам [1]:
1. Построение математического описания процессов и подпроцессов, протекающих в системе, которое состоит из совокупности частных аналитических и вероятностных математических моделей различного характера и называется математической моделью системы.
2. Разработка набора алгоритмов. Обеспечивающих имитацию процессов, описываемых частными математическими моделями. Организованное в единое целое в соответствии с логикой причинно-следственных связей процессов и подпроцессов, происходящих в реальной системе. Совокупность этих алгоритмов называется общим моделирующим алгоритмом.
3. Реализация на ЭВМ программы имитации и статистического анализа эффективности, ее отладка, тестирование и эксплуатация.
Исходя из того, что имитация должна применяться для исследования реальных систем, можно выделить следующие этапы этого процесса [1, 58]:
1. Определение системы - установление границ, ограничений и измерителей эффективности системы, подлежащей изучению.
2. Формулирование модели - переход от реальной системы к некоторой логической схеме (абстрагирование).
3. Формализация системы - построение блочной статистической модели системы.
4. Разработка общей математической модели - подбор типовых математических схем, описывающих поведение отдельных элементов системы, и математической схемы их взаимодействия.
5. Составление общего моделирующего алгоритма - описание моделируемых процессов (логических и динамических), происходящих в системе.
6. Программирование и отладка модели на основе универсального языка высокого уровня или специализированного языка для моделирования данного типа объектов.
7. Тестирование и анализ адекватности модели - проведение серии предварительных экспериментальных исследований, направленных на повышение степени уверенности в корректности ее функционирования.
8. Организация и оптимизация модельного эксперимента -стратегическое и тактическое планирование.
9. Реализация - регистрация и накопление получаемых в процессе эксплуатации модели системы результатов.
10. Вторичная обработка данных - использование специальной статистической и иной обработки первичных данных и выработку информации, отражающую закономерности функционирования системы.
11. Анализ и интерпретация информации в форме определенных выводов и заключений.
Следует обратить внимание на то, что востребованность методологии имитационного моделирования привела к бурному развитию инструментальных средств компьютерного имитационного моделирования. Ежегодно появляются новые приложения, обеспечивающие реализацию технологий имитационного моделирования в различных областях. Конечно же, данная технология моделирования не обошла стороной и парадигмы искусственных нейронных сетей.
В настоящее время на рынке программного обеспечения имеется множество самых разнообразных программ для моделирования нейронных сетей, которые обычно называют нейропакетами. Данные нейропакеты выпускаются рядом фирм и отдельными исследователями и позволяют конструировать, обучать и использовать нейронные сети для решения практических задач.
Существуют различные программы для моделирования нейронных сетей, пакеты для прогнозирования и принятия решений и управления, пакеты для решения задач управления, для распознавания образов, для решения задач классификации, пакеты для моделирования нейронных сетей прямого распространения.
Конечно же универсальность того или иного нейропакета является сугубо субъективным фактором, так как один и тот же нейропакет может быть и универсальным и специализированным, в зависимости от того, для решения какого круга прикладных задач он предназначен. Строго говоря, полностью универсальных нейропакетов не существует, поскольку невозможно заранее предусмотреть все нейронные структуры, которые могут потребоваться для решения тех или иных прикладных задач.
Рассмотрим некоторые из наиболее известных программ для моделирования нейронных сетей.
Нейропакет NeuroSolutions [35] - среда разработки нейронных сетей с графическим интерфейсом. Основное его достоинство состоит в гибкости: помимо традиционных нейросетевых парадигм (полносвязных и многослойных нейронных сетей, самоорганизующихся карт Кохонена) нейропакет включает в себя мощный редактор визуального проектирования нейронных сетей, позволяющий создавать любые нейронные структуры и алгоритмы их обучения, а также вводить собственные критерии обучения.
Нейропакет NeuroShell [36] - представляет собой универсальный пакет для моделирования нескольких наиболее известных нейронных парадигм: многослойных сетей, сетей Кохонена и т.д. NeuroShell сильно проигрывает по сравнению с NeuroSolutions. Он имеет много мелких недостатков, существенно замедляющих подготовку и работу в среде нейропакета. Кроме того, NeuroShell имеет и усложненную систему визуализации данных.
Нейропакет Neural Works [37] является мощным средством для моделирования нейронных сетей. В нем реализовано 28 парадигм, а также большое количество алгоритмов обучения. Дополнительный модуль позволяет создавать собственные нейронные структуры.
При этом, естественно, что за все надо платить. И плата за прикладную универсальность нейропакета - его высокая цена. Понятно, что чем совершеннее интеллектуальный компонент и выше «прозрачность» нейропакета, тем он дороже. Так, комплекс The Al Trilogy с нейропакетом NeuroShell еще недавно продавался за 3,5 тыс. долларов.
Конечно, в настоящее время имеются и бесплатные нейросетевые пакеты, но их возможности, конечно, ограничены. Например, нейропакет Lightweight Neural Network++ [38] распространяется свободно. Реализует только нейронные сети прямого распространения и некоторые методы обучения. Нейропакет Neural Network Models in Excel [39] является бесплатным программным обеспечением, реализующим нейронные сети для решения задач прогнозирования и классификации в Excel.