Содержание к диссертации
Введение
1 Принципы построения искусственных нейросетей и возможности их комплексирования 12
1.1 Принципы построения искусственных нейросетей 12
1.2 Методы обучения искусственных нейросетей 18
1.3 Возможности построения комплексированных нейросетей 24
1.4 Выводы 27
2. Исследование методов обработки графических изображений на основе комплексированных нейросетей 28
2.1 Структура комилексированной нейросети для обработки изображений фотороботов 28
2.2 Генетические алгоритмы и исследование возможностей их применения для обработки изображений 31
2.3 Исследование возможности использования комплексированных нейросетей для сжатия и восстановления данных 42
2.4 Исследования возможности применения нейросетей для идентификации изображений 53
2.5 Выводы 62
3. Комплексированная нейросеть для систем прогнозирования 63
3.1 Синтез комилексированной нейросети для решения задач прогнозирования 63
3.2 Разработка алгоритмов и методов обучения комплексированной нейросети для решения задач прогнозирования 72
3.3 Сравнительный анализ результатов прогнозирования на многослойном перцептроне и комплексированной нейросети з
3.4 Выводы 86
4. Решение прикладных задач на основе комплексированной нейросети 88
4.1 Применение нейросети для классификации речевых сообщений по их эмоциональной составляющей 88
4.2 Постановка задачи прогнозирования изменения уровня грунтовых вод на основе комплексированной нейросети 95
4.3 Программа "GeoForecast" для прогнозирования изменения уровня грунтовых вод, состав, описание, полученные результаты 98
4.4 Выводы 104
Заключение 105
Список литературы
- Методы обучения искусственных нейросетей
- Генетические алгоритмы и исследование возможностей их применения для обработки изображений
- Разработка алгоритмов и методов обучения комплексированной нейросети для решения задач прогнозирования
- Постановка задачи прогнозирования изменения уровня грунтовых вод на основе комплексированной нейросети
Методы обучения искусственных нейросетей
Алгоритмов обучения искусственных нейронных сетей существует большое количество. В целом большинство методов обучения имеет общее основание и много идентичных характеристик.
Для разработки или выбора алгоритма обучения нейросети, прежде всего, необходимо понимать схему функционирования самой нейронной сети и ее назначение [50]. Также необходимо иметь представления о входной информации. Другими словами, необходима модель внешней среды, которую моделирует выбранная архитектура нейросети. Эта модель определяет парадигму обучения. Во-вторых, необходимо понимать, как модифицировать весовые параметры сети, то есть какими правилами обучения пользоваться для управления процессом настройки.
В первом случае в исходной базе данных примеров для обучения нейросети находится помимо самого образа и правильный ответ (сигналы, которые должны появиться на выходах сети). Веса настраиваются так, чтобы сеть производила ответы как можно более близкие к известным правильным ответам. Такое обучение не совсем соответствует реальным обучающим механизмам в биологических системах, и, следовательно, хотя данный подход привел к большим успехам при решении прикладных задач, он отвергается исследователями, полагающими, что искусственные нейронные сети обязательно должны использовать те же механизмы, что и человеческий мозг.
Обучение без учителя не требует знания правильных ответов на каждый пример обучающей выборки. В этом случае раскрывается внутренняя структура данных или корреляции между образцами в системе данных, что позволяет распределить образцы по категориям. В этом случае сеть самоорганизуется посредством настройки своих весов согласно определенному алгоритму.
Вследствие отсутствия указания требуемого выхода в процессе обучения, результаты непредсказуемы с точки зрения определения возбуждающих образов для конкретных нейронов. При этом, однако, сеть организуется в форме, отражающей существенные характеристики обучающего набора. Например, входные образы могут быть классифицированы согласно степени их сходства так, что образы одного класса активизируют один и тот же выходной нейрон.
При смешанном обучении часть весов определяется посредством обучения с учителем, в то время как остальная получается с помощью самообучения.
Теория обучения рассматривает три фундаментальных свойства, связанных с обучением на примерах: емкость, сложность образов и вычислительная сложность [50]. Под емкостью понимается то количество образов, которое может запомнить сеть, и те функции и границы принятия решений, которые могут быть на ней сформированы. Сложность образов определяет число обучающих примеров, необходимых для достижения сетью способности к обобщению. Слишком малое число примеров может вызвать "переобученность" сети, когда она хорошо функционирует на примерах обучающей выборки, но плохо - на тестовых примерах, подчиненных тому же статистическом} распределению. Известны 4 основных типа правил обучения: коррекция по ошибке, машина Больцмана, правило Хебба и обучение методом соревнования [47-50].
Правило коррекции по ошибке. При обучении с учителем для каждого входного примера задан желаемый выход Т. Реальный выход сети Л может не совпадать с желаемым. Принцип коррекции по ошибке при обучении состоит в использовании сигнала (Т-А) для модификации весов, обеспечивающей постепенное уменьшение ошибки. Обучение продолжается до тех пор, пока нейросеть ошибается. Известны различные модификации этого алгоритма обучения.
Обучение Больцмана. Представляет собой стохастическое правило обучения, которое следует из информационных теоретических и термодинамических принципов. Целью обучения Больцмана является такая настройка весовых коэффициентов, при которой состояния видимых нейронов удовлетворяют желаемому распределению вероятностей. Обучение Больцмана может рассматриваться как специальный случай коррекции по ошибке, в котором под ошибкой понимается расхождение корреляций состояний в двух режимах.
Правило Хебба. Самым старым обучающим правилом является постулат обучения Хебба. Хебб опирался на следующие нейрофизиологические наблюдения: если нейроны с обеих сторон синаптической связи между ними активизируются одновременно и регулярно, то сила синаптической связи возрастает. Важной особенностью этого правила является то, что изменение синаптического веса зависит только от активности нейронов, которые связаны данным синапсом.
Обучение методом соревнования. В отличие от обучения Хебба, в котором множество выходных нейронов могут возбуждаться одновременно, при соревновательном обучении выходные нейроны соревнуются между собой за активизацию. Это явление известно, как правило "победитель берет все". Подобное обучение имеет место в биологических нейронных сетях. Обучение посредством соревнования позволяет кластеризовать входные данные: подобные примеры группируются сетью в соответствии с корреляциями и представляются одним элементом. При обучении модифицируются веса только "победившего" нейрона. Эффект этого правила достигается за счет такого изменения сохраненного в сети образца (вектора весов связей победившего нейрона), при котором он становится чуть ближе к входному примеру.
Генетические алгоритмы и исследование возможностей их применения для обработки изображений
Результат, получаемый на выходах нейросети Хопфилда после обработки каждого из портретов базы данных, сравнивается с векторным представлением сформированного фоторобота и, при совпадении векторов, портрет базы данных, подаваемый последним на входы нейросети Хопфилда, помечается как вероятное решение задачи идентификации. Промежуточным звеном между информацией хранимой в базе данных и нейросетью Хопфилда является нейросеть встречного распространения, которая служит для сжатия и восстановления портретов хранимых в базе данных.
В результате получается комплексированная нейросетевая структура ориентированная на решение задачи обработки изображений. Генетические алгоритмы и исследование возможности их применения для обработки изображений
Как правило, известные методы воспроизведения портретов при составлении фотороботов используют индивидуальные способности свидетелей к воспроизведению портретов непосредственно или с помощью специальных программных средств [38-42]. Однако практически каждому человеку значительно проще выбрать наиболее похожий, по его мнению, портрет из предложенных вариантов, чем изначально составлять желаемый портрет, используя значительные по своему объему базы данных различных деталей человеческого лица. Отмеченного недостатка лишен предлагаемый в данной работе способ восстановления субъективного портрета, основанный на использовании приемов организации коллективного человеко-машинного интеллекта на базе генетических алгоритмов. Новизна данного метода заключается в том, что в качестве оценочной функции для популяции особей используется суммарная коллективная субъективная оценка качества особи в популяции решений. То есть данный подход позволяет учитывать не только субъективное мнение отдельного свидетеля, но и использовать результат коллективного взаимодействия нескольких свидетелей, что является несомненным преимуществом.
Предлагаемый метод принятия решений разработан с использованием приемов, лежащих в основе построения генетических алгоритмов. Как известно такие алгоритмы воспроизводят процессы мутации, скрещивания и эволюционного отбора [57-60]. Генетические алгоритмы используют аналог природного генетического механизма накопления полезной информации.
Другими словами генетический алгоритм - это достаточно простая модель эволюции в природе. В нем используются как аналог механизма генетического наследования, так и аналог естественного отбора. При описании генетических алгоритмов сохраняется биологическая терминология в упрощенном виде.
Для моделирования эволюционного процесса, вначале генерируется случайная популяция - несколько индивидуумов со случайным набором хромосом (числовых векторов). Генетический алгоритм имитирует происходящую эволюцию этой популяции как циклический процесс скрещивания индивидуумов и смены поколений (рис. 2.3).
Жизненный цикл популяции - это несколько случайных скрещиваний (посредством операции кроссовера) и мутаций, в результате которых к популяции добавляется какое-то количество новых индивидуумов. Отбор в генетическом алгоритме - это процесс формирования новой популяции из старой, после чего старая популяция уничтожается. После отбора к новой популяции опять применяются операции кроссовера и мутации, затем опять происходит отбор, и так далее (происходит повторения шагов алгоритма в целом).
Таким образом, модель отбора определяет, каким образом следует строить популяцию следующего поколения. Как правило, вероятность участия индивидуума в скрещивании берется пропорциональной его приспособленности. Часто используется так называемая стратегия элитизма, при которой несколько лучших индивидуумов переходят в следующее поколение без изменений, не участвуя в кроссовере и отборе. В любом случае каждое следующее поколение будет в среднем лучше предыдущего. Когда приспособленность индивидуумов перестает заметно увеличиваться, процесс останавливают и в качестве решения задачи оптимизации берут наилучшего из найденных индивидуумов.
При постановке задачи построения фоторобота человеческого лица предполагается, что все свидетели (в дальнейшем эксперты) видели лицо подозреваемого и запомнили его каждый, естественно, по-своему. Целью задачи является восстановление исходного образа совместными усилиями всех экспертов [101, 103, 105, 106].
На рис. 2.4 показан предложенный алгоритм задачи составления фоторобота. Первоначальный набор портретов равен заранее установленному количеству, кратному числу экспертов, и может формироваться двумя различными способами, а именно, случайным образом, путем использования исходной базы деталей человеческого лица, или путем составления каждым экспертом нескольких портретов на основе стандартных методов.
Далее все портреты из полученного набора случайным образом раздаются экспертам. Эксперты выбирают те из них, которые, по их мнению, наиболее соответствуют оригиналу и, при желании, вносят в них изменения. Из всех выбранных портретов каждым из экспертов формируется набор «родителей». В этом наборе случайным образом выбираются два портрета, и производится операция скрещивания. Выбор портретов и их скрещивание продолжается до тех пор, пока не будет восстановлено первоначальное число портретов, необходимое для повторной раздачи экспертам. После этого весь цикл повторяется заново.
Совместный портрет формируется как средний, созданный на наборе «родителей». Цикл выбора портретов экспертами может продолжатся до тех пор, пока полученный совместный портрет не будет удовлетворять всех экспертов или после изменений некоторых из них изменение совместного портрета происходить не будет.
Разработка алгоритмов и методов обучения комплексированной нейросети для решения задач прогнозирования
В общем случае наиболее удобно использовать Ki=K2 и ki=k2. Также желательно чтобы размерность вырезаемого подизображения являлась кратной размерности целого изображения.
Вырезаемые подизображения размерности ki k2 пикселей, представленные в виде вектора размерности т, подаются на вход сжимающей нейросети. На ее выходе появляется некоторый вектор размерности р. В восстанавливающей нейросети, на ее вход поступает вектор р, а на выходе восстанавливается вектор размерности т, который преобразуется в исходную часть изображения. Коэффициент сжатия для описанного метода равен отношению размерности вектора m к размерности вектора р. При проведенных исследованиях он изменялся в пределах от 1 до 100. Аналогично можно поступать и со звуком, за исключением того, что нет необходимости вырезать подизображение, а достаточно выбирать следующие друг за другом звуковые отрезки. С помощью таких параметров, как размер подизображения, количество нейронов в слоях и количество синаптических весов в нейронах можно регулировать коэффициент сжатия изображения. В принципе он равен отношению размерностей входного вектора к выходному (на самом деле он несколько меньше, за счет первоначальной передачи настроек нейросети, но это разница незначительна). Следует отметить, что при одинаковых коэффициентах сжатия возможны различия при сжатии и восстановлении одного и того же изображения. Получается это в связи с возможностью выбора размера подизображения. Например, если размер подизображения 4 4 и используется четыре бита кодировки для передачи кода участка, то коэффициент сжатия равен четырем. Если для того же изображения выделять подизображения размером 16 16 и использовать 64 бита кодировки, то коэффициент сжатия также равен четырем.
Для улучшения качества восстанавливаемых изображений используется фрактализация (динамическое изменение размеров вырезаемых участков в зависимости от каких-либо признаков). Примером применения фрактализации может служить сжатие и восстановление фотографий человеческих лиц. Для неинформативных участков исходной фотографии (фон фотографии и т.п.) размеры вырезаемых частей велики и в дальнейшем нет необходимости в разбиении таких участков на более мелкие. Для информативных частей фотографии (глаза, форма губ и т.п.) происходит дальнейшее разбиение первоначально выделяемого участка. Определение понятия информативности для дальнейшей детализации выделяемых частей основывается на количестве переходов цвета в пределах одного участка и может осуществляется автоматически, с помощью установок соответствующих пороговых значений нейронов и при попадании суммарного входного значения нейрона в некий интервал происходит детализация. Процесс детализации может осуществляться и оператором. При небольших размерах изображения и относительно больших вырезаемых его частей или при большом количестве выходных бит, возможны ситуации, когда передача изображения происходит без потерь, т. к. для каждого выделенного под изображения существует своя кодовая последовательность. Например, пусть изображение содержит 256 256 точек, и из него вырезаются части по 16 16 точек (всего 256 частей). Если при этом используется 8 бит кодировки, то на каждую битовую комбинацию приходится свой кусочек. При этом происходит сжатие в 32 раза без потери качества.
Помимо передачи сжатого изображения может возникнуть необходимость передачи и настроек сети. Они включают в себя несколько основных параметров сети (количество нейронов в слоях и т.п.) и значения синаптических весов слоя Кохонена передающей сети, которые в определенном порядке необходимо присвоить слою Гроссберга принимающей сети. В результате этого, за счет передачи этих настроек, общий коэффициент сжатия несколько уменьшается. Так, для изображения размерности 1000 1000 точек при использовании подизображений 4 4 точки и их кодировки в четырех битах вместо коэффициента сжатия равного четырем он будет приблизительно равен 3.97. Для более сложных структур сети, при увеличении количества нейронов и их входов, эта разница будет увеличиваться, но, как видно из примера, она не имеет какого-нибудь существенного значения, поскольку информация о настройках сети не зависит от размеров самого изображения в целом, и, следовательно, при передаче значительных объемов информации разница между коэффициентами сжатия будет стремиться к нулю.
Изображения портретов хранятся базой данных в виде двоичных векторов, каждый бит которого отвечает за цвет того или иного пиксела изображения (положение этого пиксела определяется местоположением бита в векторе). Эти двоичные векторы и служат исходными данными для подачи на вход сжимающей нейросети.
В таблице 2.3 представлены размеры графических изображений, полученных с помощью стандартных графических форматов данных и с помощью нейросети встречного распространения.
Как видно из таблицы 2.3, при использовании стандартных графических форматов данных размер изображения довольно сильно зависит от его вида (за исключением формата bmp). При сжатии изображения нейросетью размер получаемого изображения не зависит от его вида. При хранении фонового изображения в стандартных форматах данных его размер будет меньше чем размер, получаемый при сжатии этого же изображения нейросетью. Однако при использовании реальных портретов, размер, получаемый после сжатия исходного изображения нейросетью, уже будет в два раза меньше, чем, например размер, получаемый при хранении это изображения в формате gif.
При проведенных экспериментах погрешность восстановленного изображения составляла не более 3-5 %. Время, потраченное на сжатие изображения и время, потраченное на распаковку изображения, размером 256 256 пикселей, составляет около 3 секунд (моделирование сети производилось на ПЭВМ IBM AT с процессором Intel Pentium с тактовой частотой 166 МГц). Следует отметить, что в этот период времени входило также и время необходимое для инициализации нейросети.
Резюмируя изложенное можно заключить, что если необходим высокий коэффициент сжатия и допустимы некоторые искажения при передаче информации, использование комплексированной нейросети, состоящей из двух различных неиропарадигм, может быть весьма эффективным, что, и показано на примере рассмотренной задачи. 2.4 Исследование возможности применения нейросетей для идентификации изображений
Как было отмечено в разделе 2.1, в комплексе средств для решения задачи составления фоторобота для выбора нужных портретов из базы данных, т.е. для идентификации изображений, предложено использовать нейросеть Хопфилда.
Нейросеть Хопфилда является нейроподобной сетью с обратными связями, которая может моделировать процессы ассоциативного запоминания и хранения информации [2, 25]. При поступлении на входы нейросети какого-либо из базисных векторов, т.е. векторов, с помощью которых производилось ее обучение, на выходах сети появляется тот же базисный вектор. При поступлении на ее входы вектора ассоциативного базисному, на выходах также образуется базисный вектор. Если же входной вектор не ассоциативен ни одному из базисных векторов, то на выходе образуется произвольный вектор. Иными словами, в такой нейросети воспроизводится свойство человеческих ассоциаций, т.е. способность воспоминаний возбуждать связанные с ними данные (образы) и знания. В результате этого такая память способна не только воспроизводить заданные векторы, но и восстанавливать их при повреждении или выделять из шумов. Структура нейросети Хопфилда представлена на рис. 2.15.
Возникновение ассоциаций зависит от набора базисных векторов. Если необходимо решить задачу выбора из большой базы данных векторов ассоциативных какому-либо определенному вектору, как в данном случае, то нейросеть Хопфилда необходимо обучить всего лишь на один базисный вектор.
Матрица синаптических весов нейросети Хопфилда представляет собой сумму матриц полученных умножением каждого базисного вектора на этот же вектор, представленный в транспонированном виде.
Постановка задачи прогнозирования изменения уровня грунтовых вод на основе комплексированной нейросети
Синтезированная комплексированная нейросеть позволяет избавиться от неоднозначности результатов прогнозирования, которая возникает при использовании в этих целях стандартного многослойного перцептрона, другими словами такая нейроструктура способна однозначно трактовать получаемый на ее выходах результат, что способствует повышению его достоверности.
В третьей главе показаны этапы обучения разработанной комплексированной нейросети для решения задачи прогнозирования. Следует отметить, что в результате комплексирования двух различных неиросетевых парадигм, имеющих различные методы обучения (обучения "с учителем" и самообучение) в результате получается нейроструктура, которая имеет смешанный тип алгоритма обучения. Одна часть нейросети отличается от другой не только своими математическими алгоритмами обучения, но и самим подходом к обучению.
Приведен алгоритм формирования обучающих выборок для решения задач прогнозирования. Даны рекомендации по выбору основных параметров прогнозирования - интервала прогнозирования, горизонта прогнозирования и периода прогнозирования.
Описаны результаты проведенных экспериментов по сравнению результатов прогноза полученных на стандартном многослойном перцептроне и предложенной нейроструктуре. Эксперименты проводились с использованием реальных данных об изменении уровня грунтовых вод в отдельно выбранной контрольной шахте. В ходе экспериментов входные данные представлялись различными способами. Анализируя результаты проведенных экспериментов можно сделать вывод о том, что при объединении различных способов представления данных об изменении уровня воды в шахте появилась возможность повышения качества получаемого прогноза.
В результате экспериментов с моделью предлагаемой комплексированной неиросети при решении на ней задач прогнозирования уровня грунтовых вод было установлено, что качество получаемого на ней прогноза по отношению к традиционном} многослойному перцептрону увеличивается более чем на 30 %.
В настоящее время исследования в области обработки речевых сигналов успешно развиваются в сфере решения задач распознавания речи, верификации и идентификации диктора, параметрической компрессии и декомпрессии речевых сигналов и т.п.
Однако, несмотря на это, открытым остается вопрос автоматического анализа семантики речевых сообщений, передаваемых по каналам связи. Решение данной проблемы стандартными методами на сегодняшний день весьма затруднено, поскольку распознавание смысла сообщения включает в себя не только процесс распознавания речи, но и процедуры, моделирующие гораздо более сложные механизмы человеческого интеллекта, которые на данный момент не воспроизводятся ни одной, из известных автору, технических систем.
В то же время, ряд таких практически важных задач, как решение вопроса о целесообразности оперативного отключения абонента в перегруженной сети в связи с не конструктивностью разговора или принятие решения об истинности или ложности телефонного сообщения о минировании того или иного объекта предполагает анализ содержащейся в речи семантической информации.
Ввиду сложности процесса автоматического выявления сути разговора или детектирования истинности или ложности сообщения, предлагается подход, позволяющий решать рассматриваемую проблему косвенным методом, а именно посредством замены анализа семантической составляющей речи анализом его эмоционального фона, исходя из формы и структуры речевых сигналов, соответствующих данному сообщению.
Проводимые в области физиологии восприятия речи исследования [87-90], описывают несколько подходов к оцениванию эмоциональности речевых сообщений по акустическим параметрам самого сигнала. Анализ этих исследований позволил сформировать основные принципы построения формальных алгоритмов классификации эмоциональной составляющей (ЭС) речи, на основе которых, в свою очередь, были разработаны и исследованы принципы построения программно-аппаратных вычислительных средств эмоционального анализа речевого потока в реальном масштабе времени.
Структурно задачу анализа ЭС можно разделить на две подзадачи: первая - выделение акустических параметров речевых сигналов, характеризующих эмоциональную нагрузку фразы и вторая - непосредственно, классификация речевых сообщений.
Наиболее широко исследованными в смысле физиологии восприятия речи, являются следующие физические параметры речевого сигнала, передающие эмоциональное состояние диктора [91-98]