Содержание к диссертации
Введение
L Нейронные сети и неиросетевые методы моделирования 15
1.1. Структура и методика применения нейронных сетей 15
1.1 Л. Искусственный нейрон 15
1.1.2. Структура нейронных сетей прямого распространения 18
1.1.3- Методика применения нейронных сетей 22
1.2. Обучение нейронных сетей 27
1.2.1. Постановка задачи обучения 27
1.2.2. Классификация методов обучения 28
1.2.3. Алгоритм обратного распространения ошибки 31
1.2.4. Численные методы локальной оптимизации 32
1.2.5. Оптимизационные свойства псевдообращения 34
1.2.6. Нелинейный метод наименьших квадратов 38
1.2.7. Подходы к глобальной оптимизации в обучении 41
1.2.8. Интервальные методы глобальной оптимизации 43
1.3. Построение нейронных сетей оптимальной структуры 52
1.3.1. Контрастивный подход 54
1.3.2. Конструктивный подход 58
1.4. Неиросетевые методы в задачах анализа данных 62
1.4.1. Прогнозирование 63
1.4.2. Управление 65
1.4.3. Классификация 70
1.4.4. Кластеризация 70
Постановка задач диссертационного исследования
2. Нейроструктурное моделирование и синтез нейроструктурных моделей 77
2.1. Нейроструктурное моделирование 77
2.2. Нейроструктурные методы моделирования динамических систем 83
2.2.1. Нелинейные нейронные сети Вольтсрра 83
2.2.2. Исследование различных функций активации 85
2.3. Конструктивное построение нейроструктурных моделей 92
2.3.1. Общий подход к конструированию моделей 92
2.3.2. Блочные рекуррентно-итерациониыс процедуры в конструировании и обучении нейроструктурных моделей 95
Основные результаты главы 2 102
3. Класс численных методов обучения на основе декомпозиции весов и линейно-нелинейного соотношении 104
3.1. Методы обучения на основе декомпозиции и линейно-нелинейного соотношения 104
3.1.1. Линейно-нелинейное соотношение 104
3.1.2. Декомпозиция задачи обучения 105
3.1.3. Производная псевдообратной матрицы 107
3.1.4. Модельный пример 112
3.1.5. Метод вычисления производной взвешенной псевдообратной матрицы 114
3.1.6. Класс численных методов обучения на основе линейно-нелинейного соотношения 117
3.2. Тестирование эффективности методов обучения 122
3.2.1. Программное обеспечение для тестирования 122
3.2.2. Сравнительный анализ эффективности методов обучения 129
3.3. Тестирование эффективности алгоритмов псевдообращения для
применения в численных методах обучения 134
3.3.1. Эффективность алгоритмов псевдообращеиия 135
3.3.2. Эффективность блочного псевдообращеиия 139
Основные результаты главы
3 143 Численные методы гарантированного обучения нейроструктур ных моделей на основе интервальных методов оптимизации 146
4.1. Анализ специфики задачи обучения на основе интервальных методов 146
4.2. Разработка сжимающих операторов на основе учета линейно-нелинейной структуры моделей 151
4.3. Сжимающий оператор на основе интервального псевдообращения 156
4.3.1. Интервальное псевдообращение 156
4.3.2. Сжимающий оператор на основе интервального псевдообращения 162
4.4. Программа для исследования эффективности гарантированного метода обучения 163
4.5. Исследование эффективности гарантированных методов обучения моделей 166
Основные результаты главы 4 173
Комплекс программ для неироструктурного моделирования и анализа данных 175
5.1. Структура комплекса программ для информационно-аналитической системы 175
5.1.1. Технологии построения информационно-аналитических систем 175
5.1.2. Структура универсального хранилища данных 177
5.1.3. Программное обеспечение информационно-аналитической системы 182
5.2. Алгоритмическое обеспечение для неироструктурного моделирования 190
5.2.1. Алгоритм оптимального управления динамическими объектами с упреждением на основе нейроструктурных моделей 190
5.2.2. Алгоритм автоматической кластеризации 195
5.3. Программное обеспечение для нейроструктурного моделирования 196
5.4. Методика применения комплекса для нейроструктурного моделирования и анализа данных 203
Основные результаты главы 5 205
6. Приложения иейроструктурных методов к решению практических задач 207
6.1. Прогнозирование дефектов горячекатаной продукции 207
6.2. Управление тарифной политикой оказания услуг междугородной телефонной связи 211
6.2.1. Нейроструктурное моделирование экономических систем211
6.2.2. Разработка алгоритма принятия решений по управлению ценовой политикой предприятий 214
6.2.3. Построение нейроструктурной модели спроса населения на услуги междугородной связи 218
6.2.4. Оптимизация тарифной политики на услуги междугородной связи 222
6.3. Анализ эффективности запросов в базах данных 224
6.4. Нейросетевое прогнозирование добычи сырьевых ресурсов 227 Основные результаты главы 6 229
Заключение 231
Библиографический список
- Методика применения нейронных сетей
- Конструктивное построение нейроструктурных моделей
- Метод вычисления производной взвешенной псевдообратной матрицы
- Программное обеспечение информационно-аналитической системы
Введение к работе
Актуальность темы. Развитие информационных технологий привело к возможности сбора и хранения значительных объемов данных. В настоящее время актуальной является задача глубокого анализа всей имеющейся информации для принятия оптимальных управленческих решений. Наиболее эффективным методом выявления полезной скрытой информации является математическое моделирование, позволяющее определять зависимости, которые содержатся в анализируемых данных. Основная задача в построении зависимостей -конструирование адекватных моделей, обладающих способностями качественно описывать объекты и явления, для получения достоверных выводов на основе исследования соответствующих моделей. Хотя временные затраты в данном случае играют менее важную роль по сравнению с качеством построения моделей, применение эффективных методов конструирования в большинстве случаев положительно сказывается на адекватности получаемых моделей.
В связи со значительной сложностью объектов и явлений, имеющих практический интерес, наибольший приоритет приобретают методы нейроструктурного моделирования, которые развивают и обобщают нейросетевые методы. Они могут быть использованы для решения широкого круга задач во всех сферах деятельности, в том числе для решения аналитических задач прогнозирования ситуаций и управления развитием моделируемых объектов. Класс нейро структурных моделей содержит математические модели, состоящие из связанных между собой базовых нейроноподобных элементов и обладающие характерной суперпозиционной линейно-нелинейной по параметрам структурой. К ним могут быть отнесены нейронные сети прямого распространения, в том числе с неклассическими функциями активации, нейронные сети с радиальными базисными функциями, вероятностные нейронные сети, нейронные сети Фальмана, нечеткие системы Такаги-Суджено, нейро-нечеткие модели структуры ANFIS и другие. Для таких моделей задача структурной идентификации является частично решенной. Применение нейро структурных моделей и методов не требует знания априорной информации о характере зависимостей, поэтому позволяет говорить об универсальности данного математического аппарата.
Центральным этапом построения нейро структурных моделей является обучение - настройка параметров на основе набора вход-выходных данных. Для построения адекватных моделей должны применяться численные методы обучения, которые в отличие от большинства существующих в максимальной степени учитывают особенности задачи нейро структурного моделирования. Разработка, реализация и тестирование алгоритмов построения и численных методов обучения моделей на основе технологии вычислительного эксперимента с применением современных компьютерных средств представляет собой как высокий научный, так и практический интерес. Это обосновывает актуальность темы диссертационной работы.
Диссертационная работа выполнена в рамках основных научных направлений Липецкого государственного технического университета «Вычислительная математика», «Алгебраические методы прикладной математики и информатики в моделировании и управлении сложными распределенными системами».
Положения работы поддержаны грантами Российского фонда фундаментальных исследований: № 09-07-97531-р_центр_а «Разработка математического и программного обеспечения нейросетевого моделирования на основе интервальных методов и псевдообращения» (2009-2011), № 09-07-00220-а «Разработка и исследование принципов построения универсальной интеллектуальной информационно-аналитической системы» (2009-2011), № 11-07-00580-а «Разработка математического и программного обеспечения для моделирования, прогнозирования, оптимизации и управления сложными системами на основе методов идемпотентной математики и интервального анализа» (2011-2012), № 11-07-97504-р_центр_а «Разработка и исследование методов нейросетевого моделирования и прогнозирования динамики сложных систем» (2011-2012).
Цель исследования. Целью диссертационной работы является разработка единого нейроструктурного подхода к математическому моделированию сложных систем на основе комплекса алгоритмов конструирования и численных методов обучения моделей, учитывающих их суперпозиционную линейно-нелинейную по параметрам структуру.
Задачи исследования. Для достижения цели были поставлены и решались следующие задачи:
Разработка теоретических основ описания, функционирования и построения нейроструктурных моделей сложных статических и динамических систем - класса моделей нейросетевого типа, обладающих суперпозиционной линейно-нелинейной по параметрам структурой.
Разработка, исследование, реализация и тестирование с применением технологии вычислительных экспериментов класса численных методов обучения нейроструктурных моделей на основе декомпозиции параметров на линейные и нелинейные с учетом суперпозиционного характера моделей.
Разработка, исследование, реализация и тестирование на основе технологии вычислительных экспериментов численного метода гарантированного глобального обучения нейроструктурных моделей, учитывающего суперпозиционный линейно-нелинейный характер моделей.
Совершенствование алгоритма оптимального нейроструктурного управления для решения аналитических задач, учитывающего динамические свойства моделируемых процессов, а также специфику задачи построения нейроструктурных моделей.
Разработка структуры и комплекса программ с применением современных информационных технологий для моделирования и анализа данных на основе предложенных методов построения, обучения и применения
неироструктурных моделей, учитывающих их суперпозиционныи линейно-нелинейный по параметрам характер.
— Создание методики нейроструктурного моделирования для решения ана
литических задач на основе предложенных алгоритмов и численных ме
тодов с применением разработанного комплекса программ.
Методы исследования. В работе использовались методы математического моделирования, численные методы, методы искусственного интеллекта, методы оптимизации, теория нейронных сетей, нечеткая логика, теория управления, линейная алгебра, методы интервального анализа, объектно-ориентированное программирование.
Научная новизна. В диссертационной работе получены следующие результаты, характеризующиеся научной новизной и формирующие новый нейро структурный подход к моделированию сложных систем:
Теоретические основы функционирования неироструктурных моделей сложных систем, отличающиеся возможностью описания широкого класса моделей суперпозиционной линейно-нелинейной по параметрам структуры, развивающие и обобщающие нейросетевой подход к моделированию.
Единый подход к конструктивному построению неироструктурных моделей, отличающийся монотонностью снижения ошибки обучения при наращивании структуры на основе использования различных функций активации нейроноподобных элементов, позволяющий реализовать универсальные аппроксимационные способности моделей.
Блочные рекуррентно-итерационные процедуры для конструирования и обучения неироструктурных моделей, отличающиеся применением формулы блочного псевдообращения Клайна, повышающие эффективность численных методов обучения моделей за счет псевдообращения матриц меньших размеров.
Класс численных методов обучения неироструктурных моделей, отличающихся декомпозицией вектора весов и применением линейно-нелинейного соотношения на основе псевдообращения, численного метода дифференцирования обычных и взвешенных псевдообратных матриц и учетом суперпозиционного характера моделей, позволяющих снизить размерность пространства итерационно оцениваемых параметров.
Модифицированный интервальный алгоритм Гревиля для оценивания интервального псевдообращения матриц, отличающийся возможностью вычисления псевдообратных матриц к интервальным и позволяющий оценивать устойчивость операции псевдообращения для исходной матрицы в численных методах обучения моделей.
Численный метод глобального обучения нейро структурных моделей, отличающийся применением алгоритмов интервального анализа и сжимающих операторов на основе учета суперпозиционного линейно-нелинейного характера моделей, обеспечивающий выполнение универсальных ап-проксимационных свойств, а также позволяющий повысить адекватность моделирования.
Алгоритм оптимального управления сложными системами с упреждением на основе нейро структурного моделирования, который учитывает динамические свойства систем и суперпозиционный характер моделей и позволяет синтезировать управление с учетом его влияния на поведение объекта в течение нескольких периодов.
Структура и методика применения комплекса программ для нейро структурного моделирования и анализа данных в информационных системах, которые отличаются инвариантностью относительно предметной области и позволяют применять разработанные алгоритмы построения и численные методы обучения для принятия оптимальных управленческих решений.
Практическая значимость работы заключается в комплексном исследовании научных проблем математического моделирования на основе нейро-структурного подхода, связанного с разработкой, обоснованием и тестированием численных методов обучения, наиболее полно учитывающих суперпозиционную линейно-нелинейную по параметрам структуру моделей, с применением современных компьютерных технологий. Предложенные алгоритмы и методы для решения технических и экономических прикладных проблем позволяют повысить качество принимаемых решений.
Предложен универсальный подход к анализу данных. Разработан комплекс программ, предназначенный для аналитической обработки данных в информационных системах предприятий и организаций независимо от сферы деятельности. Он отличается наличием средств универсального хранения данных и средств оперативной аналитической обработки информации. Основой комплекса является система нейроструктурного моделирования на базе разработанных алгоритмов построения и численных методов обучения моделей.
На основе нейроструктурного подхода разработаны алгоритм и программа для анализа эффективности методов доступа к базам данных, отличающиеся использованием объективной информации о времени выполнения запросов и позволяющие оценивать время извлечения информации.
Соответствие паспорту специальности.
На основе нейроструктурного подхода и разработанных и реализованных в виде комплексов проблемно-ориентированных программ численных методов, учитывающих суперпозиционную линейно-нелинейную по параметрам структуру моделей, получены результаты, которые формируют новые методы мате-
матического моделирования объектов и явлений. Разработанная система нейроструктурного моделирования, являющаяся основой информационно-аналитического комплекса программ, имеет важное значение для повышения качества принятия управленческих решений в широком классе прикладных областей.
Результаты соответствуют следующим пунктам паспорта специальности 05.13.18 «Математическое моделирование, численные методы и комплексы программ»: п. 1 «Разработка новых математических методов моделирования объектов и явлений»; п. 3 «Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий»; п. 4 «Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента»; п. 8 «Разработка систем компьютерного и имитационного моделирования».
Внедрение результатов работы. Результаты диссертационного исследования прошли апробацию, внедрены или использованы: для прогнозирования дефектов горячекатаного проката в зависимости от технологических параметров разливки стали на машинах непрерывного литья заготовок на основе ней-роструктурных моделей в ОАО «НЛМК»; для моделирования спроса населения на услуги междугородной телефонной связи и оптимизации тарифов на основе методов нейроструктурного моделирования и разработанного алгоритма оптимального управления в ОАО «Липецкэлектросвязь»; для оценки времени доступа к информационной системе документооборота предприятия на основе нейроструктурного подхода и алгоритма анализа эффективности запросов к базам данных в ОГУП «Липецкоблтехинвентаризация»; для прогнозирования объемов добычи сырьевых ресурсов на основе программы нейросетевого моделирования и прогнозирования в ООО «Липецкое карьероуправление».
Результаты диссертационной работы использованы в учебном процессе ЛГТУ при изучении студентами специальностей 230401.65 «Прикладная математика», 220501.65 «Управление качеством», направления магистратуры 231300.68 «Прикладная математика» дисциплин «Математическое моделирование», «Численные методы», «Алгоритмы оптимизации», «Интеллектуальные системы», «Оптимальное управление нелинейными системами», в научно-исследовательской работе студентов, при проведении производственных и преддипломных практик, при выполнении курсовых и дипломных работ.
Апробация работы. Теоретические и практические результаты, полученные в процессе исследования, докладывались и обсуждались на международных конференциях: «Теория активных систем» (Москва, 2007), «Идентификация систем и задачи управления» SICPRO'09 (Москва, 2009), «Молодежь в науке-2011» (Республика Беларусь, Минск, 2011), «Управление развитием крупномасштабных систем» MLSD'2011 (Москва, 2011), мультиконферен-ции «Управление большими системами-2011» (Москва, 2011); на международ-
ном симпозиуме: GAMM-IMACS по научным вычислениям, компьютерным арифметикам и доказательным численным методам SCAN-2012 (Новосибирск, 2012); на Всероссийских конференциях: «Управление большими системами» (Воронеж, 2007; Липецк, 2008; Ижевск, 2009; Пермь, 2010; Липецк, 2012); «Нейроинформатика» (Москва, 2008); Молодежной конференции по проблемам управления (Москва, 2008); «Управление, информация и оптимизация» (Переславль-Залесский, 2010; Звенигород, 2012), а также на научных семинарах кафедры прикладной математики Липецкого государственного технического университета и научно-образовательных семинарах «Математическое моделирование, информационные технологии и проблемы управления» Липецкого научно-образовательного центра по проблемам управления.
Научные работы по теме диссертационного исследования были отмечены дипломами победителя на конкурсах: научных работ молодых ученых по теории управления и ее приложениям «Нейро сетевая идентификация и оптимальное управление экономическими системами» и «Оптимизационные свойства псевдообратных матриц в алгоритмах идентификации моделей» (Москва, 2007, 2009); на Премию им. С.Л. Коцаря для молодых ученых Липецкой области «Идентификация нейросетевых моделей и управление сложными системами» (Липецк, 2008).
Публикации. Основные научные результаты, полученные в ходе диссертационного исследования, опубликованы в 80 работах. 50 наиболее значимых приведены в списке публикаций, из них 2 монографии, 16 статей в изданиях из Перечня российских рецензируемых журналов, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук, 2 свидетельства о регистрации программ для ЭВМ в Роспатенте, 30 публикаций в других периодических научных журналах и трудах международных и всероссийских конференций и симпозиумов.
Структура и объем работы. Диссертация состоит из введения, шести глав, заключения, библиографического списка из 227 наименований, 4 приложений. Работа изложена на 280 страницах машинописного текста, содержит 67 рисунков и 16 таблиц.
Методика применения нейронных сетей
Определение входных и выходных переменных. Формирование таблицы данных. Информативное множество входных х Є Rn и выходных у Є Rr величин выбирается, исходя из поставленной задачи. Данный процесс выбора неформализуем, он зависит от конкретной задачи. Предлагаемые алгоритмы определения существенности входных переменных до построения модели нельзя признать достаточно успешными [43]. Подход к выбору информативных переменных описан в [64]. Существуют подходы к определению информативного множества после построения модели. После определения входов и выходов составляется множество вход-выходных данных, еще не являющееся, однако, обучающим множеством. Эти данные могут либо собираться в ходе проведения экспериментов, либо быть заданными. Множество должно быть репрезентативным. Чем больше объем, тем лучше может быть настроена НСПР на решение задачи. Этап 2. Предварительная обработка. Для дальнейшего использования данных в обучении НСПР применяется предварительная обработка (предобработка) данных. Можно выделить следующие шаги, применяемые в зависимости от конкретной задачи:
Первые четыре шага актуальны для всех задач моделирования. Один из подходов преобразования качественной информации в числовой вид для применения в НСПР представлен в [33]. Восстановление данных, выявление и удаление ошибочной информации обычно производятся с применением методов математической статистики. Переход к относительным значениям целесообразен при моделирований динамических зависимостей (например, при прогнозировании временных рядов это позволяет получить более стационарный ряд).
Спецификой моделирования с применением НСПР является нормировка значений переменных. Так как используемые ФА обладают свойством насыщения, это обстоятельство может отрицательно отразиться на обучении НСПР. Это связано с тем, что при начальной инициализации весов даже в небольших пределах (например, равномерно распределенными случайными значениями из отрезка [—0,1; 0,1]) входные значения могут приводить к появлению на выходе неотличимых значений. Поэтому данные обучающего множества рекомендуется нормализовать, то есть с помощью линейных преобразований привести к некоторому диапазону [а, 6]. Наиболее часто выбираются диапазоны [0,1] и -1.1]. Для каждой j-й входной переменной Xj определяется диапазон изменения значений [х!-ш\ х ал] на основе вход-выходной таблицы данных: хт — minxt1 и хп.шх = max3L, где к - количество строк в
Этап 3. Построение НСПР. Центральным этапом решения практических задач с использованием НСПР является построение модели. Данная задача, как и вообще задача построения математической модели в аналитическом виде, состоит из двух этапов: 1) структурной идентификации; 2) параметрической идентификации.
При построении НСПР структурная идентификация является частично решенной, так как задана структура формирования выходных значений НСПР. Требуется определить количество скрытых слоев и количество нейронов в каждом из них. Параметрическая идентификация НСПР, называемая обучением,- настройка весов на основе обучающего множества с целью минимизации некоторого задаваемого критерия качества обучения. Этап построения НСПР будет подробно рассмотрен далее.
Этап 4. Проверка адекватности. Проверка адекватности модели очень важна при практическом применении. Основной подход для решения этой задачи состоит в выделении из исходной таблицы вход-выходных данных тестового множества в объеме около 20% от исходного набора данных. Оставшаяся часть выступает собственно обучающим множеством. Тестовое множество состоит из данных, не использующихся в процессе обучения, то есть не входящих в обучающее множество. Часто производится обучение нескольких НСПР фиксированной структуры, далее среди которых по ошибке на тестовом множестве выбирается наилучшая. После окончания процесса обучения на обучающем множестве рассчитывается ошибка обучения, а на тестовом множестве - ошибка обобщения. Более адекватной считается та НСПР, которая показывает меньшую ошибку обобщения (ошибка обучения может быть больше, чем для НСПР других структур). При небольших выборках может применяться метод скользящего экзамена [3,4,28].
Применение модели. Широкие возможности применения НСПР при решении широкого круга задач, особенно часто встречающихся в экономической и технической сферах деятельности, опираются на их способность строить зависимости произвольной нелинейной сложности. Можно выделить следующие основные способы применения НСПР: - прогнозирование получение выходных величин для заданных входных значений; - управление - формирование управляющих сигналов с целью получения желаемых выходов управляемой системы; - классификация - соотнесение входного вектора, описывающего некоторый объект, к определенному классу объектов; - кластеризация - разбиение множества исходных объектов на несколько групп схожих объектов - кластеров. Многие другие задачи могут быть сведены к одному из рассмотренных способов использования НСПР.
Этап 6. Адаптация модели. При использовании НСПР через некоторое время встает необходимость учета новой информации о предметной области, рассматриваемой в задаче, например, связанная с поступлением новой вход-выходной информации. Процесс построения новой адекватной НСПР очень трудоемок, поэтому перспективным является подход, заключающийся в подстройке используемой модели, обычно в виде дообучения сети на обновленном обучающем множестве.
Конструктивное построение нейроструктурных моделей
В данной главе введены понятия нейроноподобных элементов и нейроструктурных моделей, которые обобщают понятие НСПР; рассмотрено место нейроструктурных моделей в структуре математических моделей; введен класс нелинейных НС Вольтерра; исследовано применение различных ФА; предложен алгоритм конструктивного построения нейроструктурных моделей, позволяющий гарантировать монотонность снижения ошибки обучения; разработаны блочные рекуррентно-итерационные процедуры - алгоритмы конструктивного наращивания и обучения моделей за счет декомпозиции вектора весов и блочного псевдообращения на основе формулы Клайна.
Нейроструктурное моделирование Нейроноподобный элемент (НТТЭ) - базовый элемент, функционирование которого подобно искусственному нейрону. НПЭ осуществляет преобразование входа х Є Кп в выход t/GRc возможным использованием векторов весов го Є RNw и априори задаваемых параметров дифференцируемая функция по весам w; о : Ж х МА а - R - дифференцируемая ФА по аргументу nel{x,w). В частном случае пеЬ{х,го) — ХТ=і хгЩ - взвешенная сумма входов. При Na О ФА является параметризованной. К параметризованным ФА относится, в частности, параметризованная сигмоидная логистическая функция (1.3). Нейроструктурная модель (НСМ) представляет собой совокупность связанных между собой послойно организованных НПЭ. В отличие от НСПР на входы НПЭ слоя (г+1) могут поступать выходы НПЭ у\ I = 0,..., г, от любого из предыдущих слоев. ФА может выбираться из некоторого множества допустимых ФА fi, то есть 7 Є Г2. Множество 2 может ограничиваться конкретным классом применяемых НСМ.
Для НСМ задача структурной идентификации является частично решенной. К НСМ могут быть отнесены НСПР, в том числе и с неклассическими ФА, НС с радиальными базисными функциями, вероятностные НС, сети с архитектурой, аналогичной сетям с каскадной корреляцией Фальма-на, нечеткие системы Такаги-Суджено, нейро-нечеткие модели структуры ANFIS. Применение НСМ, как и НСПР, не требует знания априорной информации о характере зависимостей в исследуемой предметной области, поэтому позволяет говорить об универсальности данного математического аппарата. Их характерной особенностью является суперпозиционная линейно-нелинейная структура, которая может быть учтена при разработке методов обучения и построения моделей. НСПР являются характерным представителем НСМ. Класс НСМ включает модели, обладающие структурами, аналогичными НСПР, или, по-другому, нейроподобные модели (рис. 2.1).
Нейроструктурное моделирование - математическое моделирование на основе НСМ. Нейроструктурное моделирование обобщает моделирование на основе различных моделей НС, реализующих статические зависимости. Следует отметить, что существуют другие архитектуры НС, например, сетей с обратными связями Хопфилда и Хэмминга, не включаемых в НСМ, так как они реализуют не статические, а динамические зависимости. Основы нейро-структурного подхода в развитии нейросетевого моделирования и перспективы его применения представлены в [27,99,150].
Классификация математических моделей на основе [61, 164] и место НСМ в этой классификации показаны на рис. 2.2. Одним из классов НС являются НС с радиальными базисными функциями (RBF-сети) [98,170]. Данные сети реализуют зависимость (1.5), при Модели нейронных сетей К недостаткам моделей данного типа относят то, что для их применения в моделировании требуется большое количество нейронов скрытого слоя. Это, однако, справедливо в том случае, когда моделируются процессы с выраженным трендом. В ряде задач, например, связанных с решением задач классификации объектов, выбор ФА (2.1) может привести к более качественным результатам.
Вероятностные НС (PNN) обладают той особенностью, что на выходе выдают вещественное число из отрезка [0; 1], означающее степень принадлежности подаваемого на вход образа заданному классу, ассоциированному с выходом модели [77]. Данные модели похожи на RBF-сети, однако, в выходном слое нейроны не содержат параметров, они усредняют результаты выходов нейронов скрытого слоя. Математические мол ел и
К классу НСМ можно отнести нейроподобные нечеткие и нейро-нечет-кие модели. Основные понятия теории нечетких множеств и нечеткой логики приведены в [37,46,72,79,94]. В нечетком множестве А для каждого элемента х Є X должна быть определена степень уверенности ЦА(Х) В том, что он принадлежи! нечеткому множеству А, при этом 0 Цл(х) 1 Нечеткой системой логического вывода (НСЛВ) или нечеткой экспертной системой называется модель вида:
Гибридные нейро-нечеткие системы могут быть рассмотрены как системы нечетких правил, а настройка функций принадлежностей произведена на основе обучающего множества с помощью алгоритмов, аналогичных алгоритмам обучения НСПР [7,77,114,177,187,209]. Адаптивной нейро-нечеткой системе вывода (Adaptive Neuro-Fuzzy Inference System, ANFIS) [7,77, 187]
Слой 1 Слой Слой Слой Слой Рис. 23. Адаптивная нейро-нечеткая система вывода (ANFIS) соответствует нейроподобная структура, представленная на рис. 2.3. Как видно, структура модели позволяет отнести ее также к классу НСМ.
В данном разделе введено понятие и разработаны теоретические основы нейроструктурного моделирования, обобщающего понятие нейросете-вого моделирования на более широкий класс моделей, включая нечеткие и гибридные нейро-нечеткие модели. Отличительной особенностью НСМ является их суперпозиционная линейно-нелинейная по параметрам структура. Исследовано место НСМ среди всех классов математических моделей.
Метод вычисления производной взвешенной псевдообратной матрицы
Для фиксированного вектора v можно аналитически записать формулу определения оптимальных значений линейно входящих весов: ч Ъ{у)+у, (3.1) где у - вектор указаний учителя. Формулу (3.1) будем называть линейно-нелинейным соотношением (ЛНС). Оно связывает линейно и нелинейно входящие в НСМ веса и позволяет находить оптимальный вектор и при заданном v. Однако, полностью решить задачу обучения НСМ не в состоянии. Для вектора v отсутствует возможность аналитического вычисления, так как истинные значения выходов НПЭ скрытого слоя неизвестны.
Аналогичная (3.1) формула может быть записана и для многослойных НСМ. В этом случае вектор v будет содержать веса НПЭ всех скрытых слоев.
Декомпозиция задачи обучения НСМ с одним выходом реализует функциональную зависимость вида скрытого слоя при входном векторе модели X, и Є Rq и v Є Rp - векторы линейно и нелинейно входящих весов, р + q = s -суммарное количество весов НСМ. Можно также считать, что в (3.2) входит вес щ соответствующий фиктивному входному сигналу выходного НПЭ.
Преимущество минимизации функционала в задаче (3.6) состоит в том, что оптимизация должна производится только по нелинейно входящим весам v%. Линейные веса могут быть определены безытерационным способом на основе ЛНС (3.1) [29,30,104,110,113,151,179]. Недостаток подхода заключается в необходимости оптимизации функции более сложного вида. Это требует разработки более сложного алгоритма оптимизации.
Подобная задача по отношению к линейно-нелинейным по параметрам функциям была рассмотрена Голубом (Golub) и Перейрой (Регеуга) в 1973 г. [189]. Алгоритм, представленный Голубом и Перейрой в [189], может быть легко реализован только в случае, когда v является скалярной переменной (такие примеры и были рассмотрены в работе). Если v является вектором, указывается на необходимость использования трехмерных тензоров (трехмерных матриц). В [198] метод Голуба и Перейры получил развитие и был назван методом переменной проекции (Variable Projection Method). В этой работе предложено производную псевдообратной матрицы аппроксимировать путем отбрасывания одного из слагаемых вследствие его малого влияния аналогично аппроксимации матрицы Гессе в алгоритме Гаусса-Ньютона. Кроме того, для вывода алгоритма применяется фД-разложение исходной матрицы, что позволяет не использовать производную по Фреше, однако, применимо только для полноранговой матрицы. Различия между подходами, приведенными в работах [189] и [198], описаны в [188]. В работе [199] метод распространен на оптимизационные задачи с ограничениями-равенствами. Информация о развитии и возможных приложениях метода приведены в [190] и [213]. В отличие от их работ, основанных на понятии производной по Фреше, являющемся неконструктивным, в данном исследовании приведен вывод соотношений, основанный на классических операциях над матрицами и тензорном произведении матриц. Кроме того, для применения алгоритма не требуется применение Q/ї-разложения, все вычисления производятся в терминах исходной матрицы. позволяет применять другие ЧМ оптимизации, которые основаны на исполь-зовании информации о градиенте минимизируемой функции VJ(v) по вектору нелинейно входящих весов V.
Для реализации ЧМ обучения на основе ЛНС требуется вычисление производной псевдообратной матрицы, элементами которой являются функции нескольких переменных, по вектору переменных. Производная матрицы А{В) Є Rmxn по матрице В Є Rkxp определяется в виде блочной матрицы
Для упрощения записи аргумент матрицы, когда это понятно, будет опускать. Данная формула позволяет реализовывать алгоритмы, базирующиеся на применении операций над обычными двумерными матрицами, не переходя к работе с трехмерными матрицами.
Такое определение производной связано со способом задания матрицы Якоби как матрицы, составленной из транспонированных градиентов. Если А является вектором, то выражение (3.9) оказывается формулой определения матрицы Якоби.
Для вычисления производной произведения АВ матриц А Є Rwxn и С Є Шпх1 по матрице В Є Шкхр, справедлива формула [2]: Получение аналитической формулы для вычисления производной псевдообратной матрицы невозможно в общем случае. Получим ЧМ вычисления производной псевдообратной матрицы (A (v))v = (A+(v)), состоящей из элементов-функций. Для существования производной псевдообратной матрицы ранга г в точке v необходимо, чтобы существовала такая окрестность этой точки v, в каждой точке которой v ранг матриц A+(v) был также равен г [189]. Получим ЧМ для вычисления производной псевдообратной матрицы за четыре этапа [137]: 1) получим формулу для производной обратной матрицы; 2) определим производную в случае, когда дана прямоугольная матрица полного столбцового ранга; 3) получим аналогичную формулу для прямоугольной матрицы полного строкового ранга; 4) получим ЧМ для матрицы произвольного ранга на основе скелетного разложения матрицы.
Программное обеспечение информационно-аналитической системы
В (4.13) знаменатель [ft ](M) всегда будет нуль-содержащим при выполнении теста на монотонность функции, поэтому результатом вычислений будет объединение двух полубесконечных интервалов.
Можно также использовать сжимающий оператор на основе методики согласованности брусов (box consistensy) [191]. По уравнению (4.6) составим уравнение FH) = J(H) + h/!0]=0. Для его решения все веса гиг заменим на интервалы [и ,], кроме веса г . Пусть q(w%.) = F([wi],..., Для веса wt применяется интервальный метод Ньютона. При этом считается, что вес юг имеет одно из своих граничных значений w% или щ . Оператор сжатия при wv = щг рассчитывается по формуле где дг -я частная производная функции q(wt ), которая, учитывая определения функций ?(гбу) и F([w]), оказывается производной функционала J(w). Знаменатель является нуль-содержащим.
Таким образом, получены четыре сжимающих оператора, определяемые формулами (4.9) для линейно входящих и (4.12) для нелинейно входящих весов без использования производных; формулы (4.13) и (4.14) для всех весов с использованием производных.
В данном разделе разработаны или предложены модификации сжимающих операторов, позволяющих снизить объем пространства оптимизируемых весов при обучении НСМ на основе методов ИА. Полученные сжимающие операторы учитывают квадратичный характер задачи обучения и суперпозиционную линейно-нелинейную по весам структуру моделей.
Понятию обратной интервальной матрицы (обратной к интервальной матрице) и вопросам ее нахождения посвящены работы [216,217]. Интервальная матрица [А] определяет множество матриц рассматриваются только регулярные (невырожденные) интервальные матрицы, то есть такие интервальные матрицы [Л], что все матрицы А Є [А] являются невырожденными. В частности, при выполнении условия - матрица радиуса, р(-) - спектральный радиус, матрица [А] является регулярной и называется строго регулярной. Основное внимание уделяется разработке алгоритмов определения границ обратной интервальной матрицы [А] 1 и нахождению условий на исходную интервальную матрицу, когда искомые границы достаточно легко вычислимы. Например, в [210] предлагается новый подход к определению границ обратной интервальной матрицы, основанный на операциях расширенной интервальной арифметики.
Для произвольной интервальной матрицы [А] є Штхп интервальной псевдообратной матрицей (псевдообратной для интервальной матрицы) назовем наименьшую матрицу [А]+ є HRnxm, такую что
Псевдообратная интервальная матрица дает границы, в рамках которых содержатся вещественные псевдообратные матрицы для всех матриц из [А]. Это понятие обобщает понятие обратных интервальных матриц. Оно впервые введено в работах [144,220]. В отличие от обратной интервальной не требуется дополнительных предположений о регулярности исходной интервальной матрицы, так как псевдообратная существует для любой матрицы.
Для применения ЧМ обучения НСМ знание точной [А]+ не обязательно, при этом полезно иметь некоторую достаточно хорошую ее оценку. Целесообразно такуЕО оценку назвать включающей псевдообратной интервальной матрицей аналогично интервальным функциям включения. Понятно, что для произвольной интервальной матрицы все пространство Ж7гхт является универсальной включающей псевдообратной интервальной матрицей, хотя и бесполезной.
Интервальный метод для вычисления обратной матрицы рассмотрен в [6]. В этой работе построена итерационная процедура построения монотонной последовательности интервальных матриц, улучшающих локализацию искомой обратной матрицы. Аналогичный итерационный метод псевдообращения, обобщающий метод Бен-Израиля, для вычисления псевдообратной матрицы рассмотрен в [178]. Результаты этих работ развиты в [227], в которой доказаны теоремы для нахождения псевдообратной к ненулевой вещественной матрице с полным строковым рангом и нахождения псевдообратной к ненулевой вещественной матрице с полным столбцовым рангом.