Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и алгоритмы информационного взаимодействия в сетях Интернета вещей Елизаров Максим Андреевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Елизаров Максим Андреевич. Модели и алгоритмы информационного взаимодействия в сетях Интернета вещей: диссертация ... кандидата Технических наук: 05.13.01 / Елизаров Максим Андреевич;[Место защиты: ФГАОУ ВО Санкт-Петербургский государственный электротехнический университет ЛЭТИ им. В.И.Ульянова (Ленина)], 2017.- 127 с.

Содержание к диссертации

Введение

1 Исследование организации сетей Интернета ве щей 12

1.1 Анализ технологий построения сетей Интернета вещей 12

1.2. Архитектура сети Интернета-вещей 18

1.3 Обзор способов взаимодействия в сети Интернета вещей 20

1.3.1 Взаимодействие посредством шлюза 21

1.2.1 Взаимодействие посредством централизованного сервера 24

1.3 Облачные технологии в сетях Интернета вещей 26

1.5. Протоколы взаимодействия в Интернете вещей 29

1.6 Постановка задачи исследования 33

Выводы по первой главе 34

2 Модели оценки вероятностно-временных характеристик информационного взаимодействия в сети Интернета вещей 36

2.1 Модель информационного взаимодействия 36

2.2 Оценка времени доступа в «туманных вычислениях» с разрешением коллизий источников данных 40

2.2.1 Модель доступа в режиме опроса 40

2.2.2 Модель доступа в режиме прерываний 44

2.2.3 Модель множественного доступа 47

2.2.4 Особенности реализации имитационной модели доступа 49

2.3 Модель оценки вероятностно-временных характеристик информационного взаимодействия в сети Интернета вещей 52

2.3.1 Особенности реализации имитационной модели установления соединения 53

2.3.2 Оценка времени передачи данных по установленному информационному взаимодействию 59

Выводы по второй главе 64

3 Вероятностные алгоритмы самоорганизации сети Интернета вещей 65

3.1 Общее описание генетического алгоритма и используемая терминология 65

3.2 Генетический алгоритма поиска альтернативных маршрутов 72

3.3 Генетический алгоритм самоорганизации размещения СУ 73

3.4 Применение нейронных сетей в задачах классификации данных, поступающих от СУ 78

3.4.1 Основные элементы нейронной сети и используемая терминология 79

3.4.2 Обучение нейронной сети и выбор архитектуры 84

Выводы по третьей главе 88

4. Экспериментальная часть 90

4.1 Анализ результатов моделирования доступа в туманных вычислениях 90

4.2 Эксперимент на модели установления информационного взаимодействия 95

4.3 Оценка работоспособности алгоритмов самоорганизации 99

4.4 Эксперимент по решению задачи классификации данных от СУ 102

4.4.1 Описание макета системы Интернета вещей для проведения эксперимента по решению задачи классификации 103

4.4.2 Эксперимент по подбору архитектуры нейронной сети 107

4.4.3 Тестирование нейронной сети 115

Выводы по четвертой главе 117

Заключение 119

Литература 120

Введение к работе

Актуальность темы диссертации. По поручению президента РФ Путина В.В., разработана программа «Цифровая экономика», в работе над которой приняли участие порядка 150 экспертов из разных сфер науки и экономики. Программа ориентирована на рост эффективности всех отраслей благодаря быстрому развитию и внедрению в них информационных технологий. Программа содержит девять направлений: регулирование, информационная инфраструктура, исследования и разработки, система управления, кадры и образование, информационная безопасность, государственное управление, "умный город" и цифровое здравоохранение. Каждое направление планируется реализовать с применением новых концепций построения вычислительных сетей, одной из которых является Интернет вещей.

Интернет вещей (Internet of Things - IoT) - это новая инфокоммуникация, технически реализованная как вычислительная сеть, состоящая из множества физических предметов («вещей»), оснащенных встроенными технологиями для обмена данными между собой и внешней средой. Формально IoT можно определить в виде следующей символической формулы:

IoT = Сенсоры (датчики) + Данные + Сети + Услуги.

IoT-технология находится на стадии ранней реализации и активных исследований, ее развитие выглядит многообещающим в различных областях индустрии - производстве, логистике, медицине, энергетике, транспорте, городском хозяйстве, управлении чрезвычайными ситуациями и области применения продолжают стремительно расти.

На международном уровне концепция IoT уже обретает черты сформировавшейся технологии - ведутся активные работы в области стандартизации архитектуры, технических компонентов, приложений. Одновременно с этим требуются новые модели и алгоритмы, учитывающие специфику информационного взаимодействия в сетях Интернета вещей.

Специфика информационного взаимодействия определяется фундаментальными характеристиками IoT-технологии, к числу которых в соответствии с рекомендациями Международного Союза Электросвязи (МСЭ-Т) относятся:

Связность - возможность любой вещи быть связанной с глобальной инфокоммуникационной структурой.

Обеспечение вещей услугами - предоставление сетевых услуг без ограничений, в том числе автономно для физических и виртуальных вещей.

Гетерогенность - характеристика Интернета Вещей, определяющая построение IoT-устройств на различных аппаратных, программных платформах и сетях.

Динамические изменения - характеристика, определяющая динамические изменения статуса вещей, например, от спящих к активным, от связанных в определенный момент времени с сетью - к несвязанным и т. д. Число вещей, местоположение, скорость и т. п. также могут меняться динамически.

Огромное число вещей - характеристика, которая базируется на прогнозных оценках, в соответствии с которыми речь идет о десятках триллионов вещей и о триллионных сетях соответственно.

Перечисленные особенности не позволяют применять методы и алгоритмы, на базе которых функционируют инфраструктурные вычислительные сети к Интернету вещей. Этому есть несколько причин: связность и динамические изменения делает топологию сети нерегулярной, использование беспроводных технологий, «туманных» и «облачных» вычислений вызывают появление коллизий источников данных при доступе к ресурсам IoT, а гетерогенность и ряд других требований, например, по энергоэффективности влияют на вероятностно-временные характеристики информационного взаимодействия в сетях Интернета вещей.

Таким образом, специфика сетей IoT, как объекта исследования и необходимость в новых моделях и алгоритмах, позволяющих получать оптимальные решения по организации информационного взаимодействия в сетях IoT определили актуальность темы диссертационной работы.

Степень разработанности проблемы. По вопросам стандартизации, моделирования, проектирования и разработки систем и сетей Интернета вещей опубликовано сравнительно небольшое число работ в силу становления этой области исследования. Среди работ отечественных и зарубежных авторов отметим труды Б.С. Гольдштейна, А.Е. Кучерявого, А.В. Рослякова, С.В. Ваняшина, А.Ю. Гребешкова, М.Ю. Самсонова, В.А. Варгаузина, В.В. Вишневского Л. Черняка, М. Гиббса, М. Бхуптани, Л. Круза и других, составляющих теоретическую базу проектирования Интернета вещей, а так же работы Т.И. Алиева, Ю.Г. Карпова, О. И. Кутузова, Ю.И. Рыжикова, Б.Я. Советова, Т.М. Татарниковой, С.А. Яковлева в области моделирования процессов функционирования распределенных систем и их элементов, к числу которых относятся сети Интернета вещей. Это новое направление находится в состоянии постоянного развития.

Цель диссертационной работы состоит в разработке моделей и алгоритмов информационного взаимодействия в сетях Интернета вещей с учетом фундаментальных характеристик IoT-технологии.

В соответствии с указанной целью в работе поставлены, обоснованы и решены следующие задачи:

  1. Предложена модель информационного взаимодействия в сети Интернета вещей.

  2. Разработан комплекс математических моделей по оценке вероятностно-временных характеристик информационного взаимодействия в сети Интернета вещей.

  3. Предложены вероятностные алгоритмы структурной организации «туманных вычислений» и классификации данных в «облачных вычислениях» сети Интернета вещей.

  4. Получены зависимости вероятностно-временных характеристик от параметров сети Интернета вещей.

Объектом исследования является сеть Интернета вещей, построенная на основе гетерогенных сетевых технологий.

Предметом исследования является применение моделей и алгоритмов информационного взаимодействия в сетях Интернета вещей.

Методы исследования. Решение сформулированной в диссертационной работе проблемы разработки моделей и алгоритмов информационного взаимодействия в сетях Интернета вещей базируется на методах системного анализа, теории вероятности, случайных процессов и математической статистики, методов численного анализа, имитационного моделирования.

К основным научным результатам диссертации, которые определяют новизну исследования и выносятся на защиту, относятся:

  1. Модель информационного взаимодействия построена с учетом фундаментальных характеристик технологии Интернета вещей, что позволяет адекватно оценивать вероятностно-временные характеристики информационного взаимодействия.

  2. Комплекс математических моделей сочетает аналитический и статистический методы моделирования, что позволяет оценить вероятностно-временные характеристики передачи данных на всех этапах информационного взаимодействия в сети Интернета вещей.

  3. Вероятностные алгоритмы структурной организации «туманных вычислений» и классификации данных в «облачных вычислениях» построены с применением теории эволюции и нейронных сетей, что позволяет учесть особенности информационного взаимодействия в сетях Интернета вещей.

  4. Зависимости вероятностно-временных характеристик инвариантны параметрам сети Интернета вещей, что позволяет осуществлять рациональный выбор параметров на ранних этапах проектирования Интернета вещей.

Теоретическая значимость исследования состоит в дальнейшем развитии методов, моделей и технологий построения сетей Интернета вещей в разных отраслях экономики.

Практическая ценность результатов диссертационной работы заключается в полученных расчетных выражениях, алгоритмах и моделях, необходимых на ранних стадиях проектирования сетей Интернета вещей.

Достоверность полученных результатов подтверждена результатами моделирования и экспериментальных исследований.

Для имитационного моделирования использовалось специализированное программное обеспечение, подкрепленное апробированными теоретическими методами исследований моделей компьютерных систем.

Полученные в ходе выполнения диссертационного исследования результаты не противоречат ранее полученным данным, описанным в литературе другими авторами.

Апробация работы. Основные научные результаты диссертационной работы докладывались, обсуждались и были одобрены на Всероссийской научно-практической конференции «Проблемы развития современного общества: экономические, правовые и социальные аспекты», Волгоград, 29-30 сентября 2014 г.; на X межвузовской научно-практической конференции преподавателей, аспирантов и докторантов «Проблемы и пути развития предпринимательской деятельности в современных условиях» СПбГЭУ 13-14 марта 2014 г.; X Санкт-Петербургской межрегиональной конференции «Информационная безопасность регионов России (ИБРР-2017)», 1-3 ноября 2017 г.; кафедральных семинарах (СПбГЭУ 2014-2017 гг.).

Публикации. Основное содержание диссертации опубликовано в 10 печатных работах, в том числе в четырех работах, рекомендованных ВАК РФ.

Личный вклад автора. Автором выполнены основные расчеты, разработана имитационная модель информационного взаимодействия, проведены экспериментальные исследования на моделях различных этапов информационного взаимодействия. Автором разработан макет системы Интернета вещей для получения обучающей выборки нейронной сети, решающей задачу классификации данных в «облачных вычислениях».

Результаты, выносимые на защиту.

  1. Модель информационного взаимодействия в сети Интернета вещей.

  2. Комплекс математических моделей по оценке вероятностно-временных характеристик информационного взаимодействия в сети Интернета вещей.

  3. Вероятностные алгоритмы структурной организации «туманных вычислений» и классификации данных в «облачных вычислениях» сети Интернета вещей.

  4. Зависимости вероятностно-временных характеристик от параметров сети Интернета вещей.

Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения и списка литературы (всего 81 источник). Общий объем работы - 128 страниц сквозной нумерации, в том числе основного текста - 120 машинописных страниц, 51 рисунок, 4 таблицы.

Протоколы взаимодействия в Интернете вещей

Выделим следующие группы протоколов для решения задач в IoT-инфраструктуре [41, 70]:

- протоколы для сбора данных сенсорными устройствами и передачи их серверам;

- протоколы для соединения СУ с людьми, частный случай такой схемы, когда люди соединяются с серверами;

- протоколы для соединения серверов между собой.

Есть различные варианты их реализации. Применение и выбор протоколов зависит от нагрузки сети, существующего аппаратного обеспечения, архитектуры Интернета вещей.

Опишем некоторые основные протоколы.

Протокол CoAP (Constrained Application Protocol) - ограниченный протокол передачи данных, аналогичный HTTP, но адаптированный для работы с сенсорными устройствами низкой производительности [70].

Протоколы MQTT(Message Queue Telemetry Transport), XMPP(Extensible Messaging and Presence Protocol), AMQP(Advanced Message Queuing Protocol, JMS - эти протоколы обмена сообщениями с применением брокера, реализующие модель типа «издатель-подписчик» (publish/subscribe).

Устройство типа «Издатель» отправляет сообщение, которое публикуется в централизованном сервисе - брокере сообщений, а устройство типа «Подписчик» получает сообщение из брокера. Для использования брокера необходимо «подписаться» на определенные темы публикуемых сообщений [80].

В настоящее время MQTT является наиболее распространенным протоколом организации IoT-инфраструктуры. Это обусловлено небольшими накладными расходами, которые связаны с хорошо продуманным форматом заголовков, в результате чего расход энергии аккумуляторной батареи снижается и увеличивается количество передаваемых сообщений в единицу времени. Протокол MQTT разработан специально для преодоления ограничений, связанных с подключением быстро растущего числа датчиков, приводов, телефонов, микрокомпьютеров, планшетов.

Протокол XMPP обеспечивает обмен текстовыми сообщениями между точками доступа.

В протоколе XMPP используется текстовый формат XML в качестве встроенного типа, обеспечивая естественную связь между людьми. Подобно MQTT он работает по TCP или, возможно, по HTTP поверх TCP. Его преимуществом является метод адресации вида name@domain.com, который помогает соединять пользователей в огромном пространстве Интернета.

Применительно к «Интернету вещей» XMPP обеспечивает простой способ адресации устройств. Это особенно удобно, когда данные передаются между отдалёнными, чаще всего независимыми точками, как в случае связи между двумя абонентами. Этот протокол не обладает высокой скоростью. Фактически, в большинстве реализаций этого протокола используется метод опроса или проверки дополнений только по требованию.

XMPP-протокол реализует существенное преимущество, например, при подключении домашнего термостата к веб-серверу, так, что пользователь может получить к нему доступ со смартфона. Сильными сторонами этого протокола является адресация, безопасность и масштабируемость, что делает его идеальным для приложений «Интернета вещей» с ориентацией на потребителя. Протокол AMQP (Advanced Message Queuing Protocol, или усовершенствованный протокол организации очереди сообщений), который иногда рассматривают как протокол Интернета вещей (протокол IоT). Как следует из названия AMQP обслуживает исключительно очереди. Он пересылает транзакционные сообщения между серверами [70].

В протоколе AMQP большое внимание уделено борьбе с потерей сообщений. Различные коммуникационные линии - от поставщиков контента до коммутаторов каналов и от списков очередности до пользователей - используют протокол TCP, который обеспечивает высоконадежное двухточечное соединение. Кроме того, конечные точки должны подтверждать принятие каждого сообщения. Данный стандарт описывает также опциональный режим транзакций с формальной многофазной последовательностью обновления транзакций. Программное обеспечение AMQP сфокусировано на слежении за всеми сообщениями и обеспечении их доставки по назначению, независимо от наличия сбоев и перезагрузки системы.

AMQP используется главным образом в обмене деловыми сообщениями. Обычно под «устройствами» понимают мобильные телефоны, поддерживающие связь с центрами обработки данных в операционных офисах. В случае Интернета вещей AMQP наилучшим образом подходит для реализации аналитических функций на базе серверов.

WiFi - это набор стандартов беспроводной связи IEEE 802.11, который можно использовать для построения беспроводной локальной вычислительной сети Интернета вещей на основе стека TCP/IP. Стек протоколов стандарта IEEE 802.11 состоит из физического уровня и канального уровня с подуровнями управления доступом к среде и логической передачи данных. Протоколы IEEE 802.11 (WiFi) относятся к уровню сетевых интерфейсов в стеке TCP/IP [27].

Беспроводная локальная сеть WiFi подключена к Internet с помощью шлюза или маршрутизатора. Для построения локальных беспроводных сетей Интернета вещей организация Wi-Fi Alliance создала новую спецификацию

IEEE 802.11s, которая обеспечивает технологию построения ячеистых сетей. Кроме того, для IoT создан и новый стандарт Wi-Fi HaLow (спецификация IEEE 802.1 1ah) с низким энергопотреблением [61].

BLE 4.2 - это новая версия стандарта Bluetooth low energy (Bluetooth LE), которая предназначена для построения беспроводных сетей типа Smart Home. Новый стандарт Bluetooth Mesh с ячеистой топологией внедрен в 2016 г. Стек коммуникационных протоколов BLE 4.2 поддерживает сетевой протокол IPv6 over BLUETOOTH(R) Low Energy или 6LoWPAN, протоколы транспортного (UDP, TCP) и прикладного (CоAP и MQTT) уровней.

Версия BLE 4.2 обеспечивает минимальное энергопотребление оборудования и выход в IP-сети.

ZigBee - протокол беспроводных сенсорных сетей. ZigBee - это по сути не отдельный протокол, а спецификация сетевых протоколов верхнего уровня (приложений и сетевого), использующих сервисы нижних уровней - уровня управления доступом к среде и физического уровня, регламентированных стандартом IEEE 802.15.4. ZigBee и IEEE 802.15.4 описывают беспроводные персональные вычислительные сети. Спецификация ZigBee ориентирована на приложения, требующие гарантированной безопасной передачи данных при относительно небольших скоростях и возможности длительной работы сетевых устройств от автономных источников питания (батарей) [82].

Основная особенность технологии ZigBee заключается в том, что она при малом энергопотреблении поддерживает не только простые топологии сети («точка-точка», «дерево» и «звезда»), но и самоорганизующуюся и самовосстанавливающуюся ячеистую (mesh) топологию с ретрансляцией и маршрутизацией сообщений. Кроме того, спецификация ZigBee содержит возможность выбора алгоритма маршрутизации, в зависимости от требований приложения и состояния сети, механизм стандартизации приложений -профили приложений, библиотека стандартных кластеров, конечные точки, привязки, гибкий механизм безопасности, а также обеспечивает простоту развертывания, обслуживания и модернизации [6].

Особенности реализации имитационной модели установления соединения

Процесс установления информационного взаимодействия (ИВ) в сети Интернета вещей может занимать некоторое время в силу ее динамических свойств: топология сети может многократно изменяться в процессе функционирования вследствие введения новых узлов, отказов существующих, критических изменений внешней среды. Все эти возможности должны быть учтены при разработке модели установления соединения для информационного взаимодействия [81].

Установить информационное взаимодействие – это значит построить логический канал, связывающий сенсорное устройство со шлюзом адресата для последующей передачи по нему данных. Таких логических каналов, связывающих источник и адресат, может быть несколько в силу mesh-топологии сети Интернета вещей (рисунок 2.7).

Логический канал состоит из физических каналов, связывающих соседние СУ. Построение логического канала выполняется посылкой управляющего сигнала-вызова на установление соединения. При прохождении вызова от одного СУ к другому состояние физического канала принимает одно из двух состояний: «1» – канал занят, и данные по нему не пройдут, либо «0» – канал свободен для передачи данных.

Повторные попытки установления соединения придают стохастичность этому процессу [43], т.к. возникают вынужденные возвращения на предыдущие СУ и число физических каналов, пройденных вызовом при его доставке адресату, оказывается случайным числом. Учет данного аспекта позволяет прибегнуть к имитационному моделированию процесса установления логического канала для информационного взаимодействия.

Таким образом, время установления информационного взаимодействия ґу.в определим как случайную величину, которая может быть найдена выражением

Каждый эксперимент на имитационной модели дает реализацию трех случайных величин: пк, по и пп, что позволяет оценить время установления информационного взаимодействия ґу.в в соответствии с выражением (2.19). Полученное значение Ц.в определяет результат установления ИВ:

- если ґу.в доп, то ИВ установлено;

- если ґу.в доп, то ИВ установлено, но с низким качеством обслуживания, и для данных срочной доставки это имеет критическое значение, т.к. они могли потерять свою актуальность [14];

- если «п «доп, то соединение не установлено.

Исходными данными для моделирования являются:

- множество логических каналов, которые могут быть построены от источника / к адресату j - обозначим, как Ц. Построение этого множества выполняется в соответствии с алгоритмом, обсуждаемым в разд. 3.2.

- характеристика физических каналов: время передачи сигнала-вызова по физическому каналу в прямом и обратном направлениях;

- значения вероятностей полной занятости физических каналов;

- допустимое время установления ИВ;

- число попыток установления ИВ;

- время, выделенное на повторную попытку - переключение на другой логический канал.

В модели накапливаются статистики, позволяющие оценить вероятность установления ИВ за время, не превышающее допустимое, а также средние и среднеквадратические значения tу.в, характеризующие процесс установления ИВ в сети Интернета вещей.

На всем множестве логических каналов Ьц производится их упорядочивание по числу занятых физических каналов с, т.е. (с=сmin,…,сmax). В отдельном эксперименте разыгрывается число с номеров занятых физических каналов во множестве Ly и на полученной реализации имитируется процесс прохождения вызова от источника / к адресату у. По факту установления ИВ фиксируются значения Итр, пот и пп. Процедура повторяется N раз. По результатам экспериментов вычисляется средняя оценка времени установления ИВ.

Реализация количества потерянных физических каналов с сводится к «выбору наугад» номеров каналов из d возможных, ced. Очередной номер потерянного физического канала z определяется по формуле z = Ш +1], где U - случайное число, С/є[0,1], получаемое путем обращения к датчику случайных чисел. Скобки Г 1 означают округление в меньшую сторону. Физическому каналу с номером z присваивается «1» во множестве Ly. Процедура определения z повторяется с раз.

Задача расчета характеристик установления ИВ может быть сведена к задаче оценивания математического ожидания М; дискретной случайной величины =Да), где а=(аь..., а ) имеет закон распределения вероятностей (то есть а р), который известен. Случайная величина \ принимает два значения, т.е. є{0,1}:

- =0 соответствует установлению соединения,

- =1 - неустановлению соединения.

Значение М=Р{Ь=1} имеет смысл вероятности неустановления соединения. Случайная величина невырожденная, то есть 0 М; 1.

Интерпретируем случайную величину а как вектор a = (a]V..,ou), отображающий состояние физических каналов, входящих в моделируемое множество Ly в смысле их статуса: есть или нет. Случайная величина

Для задания состояний Ц{с) на к-м розыгрыше применяется случайный выбор номеров физических каналов с, непроводящих вызов на установление ИВ. В результате вектор а получает конкретную реализацию х, содержащую с единиц и (d-с) нулей. В соответствии с правилом прохождения вызова по множеству альтернативных логических каналов Ly и правилом установления ИВ вычисляется значение

Значение [х\с) =1 имеет место, если сигнал вызова не дошел до адресата (не построено ни одного логического канала из множества Ly), либо число попыток превысило допустимое значение, либо вызов дошел до адресата и установлено ИВ, но без надлежащего качества обслуживания

Оценка вероятности неустановления ИВ между СУ при с потерянных физических каналов на множестве всех Ly определяется в виде

Основные элементы нейронной сети и используемая терминология

Составляющими элементами нейронной сети являются [53]:

Нейрон – вычислительная единица, которая получает информацию, производит над ней простое вычисление и передает дальше. Нейроны делятся на три основных класса: входные, скрытые и выходные нейроны.

В том, случае, когда нейронная сеть состоит из большого количества нейронов, то вводят термин – слой. Соответственно есть входной слой, который получает информацию; nскрытых слоев, которые ее обрабатывают и выходной слой, который выводит результат работы нейронной сети.

Для входного слоя исходные данные подаются с консоли, для остальных на вход каждого нейрона подается суммарное значение с выходов нейронов предыдущего слоя, после чего она нормализуется с помощью функции активации, назовем f(х) и попадает на выход.

Нейроны оперируют с числами в диапазоне [0, 1] или [-1, 1].

Синапс – связь между двумя нейронами. У синапса есть один параметр – это вес. Благодаря весу, входная информация изменяется, когда передается от одного нейрона к другому.

Функция активации – способ нормализации входных данных, то есть если на входе нейрона будет большое число х, то функция активации f(х) нормализует его и на выходе будут значения в нужном диапазоне.

Каждая нейронная сеть имеет свою функцию активации. В основном в нейронных сетях используются три функции активации: линейная, сигмоидальная, гиперболический тангенс, представленные на рисунке 3.7.

Нейрон смещения – не обязательный элемент нейронной сети, однако используемый в большинстве нейросетей. Нейроны данного типа имеют две особенности:

1. Вход и выход нейрона всегда равняются 1.

2. Нейрон никогда не имеет входных синапсов.

Нейроны смещения могут, либо присутствовать по одному на слое, ли полностью отсутствовать. Соединения у нейронов смещения такие же, как у обычных нейронов – со всеми нейронами следующего уровня, за исключением того, что синапсов между двумя нейронами смещения быть не может.

Расположение нейрона смещения показано на рисунке 3.7.

Красным линиями и кругом показаны связи и нейроны соответственно, который существовать не может.

Нейрон смещения нужен для того, чтобы иметь возможность получать выходной результат, путем сдвига графика функции активации вправо или влево. Также нейроны смещения помогают в случае, когда все входные нейроны получают на вход 0 и независимо от весов передадут 0 на последующие слои.

Тренировочный сет – последовательность данных, которыми оперирует нейронная сеть.

Итерация – своеобразный счетчик, который увеличивается после каждого тренировочного сета, другими словами – общее количество тренировочных сетов, пройденных нейронной сетью.

Эпоха – параметр, который устанавливается вручную и влияет на качество обучения нейронной сети. При инициализации нейронной сети эта величина устанавливается в ноль. Чем больше эпох, тем лучше натренирована нейронная сеть. Последовательность инкремента эпох и итераций следующая – сначала n раз увеличивается итерация, а потом эпоха.

Ошибка – это процентная величина, которая отражает расхождение между ожидаемым и полученным ответами. Ошибка формируется каждую эпоху и должна снижаться. Если этого не происходит, то это означает, что процесс обучения неверен.

Архитектура нейронной сети - способ объединения нейронов. Самая распространенная архитектура - многослойный персептрон. Характеристики многослойного персептрона:

- Нейронная сеть состоит из произвольного количества слоев;

- Нейроны каждого слоя соединяются с нейронами предыдущего слоя и последующего слоев по правилу «каждый с каждым»;

- Количество нейронов в слоях может быть любым.

Обучение нейронной сети – это процесс настройки весов нейронной сети, при которых ошибка минимальна.

Современные алгоритмы обучение можно разделить на обучение с учителем и обучение без учителя [48].

Для реализации первого алгоритма сети предоставляются входные и выходные значения, соответствующие друг другу; а она по некоторому алгоритму подберет весовые коэффициенты. Перед началом обучения синопсические связи инициализируются случайными значениями в заданном диапазоне. Одна итерация обучения состоит из прямого и обратного прохода. В первом случае сеть работает в обычном режиме, определяя выходные значения. Далее с помощью выходных значений, заданных «учителем», определяется величина ошибки, которая распространяется уже в обратном направлении.

Для реализации второго алгоритма сети предъявляются только входные параметры, а выходные формируются самостоятельно с учетом входных и производных сигналов. Сеть должна подстраивать весовые коэффициенты таким образом, чтобы при поступлении на вход близких входных значений система выдавала одинаковые выходы.

Алгоритм обучения с учителем является менее правдоподобным, и даже критикуется из-за этого некоторыми учеными, однако он способен лучше обучить сеть определять требуемые последовательности.

Одним же из наиболее применяемых методов обучения является алгоритм обратного распространения ошибки. Применяется он только для полносвязных нейронных сетей. Это сети, в которых каждый нейронов одного слоя связан со всеми нейронами следующего и предыдущего слоев.

Скорость обучения – гиперпараметр нейронной сети, устанавливающий пороговое значение при достижении которого нейронная сеть закончит обучение.

От скорости обучения зависит возможность нейронной сети верно подобрать весовые коэффициенты. Слишком маленькое значение данного гиперпараметра может привести к тому, что сеть не сможет подобрать подходящие веса. Слишком большое может привести к тому, что сеть перескочит этот самый идеальный вес и продолжит обучаться с увеличением ошибки.

Момент обучения - коэффициент значения веса матрицы связи на предыдущей итерации.

Эксперимент по подбору архитектуры нейронной сети

Для того чтобы подобрать архитектуру нейронной сети было принято провести ряд экспериментов. А именно, обучить нейронную сеть на различных гиперпараметрах.

По результатам экспериментов, которые подробно описаны ниже, была построена нейронная сеть с архитектурой, которая приведена рисунке 4.16. Согласно результатам экспериментов, нейронная сеть с такой архитектурой показала наименьшую среднеквадратичную ошибку из других возможных.

Сеть состоит из 9 нейронов во входном слое, одного скрытого слоя, включающего в себя 12 нейронов, 4 нейрона в выходном слое. В качестве функции активации была выбрана сигмоидальная, так как сеть работает с числа в диапазоне от 0 до 1. Вход нейрона представляет собой сумматор всех входных весов, умноженных на значения, соответственно связанных с ними, нейронов предыдущего слоя. После суммирования берётся функция активации от веса нейрона. Полученное значение отправляется на следующие нейроны.

Пример значений, подаваемых на входы нейронной сети приведен в таблице 4.1.

Первым экспериментом было принято решение подобрать значения скорости и момент обучения нейронной сети. Для этого были проведены эксперименты, в которых участвовали сети со всеми комбинациями следующих гиперпараметров:

Количество нейронов во входном слое: {3, 5, 7, 9};

Количество нейронов в выходном слое: {2,3,4};

Количество скрытых слоёв: 1;

Количество нейронов в скрытом слое: {4,6,8,10,12,14};

Скорости обучения: {10-5, 10-4, 10-3, 0.01, 0.05, 0.1, 0.15, 0.5, 0.75};

Моменты обучения:{10-7, 10-6,10-5, 10-4, 10-3, 0.01, 0.05, 0.1, 0.15, 0.5, 0.75};

Количество эпох: 100 000;

Нейроны смещения присутствуют.

На рисунке 4.17 приведен график тенденции изменения MSE от момента обучения.

На графике рисунка 4.17 видно, что наименьшее конечное MSE получается, когда момент обучения становится равным 0.75, однако разница между конечным и минимальным MSE гораздо выше, чем у момента обучения равного 0.5. Это может свидетельствовать тому, что во время обучения на моменте обучения 0.75 функция попала в локальный минимум, из которого выбраться так и не смогла. Наилучшим результатом здесь будет значение 0.5. Оно же будет являться коэффициентом значения корректировки весов на предыдущей итерации.

На рисунке 4.18 приведена диаграмма зависимости среднего значения MSE от скорости обучения.

На диаграмме рисунка 4.18 видно, что при значении скорости обучения равном 10-5, сеть имеет наибольшее значение MSE и наибольшую разницу между средним и конечным значением MSE. Это может свидетельствовать о том, что за заданное количество эпох сеть не успела обучиться.

В диапазоне скорости обучения от 0.5 до 0.75 видно, что нейронная сеть дошла до одного из локального минимума, однако не смогла обучиться, так как из-за высокой скорости не смогла подобрать подходящие веса.

Результаты эксперимента показали, что наилучшим выбором для скорости обучения являются значения 0,001 – 0,05.

По окончанию первого эксперимента были выбраны значения скорости и момента обучения для второго эксперимента.

Целью второго эксперимента было подобрать такие гиперпараметры, как количество скрытых слоев, количество нейронов в скрытых и входных слоях.

На рисунке 4.19 приведена диаграмма зависимости среднего значения MSE от количества скрытых слоев, из которой видно, что в среднем конечная MSE оказалась ниже, чем у нейронов с большим количеством слоев, однако разница между минимальным и конечным достаточно велика, чтобы сказать, что сеть близка к обучению. А при сравнении графиков двух и трех скрытых слоев видно, что разница приблизительно одинакова, что свидетельствует о том, что данная архитектура меньше подвержена попаданиям в локальные минимумы. Лучшим вариантом в конкретном эксперименте будет сеть с тремя скрытыми слоями.

Диаграмма, приведенная на рисунке 4.20, показывает зависимости среднего значения MSE от размера входного слоя из которой можно определить, какое число нейронов во входном слое следует выбрать, чтобы сеть смогла обучиться лучше. Результаты говорят о том, что MSE не сильно зависит от количества нейронов во входном слое, однако, чем их больше, тем по большему числу признаком сеть будет способна распознать объект.

На рисунке 4.21 приведена диаграмма зависимости среднего значения MSE от количества нейронов в первом скрытом слое, из нее видно, что конечное значение MSE на всех экспериментах было приблизительно равным. В таком случае следует обратить внимание на минимальное значение MSE. Следует определить максимальное значение из всех минимальных значений MSE. Оно будет максимальным в эксперименте с шестью нейронами и с четырнадцатью нейронами. Следовательно, по результатам второго эксперимента, следует выбирать между шестью и четырнадцатью.

На рисунках 4.22 и 4.23 приведены диаграммы зависимости среднего значения MSE от количества нейронов во втором скрытом слое и зависимости среднего значения MSE от количества нейронов в третьем скрытом слое соответственно.

На диаграмме рисунка 4.22 видно, что конечное MSE приблизительно равно во всех экспериментах, кроме эксперимента с одним скрытым слоем. Как и в случае с первым скрытым слоем выбираем по максимальному значению минимального MSE. В данном эксперименте это 10 и 14 нейронов.