Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование статистических свойств трафика информационных сетей на основе ранговых функций Нгуен Вьет Дык

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Нгуен Вьет Дык. Исследование статистических свойств трафика информационных сетей на основе ранговых функций: диссертация ... кандидата Технических наук: 05.13.01 / Нгуен Вьет Дык;[Место защиты: ФГБОУ ВО «Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича»], 2018

Введение к работе

Актуальность темы исследования. Интенсивное развитие информационных технологий и услуг неразрывно связано с усложнением характера трафика информационных сетей (ИС). В начале эпохи телефонных средств связи Эрланг охарактеризовал случайные потоки, формируемые телефонными вызовами и временами их удержания, статистическими моделями на основе пуассоновских потоков, в которых их поступление предполагалось случайным [Erlang, 1917]. На протяжении нескольких десятилетий модели Эрланга широко использовались в основе теории массового обслуживания изначально при оценке производительности коммутируемых телефонных сетей общего пользования, а затем и при оценке требуемой пропускной способности узлов и каналов, вновь проектируемых и развертываемых ИС различного назначения.

Качественным скачком в развитии информационных сетей стало появление сетей глобального информационного обмена, в первую очередь сети Интернет. По мере развития сети Интернет активизировались исследования информационных потоков, определяющих динамику трафика в различных узлах и каналах сети. При этом уже к середине 90-х годов XX века в ряде работ было показано несоответствие эмпирических данных трафика ИС моделям на основе пуассоновских потоков. В современных условиях с развитием технологий быстрого обмена информацией между пользователями, включая мессенджеры и социальные сети, трафик ИС характеризуется в значительной мере нерегулярной динамикой. Обеспечение надежной работы существующих и создание адекватных резервов в проектируемых и развертываемых ИС требует детального понимания характеристик как текущих, так и перспективных значений показателей трафика. Для адекватного описания динамики трафика, а также для определения уровня качества обслуживания в сети необходимо создание адекватных моделей и методов оценки производительности ИС.

Адекватная оценка производительности ИС имеет решающее значение для успешной разработки и эксплуатации любой сети. В свою очередь, оценка производительности ИС с учетом перспективы их развития предполагает наличие некоторых универсальных масштабируемых моделей трафика ИС, которые согласуются по основным статистическим характеристикам с фактическим трафиком в существующих сетях аналогичного класса и масштаба по текущим и ретроспективным данным. Использование неадекватных моделей не позволяет в полной мере охарактеризовать свойства эмпирического трафика ИС, что приводит к недооценке либо переоценке пропускной способности сети и, соответственно, перегрузкам сети либо перерасходу ресурсов.

Наряду с проблемами оценки требуемой пропускной способности сети для обеспечения заданных показателей качества, модели трафика востребованы при обнаружении, идентификации и локализации аномалий ИС, в том числе представляющих угрозу для нормального функционирования сети. В контексте обнаружения аномалий в современном информационном трафике достаточно

полная и адекватная модель нормального трафика может быть использована как представляющая нулевую гипотезу, соответствующую отсутствию аномалий, а любое статистически значимое отклонение от нее рассматриваться как первичный признак аномалии, на основании которого может быть инициирован запуск алгоритмов углубленного структурного анализа трафика. Модели такого рода должны быть построены на основе статистик, которые могут быть рассчитаны с помощью быстрых алгоритмов в режиме реального времени, на основании достаточно малых выборок данных в коротком (скользящем) окне, чтобы обеспечить оперативное реагирование на возникновение тех или иных аномалий. Кроме того, указанные модели должны быть удобно масштабируемыми в связи с изменениями конфигурации сети, регулярным изменением числа активных пользователей в разное время суток, а с целью локализации аномалий также должны обеспечивать адекватное представление трафика ИС различного масштаба и уровнях организации. Таким образом, поиск методов анализа и универсальных моделей для описания трафика современных ИС, обеспечивающих корректные оценки, является актуальной и в значительной мере нетривиальной задачей.

Степень разработанности темы. В последние десятилетия вопросами создания феноменологических моделей трафика ИС, адекватных современным условиям организации и функционирования ИС, активно занимался ряд зарубежных и отечественных исследователей, среди которых следует отметить M.S. Taqqu, W.E. Leland, W. Willinger, A. Feldmann, R.H. Riedi, K. Park, О.И. Шелухин, А.С. Соколов, И.П. Иванов, А.В. Колесников, В.Е. Сухов, С.Н. Степанов, А.Е. Кучерявый, А.И. Парамонов, М.В. Буйневич, А.Г. Владыко, Б.С. Гольдштейн, А.М. Тюрликов, И.В. Котенко и др.

В последние четверть века в эмпирических исследованиях трафика ИС отмечается существенно неоднородный характер информационных потоков, находящий отражение также в свойствах долговременной зависимости трафика [Leland, 1994; Paxson, 1995; Feldmann, 1998; Riedi, 1999; Park & Willinger, 2000]. Усиливающаяся неоднородность информационных потоков в современных многопользовательских ИС связана с активным обменом информацией между пользователями, что обуславливает кооперативный характер их обращения к одним и тем же ресурсам сети. Его следствием являются выраженная временная кластеризация запросов к ресурсам сети и пульсирующий характер динамики информационных потоков в целом. Это приводит к тому, что классические модели на основе однородных потоков недооценивают потребность в пропускной способности сети, необходимой для обеспечения заданных показателей качества обслуживания пользователей.

Одним из перспективных направлений решения указанных задач является использование статистических моделей на основе нормированных ранговых функций, которые согласно литературным данным характеризуются инвариантным функциональным видом для широкого класса сложных динамических систем. К таким закономерностям, в частности, относится

универсальное ранг-размерное распределение, известное как закон Ауэрбаха-Ципфа, или просто закон Ципфа, согласно которому значение некоторой величины в сложной системе убывает пропорционально ее рангу по степенному закону. Данная универсальная закономерность, первоначально обнаруженная при анализе распределения населения по городам [Auerbach, 1913], длины слов в литературном языке [Zipf, 1935] и ряде других закономерностей, в недавнем прошлом подтвердилась для трафика ИС [Breslau, 1999], в том числе с появлением и развитием социальных сетей [Rybski, 2009, 2012; Durbeck, 2015], а совсем недавно была предложена в качестве потенциального инструмента обнаружения некоторых аномалий трафика ИС [Xie, 2009; Ye, 2011; Sukhov, 2017].

Цели и задачи. Целью работы является установление статистических закономерностей на основе ранговых функций, характеризующих динамику трафика многопользовательских информационных сетей различного масштаба и организации.

Для достижения поставленной цели были решены следующие задачи:

  1. Осуществлен сбор, классификация и статистический анализ эмпирических данных трафика информационных сетей различного масштаба и организации.

  2. Исследованы распределения трафика информационных сетей в зависимости от рангов абонентов, характеризующие его динамику на коротких временных интервалах стационарности в зависимости от числа активных пользователей.

  3. Получены аналитические и численные оценки статистических характеристик долговременной динамики трафика информационных сетей для типичных колебаний числа активных пользователей по эмпирическим данным.

  4. Разработан программный комплекс для статистического анализа и имитационного моделирования трафика информационных сетей, а также оценки эффективности работы информационных сетей методом математического моделирования.

  5. Выполнено имитационное моделирование трафика информационных сетей с использованием предложенных моделей на основе ранговых функций, адекватность которых подтверждена с использованием показателей эффективности из теории массового обслуживания.

  6. Сформулированы рекомендации по использованию разработанных моделей и полученных статистических характеристик при выявлении и локализации аномалий динамики трафика информационных сетей.

Объект исследования – трафик информационных сетей различного масштаба и организации.

Предмет исследования – статистические свойства трафика информационных сетей различного масштаба и организации.

Научная задача – разработка методов анализа, математических моделей и алгоритмов имитационного моделирования трафика информационных сетей,

адекватных статистическим характеристикам динамики информационных потоков современных многопользовательских информационных сетей. Научная новизна. Научная новизна работы состоит в том, что:

  1. в отличие от известных методов, анализируется совокупность нормированных ранговых распределений трафика по времени, источникам и получателям, представимых в едином функциональном виде;

  2. в отличие от существующих моделей, неоднородный трафик представляется в виде совокупности однородных пуассоновских потоков с интенсивностью, определяемой ранговыми распределениями;

  3. в отличие от существующих алгоритмов, параметры имитируемого трафика определяются статистическими характеристиками, заданными ранговыми функциями, с учетом эффектов долговременной зависимости.

Теоретическая и практическая значимость работы. Теоретическая значимость научных положений, изложенных в работе, состоит в следующем:

  1. показана универсальность и масштабируемость нормированных ранговых распределений трафика по времени, источникам и получателям, представимых в едином функциональном виде;

  2. показана возможность представления неоднородного трафика на основе совокупности пуассоновских потоков, параметры которых определяются универсальной и масштабируемой моделью на основе ранговых функций.

Практическая значимость результатов проведенных исследований состоит в следующем:

  1. предложенный метод позволяет анализировать трафик информационных сетей различного масштаба и организации;

  2. предложенная модель может быть использована в качестве фоновой при обнаружении и локализации некоторых видов аномалий трафика;

  3. на основе предложенного алгоритма создан специализированный программный комплекс, с помощью которого получены уточненные оценки показателей эффективности информационных сетей в высоконагруженных режимах.

Часть основных научных результатов были использованы при выполнении научно-исследовательских работ на факультете радиотехники и телекоммуникаций СПбГЭТУ «ЛЭТИ» в рамках Государственного задания Минобрнауки РФ и грантов Российского фонда фундаментальных исследований по темам:

  1. ГЗБ/РЭС-62 «Теория создания и моделирования когнитивных технологий формирования и обработки информационных потоков в перспективных радиоэлектронных системах инфокоммуникации, локации и навигации»;

  2. ГЗП/РС-127 «Оптимизация технологий контроля и управления состоянием объектов и сред различной физической природы на основе системного анализа»;

3) ГМПИ/РС-131 «Моделирование трафика информационных сетей на основе непуассоновских динамических моделей совместного поведения пользователей с учетом эффектов дальней корреляции».

Также результаты диссертационной работы используются в учебном процессе на кафедре радиотехнических систем СПбГЭТУ «ЛЭТИ» при подготовке и проведении практических и лабораторных занятий по дисциплине «Математическое моделирование радиотехнических устройств и систем» для магистров по направлению 11.04.01 – «Радиотехника».

Mетодология и методы исследования. В работе были использованы аналитические методы исследования, методы численного анализа данных, методы математического моделирования и методы математической статистики.

Положения, выносимые на защиту. Соискателем лично получены следующие основные научные результаты, выносимые на защиту:

  1. Метод анализа статистических свойств трафика на основе оценки его ранговых распределений по времени, источникам и получателям.

  2. Модель неоднородного трафика в информационных сетях на основе объединения пуассоновских потоков, параметры которых заданы ранговыми функциями.

  3. Алгоритм имитационного моделирования трафика на основе модели его ранговых функций с учетом долговременной зависимости.

Степень достоверности. Достоверность полученных результатов подтверждается адекватностью совокупности применяемых для исследования математических методов, результатами анализа большого объема эмпирических данных трафика информационных сетей различного масштаба и организации, согласованностью результатов статистического моделирования и результатов аналитических расчетов, а также их непротиворечивостью литературным данным.

Апробация результатов. Основные научные положения и результаты диссертации докладывались, обсуждались и получили одобрение на международных конференциях IEEE Young Researchers in Electrical and Electronic Engineering Conference (Санкт-Петербург, 2016–2018); XX Международной конференции по мягким вычислениям и измерениям (SCM'2017) (Санкт-Петербург, 2017); 70-й и 71-й научно-технической конференции профессорско-преподавательского состава университета СПбГЭТУ «ЛЭТИ» (Санкт-Петербург, 2017, 2018); VII Международной научно-технической и научно-методической конференции «Актуальные проблемы инфокоммуникаций в науке и образовании» (АПИНО 2018) (Санкт-Петербург, 2018).

Публикации. По теме диссертации опубликовано 12 работ, включая: 2 статьи в международных рецензируемых журналах, включенных в базу цитирования Web of Science, 4 статьи в материалах международных конференций IEEE, индексируемых Scopus, 2 статьи в изданиях, рекомендованных ВАК, 2 статьи в материалах международных конференций, 2 свидетельства о государственной регистрации программ для ЭВМ.

Личный вклад автора. Основные результаты исследований, составляющие содержание диссертационной работы, включая новые научные результаты и положения, выносимые на защиту, выполнены автором лично. Вклад соавторов диссертанта в совместных публикациях определяется результатами, использованными в качестве аналогов и прототипов в настоящей диссертации.

Структура и объем работы. Диссертационная работа состоит из введения, основной части (содержащей четыре раздела), заключения, списка литературы и приложений. Общий объём работы – 182 страницы, из них основного текста – 119 страниц. Работа содержит 83 рисунка. Список литературы включает 80 библиографических источников.