Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Тамазян Араик Симакович

Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков
<
Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Тамазян Араик Симакович. Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков: диссертация ... кандидата Технических наук: 05.13.18 / Тамазян Араик Симакович;[Место защиты: ФГАОУВО Санкт-Петербургский государственный электротехнический университет ЛЭТИ им. В.И.Ульянова (Ленина)], 2016

Содержание к диссертации

Введение

Глава 1. Потоки данных в компьютерных сетях 8

1.1 Классификация и особенности организации компьютерных и инфокоммуникационных сетей 8

1.2 Компьютерные сети как системы массового обслуживания 15

1.3 Имитационное и феноменологическое моделирование потоков данных в компьютерных сетях 20

1.4 Феноменологическое описание потоков данных в компьютерных сетях 25

Глава 2. Модели кратковременной динамики трафика компьютерных сетей 34

2.1 Анализ и описание стационарных потоков данных в узлах и каналах компьютерных сетей на файловом и пакетном уровнях 34

2.2 Анализ и описание потоков данных в локальной и опорной компьютерных сетях на уровне пользовательских сеансов 40

2.3 Анализ и описание потоков данных высоконагруженного узла компьютерной сети с нестационарной динамикой 49

Глава 3. Модели долговременной динамики трафика компьютерных сетей 59

3.1 Статистические характеристики долговременной динамики и выбросов трафика в стационарном режиме 59

3.2 Оценка вероятности наличия нестационарных составляющих в форме монотонных трендов в долговременно-зависимых рядах данных 70

3.3 Статистические характеристики выбросов трафика высоконагруженного узла компьютерной сети с нестационарной динамикой 87

Глава 4. Оценка эффективности предложенной модели и ее верификация на основе критериев теории массового обслуживания 97

4.1 Моделирование систем массового обслуживания и показатели их эффективности 97

4.2 Результаты моделирования СМО для потоков данных со стационарной динамикой 100

4.3 Результаты моделирования СМО для потоков данных высоконагруженного узла с нестационарной динамикой 106

Заключение 110

Список литературы

Введение к работе

Актуальность темы.Интенсификация обмена информацией всетях общего пользования обуславливает актуальность оптимизации распределения сетевых ресурсов и динамического управления ими в интересах минимизации вероятности возникновения перегрузок. С начала 90-х годов по настоящее время результаты ряда исследований указывают на несоответствие описания динамики сетевого трафика традиционными моделями, предполагающими пуассонов-ский характер потоков пользовательских запросов, результатам эмпирических наблюдений. Ускорение обмена информацией в многопользовательских сетях приводит к росту относительной ошибки описания и предсказания динамики трафика такими моделями, что обуславливает актуальность поиска альтернативных моделей динамики трафика в широком диапазоне временных масштабов и размеров сетей. Существующие модели и алгоритмы имитации сетевого трафикав основном отражают технические аспекты передачи информации все-тях на различных уровнях, при этом за скобками часто остается существенное влияние на эмпирическую динамику трафика совместной активности пользователей, причем последний фактор оказывает возрастающее влияние в связи с интенсификацией обмена информацией в сетевых сообществах. Технические решения для сетей различного масштаба и протоколов различного уровня существенно различаются, в то время как динамика пользовательской активности зависит от размеров и связности сообщества пользователей. Представляется целесообразным исследование возможности описания динамики пользовательских обращений к сетевым ресурсам в рамках универсальных масштабируемых моделей. Существующие модели динамики сетевого трафика хорошо работают на коротких временных интервалах, но не учитывают факторы интенсификации обмена информацией в сетях на значительных временных интервалах. Существует потребность в оценке данных параметров и потребности в масштабировании сетевых ресурсов на длительных временных интервалах.

Целью данной работы является исследование статистических свойств трафика компьютерных сетей и построение его масштабируемой математической модели, учитывающей динамику совместной активности пользователей и отражающей текущие потребности в сетевых ресурсах.

Для достижения поставленной цели необходимо было решить следующие задачи:

  1. Осуществить сбор и статистический анализ эмпирических данных трафика в сетях различного масштаба (отдельные узлы, локальные и опорные сети) и организации на различных уровнях съема данных (пакетном, файловом, сессионном).

  2. Разработать феноменологическую и имитационную модели сетевого трафика с учетом эффектов долговременной зависимости и временной кластеризации выбросов трафика.

  3. Выполнить статистический анализ и моделирование долговременных изменений динамики сетевого трафика и валидация предложенной модели с помощью методов теории массового обслуживания.

Основные положения, выносимые на защиту:

  1. Потоки пользовательских запросов и агрегированного трафика в узлах и каналах многопользовательских компьютерных сетей различного масштаба на различных уровнях съема данных могут быть представлены в рамках единой феноменологической модели на основе суперпозиции стационарных пуас-соновских потоков с долговременно-зависимым потоком локальных интенсив-ностей.

  2. Оценка вероятности присутствияи характеристик линейного тренда при его наблюдении на фоне случайного процесса с долговременной зависимостью в окне ограниченной длины может быть выполнена с использованием предложенного численного метода с произвольной заранее заданной доверительной вероятностью при известной длине окна наблюдения и известном показателе Херста.

  3. Оценка статистических характеристик и моделирование потоков данных в многопользовательских компьютерных сетях различного масштаба на различных уровнях съема данных, а также анализ характеристик эмпирического и модельного трафика с позиций теории массового обслуживания может быть выполнена с использованием разработанного комплекса программ.

Научная новизна:

1. Предложена оригинальная феноменологическая модель сетевого трафика, позволяющая описать потоки пользовательских запросов и агрегированный трафик в узлах и каналах компьютерных сетей различного масштаба на различных уровнях съема на основе суперпозиции стационарных пуассоновских потоков с долговременно-зависимым потоком локальных интенсивностей.

  1. Получена оценка вероятности наличия и параметров линейного тренда в долговременно-зависимых рядах данных на примере синтезированных выборок с различными законами распределениями и эмпирических потоков пользовательских запросов и динамики агрегированного трафика высоконагруженно-го узла компьютерной сети.

  2. Разработано оригинальное программное обеспечение для статистического и имитационного моделирования потоков пользовательских запросов и агрегированного трафика в узлах и каналах компьютерных сетей с учетом свойств долговременной зависимости и непуассоновского характера потоков пользовательских запросов.

Практическая значимость заключается в том, что предложенные модели трафика ИКС, численные методы оценки его характеристик и разработанный на их основе комплекс программ могут быть использованы для оценки потребности в ресурсах и оптимизации управления ресурсами ИКС с учетом непуассоновского характера пользовательских запросов и эффектов долговременной зависимости.

Достоверность полученных результатов обеспечивается результатами анализа большого объема эмпирических потоков данных в ИКС различного масштаба и организации на различных уровнях съема, результатами статистического моделирования, результатами аналитических расчетов, и не противоречат литературным данным.

Апробация работы. Основные результаты работы докладывались на научно-технической школе-семинаре “Инфокоммуникационные технологии в цифровом мире” (СПб, 2012 г.); 68-й и 69-й научно-технической конференциях СПбНТОРЭС им. А.С. Попова (СПб, 2013, 2014 гг.); международных конференциях IEEE Young Researchers in Electrical and Electronic Engineering Conference (СПб, 2015, 2016 гг.).

Диссертационные исследования автора были поддержаны стипендией Президента РФ для обучения студентов и аспирантов за рубежом 2013-2014 гг., специальными стипендиями Ученого Совета СПбГЭТУ “ЛЭТИ”, присужденными по результатам конкурсов научных достижений аспирантов 2015-2016 гг., поддержкой персонального научно-исследовательского проекта по результатам конкурса научно-исследовательских и инновационных проектов для аспирантов и молодых научно-педагогических работников СПбГЭТУ “ЛЭТИ”

2016 г., а также грантом РФФИ (шифр проекта 16-37-00374), где диссертант выступает руководителем исследований. Результаты исследований были использованы при выполнении НИР в рамках Госзадания Минобрнауки РФ на кафедре РС СПбГЭТУ “ЛЭТИ” (шифр проекта 8.324.2014/К). Результаты диссертационной работы, включая разработанное автором программное обеспечение, апробированы и используются в учебном процессе СПбГЭТУ “ЛЭТИ” при проведении лабораторных и практических занятий по дисциплине “Математическое моделирование радиотехнических устройств и систем”.

Личный вклад. Основные исследования выполнены автором лично. Соавторы публикаций принимали участие в выполнении исследований на этапах постановки задач и обсуждения результатов исследования.

Публикации. Основные результаты по теме диссертации изложены в 12 работах, включая 3 статьи в журналах, включенных в список ВАК [1–3], 2 статьи в международных рецензируемых журналах, включенных в базу цитирования Web of Science [4;5] 3 статьи в материалах международных конференций IEEE, индексируемых Scopus [6–8], 2 публикации в тезисах докладов на российских конференциях [9;10], 2 заявки о регистрации программ для ЭВМ [11;12].

Объем и структура работы.Диссертация состоитизвведения, четырёх глав, заключения и двух приложений. Полный объём диссертации составляет 118 страниц с 55 рисунками и 2 таблицами. Список литературы содержит 72 наименования.

Имитационное и феноменологическое моделирование потоков данных в компьютерных сетях

В 1970–80-х годах началось слияние телекоммуникационной и компьютерной индустрии,врезультате чего исчезли различия между технологиями обработки данных (выполняется компьютерами) и передачи данных (выполняется телекоммуникационным оборудованием). Были унифицированы принципы построения принципы построения локальных, региональных и глобальных сетей. Результатом этого стало развитие интегрированных информационных сетей, выполняющих передачу и обработку всех видов информации, объединяющих в себе таким образом функционал компьютерных и телекоммуникационных сетей. Такие сети получили название инфокоммуникационных сетей [13; 14] Пример простейшей КС, в которой происходит обмен информацией между пользователями A и B через глобальную сеть Интернет, приведен на рис. 1.1. Во время передачи информации между пользователями возможна ситуация, когда их чрезмерная активность может перегрузить канал связи. Для предотвращения подобной ситуации используются технологии управления нагрузкой каналов связи.

Для объединения различных сетей в единую КС могут использоваться специальные устройства сопряжения и генерирования несущих сигналов, при этом сигналы передатчика и приемника должны быть синхронизированы.

Помимо формы и синхронизации сигналов существуют определенные требования для начала обмена информацией между двумя пользователями, организация выполнения которых называется управлением информационным обменом. Для устройств простой установки соединения недостаточно, требуется согласо Рисунок 1.1 — Простейшая модель КС, в которой пользователи A и B обмениваются информацией через глобальную сеть Интернет. вание определенных условий таких, как режим обмена информацией, максимальный размер информации, передаваемый за один раз, формат данных, перечень действий в случае возникновения ошибки и т.д.

Во всех КС возможны ошибки, так как передаваемые сигналы могут быть искажены, прежде чем они доберутся до получателя. В связи с этим требуется реализация функций выявления и исправления ошибок для гарантии целостности передаваемых данных.

Управление потоком данных требуется для того, чтобы скорость отправки данных со стороны отправителя не превышала скорость ее обработки на стороне получателя. Также важны функции адресации и маршрутизации в КС. Так как в КС, как правило, больше двух пользователей, то необходимо, чтобы отправитель указывал адрес получателя при отправке информации. При этом отправитель должен гарантировать, что данные получит пользователь-адресат, и только он. Кроме того, возможно наличие различных путей передачи информации, в связи с чем встает задача выбора маршрута передачи информации.

Также в КС необходима функция восстановления, которая позволяет возобновить процесс передачи данных в случае его прерывания в результате технического сбоя, и обеспечение некоторого уровня безопасности, что выражается в верификации подлинности отправителя и неизменности переданных им данных.

КС не может запускаться и работать сама по себе. Поэтому для ее настройки, контроля ее состояния, реагирования на сбои и перегрузки в работе, а также для планирования ее развития требуются возможности сетевого управления.

В функционировании КС важную роль играет коммутация передаваемой информации. Есть два подхода к коммутации: коммутация каналов и коммутация пакетов. В случае КС с коммутацией каналов узлы сети используется для создания отдельного маршрута передачи между двумя пользователями. Этот маршрут представляет собой совокупность физических каналов, связывающих узлы КС. В каждом таком физическом канале выделяется логический канал для передачи данных.

В случае КС с коммутацией пакетов выделение специального канала для передачи данных по определенному маршруту не обязательно. Вместо этого передаваемые данные разбиваются на последовательность пакетов небольшого размера, каждый из которых проходит сеть от узла к узлу по некоторому маршруту, проходящему от отправителя к получателю. Стандарты взаимодействия сетей строятся на основе двух составляющих: набора протоколов TCP/IP и эталонной модели OSI. Протокол TCP/IP является наиболее используемым при взаимодействии пользователей в КС, а модель OSI стала стандартной теоретической моделью, описывающей это взаимодействие. Отметим, что задачи протоколов TCP/IP можно разделить на четыре относительно независимых уровня [14;15]:

– Уровень доступа к сети используется для обмена данными между узлами, подключенными к одной сети. Передающий узел должен предоставить сети адрес узла назначения, чтобы сеть могла проложить маршрут передачи данных к конечному пункту. Передающий компьютер может затребовать определенные услуги, предоставляемые сетью, такие, например, как установка приоритета. Задача уровня доступа к сети — обращение с сетью и определение маршрута данных по сети для двух конечных систем, подключенных к одной сети. – Межсетевой уровень обеспечивает механизм перехода данных из одной сети в другую в случае, если устройства подключены к различным сетям. Задачу перехода между сетями на этом уровне выполняет протокол IP. Он реализуется не только в конечных системах, но и на маршрутизаторах. Маршрутизатор — узел обработки, соединяющий две сети; его основная функция передача данных из одной сети в другую по маршруту от источника к адресату. – Транспортный уровень включает в себя механизмы, обеспечивающие надежную доставку данных в случае, если устройства подключены к различным сетям. Независимо от природы приложений, выполняющих обмен данными, существует обычное требование надежности такого обмена. Иными словами, необходимо гарантировать, что все данные достигли приложения-адресата и что они пришли в том же порядке, в каком были отправлены. Для этой цели обычно используется протокол управления передачей TCP. – Уровень приложений содержит логику, необходимую для поддержки различных пользовательских приложений. Для каждого типа приложения (например, передачи файлов) требуется отдельный модуль, предназначенный именно для этого приложения.

Анализ и описание потоков данных в локальной и опорной компьютерных сетях на уровне пользовательских сеансов

В качестве источников данных для анализа отдельных узлов КС со стационарной динамикой были рассмотрены распределения времени между запросами и объемов переданных файлов для записей трафика (источник: http:// ita.ee.lbl.gov) со следующих трех WWW-серверов: сервера кафедры информатики университета Калгари (Калгари, Альберта, Канада), с 24.10.1994 по 11.10.1995; сервера университет Саскачевана (Саскачеван, Канада), с 01.06.1995 по 31.12.1995, космического центра имени Джона Кеннеди, НАСА (Флорида, США), с 01.07.1995 по 31.08.1995. Cначала из этих записей были извлечены временные ряды времени между запросами и объемов переданных файлов и была проведена их нормировка как тп = т/т, где т- время между запросами и т- среднее время между запросами и vn = v/v, где v - размер переданного файла и v-средний размер переданного файла.

Затем были рассчитаны эмпирические дополнительные функции распределения (ДФР) для времени между запросами (рис. 2.2) и объемов переданных файлов (рис. 2.3). ДФР определяется как разность единицы и функции распределения. Далее по обоим серверам были рассчитаны усредненные эмпирические ДФР, которые были аппроксимированы g-экспоненциальным распределением.

Видно, что g-экспоненциальное распределение достаточно точно описывает распределение как времени между запросами, так и объемов переданных файлов во всех трех случаях. Нормированное время между запросами распределено по -экспоненциальному закону со следующими параметрами: q = 1.34, Л = 2.8, в то время как распределение объемов переданных файлов также может быть описано -экспоненциальным распределением сд=1.39иА = 3.93.

В качестве второго источника данных использовались данные трафика опорной академической сети WIDE в Японии, собранные в рамках WIDE Project исследовательским консорциумом японских университетов. Главной целью проекта был сбор и анализ эмпирических данных трафика, собранных в сетях большого масштаба. В рамках данного проекта был запущен и поддерживается свой Рисунок 2.1 — Временные диаграммы на основе данных посуточного исходящего трафика, измеренного на WWW-серверах университета г. Калгари (верх.) и университета Саскачевана (ниж.) Рисунок 2.2 — Эмпирическая ДФР нормированного времени между запросами для серверов Университета Калгари (точки), Университета Саскачевана (треугольники), NASA (квадраты) и ДФР аппроксимирующего q-экспоненциального распределения (линия). Рисунок 2.3 — Эмпирическая ДФР объемов переданных файлов для серверов Университета Калгари (точки), Университета Саскачевана (треугольники), NASA (квадраты) и ДФР аппроксимирующего q-экспоненциального распределения (линия). репозиторий трафика, который называется MAWI Group Traffic Archive, и который расположен на http://mawi.wide.ad.jp/mawi/. Записи трафика собираются с нескольких точек на магистральной линии (backbone) сети WIDE. Эти данные собираются с помощью утилиты tcpdump, собирающей всю необходимую информацию о пакетах, позволяя исследователям проводить подробный анализ этого трафика. Используется стандартное оборудование и свободное программное обеспечение, что гарантирует простоту работы с репозиторием. На рис. 2.4 показано географическое положение и топология сети WIDE, соединяющей ключевые узлы нескольких японских университетов и исследовательских центров. Также она подключена к каналу связи, соединяющему сеть WIDE с академической сетью США, проходящей по дну Тихого океана и соединена с несколькими спутниками.

Для анализа используются данные, собранные в точке F (Samplepoint-F) канала связи, соединяющего сеть WIDEи вышестоящий интернет-провайдер. Далее был проведен статистический и корреляционный анализы выборок сетевого трафика за следующие дни: с 13.10.2008 до 17.10.2008; с 12.10.2009 до 16.10.2009; с 11.10.2010 до 15.10.2010; с 10.10.2011 до 14.10.2011; с 15.10.2012 до 19.10.2012; с 14.10.2013 до 18.10.2013. Рисунок 2.4 — Сетевая топология сети WIDE (рисунок заимствован из http://hiroshi1.hongo.wide.ad.jp/hiroshi/wide-wp/China/ wide.html). Сначала были извлечены значения времени между пакетами и объемов пакета для протоколов TCP, UDP и ICMP, которые были получены из записей трафика. Затем они были нормированы как тп = т/т, где т- время между пакетами и т- среднее время между пакетами. Далее рассчитывались эмпирические дополнительные функции распределения (ДФР) для нормированного времени между пакетами для каждого протокола. Результаты показаны на рис. 2.5. Как можно видеть, время между пакетами и для TCP, и для UDP обладают схожими статистическими свойствами за разные годы, в то время как время между пакетами для ICMP имеет различные статистические свойства в зависимости от даты замера трафика.

В качестве описания статистических свойств сетевого трафика использовалось несколько видов распределений, в данном случае используется q-экспоненциальное распределение. Результаты аппроксимации также показаны на рис. 2.5. Как можно заметить, наилучшее качество аппроксимации достигается для UDP (q = 1.25, А = 1.4), тогда как аппроксимации для TCP (q = l.l,X = 0.8) и ICMP (q = 1.3,А = 2.5)согласуются с эмпирическими данными только в ограниченном диапазоне значений аргумента.

Таким образом, -экспоненциальное распределение может быть использовано для описания времени между пакетами для протоколов TCP, UDP и ICMP с средней точностью, достаточной для описания активности конечного пользо Рисунок 2.5 — Дополнительные функции распределения времени между пакетами для TCP, UDP, ICMP, соответственно, для рабочей недели в 2008 (квадраты), 2009 (кружки), 2010 (треугольники вверх), 2011 (треугольники вниз), 2012 (закрашенные треугольники вверх), 2013 (точки) и их аппроксимация q-экспоненциальным распределением (пунктирная линия).

Оценка вероятности наличия нестационарных составляющих в форме монотонных трендов в долговременно-зависимых рядах данных

Как и для межсеансового времени, g-экспоненциальное распределение характерно для распределения объема данных, передаваемых за один сеанс, с q = 1.5 для локальной сети общежития и g = 1.65 для магистральной сети WIDE (см. рис. 2.13). Стоит отметить, что данное наблюдение согласуется с предыдущими наблюдениями закона Зипфа в сетевом трафике, отмеченными в литературе [55].

На рис. 2.14 показана зависимость между параметрами модели q и Л для межсеансового времени и объема данных, передаваемых за один сеанс. Показано, что для межсеансового времени наблюдается приблизительно линейная зависимость между q и Л, в то время как для размера сеансов нет однозначной универсальной зависимости. Таким образом, распределение межсеансового времени зависят скорее от совместного поведения пользователей, в то время как распределение размера сеансов также зависит и от конкретных данных, передаваемых в каждой сети. Также отметим, что ввиду существования однозначной линейной зависимости между q и Л для межсеансового времени можно уменьшить параметризацию модели, используя в дальнейшем только параметр q. 1.16

Зависимость между параметрами модели q и для (a) межсеансового времени и (b) объема данных, передаваемых за один сеанс. Сплошной линией (a) показана линейная аппроксимация, в то время как пунктирной линией показан ее 95% доверительный интервал. В качестве источника данных использовались результаты регистрации трафика высоконагруженного кластера, обслуживавшего чемпионат мира по футболу 1998 года общей продолжительностью87 полных суток, полученные на уровне передачи отдельных файлов. Для рассмотренного узла характерно короткое время жизни и выраженная нестационарная динамика как от суток к суткам, так и внутри суток. При этом в дни матчей нестационарный характер динамики обращений пользователей был в наибольшей степени выражен.

В фоновом режиме, когда нет каких-либо ярко выраженных событий, привлекающих внимание пользователей, динамика обращения к информации на коротком промежутке времени может считаться случайной, и общая динамика трафика может быть с достаточной степенью точности описана простой линейной моделью с отсутствующей или кратковременной зависимостью. Напротив, появление информации, представляющей интерес для пользователей приводит к появлению выраженных колебаний в динамике трафика, для описания которых требуются модели, отражающие нелинейные и нестационарные эффекты в соответ 50 ствующих динамических потоках. Наличие выраженных всплесков интенсивности потока пользовательских запросов и трафика в узле КС в периоды проведения матчей не дает возможности построить универсальную детерминистическую модель регулярного суточного цикла. Поэтому целесообразным представляется подход на основе описания трафика в виде последовательности коротких стационарных фрагментов с различными статистическими характеристиками.

Обоснованный выбор интервала стационарности может быть выполнен с использованием расширенного теста Дики-Фуллера, или ADF-теста, являющимся модификацией широко известного статистического теста на стационарность Дики-Фуллера (DFest). В классическом тесте Дики-Фуллера проверяется соответствие наблюдаемой реализации случайного процесса модели стационарного случайного процесса, описываемого АР уравнением 1-го порядка Xt = CLQ + CL\xt-\ + щ. (2.4) Приращения такого процесса Axt подчиняются выражению Axt = bixt-i + щ, (2.5) где Ъ\ = а\ — 1, а Axt = xt — Xt-\. Нулевая гипотеза признается истинной, если Ь — 0. Распределение статистики теста носит название распределения Дики-Фуллера и формулируется аналогично распределению t-статистики Стъюдента. В расширенной версии теста вместо АР1 используются АР модели более высоких порядков р.

Авторегрессионные модели порядков р 3 используются на практике редко; как правило, использование таких моделей означает, что истинный вид функции иной, и суперпозиция экспоненциально убывающих составляющих на выходе АР фильтра призвана описать феномен экстенсивным способом, не углубляясь в физическую природу процесса.

При максимально допустимом порядке авторегрессионной модели ртах = 3 было выполнено разбиение посекундных интенсивностей пользовательских запросов на сегменты различной длительности, после чего были получены результаты расширенного теста Дики-Фуллера для 95% доверительной вероятности.

Результаты моделирования СМО для потоков данных высоконагруженного узла с нестационарной динамикой

С другой стороны, внешний тренд с доверительной вероятностью 95% не превышает значение Хme xat x = х + Хд5} (3.11) которое представляет максимальный внешний относительный тренд.

По определению, жmexitn представляет собой нижнюю границу наблюдаемого внешнего тренда, который не может быть объяснен только эффектами ДВЗ, в то время как xmexatx — наибольший возможный внешний относительный тренд, соответствующий эффектам ДВЗ во временном ряде. Согласно (3.10) и (3.11), ± XQS(L) могут рассматриваться как границы 95% доверительного интервала относительного тренда временном ряде длины L. Для модели ошибок в виде ряда независимых отсчетов данных предполагается [69], что отношение tb между оценкой коэффициента наклона Ь и его стандартной ошибкой sb может быть описано распределением Стьюдента. Так как ъ = А/(ь-1)и8Ъ = [Ef=i(2//-n)2/(( -2)Ef=i( -02]1/2cI = l/ZEf=i , плотность вероятности Р(х; L) имеет вид Р(х; L) = Г([/(Ь) + L(l + (:r/a) 2 //(b)) -[/(L)+1]/2 (3.12) c числом степеней свободы l(L) = L-2 (3.13) и коэффициентом масштаба а = , , (3.14) л/иТ2 л/Ь 2 где Г — гамма-функция. При больших значениях L а стремится к а = Из (3.12) и (3.9) можно выразить значимость S как функцию от х/а и l(L) S(x; L) = 2 T L] 1\F1 (\\{KL) + 1); І -Щ у) (3.15) где 2F1 — гипергеометрическая функция. Для численной оценки Р(х; a; L) воспользуемся аппаратом математического моделирования, а именно — методом Монте-Карло. Сформируем 800 реализаций длины Ьш = 221, для 241 значения глобального показателя Херста а\ изменяющегося от а = 0.1 до а = 2.5. Наибольший интерес представляют значения а от 0.5 до 1.5, которые наиболее часто встречаются в выборках эмпирических данных. В ряде работ [66; 68; 70] было показано, что оценки локального показателя Херста а в каждом фрагменте выборки не равны глобальному показателю Херста а всей выборки, а лежат в некоторой окрестности а . Примеры распределений локальных показателей Херста а для фиксированного значения а = 0.75 и L = 400 и 2200, полученные с помощью метода DFA 2-го порядка, показаны на рис. 3.8(a). Как и ожидалось, распределение сужается с увеличением длительности фрагмента L. Соответственно, полученный при оценке в пределах локального фрагмента показатель Херста а может отличаться от глобального показателя Херста более длинной реализации а\ частью он является. На рис. 3.8(b) при фиксированном значении а = 0.75 показывает распределение значений а . Опять же, распределение становится уже с увеличением L.

Как следствие, для определения статистической значимости относительного тренда в наблюдаемом фрагменте реализации L, необходимо для каждого фрагмента реализации с глобальным показателем Херста а, получить оценки в ее отдельных фрагментах длиной L. После оценки в каждом фрагменте к фиксированной длины L локального показателя Херста а ориентируемся на те фрагменты, которые имеют локальные оценки в диапазоне от 0.49 до 1.51, классифицируем фрагменты согласно их локальным значениям а на окна с разбросом ±0.02, таким образом, что в первой группе оказываются записи с а = 0.5 ±0.01 и в последней группе с а = 1.5 ± 0.01. Затем для каждого фрагмента с а в заданном диапазоне определяется распределение P(x;a,L) относительного тренда, а также его статистическую значимость S.

На рис. 3.9 показаны функции 1 - S(x; a,L) = 2W(x; a,L) для трех репрезентативных выборок длины L = 600, 1200, и 1800. ДВЗ в данных характеризуется значениями локального показателя Херста а = 0.5,0.6,..., 1.5. Точками показаны результаты математического моделирования по методу Монте-Карло. Сплошными линиями показаны аппроксимации W -распределением Стьюдента согласно (3.15) с соответствующими значениями коэффициента масштаба а и эффективной длины /. Видно, что аппроксимация 1 — S статистически неразличима (a) Распределение #(a; a ,L) значений локального показателя Херста а для фрагментов длины L = 400 (сплошная линия) и L = 2200 (пунктирная линия), для фиксированного значения глобального показателя Херста а = 0.75. (b) Согласно (a), те же значения локальных показателей Херста а могут исходить из выборок с разными значениями глобального показателя Херста а . Здесь показано распределение G(a ; a,L) от значений глобального показателя Херста а для локального показателя Херста а = 0.75 в фрагментах длины L = 400 (сплошная линия) и L = 2200 (пунктирная линия). относительно результатов математического моделирования, что подтвержается оценками по критерию согласия Колмогорова-Смирнова.

Мы рассматриваем распределение P(x;a,L) относительного тренда х в долговременных коррелированных записях длины L, характеризующихся показателем Херста а между 0.5 и 1.5, полученных с помощью метода флуктуационного анализа DFA 2-го порядка. Относительный тренд х определяется как отношение смещения А в рассматриваемой реализации, определенного с помощью линейной аппроксимации методом наименьших квадратов, к стандартному отклонению а флуктуаций относительно (регрессионной) линии тренда. В дальнейшем рассмотрим значения L между 400 и 2200, представляющие, как было установлено в ходе предварительного анализа эмпирических данных, наибольший интерес при анализе интервалов стационарности. В предшествующих работах [66] было показано, что Р характеризуется t-распределением Стъюдента