Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритмы статистической обработки информации в системах передачи данных Бугай Алена Ивановна

Алгоритмы статистической обработки информации в системах передачи данных
<
Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных Алгоритмы статистической обработки информации в системах передачи данных
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бугай Алена Ивановна. Алгоритмы статистической обработки информации в системах передачи данных : Дис. ... канд. техн. наук : 05.13.01 : Москва, 2003 185 c. РГБ ОД, 61:04-5/1044

Содержание к диссертации

Введение

Глава 1 Анализ современных технологий передачи данных и показатели функционирования систем передачи данных 12

1.1 Научно-образовательные сети как один из видов систем передачи данных 12

1.2 Задачи управления, мониторинга, анализа систем передачи данных и основные показатели их функционирования 14

1.3 Анализ методов моделирования для оптимизации производительности сети 23

1.4 Виды отклонений от нормального режима работы сети (атаки на сеть) 28

Выводы 30

Глава 2 Технология сбора и методы первичной обработки данных 31

2.1 Система сбора информации о работе сети: протокол SNMP 32

2.2 Анализ базовых технологии передачи данных: ATM и Fast Ethernet 34

2.3 Первоначальный анализ данных о функционировании сети. Алгоритмы преобразования исходной информации 40

2.4 Основные особенности исследуемых характеристик о функционировании сети и выбор наиболее информативной 51

Выводы 55

Глава 3 Методы обработки информации о загрузке сети для выявления нормального режима работы 56

3.1 Представления информации в виде временных рядов и особенности статистических пакетов для их анализа 56

3.2 Математическая модель загрузки канала сети 63

3.3 Выявление сезонной составляющей разложением в ряд Фурье 65

3.4 Методика выделения тренда 70

3.5 Анализ случайной компоненты 72

3.6 Прогнозирование загрузки сети 74

Выводы 79

Глава 4 Обработка экспериментальной информации по разработанным алгоритмам 80

4.1 Результаты исследования загрузок канала научно-образовательной сети RUNNet 80

4.1.1 Результаты спектрального анализа трафика сети по трем интерфейсам: ATM, FastEthernet 1/0 и FastEthernet 4/0 81

4.1.2 Результаты анализа тренда для интерфейсов: ATM, FastEthernet 1/0 и FastEthernet 4/0 84

4.1.3 Подтверждение полученных результатов за новый период времени (анализ некоторых узлов научно-образовательной сети RUNNet) 90

4.1.4 Критерии выявления аномальных наблюдений с использованием методов агрегирования данных, конечных разностных операторов 97

4.1.5 Результат прогнозирования сетевого трафика по методу экспоненциального сглаживания 104

4.2 Программная реализация разработанных алгоритмов 105

Выводы 112

Заключение 113

Литература 118

Введение к работе

Актуальность исследования. В современных условиях появляются все новые виды систем передачи данных. Одним из видов сложных систем передачи данных являются научно - образовательные сети (RUNNet, RBNet, FREEnet, RELARN-IP и др.), которые получили свое развитие в России в течение последних десяти лет. Особенностями этих сетей являются: постоянное увеличение числа пользователей; передача большого количества учебной и научной информации, значительная часть которой является мультимедийной; необходимость обеспечения современных видов учебной деятельности в режиме реального времени; попытки несанкционированного доступа. Все это предъявляет повышенные требования к пропускной способности каналов, приводит к перегрузке сети и, как следствие, к потере связи между клиентами и серверами. Перегрузку можно предотвратить с помощью системы поддержки принятия решений сетевого администратора, одним из основных блоков которой является блок сбора и обработки информации по отдельным характеристикам сети. Построение алгоритмов обработки информации для этого блока является весьма актуальной задачей. Однако при построении этих алгоритмов возникает ряд трудностей, в частности, определение набора функциональных характеристик сети, построении адекватных моделей, в анализе больших объемов информации и отсутствии специализированных алгоритмов для ее обработки.

Похожими задачами занимаются научные группы ряда зарубежных и российских НИИ и университетов (Санкт-Петербургский государственный институт точной механики и оптики, МИФИ, Московский институт электроники и математики, Волгоградский государственный технический университет), однако в открытой печати не

достаточно опубликованы алгоритмы и модели обработки такой информации.

В данной работе предлагается подход, основанный на обработке статистической информации о функционировании сети и определении нормального режима работы сети. Выявление и предсказание отклонений от этого режима необходимы для администратора сети как сигнал о возникновении нештатной ситуации и необходимости изменения конфигурации сети. Рассматриваются вопросы, связанные с конкретной системой передачи данных, а именно, с обработкой информации о функционировании научно-образовательных сетей.

Целью данной работы является разработка алгоритмов обработки информации о функционировании научно-образовательных сетей с использованием статистического анализа временных рядов.

Поставленная цель достигается решением следующих основных задач:

  1. Определением набора функциональных характеристик глобальных сетей, созданием процедур сбора и обработки информации по этим характеристикам.

  2. Идентификацией и моделированием информационных потоков.

  3. Разработкой алгоритмов на основе модифицированных вычислительных методов и моделей с целью прогнозирования работы сети.

  4. Исследованием реальных информационных потоков в системах передачи данных.

Решение поставленных задач потребовало привлечения методов исследования, базирующихся на методах системного анализа, анализе временных рядов: регрессионном анализе, спектральном анализе, адаптивных методах краткосрочного прогнозирования, вычислительной математике, математической статистике.

Получены следующие научные результаты:

  1. Разработаны алгоритмы предварительной обработки информации о показателях функционирования системы передачи данных и представления ее в виде временного ряда и случайной последовательности.

  2. Предложена математическая модель поступления информации в системах передачи данных и исследованы ее составляющие.

  3. Разработаны критерии идентификации аномальных наблюдений при поступлении и передаче информации в системах передачи данных.

  4. Созданы алгоритмы и программы статистической обработки информации о функционировании систем передачи данных, используемые для прогнозирования работы сети.

  5. В результате исследования реальных информационных потоков в системе передачи данных определены конкретные составляющие (доминантные периодические составляющие, параметры регрессионных моделей и случайной составляющей) для модели поступления информации за единицу времени.

Достоверность научных результатов и выводов,

сформулированных в диссертации, определяется корректным применением информационных технологий и методов математической статистики, статистического анализа временных рядов. При этом теоретические расчеты согласовывались с экспертами в области сетевого администрирования и информационных технологий.

Практическая ценность полученных результатов определяется тем, что на ее материалах разработаны комплексы лабораторных работ для учебного процесса РГУ нефти и газа имени И.М. Губкина, Московского государственного университета леса, а также результатами опытной

эксплуатации при администрировании научно-образовательной сети RUNNet.

Структура диссертации такова.

В первой главе рассматриваются основные требования, предъявляемые к сетям, средства анализа и управления сетями; проведен анализ методов моделирования для оптимизации загрузки сети (имитационного моделирования, моделей теории массового обслуживания), используемых в настоящее время, включая специализированные методы имитационного моделирования; представлены методы выявления сбоев в работе сети.

Во второй главе рассматриваются характеристики для анализа работы сети, технология и особенности сбора данных о функционировании сети; проведен анализ сетевых технологии передачи данных, в частности ATM и FastEthernet; представлена процедура сбора информации с помощью протокола управления SNMP; разработаны алгоритмы преобразования данных, циркулирующих в глобальных сетях, во временной ряд и случайную последовательность; проанализированы характеристики сетевого трафика, выявлены их особенности: нестационарность, неоднородность, периодичность, сложная форма периодического сигнала.

В третьей главе анализируются структуры временных рядов, модель, описывающая поступление информации за единицу времени, методы анализа составляющих модели; метод прогнозирования загрузки канала на короткий период; проведен сравнительный анализ программно-статистических комплексов (таких как STATISTIKA, SPSS, ЭВРИСТА) для анализа временных рядов. Предложена математическая модель поступления информации за единицу времени; найден адекватный математический аппарат для анализа преобразованных по предложенным

алгоритмам (глава 2) данных; определены типы изменения в характере поведения системы.

В четвертой главе представлены результаты анализа модели нормального режима работы сети; по предложенным алгоритмам и модифицированным методам созданы программы (для статистического анализа данных на основе долговременной статистики - программа «Роутер», для анализа периодической составляющей - программа «AFINT»). Установлены доминирующие частоты для всех исследуемых характеристик в значениях временных рядов; начальный момент времени для разложения временного ряда, представляющего собой загрузку канала, в ряд Фурье. Разработана модифицированная методика повышения значимости регрессионной модели за счет удаления периодической составляющей и последующего применения метода скользящего среднего. Разработан модифицированный метод конечных разностных операторов для исключения влияния тренда и основных гармоник периодической составляющей. Выявлена хорошая адаптация метода экспоненциального сглаживания к изменениям характера в поведении временного ряда, при прогнозировании среднесуточных загрузок канала на короткий период. Определенны оптимальные значения параметров для метода экспоненциального сглаживания. Предложены критерии идентификации аномальных наблюдений, использующие метод агрегирования данных, конечных разностных операторов и критерия для выделения аномальных наблюдений (резко выделяющихся наблюдений).

В заключении изложены основные результаты и выводы по диссертационной работе.

В приложении представлены акты об использовании результатов диссертационной работ; графики некоторых характеристик функционировании сети; инструкции по использованию программ «Роутер» и AFINT; методическое пособие по проведению спектрального

анализа с использованием возможностей Microsoft Excel на примере данных о добыче нефти; словарь используемых терминов в диссертационной работе и структура базы данных управляющей информации МІВ.

Апробация работы. Основные результаты диссертации были представлены и обсуждены на следующих конференциях:

XXVIII Международной конференции IT+SE'2001 (20-29 мая 2001г., Украина, Крым, Ялта-Гурзуф);

Международной научно-методической конференции Телематика' 2001 (18- 21 июня 2001 г., Санкт-Петербург);

8-ой Межвузовской научно-методической конференции «Информационные технологии и фундаментализация высшего образования» (Москва, РГУ нефти и газа им. И.М. Губкина, 21 февраля 2002 г.);

Международной конференции «Информационно—телекоммуникационные технологии в образовании - 2002» (23 -24 мая 2003 г., Москва);

Всероссийской научно-методической конференции «Телематика' 2002» (3- 6 июня 2002 года, Санкт-Петербург);

5-ой научно-технической конференции «Актуальные проблемы состояния и развития нефтегазового комплекса России» (Москва, РГУ нефти и газа им. И.М. Губкина, 23 - 24 января 2003 г.);

Всероссийской научно-практической конференции (25-28 февраля 2003 года, Петрозаводск);

X Всероссийской научно-методической конференции «Телематика' 2003» (14- 17 апреля 2003 г., Санкт-Петербург);

Международной конференции «Информационно-телекоммуни
кационные технологии в образовании - 2003» (20-21 мая 2003г.,

* Москва);

XI Международной студенческой школе- семинаре «Новые
информационные технологии» (май 2003 г.).

Таким образом, на защиту выносятся:

  1. алгоритмы предварительной обработки информации о загрузке канала системы передачи данных, преобразующие данные в случайную последовательность и временной ряд;

  2. математическая модель поступления информации о загрузке канала системы передачи данных за единицу времени;

  3. алгоритмы оценки компонентов модели, использующие разработанные способы удаления периодической составляющей, методику повышения значимости регрессионной модели и идентификации аномальных наблюдений.

Ъ Работа выполнена при поддержке грантов РФФИ № 02-07-90026,

»

Задачи управления, мониторинга, анализа систем передачи данных и основные показатели их функционирования

Сегодня глобальные сети (Wide Area Networks, WAN) представляют собой сложную систему передачи данных и служат для того, чтобы предоставить свои сервисы большому количеству конечных абонентов, разбросанных по большой территории - в пределах области, страны, континента или всего земного шара. Ввиду большой протяженности каналов связи нужно обеспечивать необходимую полосу пропускания канала, постоянное поддержание в работоспособном состоянии разбросанной по большой территории аппаратуры сети [19, 66, 78, 87].

Как известно, типичными абонентами глобальной сети являются локальные сети предприятий, Вузов и т.д. расположенные в разных городах и странах, которые должны обмениваться данными между собой. Услугами глобальных сетей пользуются также и отдельные субъекты сети через свои компьютеры. Главным требованием, предъявляемым к сетям, является обеспечение пользователям возможности доступа к разделяемым ресурсам всех компьютеров, объединенных в сеть [42, 15, 66, 78, 87, 98]. Из него вытекают следующие показатели функционирования сети -производительность, надежность и безопасность, совместимость, управляемость, расширяемость и масштабируемость. Рассмотрим их подробнее. I. Производительность. Как известно [19, 62, 66, 72, 73, 78, 87, 98, 102], потенциально высокая производительность - это одно из основных свойств распределительных систем, к которым относится компьютерная сеть. Это свойство обеспечивается возможностью распараллеливания работ между несколькими компьютерами сети. К сожалению, эту возможность не всегда удается реализовать. Существует несколько характеристик производительности сети, рассмотрим их. 1) Время реакции сети является интегральной характеристикой производительности сети с точки зрения пользователя. В общем случае время реакции определяется как интервал времени между возникновением запроса пользователя к какой-то сетевой службе и получения ответа на этот запрос. Время реакции сети обычно складывается из нескольких составляющих. В общем случае в него входят время подготовки запросов на клиентском компьютере, время передачи запросов между клиентом и сервером через сегменты сети и промежуточное коммуникационное оборудование, время обработки запросов на сервере, время передачи ответов от сервера клиенту и время обработки получаемых от сервера ответов на клиентском компьютере. Знание сетевых составляющих времени реакции дает возможность оценить производительность отдельных элементов сети, выявить узкие места и в случае необходимости выполнить модернизацию сети для повышения ее общей производительности. 2) Пропускная способность отражает объем данных, переданных сетью или ее частью в единицу времени. Эта характеристика говорит о скорости выполнения внутренних операций сети - передачи пакетов данных между узлами сети через различные коммутационные устройства. Сегодня все чаще и чаще возникают повышенные требования к пропускной способности каналов между клиентами сети и серверами. Это происходит по разным причинам: повышение производительности клиентских компьютеров; увеличение числа пользователей в сети; появление приложений, работающих с мультимедийной информацией, которая хранится в файлах очень больших размеров; увеличение числа сервисов, работающих в реальном масштабе времени. Следовательно, имеется потребность в экономичном решении, предоставляющем необходимую пропускную способность во всех перечисленных случаях. Ситуация усложняется еще и тем, что нужны различные технологические решения - это организация магистралей сети и подключения серверов, а также подключения настольных клиентов. Для повышения пропускной способности сети можно применить несколько способов: сегментация сети с помощью мостов и маршрутизаторов, сегментация сети с помощью коммутаторов и повышение пропускной способности самого протокола. Сегментация сети с помощью мостов или маршрутизаторов может повысить пропускную способность сегментов сети за счет их разгрузки от трафика других сегментов только в том случае, когда межсегментный трафик составляет незначительную долю от внутрисегментного, поскольку и мосты, и маршрутизаторы не обладают высокой внутренней пропускной способностью. 3) Задержка передачи определяется как задержка между моментом поступления пакета на вход какого-либо сетевого устройства или части сети и моментом появления его на выходе этого устройства. Этот параметр по смыслу близок ко времени реакции сети, но отличается тем, что всегда характеризует только сетевые этапы обработки данных без задержек обработки компьютерами сети. В данной работе все внимание уделено такому показателю функционирования сети, как пропускная способность. II. Надежность. Для оценки надежности сложных систем применяется следующий набор характеристик [19, 62, 66, 72, 73, 78, 87, 98, 102]. 1) Готовность или коэффициент готовности означает долю времени, в течение которого система может быть использована. Готовность может быть улучшена путем введения избыточности в структуру системы: ключевые элементы системы должны существовать в нескольких экземплярах, чтобы при отказе одного из них функционирование системы обеспечивали другие. Чтобы систему можно было отнести к высоконадежным, она должна как минимум обладать высокой готовностью, но и этого недостаточно. Необходимо обеспечивать сохранность данных и защиту их от искажения. Кроме того, должна поддерживаться согласованность (непротиворечивость) данных.

Анализ базовых технологии передачи данных: ATM и Fast Ethernet

Для анализа сетевого трафика с ноября 2000 года на сервере spb.runnet.ru системным администратором сети RUNNet, осуществлялся сбор данных с помощью протокола SNMP. На сервере использовались такие технологии передачи данных как: ATM 1/0, Fast Ethernet 1/0, Fast Ethernet 4/0 (1 и 4 - условные номера 2-х различных каналов, существенно отличающихся объемом загрузок). Рассмотрим эти технологии подробнее. I. ATM (Asynchronous Transfer Mode) асинхронный режим передачи - стандартизованная ITU технология коммутации пакетов фиксированной длины [59, 66, 72, 75, 80, 78, 87, 98, 102, 106].

Как известно, одним из достоинств данной технологии является возможность управления трафиком, и это один из факторов, который следует принимать во внимание при выборе абонентского оборудования. Подход, реализованный в технологии ATM, состоит в передаче любого вида трафика - компьютерного, телефонного или видео - пакетами фиксированной длины в 53 байта. Пакеты ATM называются ячейками -cell.

Основные возможности данной технологии: передача в рамках одной системы компьютерного и мультимедийного (голос, видео) трафика, чувствительного к задержкам, причем для каждого вида трафика качество обслуживания будет соответствовать его потребностям; технология предназначена для передачи данных со скоростью от 1.5 Мбит/сек до 2 Гбит/сек с гарантированной пропускной способностью для ответственных приложений; общие транспортные протоколы для локальных и глобальных сетей. Технология ATM совмещает в себе подходы двух технологий -коммутация пакетов и коммутация каналов. От первой она взяла передачу данных в виде адресуемых пакетов, от второй - использование пакетов небольшого фиксированного размера, в результате чего задержки в сети становятся более предсказуемыми. Трафик сетей имеет ярко выраженный асинхронный и пульсирующий характер, поскольку компьютер посылает пакеты в сеть в случайный момент времени, по мере возникновения в этом необходимости. При этом интенсивность посылки пакетов в сеть и их размеров могут изменяться в широких приделах [59, 66, 72, 75, 80, 78, 87, 98, 102, 106]. В любой среде с пакетной передачей, при проектировании сети ATM используется принцип статистической достаточности ресурсов. Он базируется на хорошо известном выводе теории массового обслуживания: для предоставления конкретного сервиса всем имеющимся абонентам достаточно ресурсов, которые позволяют одновременно охватить этой услугой только их часть. Действительно, трудно представить себе, что все компьютеры, подключенные к сети ATM, в одно и то же время начнут передавать данные с максимальной скоростью. При работе в Internet, когда наиболее типичным клиентским приложением является Web-браузер, «нисходящий» трафик возникает только при загрузке новой страницы. В результате отношение числа абонентов к количеству входных портов оборудования центрального офиса может составлять 8:1, 10:1 и даже больше [66, 72, 75, 80, 78, 87, 106]. Режим асинхронной передачи как нельзя лучше приспособлен для обработки трафика, интенсивность которого изменяется по тому или иному вероятностному закону. Современное оборудование, выполняющее коммутацию или мультиплексирование потоков ATM, нередко специально проектируется для транспортировки трафика без потерь ячеек в изменяющихся условиях функционирования сети. Решающая роль при этом отводится алгоритмам формирования трафика (traffic shaping) на стороне отправителя, которые обеспечивают его передачу в сеть с заранее согласованной скоростью, что уменьшает вероятность потерь ячеек или полностью исключает ее. Процедура формирования трафика, выполняемая абонентским устройством доступа, особенно актуальна в связи с тем, что несколько активных виртуальных соединений могут начинаться в одном устройстве. Распределение между ними исходящих потоков ячеек обуславливает еще большее снижение риска потери данных при резком возрастании интенсивности потоков. Подобные механизмы управления трафиком в сетях ATM позволяют поставщикам услуг доступа гарантировать определенный уровень сервиса в сети, в которую они направляют поступающий трафик. Преимуществом технологии ATM является и то, что она позволяет наращивать сетевые ресурсы по мере возникновения в этом необходимости. Подобно ряду других разработок, режим асинхронной передачи проделал путь от постоянных виртуальных соединений к коммутируемым, контроль за которыми может осуществляться на программном или аппаратном уровне. Именно переход на коммутируемую инфраструктуру обеспечивает эффективное управление крупными сетями при минимальных затратах. Говоря о расширяемости, не стоит сбрасывать со счетов и тот факт, что технология ATM практически не чувствительна к типу и полосе пропускания физической среды передачи [46, 66, 72, 75, 78, 87,95, 102, 106]. II. Технология Fast Ethernet является эволюционным развитием классической технологии Ethernet [46, 66, 72, 80, 78, 87, 95, 102, 106]. Ее основными достоинствами являются: увеличение пропускной способности сегментов сети до 100 Мб/с; сохранение метода случайного доступа Ethernet; сохранение звездообразной топологии сетей и поддержка традиционных сред передачи данных - витой пары и оптоволоконного кабеля.

Основной принцип, положенный в основу Ethernet, - случайный метод доступа к разделяемой среде передачи данных. В качестве такой среды может использоваться толстый или тонкий коаксиальный кабель, витая пара, оптоволокно или радиоволны [46, 66, 72, 80, 78, 87, 95, 102, 106].

Суть случайного метода доступа состоит в следующем. Компьютер в сети Ethernet может передавать данные по сети, только если сеть свободна, то есть если никакой другой компьютер в данный момент не занимается обменом. Поэтому важной частью технологии Ethernet является процедура определения доступности среды.

После того, как компьютер убедился, что сеть свободна, он начинает передачу, при этом «захватывает» среду. Время монопольного использования разделяемой среды одним узлом ограничивается временем передачи одного кадра. Кадр — это единица данных, которыми обмениваются компьютеры в сети Ethernet.

Представления информации в виде временных рядов и особенности статистических пакетов для их анализа

Как уже было отмечено выше, анализируемые параметры образуют случайные временные ряды. Цели изучения таких рядов могут быть различными [9, 11, 16, 56, 57, 58, 107]. Можно стремиться предсказать будущее на основании знания прошлого, управлять процессом, выяснить механизм, порождающий ряд или просто описать характерные особенности ряда. Эти цели требуют, чтобы модель ряда была идентифицирована и более или менее формально описана.

Типичные временные ряды могут складываться из следующих составляющих [9, 11, 16, 56, 57, 58, 107]: тренд, или систематическое изменение; колебание относительно тренда с большей или меньшей регулярностью; сезонная составляющая; случайная или несистематическая составляющая. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени. Сезонная составляющая - это периодически повторяющаяся компонента. Оба эти вида регулярных компонент часто присутствуют в ряде одновременно [9, 11, 16,56,57,58, 107]. Фактически большая часть теории временных рядов посвящена анализу данных, основанных на разложении данных на указанные компоненты и дальнейшем их отдельном изучении. Иногда к хорошим результатам приводит итеративный процесс: исключается грубый тренд, оценивается сезонный фактор, первоначальные данные подправляются с целью исключения сезонности, вновь оценивается тренд и т.д. Одна из основных целей анализа временных рядов состоит в прогнозировании поведения изучаемой системы на некоторый исследуемый период времени [9, 11, 16, 56, 57, 58, 107]. Известны два подхода к задаче. Первый носит чисто статистический характер: изучается прошлое поведение ряда, и, в предположении, что система не меняется во времени, предпринимаются попытки экстраполяции ряда на будущее без детального изучения системы. Это подход основан на следующих предположениях: 1) система такова, что выбранная схема хорошо отражает истинные механизмы явлений; 2) этот механизм не меняется или, во всяком случае, не меняется столь быстро, чтобы сделать неверным предположение о том, что уравнение, основанные на прошлом опыте, будут отражать и поведение системы в будущем. Решение данной задачи приводит к хорошим результатам при прогнозировании на короткий срок. Однако такой подход не дает возможности предсказать, что произойдет, если характер системы изменится. Если же необходимо глубже понять природу явления, нужно построить модель самой системы, т.е. определить в специфической форме связи, обуславливающие движение системы. Это более сложная задача, требующая большого проникновения в причинные механизмы явления и больших усилий оценивания различных параметров. Если ряд разлагается на такие компоненты как тренд, периодичность и случайную составляющую, то можно предсказать будущее каждой компоненты и, воссоединяя их, предсказать будущее всего ряда. Однако основным является предположение о взаимной независимости компонент. Методы анализа временного ряда определяются с одной стороны, целями анализа, а с другой стороны, природой формирования его значений [9, 11,16,56,57,58,107]. В табл. 3.1.1 представлены самые распространенные методы анализа временных рядов. Подробное обсуждение методов анализа временных рядов представлено в работах: [8, 9, 16, 114, 115, 117, 118, 120, 121, 123, 124]. В данной работе из представленных методов анализа применялся спектральный анализ и метод экспоненциального сглаживания. Рассмотрим статистические пакеты для анализа временных рядов. В настоящее время для анализа временных рядов существуют различные пакеты статистических программ. Существующая классификация статистических пакетов [7, 3, 2] предлагает делить их на четыре группы: интегрированные методо - ориентированные пакеты общего назначения; специализированные методо - ориентированные пакеты; предметно- (или проблемно - ) ориентированные пакеты; обучающие программы. Более подробная информация о статистических пакетах представлена в работах [7, 3, 2, 65, 97]. Наиболее популярные статистические пакеты, используемые в России, являются STATISTICA, Эвриста, SPSS и т.д. Однако данные пакеты относятся к первой группе, т.е. методо - ориентированные пакеты общего назначения, ниже рассмотрены их возможности и особенности. В диссертационной работе разработаны проблемно - ориентированные программные комплексы (см. глава 4). 1. Интегрированная система STATISTICA предназначенная для статистического анализа и визуализации данных, управления базами данных и разработки пользовательских приложений, содержащая широкий набор процедур анализа для применения в научных исследованиях, технике, бизнесе, а также специальные методы добычи данных. STATISTICA включает в себя следующие специализированные статистические модули: основные статистики и таблицы; непараметрическая статистика; дисперсионный анализ; множественная регрессия; нелинейное оценивание; анализ временных рядов и прогнозирование; кластерный анализ; факторный анализ; дискриминантный функциональный анализ; анализ длительностей жизни; каноническая корреляция; многомерное шкалирование; моделирование структурными уравнениями.

Результаты спектрального анализа трафика сети по трем интерфейсам: ATM, FastEthernet 1/0 и FastEthernet

Для выявления основных периодических составляющих временных рядов характеристик трафика сети использовался описанный в главе 3 метод анализа спектров Фурье. Были построены периодограммы для наиболее интересных характеристик и проведена оценка долей или вкладов в общий разброс периодической составляющей с данным периодом цикличности.

В табл. 4.1.1 представлены фрагменты периодограмм для загрузок каналов на входе, в которых отобраны по результатам анализа периодограмм доминирующие частоты и соответствующие им плотности (наибольшие по величине среди всего набора плотностей). В использованной системе регистрации частота fj связана с периодом, выраженный в часах, соотношением Tj-l/(]2 fj) (за один час производилось 12 измерений и интервалом в 5 мин.).

Как показали соответствующие расчеты и видно из табл. 4.1.1, для всех исследуемых характеристик в значениях временных рядов доминирующей частотой является суточная гармоника. Остальные периоды колебаний были выражены значительно менее резко, но они существенно отличались между собой для различных характеристик.

Следует отметить, что если для канала с интерфейсом ATM 1/0 основные периодические составляющие суточная и недельная (24 часа и 168 часов) берут на себя примерно 62 % вариабельности загрузки канала, то для канала с интерфейсом FastEthemet они берут на себя от 28 до 42 %, т.е. при использовании данной технологии передачи данных менее явно выражены суточная и недельная периодичность. Это связано с особенностью данной технологии, в частности с коллизиями (см. параграф 2.2). Следовательно, при описании математической модели (3.2.1) в разложении периодической составляющей g(t) необходимо учитывать большее количество гармоник для повышения точности прогноза данной модели. При анализе загрузки канала с интерфейсом FastEthemet необходимо учитывать их «большую зашумленность».

В связи с этим при дальнейшем анализе компонентов модели (3.2.1) следует учитывать наличие «детерминированной» периодической суточной составляющей, а при выборе средств обработки данных -наличие и величину других периодических колебаний.

В табл. 4.1.2 представлен фрагмент периодограммы для загрузки на входе канала с интерфейсом ATM на котором основные периодические компоненты разложения в ряд Фурье расположены по степеням убывания их интенсивностей и приведены проценты от общего разброса, приходящиеся на суммы этих компонент.

Рассмотрим ситуацию, когда наблюдается увеличение максимальных загрузок канала с течением времени, и этот рост происходит более или менее монотонно. В этом случае для обеспечения надежности работы канала нужно установить моменты времени, когда может наблюдаться сбой при приеме или отправке информации. Этот сбой становится особенно вероятным, когда загрузка канала приближается к пороговому значению.

Для моделирования тренда f(t{) воспользуемся классическим регрессионным анализом. В качестве независимой переменной выступает tt - время, а выходной переменной f(tj) - загрузка канала. Определим уравнение линейной регрессии в следующем виде:

Возможный путь анализа модели (3.2.1) по оценке медленно меняющегося по сравнению с периодическими колебаниями тренда f(i) рассмотрим на примере величины загрузки канала с интерфейсом ATM 1/0.

Как уже было отмечено, доминантным периодом для периодической составляющей модели (3.2.1) является суточная гармоника. Поэтому первоначально необходимо исключение влияния колебаний с доминирующей частотой, соответствующей периоду 24 часа. Для этого была проведена агрегация ряда за период в одни сутки. Агрегирование ряда с периодом сутки сводилось к вычислению среднесуточных значений загрузок и было эквивалентно исключению влияния этой периодической составляющей из значений ряда наблюдений.

Похожие диссертации на Алгоритмы статистической обработки информации в системах передачи данных