Содержание к диссертации
Введение
Глава 1 . Анализ функционирования Web сервера 21
1.1. Введение 21
1.2. Математические модели, используемые для описания сетевого трафика 25
1.3. Об исследовании свойств трафика Web серверов 31
1.4. О размере буфера маршрутизатора 46
1.5. Анализ архитектуры Web сервера 50
1.6. Анализ методов управления сетевым трафиком, 59
1.7. Выводы 66
Глава 2. Исследование свойств трафика Web серверов 68
2.1. Введение 68
2.2. Исследование характеристик потоков данных, генерируемых музыкальным ресурсом 69
2.3. Исследование свойств трафика, генерируемого мультимедийным порталом 77
2.4. Исследование корреляционных зависимостей потоков данных, генерируемых мультимедийным порталом 86
2.5. Выводы 95
Глава 3. Математическая модель источника нагрузки, порождающего потоки, которым соответствуют различные масштабы времени 96
3.1. Введение 96
3.2. Математическая модель источника нагрузки с «бесконечной» дисперсией времени обслуживания 98
3.3. Математическая модель, используемая при численных исследованиях 104
3.4. Оценка параметра Хёрста трафика сервера данных при различных значениях параметра к 110
3.5. Выводы 117
Глава 4. Результаты исследования эффективности некоторых методов управления скоростью передачи данных сервера 119
4.1. Введение 119
4.2. Исследование свойств трафика сервера данных при различных значениях параметра А: 122
4.3. Анализ вероятности переполнения буфера при различных параметрах системы обслуживания 125
4.4. Исследование зависимости вероятности переполнения буфера от параметров управления 129
4.5. Анализ зависимости вероятности потерь от размера буфера 142
4.6. Результаты моделирования трафика музыкального ресурса 149
4.7. Моделирование трафика мультимедийного портала 155
4.8. Выводы 160
Заключение 163
Литература
- Об исследовании свойств трафика Web серверов
- Исследование свойств трафика, генерируемого мультимедийным порталом
- Математическая модель источника нагрузки с «бесконечной» дисперсией времени обслуживания
- Анализ вероятности переполнения буфера при различных параметрах системы обслуживания
Введение к работе
Актуальность работы. В настоящее время управление перегрузками в Интернет является активной областью для исследований. Постоянно выдвигаются новые идеи для дальнейшего увеличения чувствительности и эффективности методов управления перегрузками, вводятся новые сигналы о перегрузке и т.д. Кроме того, развитие Интернет предъявляет новые требования, например, управление трафиком большого объёма, генерируемого приложениями коллективного доступа к файлам, и трафиком Web-серверов, содержащих мультимедийные файлы, которые существенно отличаются по своему размеру.
Существует две ключевые проблемы в исследовании управления перегрузками. Во-первых, требуется детальное статистическое и математическое описание Интернет трафика. Понимание его структуры и особенностей должно обеспечивать прочный фундамент для анализа новых идей по управлению трафиком и усовершенствования существующих. Во-вторых, высокая сложность системы приводит к необходимости дополнительных теоретических исследований, включающих в себя разработку математической модели сетевого трафика, имитационное моделирование и экспериментальные исследования в лабораторных условиях. Такие исследования способны в значительной степени воспроизвести сложность многоуровневой, высоко динамичной природы инфраструктуры Интернет. Но для того чтобы экспериментальные исследования и моделирование были показательными, они должны воспроизводить известные характеристики реального трафика в сети.
Анализ трафика в высокоскоростных сетях показывает, что такой трафик обладает свойствами, характерными для самоподобного трафика. За последние 20 лет этой тематике посвящено большое число работ. Отметим работы О.И. Шелухина, M. Crovella, A. Feldmann, S. Floyd, W. Leland, V. Paxson, W. Willinger, и др. Однако математический анализ моделей, основанных на самоподобных процессах, является очень сложным для анализа и создания на их основе инженерных методик управления трафиком.
С другой стороны, традиционные модели телетрафика являются хорошо изученными. Разработке математических моделей трафика, а также методов управления трафиком посвящены многочисленные работы отечественных и зарубежных исследователей: Г.П. Башарина, Ю.В. Гайдамаки, В.А. Ефимушкина, А.П. Пшеничникова, К.Е. Самуйлова, С.Н. Степанова, А.Д. Харкевича, V. Iversen, L. Kleinrock и др. Но необходимо отметить, что классические модели теории телетрафика не всегда могут обеспечить достаточно точное описание реального трафика в современных сетях передачи данных, включая долговременные зависимости.
В традиционных моделях телетрафика масштаб времени, соответствующий системе обслуживания, определяется на основании средней длительности обслуживания запросов пользователей и предполагается, что данная величина не сильно отличается для различных требований. Однако в настоящее время существенную долю ресурсов в Интернет составляют файловые серверы, содержащие данные различного типа и объёма, причём размер файлов и, соответственно, длительность их передачи отличаются значительно для файлов различного типа. Трафик, порождаемый такими серверами, можно разделить на группы в зависимости от объёма запрашиваемых данных.
Таким образом, является актуальной задача разработки математической модели, которая бы могла адекватно отображать основные свойства трафика, генерируемого современными серверами данных, но при этом была бы основана на классических и хорошо изученных моделях телетрафика. Для этого необходимо провести анализ свойств трафика реальных серверов в Интернет, чтобы выявить его основные особенности. Также необходима разработка методов управления таким трафиком для предотвращения перегрузок в сети.
Объектом исследования является сервер данных, на вход которого поступают запросы пользователей на передачу файлов различного размера.
Предметом исследования являются характеристики информационных потоков, генерируемых сервером данных, исследование которых позволяет разработать наиболее эффективные методы управления трафиком сервера.
Цель работы и задачи исследования. Целью диссертации является исследование влияния масштаба времени на свойства информационных потоков сервера данных. Для достижения поставленной цели в диссертации проведены следующие исследования:
анализ свойств реального сетевого трафика, порождаемого различными Web-серверами, на вход которых поступают запросы пользователей на передачу файлов существенно различного размера;
разработка математической модели трафика сервера данных, в которой каждому из потоков соответствует свой временной масштаб;
проведение имитационного моделирования трафика сервера данных и исследование факторов, влияющих на вероятность потерь при его обслуживании;
разработка методов управления скоростью передачи данных, поступающих от сервера, и оценка их эффективности при различных значениях параметров системы обслуживания потоков запросов.
Методы исследования. Для решения поставленных задач используются методы теории сетей связи, теории вероятностей и математической статистики, теории массового обслуживания и методы математического моделирования.
Достоверность результатов. Достоверность результатов обеспечивается адекватностью используемых математических методов, верификацией математической модели, а также сравнением аналитических результатов с результатами математического моделирования. Научная новизна результатов.
1. На основании исследования трафика двух мультимедийных ресурсов впервые предложен метод разделения трафика сервера на несколько потоков, соответствующих различным типам запросов, основанный на анализе скорости изменения функции распределения объёма запрашиваемых данных.
-
-
Разработана математическая модель, позволяющая анализировать долговременные зависимости сетевого трафика, используя компоненты, которым соответствует различный временной масштаб. В отличие от самоподобного трафика этот подход даёт возможность использовать классические модели телетрафика для исследования процессов, которые обычно описываются процессами с долговременными зависимостями.
-
Впервые предложены методы управления трафиком, основанные на индивидуальных особенностях потоков данных, генерируемых сервером. Показано, что эффективность этих методов зависит не только от свойств сетевого трафика, но и от характеристик сетевых узлов и каналов, через которые проходит этот трафик.
Личный вклад: все основные научные положения и выводы, составляющие содержание диссертации, разработаны соискателем самостоятельно. Теоретические и практические исследования, а также вытекающие из них выводы и рекомендации проведены и получены автором лично.
Практическая ценность и реализация результатов работы: выполненные в диссертационной работе исследования, а также предложенные инженерные методики могут быть использованы для управления скоростью передачи данных в современных сетях пакетной передачи данных. Это управление может осуществляться на отдельном сервере, на границе сети центра обработки данных, в котором располагаются различные серверы данных, и на границе сети оператора, предоставляющего пользователям доступ в Интернет, путём применения глубокого анализа абонентского трафика (DPI - Deep Packet Inspection).
Разработанная модель трафика сервера может использоваться при проектировании сетей для оценки потерь при обслуживании трафика сервера.
Основные результаты диссертационной работы использованы в ФГБУН Институте проблем передачи информации им. А.А. Харкевича РАН при исследованиях беспроводных сетей связи, в ООО «Информационные бизнес системы» при расчете информационной нагрузки, создаваемой Web-сервером, и определении характеристик систем, необходимых для обслуживания трафика сервера, а также применяются в учебном процессе МТУСИ на базовой кафедре Информационных сетей и систем при ИРЭ РАН.
Апробация результатов работы. Основные результаты диссертационной работы докладывались и обсуждались на международной конференции The 22-nd Belarusian winter workshop in queueing theory «Modern probabilistic methods for analysis, design and optimization of information and telecommunication networks» (Минск, 2013), на Всероссийских конференциях «Информационно- телекоммуникационные технологии и математическое моделирование высокотехнологичных систем» (Москва, РУДН, 2011, 2012), на 11-м Всероссийском симпозиуме по прикладной и промышленной математике (Сочи, 2010), на 62-й, 64-й и 66-й научных сессиях РНТОРЭС им. А.С. Попова (Москва, 2007, 2009, 2011), на 30-й, 31-й, 32-й, 33-й, 34-й и 35-й конференциях молодых ученых и специалистов ИППИ РАН «Информационные технологии и системы» (Москва, 2007 - 2012), на 5-й Московской межвузовской научно-практической конференции «Студенческая наука» (Москва, 2010), на научных семинарах кафедры Информационных сетей и систем ФГОБУ ВПО МТУСИ и научном межвузовском семинаре «Современные телекоммуникации и математическая теория телетрафика» ФГБОУ ВПО Российского университета дружбы народов (Москва, 2012).
Публикации. По теме диссертации опубликовано 16 печатных работ, в том числе 4 работы в ведущих рецензируемых научных журналах и изданиях, внесенных в перечень журналов и изданий, утвержденных ВАК.
Основные положения, выносимые на защиту. На защиту выносятся следующие положения:
-
-
-
Сетевой трафик, порождаемый мультимедийными ресурсами, имеет ярко выраженный пульсирующий характер и должен описываться процессами с долговременными зависимостями.
-
Трафик сервера данных может быть разделён на несколько потоков в соответствии с размером запрашиваемых для передачи файлов. Основные характеристики этих потоков, такие как интенсивность поступления требований и объём запрошенных данных, отличаются существенно.
-
Для описания трафика сервера данных может использоваться математическая модель, в которой, общий трафик рассматривается как линейная комбинация однородного трафика, но с различной шкалой времени для каждой компоненты. С помощью данной модели можно сгенерировать трафик с параметром Хёрста изменяющимся в широких пределах.
-
Для систем с явными потерями или систем, в которых среднее время заполнения буфера маршрутизатора, через который проходит трафик сервера, существенно меньше времени обслуживания требований (т.е. времени, которое необходимо серверу для передачи запрошенного файла), все потоки вносят вклад в вероятность потерь пропорциональный создаваемой средней нагрузке.
-
Вклад, вносимый каждым из потоков в вероятность потерь, различается в зависимости от соотношения между масштабом времени, соответствующим системе обслуживания и определяющимся временем заполнения буфера, и масштабами времени, соответствующими различным потокам.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 102 наименований и приложения. Основная часть содержит 172 страницы, включая 64 рисунка, 8 таблиц.
Об исследовании свойств трафика Web серверов
Интернет - это одна из самых больших и самых сложных систем когда-либо созданных человеком. В любой момент времени сотни миллионов компьютеров используют Интернет для обмена данными, что приводит к необычайно сильной динамике трафика. Через Интернет пользователи получают широкий диапазон услуг, (например, чтение новостей в World Wide Web, интерактивные игры, Интернет-телефония и работа на фондовой бирже в режиме реального времени), которые предъявляют существенно различные требования к сети и обладают различной динамикой. Эти услуги предоставляются в рамках взаимосвязанной системы планетарного масштаба, зависящей от часовых поясов, пользовательских настроек, разнообразия технологий и множества других факторов, что делает Интернет и его развитие поразительным феноменом. Интернет трафик является объектом интенсивных исследований последние 20 лет, но его чрезвычайная сложность и постоянное развитие до сих пор оставляет широкий диапазон открытых исследовательских проблем для инженеров и учёных, работающих в областях компьютерных наук, статистики и теории вероятности.
Кратко остановимся на основных принципах Интернет и природе его трафика. Фундаментальным элементом в организации взаимосвязи в Интернет является пакет. Пакет - это небольшая совокупность байтов (обычно от 100 до 1500 байт) которая может передаваться через Интернет независимо от одного оконечного элемента сети (источника) к другому (получателю). Взаимодействие между двумя оконечными узлами в Интернет включает в себя передачу одного или более пакетов, которые проходят через ряд каналов и маршрутизаторов, следуя от источника к получателю. Например, загрузка Web страницы включает в себя посылку HTTP (HyperText Transfer Protocol) запроса от оконечного элемента сети, на котором используется Web браузер, к оконечному элементу сети, на котором располагается Web сервер, и HTTP ответа, следующего в обратном направлении. И запрос, и ответ состоят из одного или более пакетов. Каждый пакет содержит заголовок, определяющий оконечные узлы источника и получателя, а также содержащий дополнительную служебную информацию, и полезную нагрузку (данные). Полезная нагрузка определяется URL (Uniform Resource Locator) в запросе и содержит непосредственно гипертекст Web страницы в ответе.
Мы можем рассматривать Интернет, как граф, где маршрутизаторы и каналы являются, соответственно, вершинами и рёбрами. Маршрутизаторы получают пакеты на их входных каналах и пересылают их на выходные каналы. Каждое принятие решения о маршрутизации пакета включает в себя анализ заголовка каждого пакета, определяющего узел назначения, и выбор наиболее подходящего выходного канала, основываясь на постоянно обновляющейся таблице маршрутизации. Этот подход определяет основу Интернет, и он стандартизован в Internet Protocol (IP). Каждый компьютер в Интернет посылает и получает пакеты с IP заголовком, содержащим IP адреса источника и получателя, полностью полагаясь на сеть в вопросе маршрутизации пакетов. В итоге, взаимодействие через Интернет устойчиво к авариям на каналах и маршрутизаторах, и это обеспечивается сетью прозрачно для оконечных узлов.
Основой Интернет является «коммутация пакетов», в отличие от традиционных телефонных сетей, где используется «коммутация каналов». Коммутация каналов подразумевает установление выделенного канала между двумя оконечными узлами при телефонном вызове. Этот канал статичен, т.е. всегда проходит через те же физические интерфейсы, и гарантирован, т.е. остаётся активным в течение всего времени, пока продолжается телефонный разговор. Новый телефонный вызов может быть установлен, только если доступно достаточно дополнительной ёмкости, а не за счёт завершения уже установленных вызовов или ухудшения их качества. Этот строгий подход к управлению доступом гарантирует, что перегрузка в системе может возникнуть только на этапе установления соединения. Кроме того, это приводит к крайне статичной системе, где колебания трафика ограниченны. Статистически, это позволяет использовать модели трафика, основанные на Пуассонов-ском процессе поступления вызовов и экспоненциальном распределении длительности вызова, как показано в [2, 9, 11, 13, 101].
Коммутация пакетов существенно эффективней коммутации каналов. Использование выделенных каналов предполагает резервирование фиксированного объёма ёмкости, независимо от использования канала. Дополнительная ёмкость, незадействованная каналом, не может быть использована другим вызовом. Напротив, пакеты независимы, что делает возможным всегда отправлять пакеты, используя любую доступную ёмкость. Если мы говорим о последовательности пакетов, передающихся между оконечными узлами в Интернет, как о потоке, то мы можем сказать, что при коммутации пакетов достигается мультиплексирование потоков существенно большего порядка, чем при коммутации каналов, при той же ёмкости системы. Эта высокая эффективность является платой за значительно большую динамичность и нестационарность сети, которой сложнее управлять. Проблема состоит в том, чтобы предотвратить перегрузку, которая может произойти в оконечном узле, когда источник переполняет получателя, и в промежуточном маршрутизаторе, когда он получает пакетов через входной канал больше, чем может отправить через выходной канал. С кратковременными перегрузками можно справиться, используя буферы для временного хранения пакетов, но длительная перегрузка может привести к потере пакетов, когда буфер переполняется. При организации надёжной взаимосвязи потерянные пакеты должны быть переданы повторно оконечными узлами, что снижает эффективность и может привести к ещё большей перегрузке, когда большая ёмкость выделяется для этих повторных передач.
Исследование свойств трафика, генерируемого мультимедийным порталом
Все маршрутизаторы, обслуживающие Интернет трафик, имеют буферы, в которые помещаются пакеты на время перегрузки. Применение буфера приводит к возникновению задержки ожидания в очереди и к вариации задержки. Когда буфер переполняется, это приводит к потере пакетов, если же он слишком велик, то это может снизить эффективность использования канала. Таким образом, для различных типов трафика оптимальный размер буфера будет также зависеть от основных требований конкретного типа трафика к QoS [7].
В большинстве случаев размер буфера определяется алгоритмами управления перегрузками в TCP. Обычно для выбора размера буфера используют «эмпирическое правило» (rule-ofhumb) предложенное в 1994 г. в работе [98]. Основываясь на экспериментальных данных, полученных для 8 TCP потоков при пропускной способности канала 40 Мбит/с, было показано, что размер буфера должен быть равен произведению времени, необходимого на передачу пакета и подтверждение его приёма (roundrip time - RTT), для типового потока, который проходит через маршрутизатор, и ёмкости канала маршрутизатора. Это широко известное правило: В = RTT С.
Это правило было взято за основу при разработке архитектуры маршрутизатора. Но требование буфера такого размера привело к трудности создания маршрутизаторов с каналами с высокой ёмкостью. Например, для маршрутизатора с каналом 10 Гбит/с потребуется буфер с размером, примерно, 250л 1С 10 Гбит/с = 2,5 Гбит.
Поскольку стоимость элементов памяти, на основе которых строятся буфера, снижается, можно было бы предложить использовать буферы очень больших размеров, чтобы эффективность использования канала всегда была максимальной. Но этот подход имеет несколько недостатков. Во-первых, при разработке высокоскоростных маршрутизаторов существуют архитектурные сложности при использования большого числа элементов памяти, они требуют большее электроэнергии и больше места на линейной карте. Во-вторых, применение очень больших буферов приводит к росту задержки при возникновении перегрузок. Поскольку, для протокола TCP характерно, что один поток может заполнить весь буфер на перегруженном канале, это может негативно сказаться на приложениях реального времени чувствительных к задержке (таких как, сетевые видео игры, IP телефония, видео конференции и удалённое управление). Например, для IP телефонии необходимо, чтобы полная задержка была не более 150 мс [1], а для сетевых видео игр - менее 50 мс. В некоторых случаях, большая задержка может привести к нестабильности работы алгоритмов управления перегрузками [75] и сделать невозможным использование некоторых приложений.
В настоящий момент маршрутизаторы, использующие линейные карты с общей пропускной способностью 40 Гбит/с (с одним или несколькими интерфейсами), имеют буферы размером 10 Гбит (1,25 Гбайта).
В высокоскоростных маршрутизаторах буферы строятся на основе элементов памяти, таких как динамическая оперативная память (DRAM) и статическая оперативная память (SRAM). Модули SRAM имеют максимальный размер 32 Мбит и потребляют электроэнергии примерно 250 мВт/Мбит, следовательно, для линейной карты на 40 Гбит/с потребуется 300 модулей и 2,5 кВт электроэнергии, что сделает её слишком большой, слишком дорогой и будет очень сложно организовать её охлаждение. Если же построить карту на DRAM, то потребуется только 40 Вт, потому что модули DRAM могут иметь размер до 1 Гбит и потребляют только 4 мВт/Мбит. Но время прямого доступа для DRAM приблизительно равно 50 не, поэтому их сложно использовать, т.к. пакеты минимального размера (40 байт) могут поступать через каждые 8 не. На практике в линейных картах маршрутизаторов несколько модулей DRAM используются параллельно, чтобы достичь требуемой скорости. Пакеты распределяются между модулями на основе особого статистического метода или же используется SRAM с алгоритмом обновления [70]. Большие буферы используют очень широкую DRAM шину (сотни или тысячи сигналов) с большим числом высокоскоростных контактов (сетевые процессоры и пакетные процессоры ASIC часто имеют более 2000 контактов, делая эти микросхемы большими и дорогими). Такие широкие шины требуют большого пространства на линейной карте, а контакты на современных DRAM потребляют слишком много электроэнергии. Кроме того, очень сложно создать пакетный буфер для скорости передачи данных 40 Гбит/с и выше.
Существенным преимуществом может оказаться использование небольших буферов, особенно, если было бы возможно использовать SRAM. Например, возможно построить буфер размером 512 Мбит, использую 16 внешних модулей памяти SRAM.
Хорошей возможностью является размещение памяти непосредственно на микросхеме, которая обрабатывает пакеты (сетевой процессор или ASIC). В этом случае возможен очень быстрый доступ к одному элементу памяти. Современный пакетный процессор ASIC может содержать 256 Мбит встроенной памяти DRAM.
Таким образом, понимание того какой в действительности необходим размер буфера на современных магистральных маршрутизаторах, может быть ключевым при разработке линейных карт, которые будут обрабатывать пакеты на более высоких скоростях.
Математическая модель источника нагрузки с «бесконечной» дисперсией времени обслуживания
В предыдущем разделе, основываясь на скорости изменения эмпирической функции распределения, трафик, поступающий от музыкального портала, также был разделён на 4 потока. Но характеристики этих потоков для двух различных ресурсов отличаются значительно.
Первому потоку соответствует загрузка HTML страниц, содержащих изображения в форматах JPEG и GIF различного размера, а также скриптов языка Flash и JavaScript. Наибольшее количество TCP сессий (73%) открываются для загрузки именно этих типов файлов, однако объём трафика, создаваемого этим потоком, составляет всего 7,5% от общего трафика. Второй поток составляют 30 секундные фрагменты музыкальных композиций и видео файлов (preview), необходимые для ознакомления с содержанием файлов. Этот поток создаёт почти половину от суммарной нагрузки. К третьему потоку относится загрузка отдельных трЗ-файлов, а также книг в форматах TXT, DOC и PDF. Четвёртый поток соответствует загрузке видео файлов и архивных файлов, содержащих музыкальные альбомы и аудиокниги. Суммарное количество запросов пользователей на передачу файлов 3-го и 4-го потоков составляет всего 1,9%, однако эти потоки создают 43% от общей нагрузки.
Таким образом, трафик, генерируемый сервером, может быть разделён на 4 потока со средним объёмом переданных данных, отличающимся от 8 до 19 раз. Следовательно, каждому из потоков будет соответствовать свой масштаб времени, отличающийся существенно для различных потоков.
Известно, что для самоподобных процессов дисперсия выборочного среднего затухает медленней, чем величина обратная размеру выборки [32]. Для исследования свойств дисперсии трафика рассматриваемого мультимедийного ресурса необходимо получить данные о загрузке выходного канала сервера. При проведении исследований фиксировалось время начала TCP сессии, время её окончания, а также объём переданных данных в рамках этой сессии. Предположим, что в рамках отдельной TCP сессии скорость передачи данных постоянна и равна, соответственно, отношению объёма переданных данных к длительности сессии. Тогда, просуммировав на каждом последовательном временном интервале длительностью 1 с средние скорости передачи данных от отдельных сессий, получим оценку общей скорости передачи от Web сервера.
Рассмотрим временной промежуток соответствующий последним 2-м часам наблюдений (с 11:30 до 13:30), поскольку средняя нагрузка на этом промежутке практически не менялась. Кроме того для данного промежутка времени неучтёнными окажутся лишь те TCP сессии, которые начались до 10:00 и ещё не закончились к 11:30, число которых крайне мало (за 3,5 часа наблюдений не было зафиксировано ни одной TCP сессии длительностью более 1 часа). На рис. 2.9 представлена временная зависимость скорости передачи данных в бит/с.
Из данной зависимости видно, что для трафика сервера характерны всплески нагрузки, причём некоторые из них имеют достаточно большую длительность. Коэффициент пульсаций [12] для этого трафика (отношение пиковой скорости за 1 с к средней скорости) превышает 2. 5
Для полученных значений создаваемой нагрузки вычислим зависимость изменения дисперсии выборочного среднего от времени агрегирования. Для этого от существующей последовательности, состоящей из значений скорости передачи данных вычисленных за 1 с, перейдём к новой последовательности, для которой средняя скорость будет вычисляться за больший промежуток времени - Т. Для новой последовательности, также как и для исходной, вычислим дисперсию. Зависимость дисперсии скорости передачи данных от времени агрегирования Г представлена на рис. 2.10.
Для традиционных случайных процессов дисперсия выборочного среднего уменьшается обратно пропорционально объёму выборки. Однако из рис. 2.10 видно, дисперсия трафика рассмотренного Web сервера убывает со значительно меньшей скоростью. Если полученную зависимость аппроксимировать прямой линией, то коэффициент пропорциональности (3 будет равен 0,23. Тогда параметр Хёрста Н= 1 - р/2 = 0,88. Это говорит о высокой степени самоподобности трафика сервера. !.10" I L_J ! 1 ! : ! L_i_ 1 Для анализа свойств каждого потока в отдельности проведём исследование функции распределения количества требования определённого потока, поступивших за временной промежуток длительностью t. На рис. П.6 (слева) представлена гистограмма количества запросов 1 -го потока поступивших за 1 с. Зависимость 1 - Ґ])(х) от х, где 1 (х) - эмпирическая функция распределения количества требований 1 -го потока, поступивших за 1 с, приведена на рис. 2.11. Аналогичные характеристики для 2-го потока представлены на рис. П.6 (справа) и 2.12.
Гистограммы и эмпирические функции распределения, полученные для временного промежутка 10 с, для 1-го, 2-го и 3-го потоков представлены на рис. П.7 - П.9. Аналогичные характеристики для 3-го и 4-го потоков при / = 100 с представлены на рис. П. 10 иП.П.
Анализ вероятности переполнения буфера при различных параметрах системы обслуживания
Поэтому а/А & к -1 / п —»оо при больших к или п, следовательно, при сделанных предположениях такая система будет порождать трафик, который выглядит качественно одинаково при различных масштабах временной оси, что говорит о самоподобных свойствах такого трафика [32].
Рассмотрим пример, когда А; —» ао и п = 2. Такая модель соответствует ситуации, когда на вход сервера данных поступает два класса потоков принципиально различной природы. Первый поток имеет высокую интенсивность, но длительность обслуживания мала - что соответствует обработке запросов пользователей на просмотр содержимого различных директорий, отображение результатов поиска и описания файлов. Второй поток представляет собой запросы на передачу непосредственно файлов (аудио, видео, данные). Число таких запросов значительно меньше, но объём передаваемой информации многократно превосходит объём передаваемой информации в ответ на запросы первого потока.
При п = 2 интенсивность второго потока будет равна Х2=\/к, а длительности обслуживания первого и второго потоков будут равны ах = 1 и а2=к, соответственно. Суммарная интенсивность поступающего потока будет равна Л = A,, + Xjk, а средняя длительность обслуживания А = 2/(1 + \/к). Нагрузка, создаваемая каждым из потоков, равна А,,. При к—»со интенсивность поступления требований второго потока Я, — О, а длительность обслуживания а2 — оо. Суммарная интенсивность Л — A-j, а средняя длительность обслуживания А —» 2. То есть при сделанных предположениях второй поток требований можно рассматривать, как константу, и исследовать только колебания во времени, создаваемые первым потоком, относительно второго.
Этот пример явно показывает, что при рассмотрении системы обслуживания, на вход которой поступают потоки, природа которых принципиально отличается (то есть при больших к в нашей модели), нельзя предполагать, что на входе один поток с суммарной интенсивностью и усреднённой длительности обслуживания. Поскольку изменение объёма занимаемого ресурса каждым из потоков имеет принципиально различный характер, то игнорирование реальной структуры потоков приводит к неэффективному использованию ресурсов и управления.
Рассмотрим структуру системы обслуживания. Сервер данных, имеющий выходной канал ёмкостью и, обслуживает сумму простейших потоков. Время обслуживания - постоянная величина для каждого из потоков. Рассматривается система без потерь, то есть и— х (ёмкость выходного канала многократно превосходит среднюю нагрузку в системе). Число одновременно обслуживаемых требований, определяющее объём занятой пропускной способности выходного канала, назовём состоянием исследуемой системы. При поступлении требования на обслуживание или окончании обслуживания система скачкообразно переходит из одного состояния в другое.
В данной модели мы используем несколько алгоритмов обслуживания требований. В 1-й системе обслуживания пришедшее требование получает максимальную скорость Ст и обслуживается время я,., равное количеству запрашиваемой информации х{, деленному на скорость: о,- = xt/Cm . 2-я модель обслуживания - результат моделирования системы, на вход которой поступает один пуассоновский поток с интенсивностью Л и временем обслуживания А. Данный алгоритм соответствует той ситуации, когда игнорируется реальная структура поступающих потоков, и все они рассматриваются, как один входящий пуассоновский поток с интенсивностью Л. Длительность обслуживания постоянна и равна А - средней длительности обслуживания. Данная модель - это классическая M/D/oo модель в обозначениях Кендалла. Она используется для сравнения с 1-й моделью, чтобы определить влияние, оказываемое сосуществованием нескольких потоков, различных по своей природе.
Для исследования свойств трафика, генерируемого сервером данных, для 1-й и 2-й систем обслуживания, рассмотрим функцию распределение вероятностей состояния системы. При проведении имитационного моделирования рассчитывался объем используемого ресурса выходного канала сервера данных (количество одновременно обслуживаемых запросов) - X на протяжении 2,7-10 единиц времени. За это время на обслуживание в систему поступило более 108 запросов. На рис. 3.4 изображена зависимость \-F\x) от х, где F[x) - функция распределения случайной величины X.
Из данной зависимости хорошо видно, что хвост распределения объёма задействованного ресурса для системы, на вход которой поступает несколько потоков различной природы (1-я система), затухает с такой же скоростью, что и хвост распределения для системы с одним пуассоновским потоком на входе (2-я система). У обоих распределений экспоненциальное убывание хвоста, то есть в логарифмическом масштабе они имеют вид близкий к линейному. Из рис. 3.4 видно, что для 1-й системы вероятность того, что объём задействованного ресурса будет равен некоторому значению, равна соответствующей вероятности для 2-й системы.
Из анализа функций распределения вероятностей можно сделать вывод, что при рассмотрении системы с отказами, то есть если ёмкость выходного канала сервера данных ограничена, вероятность потерь требований на обслуживание будет примерно одинакова для системы с тремя потоками различной природы на входе и для системы с одним пуассоновским потоком на входе. Несмотря на то, что потери во времени будут происходить неодинаково: для 1-й системы рост потерь будет наблюдаться в периоды с высокой средний нагрузкой, а для 2-й системы потери будут происходить более регулярно, общее количество потерянных требований будет примерно одинаковым для обеих систем. Эти выводы также подтверждаются результатами численного моделирования системы с потерями, представленными в [24] и аналитической формулой (3.7) для дисперсии нагрузки в системе.
Похожие диссертации на Применение масштаба времени для описания, анализа свойств и управления информационными потоками сервера данных
-
-
-