Моделирование процессов балансировки нагрузки мультикластерных СУБД консервативного типа Минязев, Ринат Шавкатович

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Минязев, Ринат Шавкатович. Моделирование процессов балансировки нагрузки мультикластерных СУБД консервативного типа : диссертация ... кандидата технических наук : 05.13.18 / Минязев Ринат Шавкатович; [Место защиты: Казан. гос. техн. ун-т им. А.Н. Туполева].- Казань, 2012.- 115 с.: ил. РГБ ОД, 61 12-5/3228

Введение к работе

Актуальность темы. В сфере интеллектуальной обработки данных принят ориентир на использование высокопроизводительных параллельных СУБД: корпоративные базы данных (Stonebraker М, Кузнецов С.Д.), электронная коммерция (Agrawal R., Xu Y.), электронные библиотеки (Елизаров A.M., Когалов-ский М.Р.), геоинформационные системы (Ризаев И.С., Цветков В.Я.), социальные сети, научные базы данных (DeWitt D., Велихов П.Е., Бартунов О.С). Такие системы ориентированы на функционирование на платформах вычислительных кластеров. Имеются исследовательские и коммерческие проекты параллельных СУБД: DB2 Parallel Edition, Greenplum, NonStop SQL, Teradata, MySQL Cluster, PG Cluster, Oracle EXADATA, Sybase IQ, Microsoft SQL server (проект Madison), NEDO-100, Омега и др. Большинство из них - универсально, ориентировано на решение широкого круга задач в различных предметных областях. Для них характерно выполнение множества сравнительно простых операций типа select, insert, delete над динамически изменяемыми данными.

Актуализация задач аналитической обработки данных (OLAP), создания хранилищ данных (data warehouse), построения систем поддержки принятия решений (DSS), интеллектуальный анализ данных (data mining) определяют необходимость построения специализированных высокопроизводительных параллельных СУБД консервативного типа (с эпизодическим обновлением баз данных в специально выделяемое время). Для них характерны работа с базами данных большого объема со множеством отношений, большое число пользователей, высокий удельный вес сложных запросов типа select-project-join с несколькими уровнями вложенности запросов.

Серьезными проблемами для любых параллельных СУБД являются: масштабируемость - как по числу узлов, так и по числу пользователей; обеспечение отказоустойчивости; балансировка нагрузки и размещение данных между узлами (Stonebraker М., Szalay A., Bell G.). Среди перечисленных проблема балансировки нагрузки занимает ключевое место (Lakshmi M.S., Yu P.S., Лепи-хов А.В.). Именно с ее решением связывается повышение эффективности и масштабируемости параллельной СУБД.

Развитие теории параллельных СУБД кластерного типа требует детального анализа динамики таких систем. Только знание особенностей динамики СУБД-кластеров позволит дать объективные рекомендации к их построению. Проведение подобных исследований затруднено отсутствием специализированных инструментальных средств моделирования в составе ранее перечисленных разработок. Исключением является проект параллельной СУБД Clusterix (Абрамов Е.В.). По сути это - специализированная система моделирования кластерных СУБД консервативного типа с регулярным планом обработки запросов. Ее использование как инструментального средства моделирования позволило установить ряд закономерностей по масштабируемости и др. для СУБД-кластеров указанного типа на платформе Pentium-Ill (Райхлин В. А., Абрамов Е.В.). Настоящая работа расширяет область исследований на случай современных платформ.

Объект исследования - мультикластерные параллельные системы управления консервативными базами данных с регулярным планом обработки запросов, функционирующие на платформах вычислительных кластеров заданной сложности (по числу узлов) с многоядерными SMP-узлами.

Предмет исследования - правомерность перехода на позиции мультикла-стерных СУБД указанного типа; рекомендации по декомпозиции кластера в целом на составляющие монокластеры и выбору архитектуры монокластера; моделирование процесса распределения запросов между монокластерами; инструментальная система моделирования для проведения необходимого вычислительного эксперимента.

Цель диссертационной работы - повышение эффективности (по критерию «производительность/сложность») использования вычислительных кластеров заданной сложности с многоядерными SMP-узлами при реализации на них параллельных СУБД консервативного типа с регулярным планом обработки запроса.

Решаемая научная задача - комплексная задача моделирования процессов балансировки нагрузки в мультикластерных СУБД ранее указанного типа. В диссертации решение этой задачи связывается с выбором архитектуры монокластера с многоядерными SMP-узлами, его сложности и способа динамического распределения запросов между монокластерами в процессе непрерывной обработки потока запросов от множества пользователей.

Эта комплексная задача разбивается на 3 подзадачи:

обоснование правомерности перехода на позиции мультикластерных СУБД консервативного типа с регулярным планом обработки запросов в составляющих монокластерах на многоядерных SMP -узлах, выработка рекомендаций по декомпозиции кластера в целом на составляющие монокластеры и выбору архитектуры монокластера;
построение математической модели и релевантного вычислительного метода балансировки нагрузки в мультикластерных СУБД указанного типа согласно выявленным в п. 1 ограничениям и проведение сравнительного вычислительного эксперимента;
построение имитационной модели исследуемого объекта (параллельной СУБД рассматриваемого типа) как инструментальной системы моделирования с необходимыми измерительными средствами.

Методы исследования. Исследования проводились с привлечением методологии вычислительного эксперимента; теории системного и параллельного программирования; теории баз данных; методов обработки временных рядов; модальной логики с использованием семантики Крипке и системы нечеткого вывода; принципов построения генетических алгоритмов; методов статистической обработки результатов эксперимента.

Основные научные результаты, полученные автором и выносимые на защиту:

1. Платформо-независимость качественных закономерностей масштабируе-

мости монокластеров параллельных СУБД консервативного типа с регулярным планом обработки запросов, выявленных ранее (Райхлин В.А., Абрамов Е.В.) для случая вычислительных кластеров с одноядерными узлами; рекомендации по декомпозиции базового кластера в целом на монокластеры; наиболее эффективные конфигурации таких монокластеров и их временные доминанты для случая многоядерных узлов; эффективность выбора для мультикластерных СУБД регулярного плана обработки запросов в составляющих кластерах и существенное улучшение масштабируемости с переходом на позиции мультикластеризации.

Построенная с учетом выявленных закономерностей модально-логическая математическая модель распределения запросов между монокластерами с использованием семантики Крипке и системы нечеткого вывода; релевантный ей приближенный метод вычисления весовых коэффициентов; оценка ее эффективности в сравнении со множеством других вариантов распределения запросов в мультикластерных СУБД на НРС-платформе; выравнивание задержек (при увеличении их значений) получения ответов на поступающие запросы с ростом числа пользователей.
Специализированная инструментальная система Clusterix-I моделирования процессов в мультикластерных СУБД консервативного типа с регулярным планом обработки запросов в монокластерах на многоядерных платформах ПК- и НРС-кластеров.

Научная новизна работы состоит в следующем:

Обоснована правомерность перехода от монокластерных к мультиклас-терным СУБД при неизменной сложности базового вычислительного кластера. Это достигнуто выявлением временных доминант в монокластере и распространением гипотезы масштабируемости для монокластерных СУБД консервативного типа с регулярным планом обработки запросов на случай использования многоядерных SMP-узлов.
Построена математическая модель процесса распределения запросов между монокластерами с применением семантики Крипке и механизмов нечеткого вывода. Эта модель отличается от ранее использованной для динамической реструктуризации параллельных СУБД (Райхлин В.А., Шагеев Д.О.) изменением семантики миров Крипке (теперь это - миры параметров, а не миры архитектур), специфичным выбором характеристик предпочтения на множестве таких миров (весовые коэффициенты параметров) и критерия предпочтения на множестве монокластеров (минимум веса очереди запросов).
Разработан приближенный метод вычисления весовых коэффициентов с использованием базы знаний, найденной генетическим путем для случая отсутствия совмещений при обработке соседних запросов в монокластерах. Отличительной особенностью примененного генетического алгоритма является релевантный выбор критерия поиска.

Обоснованность и достоверность результатов диссертации. Правомерность предложенного подхода к повышению эффективности использования вычислительных кластеров заданной сложности с многоядерными SMP-узлами при

реализации на них параллельных СУБД консервативного типа с регулярным планом обработки запросов и достоверность всех полученных результатов подтверждены многоплановым вычислительным экспериментом на специально разработанном для этой цели инструментальном средстве моделирования. При обработке результатов эксперимента использованы принятые методы обработки статистики. В основу построения математической модели распределения запросов положен математический аппарат миров Крипке, нечеткой логики, генетических алгоритмов.

Практическую ценность работы составляют:

практические рекомендации по построению мультикластерных СУБД консервативного типа, вытекающие из проведенных исследований;
разработанная специализированная инструментальная система моделирования Clusterix-I, которая может быть использована как в учебном процессе при изучении архитектурно-алгоритмических основ параллельных вычислений, так и при проведении дальнейших оригинальных исследований динамики таких СУБД.

Результаты диссертации использованы в учебном процессе кафедры Компьютерных систем КНИТУ-КАИ.

Апробация работы. Основные результаты работы докладывались и обсуждались на международной молодежной научной конференции «Туполевские чтения» (Казань, 2008 г.), республиканском научном семинаре АН РТ «Методы моделирования» (Казань, 2009-2011 гг.), международных конференциях «Высокопроизводительные параллельные вычисления на кластерных системах» НРС-2008, 2009, 2011 (Казань, 2008 г.; Владимир, 2009 г.; Нижний Новгород, 2011 г.).

Публикации. Результаты диссертационной работы отражены в 7 публикациях, в том числе 3 - в трудах конференций, 4 - научные статьи (из них 2 - в рецензируемых журналах).

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, библиографического списка и приложений.

Моделирование процессов балансировки нагрузки мультикластерных СУБД консервативного типа Минязев, Ринат Шавкатович

Похожие диссертации на Моделирование процессов балансировки нагрузки мультикластерных СУБД консервативного типа