Содержание к диссертации
Введение
Глава 1. Существующие методы обеспечения доступности информационных ресурсов в территориально-распределенных автоматизированных системах обработки данных 14
1.1. Особенности построения территориально-распределенных автоматизированных систем обработки данных 14
1.2. Доступность информационных ресурсов как составляющая информационной безопасности автоматизированных систем 37
1.3. Факторы снижения доступности информационных ресурсов и существующие методы ее повышения : 38
1.4 Оценка показателей обеспечения доступности информационных ресурсов 44
1.5. Постановка задачи оптимизации доступности информационных ресурсов в территориально- распределенных автоматизированных системах обработки данных 50
Краткие выводы 57
Глава 2. Методы резервирования, ориентированные на решение текущей функциональной задачи в территориально- распределенных автоматизированных системах обработки данных 60
2.1. Анализ существующих стратегий резервирования 60
2.2. Анализ дисциплин обработки запросов в вычислительных сетях при организации систем резервирования с целью повышения вероятности успешного решения функциональных задач 71
2.3. Методы расчета вероятностных и временных характеристик каналов связи, организованных через Интернет 78
2.4 Использование методов организации резервирования, ориентированных на успешное решение функциональных задач, в территориально-распределенных автоматизированных системах обработки данных 87
Краткие выводы. 92
Глава 3. Методы восстановительного резервирования в территориально-распределенных автоматизированных системах обработки данных 94
3.1. Анализ существующих методов восстановительного резервирования 94
3.2. Основные характеристики восстановительного резервирования ПО
3.3. Использование методов восстановительного резервирования в глобальных сетях 123 Краткие выводы 131
Глава 4. Методы оптимизации уровня доступности информационных ресурсов в территориально-распределенных автоматизированных системах обработки данных 133
4.1. Территориальная распределенность средств хранения и обработки данных как метод защиты информационных ресурсов и элементов инфраструктуры от аварий и катастроф 133
4.2. Организация распределенных центров обработки данных 144
4.3. Методы целенаправленного выбора варианта защиты информационных ресурсов и элементов инфраструктуры от аварий и катастроф 159
4.4. Оптимизация процесса репликации данных в территориально-распределенной автоматизированной системе с использованием моделей и протоколов непротиворечивости 188
4.5. Комплекс методов решения задачи оптимизации подсистемы обеспечения доступности информационных ресурсов в территориально-распределенных автоматизированных системах обработки данных 207
4.6 Результаты практической реализации предложенных методов 209
Краткие выводы 211
Заключение 212
Литература
- Особенности построения территориально-распределенных автоматизированных систем обработки данных
- Анализ существующих стратегий резервирования
- Анализ существующих методов восстановительного резервирования
- Территориальная распределенность средств хранения и обработки данных как метод защиты информационных ресурсов и элементов инфраструктуры от аварий и катастроф
Введение к работе
Актуальность работы. В современных условиях глобализации бизнеса,
требующего резкого снижения затрат на выполнение производственных
функций, мобильности персонала, возможности доступа к требуемой
информации и работы с ней в любой точке мира, повышение эффективности
инвестиций в информатизацию организаций и предприятий обеспечивается
многими факторами, одним из которых является повышение уровней
сохранности и доступности информационных ресурсов (информационных
массивов, баз знаний и программных модулей) и эффективное управление ими.
В условиях рыночной экономики и развивающейся конкуренции,
эффективность корпоративных территориально-распределенных
автоматизированных систем обработки данных (ТР АСОД) все более связывается с обеспечением непрерывности поддерживаемых ими бизнес-процессов. При этом автоматизированная система должна обеспечивать определенный уровень сохранности и доступности информационных ресурсов (ИР) при ограничениях на стоимость создания и эксплуатации данной системы.
При увеличении масштабов ТР АСОД, организации доступа к корпоративным информационным ресурсам из сети Интернет, использовании каналов сети Интернет для организации связи между удаленными площадками ТР АСОД, наличии удаленных мобильных пользователей, увеличивается риск разрушения ИР, потери доступа к ИР по причине выхода из строя аппаратного обеспечения и каналов связи. Это приводит к появлению ряда новых угроз для информационной безопасности систем, снижению эффективности поддерживаемых системой производственных процессов. С другой стороны, использование инфраструктуры глобальных сетей, в том числе сети Интернет, создает возможности применения новых и модификации уже известных методов повышения сохранности и доступности информационных массивов, баз знаний и программных модулей. Комплексное решение задач повышения сохранности и доступности ИР в ТР АСОД может быть обеспечено разработкой и широким применением формализованных моделей и прикладных методов
анализа и синтеза механизмов повышения катастрофо- и отказоустойчивости ТР АСОД, использующих каналы связи глобальной сети Интернет.
Существующие в настоящее время модели и методы в основном ориентированы на локальную оптимизацию отдельных характеристик доступности ИР и поддерживающей инфраструктуры (аппаратного обеспечения, каналов связи и т.д.), а также сохранности ИР и не обеспечивают комплексного, взаимоувязанного решения по оптимизации уровней доступности и сохранности ИР при проектировании ТР АСОД.
В этой связи выбранная тема диссертационной работы является весьма актуальной.
Цель работы. Целью диссертационной работы является исследование и разработка комплекса моделей и методов оптимизации уровней сохранности и доступности информационных ресурсов (ИР) в корпоративных территориально-распределенных автоматизированных системах обработки данных (ТР АСОД), использующих каналы связи сети Интернет. В работе рассматривается класс корпоративных автоматизированных систем, обеспечивающих автоматизацию организационно-экономической деятельности современного предприятия (организации).
Для достижения указанной цели в работе решены следующие задачи:
Исследованы особенности построения ТР АСОД (в том числе использующих каналы связи сети Интернет), проведен анализ основных факторов, приводящих к нарушению сохранности и доступности ИР в подобных системах.
Проведен анализ существующих методов противодействия нарушению сохранности и доступности ИР в пределах локальных хостов и в локальных сетях.
Рассмотрены особенности используемых в настоящее время технологий повышения уровней сохранности и доступности ИР в ТР АСОД, предложены области эффективного применения и проведена доработка существующих методов оптимизации оперативного и восстановительного
7 резервирования с учетом особенностей ТР АСОД, использующих каналы связи сети Интернет.
Разработана методика выбора оптимального уровня защиты центра обработки данных от аварий и катастроф на основе метода векторной стратификации.
На основе полученных результатов предложена методика комплексной оптимизации уровня сохранности и доступности ИР в ТР АСОД с использованием четырехэтапной оптимизации:
Этап 1 - выбор варианта защиты центра обработки данных от аварий и катастроф на основе метода векторной стратификации;
Этап 2 - выбор оптимальной модели и протокола непротиворечивости при организации репликации между удаленными центрами обработки данных в ТР АСОД;
Этап 3 — выбор оптимальной схемы организации оперативного резервирования в структуре, сформированной на этапах 1 и 2.; Этап 4 - выбор оптимальной схемы организации восстановительного резервирования в структуре, сформированной на этапах 1, 2 и 3. Полученные результаты использованы в ходе проектирования ряда корпоративных подсистем информационной безопасности, связанных с резервированием и восстановлением ИР.
Методы исследований. Основные результаты диссертационной работы получены и математически обоснованы с использованием аппарата теории множеств, теории вероятности, теории графов, математического программирования и оптимизации на сетях и графах, теории анализа риска, теории комплексного оценивания многомерных объектов.
Связь диссертации с планами научных работ. Диссертационная работа выполнена в соответствии с исследованиями в рамках проблем РАН 2.4.5 «Сложные технические системы и информационно-управляющие комплексы; 3.3 «Системы автоматизации, математические методы исследования сложных управляющих систем и процессов, CALS-технологии», а также Программ №14,
8 №15 и №16 отделения ЭММПУ РАН «Проблемы анализа и синтеза модульных интегрированных технических и социальных систем управления».
Научная новизна. В диссертационной работе впервые разработана комплексная методика оптимизации уровней сохранности и доступности ИР в ТР АСОД, позволяющая создавать экономически обоснованные подсистемы защиты. В результате проведенных научных исследований, анализа современных требований к ТР АСОД впервые были получены следующие результаты:
сформулированы требования к созданию отказоустойчивых и катастрофоустойчивых ТР АСОД, обеспечивающих необходимые уровни сохранности и доступности информационных ресурсов для авторизованных пользователей;
проведен анализ основных факторов и характеристик, определяющих доступность и сохранность информационных ресурсов в ТР АСОД, использующих каналы связи сети Интернет;
поставлен комплекс задач для оптимизации сохранности и доступности информационных ресурсов в территориально-распределенных автоматизированных системах, построенных с использованием каналов связи сети Интернет;
проведен анализ используемых в настоящее время методов защиты центров обработки данных от аварий и катастроф, проведена классификация основных схем защиты;
разработаны модели и схемы резервирования информационных массивов и ІТ-сервисов в территориально-распределенных системах обработки данных;
- предложены методы использования разработанных математических
моделей для выбора оптимальной дисциплины обработки запросов в сети ЭВМ,
оптимизации использования нескольких центров обработки данных в режиме
оперативного резервирования, а также для оптимизации оперативного
резервирования узлов локальной сети в пределах одного центра обработки
данных;
разработаны методы расчета вероятностных, временных и стоимостных характеристик для основных схем оперативного резервирования информационных массивов и IT-сервисов в ТР АСОД, использующих для передачи данных каналы связи сети Интернет. Получены аналитические выражения для расчета вероятностных и временных характеристик каналов связи, организованных через сеть Интернет;
исследованы методы восстановительного резервирования, используемые в сетях ЭВМ, получены аналитические выражения для расчета основных вероятностных и временных характеристик восстановительного резервирования при использовании основных стратегий восстановления в сетях ЭВМ с выделенными центрами обработки данных, функционирующих с использованием каналов глобальных сетей связи;
разработаны модель и методика комплексного оценивания вариантов системы защиты центра обработки данных и выбора наилучшего из них с использованием метода векторной стратификации;
предложены методы оптимизации функционирования территориально-распределенных автоматизированных систем с использованием моделей и протоколов непротиворечивости;
разработана методика сравнительного анализа различных протоколов непротиворечивости для ТР АСОД реального времени, построенных на базе территориально-распределенного хранилища данных, использующего для связи отдельных узлов каналы глобальных сетей передачи данных;
- на основе описанных выше результатов разработана методика
четырехэтапной комплексной оптимизации уровней сохранности и доступности
ИР в ТР АСОД, использующих для передачи данных каналы связи сети
Интернет.
Практическая ценность. Предложенные в работе модели и методы формируют научно-методическое обеспечение эффективных средств повышения уровней сохранности и доступности информационных ресурсов в ТР АСОД, использующих каналы сети Интернет. Использование данных
10 средств позволяет уменьшить затраты на разработку необходимых инструментальных средств на 30-50%, снизить затраты на обеспечение заданных уровней сохранности и доступности информационных ресурсов не менее, чем в 3-5 раз. При заданных затратах данные уровни повышаются не менее, чем на 30%.
Разработанные методы, алгоритмы и инструментальные средства могут быть использованы при разработке коммерческих ТР АСОД широкого класса и назначения в научно-исследовательских, проектных организациях и вычислительных центрах, коммерческих организациях, разрабатывающих и внедряющих системы данного класса.
Внедрение. Эффективность разработанных в диссертационный работе моделей и методов подтверждена положительным опытом их использования при проектировании и создании Корпоративной информационной системы управления (КИСУ) ОАО «ФСК ЕЭС». Предложенные модели и методы расчета оптимальной организации оперативного и восстановительного резервирования программных модулей и информационных массивов, а также элементов поддерживающей инфраструктуры были использованы в ходе работ по проектированию ИТ-инфраструктуры ОАО «ФСК ЕЭС», в частности, при создании распределенного вычислительного комплекса (серверного ядра КИСУ), а также при создании системы информационной безопасности КИСУ ОАО «ФСК ЕЭС».
Разработанные в данной диссертационной работе модели и методы также были использованы в ходе разработки проектных решений при создании Комплексной Системы Информационной Безопасности центрального филиала ОАО «Ростелеком». Предлагаемые в работе модели и методы выбора оптимальных схем организации оперативного и восстановительного резервирования информационных ресурсов и ГГ-сервисов использовались при создании подсистемы резервного копирования.
Использование разработанных методов и средств позволило существенно сократить временные и стоимостные затраты на разработку и эксплуатацию
подсистем информационной безопасности и повысить качество вырабатываемых проектных решений. Официально подтвержденный экономический эффект от внедрения разработанных моделей, методов и инструментальных средств составил свыше 1 800 000 (одного миллиона восьмисот тысяч) рублей.
Личный вклад. Все основные положения и результаты, выносимые на защиту, получены автором самостоятельно.
Апробация результатов диссертации. Основные результаты диссертационной работы докладывались, обсуждались и опубликованы в трудах следующих конференций: [4], [13], [16], [18], [25], [51], [78], [79], [80]. Результаты работы автор докладывал также на других совещаниях и конференциях.
Публикации. Результаты проведенных автором научных исследований опубликованы в 12 научных трудах.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложений и содержит 238 страниц машинописного текста, 69 рисунков, 18 таблиц, а также список литературы (80 наименований).
Краткое содержание работы.
Во введении обоснована актуальность темы работы, сформулированы цель исследований и основные задачи, рассматриваемые в работе, представлена научная новизна, основные результаты и структура диссертационной работы.
В первой главе представлен обзор литературы, посвященный выбранной теме, в котором рассмотрены: особенности построения территориально-распределенных автоматизированных систем обработки данных; доступность информационных ресурсов и поддерживающих служб определена как составляющая информационной безопасности автоматизированных систем; факторы, способствующие снижению доступности информационных ресурсов
12 и существующие методы ее повышения; показатели обеспечения доступности информационных ресурсов.
На основе проведенного анализа поставлена задача оптимизации доступности информационных ресурсов в территориально-распределенных автоматизированных системах обработки данных. Рассмотрены структура и особенности сети Интернет на современном этапе развития. Показано, что особенности построения ТР АСОД на базе каналов сети Интернет требуют не только существенной модификации известных методов повышения сохранности и доступности программного и информационного обеспечения, но и разработки новых методов.
Во второй главе рассмотрены методы резервирования, ориентированные на успешное решение функциональных задач в территориально-распределенных автоматизированных системах обработки данных. Проведен анализ существующих стратегий резервирования, ориентированных на успешное решение текущей задачи. Проведена классификация и анализ основных стратегий оперативного резервирования информационных массивов и программных модулей, используемых в узлах вычислительных сетей. Проведен сравнительный анализ основных дисциплин обработки запросов при организации оперативного резервирования в вычислительных сетях. Получены аналитические выражения для расчета основных вероятностных и временных характеристик канала связи, организованного через сеть Интернет. Рассмотрены особенности использования методов организации резервирования, ориентированных на успешное решение функциональных задач в территориально-распределенных автоматизированных системах обработки данных.
В третьей главе рассматриваются методы восстановительного резервирования информационных массивов и программных модулей в ТР АСОД, проводится их классификация и анализ. Предложены формализованные модели резервирования-восстановления при решении различных задач в территориально-распределенной автоматизированной системе, а также методы
13 расчета и анализа основных вероятностных и временных характеристик процесса восстановления с учетом возможности разрушения копий восстановительного резерва в процессе восстановления.
Исследованы варианты использования восстановительного резервирования в качестве замены оперативного. Показана необходимость использования методов восстановительного резервирования в дополнение к оперативному. Предложены методы резервирования восстановительных данных, проводится анализ и оптимизация стратегий резервирования.
В четвертой главе предложен комплекс методов оптимизации подсистемы обеспечения доступности информационных ресурсов в территориально-распределенных автоматизированных системах обработки данных. При этом территориальная распределенность средств хранения и обработки данных рассматривается как метод защиты информационных ресурсов и элементов инфраструктуры от аварий и катастроф.
Исследованы основные подходы к организации распределенных центров
обработки данных. Предложен метод целенаправленного выбора варианта
защиты информационных ресурсов и элементов инфраструктуры от аварий и
катастроф. Рассмотрен метод оптимизации процесса репликации данных в
территориально-распределенной автоматизированной системе с
использованием моделей и протоколов непротиворечивости.
Разработан комплекс методов решения задачи оптимизации уровня доступности информационных ресурсов в территориально-распределенных автоматизированных системах обработки данных. Рассмотрены результаты практической реализации предложенного комплекса методов.
Особенности построения территориально-распределенных автоматизированных систем обработки данных
В настоящее время IT-инфраструктура многих крупных компаний значительно усложнилась и превратилась в географически распределенную глобальную структуру. Этот процесс в силу объективных причин затрагивает все большее число компаний. Подобная IT-инфраструктура постепенно становится плохо управляемой и плохо синхронизируемой с центральным офисом, требующей при этом значительных затрат на ее поддержание [1]. При проектировании современных территориально-распределенных автоматизированных систем обычно руководствуются требованиями, выдвигаемыми бизнесом предприятия. Они, независимо от размеров компании, попадают в 4 категории [1], [2], [3],[4]:
1. Консолидация систем хранения — переход от разрозненных, фрагментированных систем к централизованным системам, позволяющим консолидировать затраты, поддержку и высококвалифицированный персонал в центрах обработки данных. Множество систем хранения рассматривается как один ресурс, динамически выделяемый в зависимости от актуальных потребностей. При этом снижаются затраты на поддержку и сопровождение, появляется возможность централизованного контроля за системами. Чем выше уровень централизации управления, тем меньше затрат идет на инсталляцию и поддержание функционирования этой инфраструктуры (например, за счет отказа от поддержания в удаленных офисах функционала по резервному копированию/восстановлению данных, почтовых серверов и др.). Если развивать эту аналогию далее, удаленные офисы превращаются в тонких клиентов вместо рабочих станций в клиент-серверной архитектуре.
2. Совместное использование данных позволяет снизить время отклика сети, доступность информации, программного обеспечения, уменьшить дублирование данных, а также организовать множественный доступ к данным по технологии SAN, осуществлять балансировку нагрузки, уменьшить необходимый ресурс хранения данных, упростить резервирование данных и снизить затраты на инфраструктуру хранения.
3. Резервирование данных и сервисов. Рост ценности данных влечет за собой необходимость обеспечения их сохранности и доступности. Системным методом решения данной задачи является использование дополнительных ресурсов (копий или предыстории информационных массивов и программных модулей, каналов связи и т.д.) для резервирования, что позволяет значительно уменьшить влияние разрушающих эти элементы факторов на эффективность функционирования системы в целом.
4. Аварийное восстановление данных. Потеря доступности к важным данным из-за аварий и катастроф может обойтись компании в огромную сумму. Организационно-технические мероприятия по защите от катастроф позволяют уйти от единой точки потери данных, которая возникает благодаря консолидации хранения и обработки данных в едином центре. При этом процесс обработки данных должен быть восстановлен за минимальное время. Для возобновления процесса обработки данных после аварии или катастрофы должны быть восстановлены как информационные массивы и программные модули (из восстановительного резерва), так и инфраструктура (сервера, сеть передачи данных, эл. питание, кондиционирование и т.д.), необходимые для работы автоматизированной системы. Общая схема типичной территориально-распределеннои IT-инфраструктуры приведена на рис. 1.1.1.
Территориально-распределенная корпоративная 1Т-инфраструктура представляет собой наложенную сеть связи, объединяющую локальные сети филиалов компании. При этом данная наложенная сеть строится поверх транспортной сети, состоящей из совокупности собственных, арендованных и общедоступных WAN каналов (в т.ч. каналов связи сети Интернет) [3]. В качестве каналов связи на физическом уровне используются: - Волоконно-оптические линии связи (ВОЛС); - Радиорелейная связь (РРЛ); - Спутниковая связь; - Кабельные системы; - ВЧ связь по высоковольтным линиям (ВЛ). Территориально-распределенная IT-инфраструктура организации предназначена для решения следующих основных задач: - формирование единого телекоммуникационного пространства организации; - построение универсальной транспортной среды для подключения пользовательских сетей; - обеспечение реализации технологических и бизнес-процессов организации; - предоставление доступа к информационным ресурсам организации заинтересованным государственным и частным лицам; - обеспечение современного уровня управления и мониторинга телекоммуникационных ресурсов организации.
Общая схема территориально-рас пред еденной корпоративной сети, построенной с использованием каналов сети Интернет.
Требования, которые предъявлялись разработчикам при создании сети Интернет, дают ключ к пониманию принципов ее построения, структуры и особенностей функционирования. Краткий обзор истории возникновения, основных этапов развития и особенностей организации на современном этапе инфраструктуры сети Интернет приведен в Приложении 1. Сеть Интернет - это глобальная сеть, состоящая из автономных систем, использующих для передачи стек протоколов TCP/IP, и соединенных между собой маршрутизаторами, называемыми граничными шлюзами [5]. В качестве автономных систем могут выступать опорные сети, региональные сети и сети пользователей. Автономная система — это сеть, находящаяся под независимым управлением, такая как сеть университета или коммерческой компании.
Структурная схема современной сети Интернет представлена на рис. 1.1.2. Основу сети Интернет составляют высокоскоростные магистральные опорные сети, соединенные между собой через точки обмена трафиком -хабы в терминологии SFN - модели [6]. Региональные сети, как правило, подключены к точкам обмена трафиком, соединенным с несколькими опорными сетями. Конечными пользователями услуг Интернет называются юридические или физические лица, потребляющие или намеренные потребить интернет-услуги, не предполагающие использовать эти услуги для непосредственной перепродажи третьим лицам [7].
Провайдером (оператором интернет-доступа) называется оператор связи, предоставляющий услуги доступа к сети Интернет, т.е. услуги передачи данных между оконечным оборудованием пользователя или сетью передачи данных другого оператора связи и любой информационно-вычислительной сетью (системой) или отдельной ЭВМ, подключенной к сети Интернет. Провайдер интернет-доступа, предоставляющий другому провайдеру интернет-доступа возможность обеспечения своим клиентам доступа к ресурсам сети Интернет, находящимся вне сети данного оператора, называется UpStream провайдером.
Анализ существующих стратегий резервирования
Для повышения уровня доступности информационных массивов и программных модулей в пределах одного узла вычислительной сети традиционно выделяют три стратегии резервирования [24, 28, 31, 32, 33]. При этом в качестве узла могут рассматриваться отдельный сервер, серверный кластер, территориально-распределенный кластер, центр обработки данных. Традиционно выделяют следующие основные стратегии резервирования: Стратегия 1. Используется некоторое число копий массива. Если основной массив разрушился, то используется первая его копия. Если и она разрушилась, то используется следующая копия и т.д. Стратегия 1 может использоваться для массивов постоянных и текущих данных. Стратегия 2. При использовании этой стратегии вместо копий информационного массива хранятся его предыстории — предыдущие поколения массива и соответствующие им массивы изменений. При разрушении текущего массива происходит его восстановление по предыстории с помощью программы обновления. Стратегия 3. Смешанная стратегия, предполагающая хранение как копий, так и предыстории. Резервирование информации производится методом постепенного замещения. Измененные части массива помещаются в копию оригинала. Оригинал удаляется лишь после полного завершения обновления и его подтверждения. Две и более идентичные копии имеются только во время обновления. Рассмотрим указанные стратегии более подробно: Основными характеристиками стратегий резервирования являются: Pj - вероятность успешного решения задачи за единичный промежуток времени при использовании j-й стратегии резервирования (j=l,2,3); мПг ] - среднее время решения задачи при условии ее успешного решения; мГг71] - среднее время до разрушения массива и его копий и (или) предыстории; М[Т] - среднее время решения задачи или планируемое время доступа к ресурсам системы; Получим аналитические выражения для определения основных временных и вероятностных характеристик различных стратегий резервирования для случая, когда моделью возникновения ошибок является схема независимых испытаний [27, 28, 29, 31, 32]. Стратегия 1. (Используется некоторое число копий массива. Если основной массив разрушился, то используется первая его копия. Если и она разрушилась, то 62 используется следующая копия и т.д.). Граф состояний системы при использовании стратегии 1 представлен на рис. 2.1.1. I I I I I I t=0 t=1 Ms Рис. 2.1.1. Основной массив Fw резервируется К копиями {F0r),г = 1,к. Пусть вероятность того, что массив не разрушится за единичный интервал времени при его использовании, равна р,1СП. Соответственно, вероятность разрушения массива при его использовании за единичный интервал времени будет , Вероятность разрушения массива во время хранения за единичный интервал времени принимается равной qipail, Таким образом, вероятность того, что массив не разрушится за единичный интервал времени, будет р = 1 - (quc„ + qspaH).
Вероятность того, что массив разрушится за единичный промежуток времени будет: Ч = 9ю+Чф т1-ІРж +Рфн) =]-Р Если копия Fgr, r = 0,k-l разрушается в заданный единичный интервал времени, следующая копия Fnrtl используется в следующий единичный интервал времени для окончания решения задачи и т.д. Определим вероятность успешного решения задачи при наличии к копий основного массива Fw. Вероятностный процесс функционирования системы при решении задачи может быть представлен в виде: p + pq + pq2 +... + pqk + qk+l = 1.
Вероятность успешного решения задачи Pt = 1 — # + (2.1.1) (индекс I обозначает использование первой стратегии резервирования). Определим оптимальное число копий массива - . Для определения оптимальной величины І используются статистический или детерминированный подходы. Для априори больших к для оценки может быть использована центральная предельная теорема. В этом случае можно записать: Вер{М(х) - d х М(х) + d} = 1 - а Откуда І может быть определено в виде = [d lotf Где О" = qp 2 M(x) = qp-1 где: 2d - допустимые пределы изменения к для заданной вероятности негативного события СС ; t - стандартное нормальное отклонение. Детерминированная оценка к определена при условии, что величина а мала при заданной величине х=у. Решив уравнение l=\-qk+l, получим \nq Рассмотрим временные характеристики процесса использования оперативного резерва при использовании стратегии I. Пусть MTJ J = кт, где т - время создания одной копии. Тогда среднее время решения задачи при наличии к копий и при условии, что задача решена успешно, определяется в виде м[т 2 ]=ф-,{і- +1[і+(л+і)Д Где 9 - время решения задачи. Среднее время, потраченное на решение задачи, вне зависимости от того, будет она решена успешно или нет, определяется выражением: Итак, планируемое среднее время доступа к ЭВМ при использовании стратегии I будет
Хранятся предыстории - предыдущие поколения массива и соответствующие им массивы изменений. При разрушении текущего массива происходит его восстановление по предыстории с помощью программы обновления. Граф состояний системы при использовании стратегии 2 представлен на рис. 2.1.2. Для получения аналитических выражений для данной стратегии воспользуемся моделью, применяемой при решении классической задачи о разорении. В приложении к задаче резервирования массивов она будет формулироваться следующим образом: Пусть в начальный момент в системе имеется к предыстории и массивов изменений основного массива F00, т.е. F_XF_2, ,F_k, которые используются для решения некоторой задачи. Требуется создать обновленный массив.
Анализ существующих методов восстановительного резервирования
Восстановительным резервированием является создание и хранение одной или нескольких резервных копий и (или) предыстории, предназначенных для воссоздания текущей версии массива и копий оперативного резерва в случае их разрушения. В отличие от рассмотренного ранее метода оперативного резервирования, восстановительный резерв предназначен не для решения текущей задачи (обновления, расчета и т. п.), а для воссоздания разрушенного основного массива и его оперативного резерва. В цикле восстановительного резервирования возможно использование носителей информации различных типов и стоимости (жестких дисков различного типа, магнитооптических дисков, DVD - дисков, магнитных лент, машинных распечаток первичных документов и т. п.). Во многих случаях применение восстановительного резервирования является единственным способом сохранения работоспособности системы обработки данных. Например, в случае ошибок оператора, ошибок в программе или вводе неверных данных, в результате которых была нарушена достоверность основного массива и всех копий оперативного резерва [24, 28, 31, 32, 33]. В случае достаточно больших допустимых значений RPO (Recovery Point Objective - целевая точка восстановления — интервал времени, предшествующий аварии, за который допускается потеря данных) и RTO - Recovery Time Objective - целевое время восстановления — интервал времени после аварии, необходимый для восстановления ГГ-сервисов), на случай выхода из строя всего Центра обработки данных (ЦОД) можно предусмотреть использование только восстановительного резервирования, т.к. его организация намного дешевле организации оперативного. Так, в соответствии с семиуровневой классификацией систем удаленного резервирования данных, хранящихся в ЦОД, которая была разработана в 1992 г. пользовательской группой SHARE при поддержке компании IBM, для уровней с 1 по 3 на случай выхода из строя всей производственной площадки предусмотрено только восстановительное резервирование данных ЦОД с внешним хранением резервных копий (см. рис. 2.2 и 2.3). Для уровней с 4 по 7, имеющих более жесткие ограничения на время RPO и RTO, предусматривается также создание оперативного резерва на удаленной площадке.
В соответствии с предлагаемой в данной работе классификацией, которая описывает 10 наиболее распространенных в настоящее время схем организации резервирования информационных массивов и ІТ-сервисов в территориально-распределенных IT-инфраструктурах с выделенными центрами обработки данных (см. главу 2), для схем 1.1, 1.2, 2.1 восстановление данных в случае выхода из строя всей площадки ЦОД обеспечивается только за счет восстановительного резервирования (процедур резервного копирования и восстановления массивов данных и программных модулей). Остальные схемы, описанные в данной классификации, на случай восстановления данных ЦОД в случае катастрофы кроме восстановительного предусматривают также использование оперативного резерва. Во всех описанных схемах резервирования дополнительно к оперативному как на основной, так и на резервной площадках может также использоваться восстановительный резерв для восстановления данных в случае разрушения основного массива и его оперативного резерва (например, для обеспечения возможности восстановления в случае репликации неверных данных во все копии оперативного резерва).
Рассмотрим общую модель функционирования автоматизированной системы с использованием восстановительного резерва. Предположим, что моделью возникновения ошибок в системе является схема независимых испытаний [28].
Пусть в исходном состоянии (состояние 3 на рис. 3.1.1.) в системе имеется к копий и (или) предыстории оперативного резерва. В случае разрушения оперативного резерва система переходит в состояние 2. Из этого состояния система может перейти в исходное состояние 3 с использованием восстановительного резерва. В случае успешного восстановления основного массива и его оперативного резерва вновь делается попытка решения задачи. При воссоздании оперативного резерва возможно разрушение восстановительного, что означает полную или частичную потерю данных в системе. В этом случае система переходит в поглощающее состояние 1. Поглощающее состояние 4 соответствует успешному решению задачи.
Рассмотрим эффективность использования восстановительного резервирования с точки зрения максимизации вероятности успешного решения задачи. Для этого сравним эффективность использования последней копии или предыстории массива в оперативном и восстановительном резервах [28]. Если все к копий и (или) предыстории используются в цикле оперативного резервирования, то вероятность решения задачи р}(к) при использовании] — й стратегии резервирования определяется в соответствии с таблицей 2.3.1. Определим вероятность успешного обновления массива при использовании в цикле восстановительного резервирования последней копии или предыстории.
Территориальная распределенность средств хранения и обработки данных как метод защиты информационных ресурсов и элементов инфраструктуры от аварий и катастроф
В настоящее время информационные технологии оказывают все более значительное влияние на деятельность современных компаний различного уровня. Сети передачи данных, множество приложений и сервисов составляют обязательную часть информационных ресурсов современного предприятия. Нарушения или сбои в их работе негативно сказываются на непрерывности бизнес-процессов предприятия, что является недопустимым.
Крупные корпорации начали целенаправленно внедрять технологии обеспечения непрерывности бизнеса в непредвиденных ситуациях (ВСР — business continuity planning) [27], [35]. Использование каналов глобальных сетей связи позволяет территориально разнести узлы с резервом ИМ и ПМ, что существенно повышает вероятность сохранения доступности данных при различных катастрофических ситуациях (пожары, землетрясения, наводнения и т.п.), в случае возникновения которых могут быть уничтожены (или выведены их строя на длительный срок) все локально расположенные копии ИМ и ПМ (как основные, так и резервные) и/или элементы поддерживающей инфраструктуры. При использовании каналов глобальных сетей связи и децентрализованном хранении резерва возможно быстрое возобновление работы при выходе из строя одного из узлов, содержащего рабочие информационные массивы и программные модули, и/или обслуживающих его каналов связи.
Зависимость финансовых потерь, которые несет организация из-за недоступности IT-сервисов, от времени их недоступности приведена на рис. Здесь же приведена зависимость стоимости создания системы высокой доступности от величины допустимого времени простоя. Величина финансовых потерь, как правило, растет нелинейно, нелинейная зависимость наблюдается и у величины затрат на мероприятия по обеспечению непрерывности IT-сервисов от гарантированного времени восстановления.
Оптимальное решение обычно лежит в области, которая на рисунке обозначена как окно соотношений «стоимость/время восстановления» [35]. Основными технологиями, обеспечивающими защиту данных в чрезвычайных ситуациях, являются: о резервное копирование и архивирование данных на удаленной площадке (Crossite backup) с размещением их на ленточных накопителях; о различные способы репликации данных на удаленную площадку с размещением их на дисковых массивах.
Для значений RTO (целевое время восстановления) порядка нескольких часов или даже нескольких минут, используются различные варианты кластерных комплексов, у которых узлы тем или иным способом разносятся на удаленные площадки. Переключение приложения с одного узла на другой происходит автоматически либо вручную. Некоторые простои, связанные с недоступностью приложений, имеют место и в кластерных конфигурациях, но они несоизмеримо ниже, чем в случае одиночных систем. Для кластеров типичный коэффициент готовности Кг = 99,98 (около 1 часа в год).
Избыточность вычислительных ресурсов, за счет которой достигается высокая доступность, подразумевает усложнение вычислительного комплекса и требует дополнительных затрат на управление, так как соответствующие технологические решения должны сопровождаться разработкой и внедрением организационных мер и процедур, обеспечивающих быстрое и предсказуемое восстановление ИТ-сервисов на резервной площадке.
В настоящее время принято выделять 7 уровней (0 - 6) построения систем резервирования и управления данными [3, 14, 27, 35]. Семиуровневая классификация систем резервирования данных была разработана в 1992 г. пользовательской группой SHARE при поддержке компании IBM. В соответствии с данной классификацией выделяют следующие семь основных уровней стратегий восстановления в случае аварии или катастрофы, затрагивающей центр обработки данных:
1) Уровень «О» - отсутствие стратегии восстановления. Например, отсутствие резервного копирования, или резервное копирование данных с хранением копий в том же помещении/здании, где производится обработка данных. Последствия могут быть таковы, что в случае катастрофы (пожар, наводнение, прорыв труб и т.д.) восстановление данных будет невозможно и информация будет безвозвратно утеряна. Время восстановления непредсказуемо.
2) Уровень «1» - регулярное резервное копирование данных с хранением копий в отдельном помещении/здании. Метод носит название «Pickup Truck Access Method (РТАМ)». Данные на извлекаемых носителях регулярно вывозятся на хранение в отдельное защищенное помещение/здание. Время восстановления после полного выхода из строя центра обработки данных — от недели до месяца. Возможна потеря части данных, введенных после последнего резервного копирования. Время восстановления в основном зависит от времени восстановления средств обработки и поддерживающей инфраструктуры (восстановление поврежденной площадки центра обработки данных или создание нового центра обработки данных).
3) Уровень «2» - комбинация РТАМ + резервный центр. Метод носит название «PTAM+hostsite». Данные на извлекаемых носителях регулярно вывозятся на хранение в отдельное защищенное помещение. Дополнительно, в законсервированном состоянии существует резервный центр. После аварии резервные копии извлекаются из хранилища, производится запуск резервного центра и восстановление данных на резервной площадке. Время восстановления - несколько дней. Возможна потеря части данных, введенных после последнего резервного копирования.
4) Уровень «3» - комбинация РТАМ + резервный центр + использование средств связи для удаленного копирования наиболее критичных данных. Метод называется «Electronic Vaulting». Метод усовершенствует «PTAM+hostsite» тем, что резервный центр не законсервирован полностью, а осуществляет по сети регулярное копирование наиболее часто обновляемых и самых критичных для бизнеса данных. Время восстановления — несколько дней. Возможна потеря данных, введенных после последнего резервного копирования. Промежуток времени, за который возможна потеря данных, определяется периодичностью резервного копирования по сети.
5) Уровень «4» - резервный ЦОД. Метод называется «Electronic vaulting to hotsite»; отличается от «Electronic Vaulting» тем, что данные по сети регулярно копируются на полностью развёрнутый резервный центр в асинхронном режиме (с небольшим запаздыванием). Время восстановления -несколько часов (определяется временем переключения приложений на резервный ЦОД). Возможна потеря части данных, введенных перед аварией. Промежуток времени, за который возможна потеря данных, определяется временем задержки при асинхронной передаче данных.
6) Уровень «5» - зеркальный ЦОД. Метод называется «Two-site, two-phase commit». Данный метод отличается от «Electronic vaulting to hotsite» тем, что данные по сети регулярно копируются на полностью развёрнутый резервный центр в синхронном режиме, то есть операция записи в основном ЦОД заканчивается одновременно с записью данных в резервном ЦОД. Время восстановления от нескольких минут до нескольких часов (определяется процедурой переключения на резервный ЦОД).