Содержание к диссертации
Введение
1. Обзор исследований по теме диссертации .
1.1. Общие сведения о кластерных информационно-вычислительных системах 11
1.2. Особенности обеспечения надежности функционирования сложных информационно-вычислительных систем 21
1.3. Обзор существующих методик обеспечения надежности функционирования кластерных информационно-вычислительных систем 27
1.4. Перспективные способы повышения надежности работы кластерных информационно-вычислительных систем 36
1.5. Основные задачи исследований 42 Выводы к разделу 1 43
2. Теоретические основы поддержки принятия решений при обеспечении надежности функционирования кластерных информационно-вычислительных систем .
2.1. Формализация отображений типа «ситуация - решение» при обеспечении надежности функционирования кластерных информационно-вычислительных систем 44
2.2. Алгоритм многокритериальной оптимизации принимаемых решений при обеспечении надежности функционированиякластерных информационно-вычислительных систем 50
2.3. Алгоритм распознавания количества реально существующих типичных состояний узлов кластерной информационно-вычислительной системы при обеспечении надежности ее функционирования 57 Выводы к разделу 2 61
3. Формализация элементов интеллектуальной деятельности лиц, принимающих решения, при обеспечении надежности функционирования кластерных информационно-вычислительных систем .
3.1. Постановка задачи распознавания сцен для оценки технического состояния кластерных информационно-вычислительных систем 62
3.2. Алгоритм контроля технического состояния узлов кластерной информационно-вычислительной системы методами аппарата распознавания дискретно представленных сцен 64
3.3. Методика самообучения системы поддержки принятия решений при обеспечении надежности обработки информации кластерными ИВС 67
3.4. Методика оценки технического состояния кластерной информационно-вычислительных систем в условиях многокритериальности и многоальтернативности 70
Выводы к разделу 3 73
4. Реализация технологий автоматизированного обеспечения надежности функционирования кластерных информационно-вычислительных систем .
4.1. Выбор программных и технических средств, синтез информационного обеспечения при реализации системы поддержки принятия решений при обеспечении надежности обработки информации кластерными ИВС 74
4.2. Оценка эффективности разработанных моделей, методов и алгоритмов обеспечения надежности работы кластерных информационно-вычислительных систем 78
Выводы к разделу 4 87
Заключение 88
Библиография 89
- Общие сведения о кластерных информационно-вычислительных системах
- Формализация отображений типа «ситуация - решение» при обеспечении надежности функционирования кластерных информационно-вычислительных систем
- Алгоритм контроля технического состояния узлов кластерной информационно-вычислительной системы методами аппарата распознавания дискретно представленных сцен
- Выбор программных и технических средств, синтез информационного обеспечения при реализации системы поддержки принятия решений при обеспечении надежности обработки информации кластерными ИВС
Введение к работе
На сегодняшний день кластерные информационно-вычислительные системы (ИВС), благодаря своей чрезвычайно высокой востребованности, занимают значительное место в общем объеме мирового производства вычислительной техники. Область их применения простирается от типично деловых задач, связанных с обработкой огромных объемов информации, хранящейся в корпоративных базах данных, до сугубо научных приложений - моделирования планетарного климата или расчета ядерных реакций. Несомненно, эти задачи чрезвычайно важны как в фундаментальном, так и в прикладном плане и любые сбои, отключения или аварии, возникающие в процессе работы кластерных ИВС, могут носить катастрофический характер. Кроме того, по оценкам аналитиков, простой комплекса в течение одного рабочего дня обходится его владельцам в сотни тысяч или даже миллионы долларов. Таким образом, вопрос об обеспечения отказоустойчивости кластерных ИВС является одним из важнейших в рамках общей концепции применения подобных систем.
Основными параметрами, обеспечивающими отказоустойчивость таких изделий, являются качество и надежность структурных элементов (узлов), а также кластерных ИВС в целом. Эти параметры закладываются:
о на этапе проектирования - правильным выбором комплектующих и
материалов, а так же режимов работы. о на этапе подготовки производства - проектированием бездефектных технологий, исключающих или минимизирующих возникновение брака в процессе производства или возникновение отказов в процессе эксплуатации изделий, о в процессе производства - соблюдением технологий изготовления, проведением эффективного входного контроля комплектующих и материалов, выходным контролем качества и надежности готовых изделий. На этапе эксплуатации в современных технологиях обеспечения надежности обработки информации кластерными ИВС широко применяются три
концептуально различных подхода к принятию решений: экспертный, классический и неформальный.
Первый заключается в использовании эмпирических знаний и опыта практической работы одного или нескольких экспертов, досконально знающих предметную область. Решение принимается единолично или на основе согласованного мнения и критерием его оптимальности служит уверенность экспертов, подтвержденная их квалификацией. К недостаткам такого подхода относятся: субъективность оценок предпочтительности альтернативных решений; отсутствие формального аппарата для принятия на постоянной основе оптимальных управленческих решений в условиях многоальтернативности выбора и многокритериальности оценок предпочтительности альтернатив; невозможность создания единой целостной системы, обеспечивающей надежность обработки информации кластерными ИВС на всем протяжении срока их эксплуатации.
Суть классического подхода заключается в построении надежностной модели кластерной ИВС, позволяющей рассчитывать временные интервалы, в рамках которых обработка информации будет идти с надежностью не меньше заданных значений соответствующих параметров. Непрерывность и достоверность процесса обработки информации обеспечивается программными системами диагностики отказов и сбоев и аппаратным резервированием наиболее важных узлов ИВС. Таким образом, перечень возможных решений и их оптимальность определены рамками проектного решения кластерной ИВС и адекватностью выбранной для него надежностной модели. Недостатки подхода: чрезвычайная трудоемкость построения адекватной надежностной модели ИВС, невозможность ее переноса на другие ИВС; отсутствие возможности к восприятию новых знаний - самообучению; не учитывается или учитывается слабо, многокритериальность и многоальтернативность исходных ситуаций; стоимостные и массогабаритные ограничения по резервированию систем.
Неформальный подход заключается в использовании систем искусственного интеллекта построенных на базе нейронных сетей. Его суть - применение аппарата искусственных нейронных сетей (ИНС), основанного на модели
«черного ящика» для анализа исходных ситуаций и принятия управленческих решений без участия экспертов и без построения надежностной модели ИВС. Оптимальность принимаемых решений зависит от правильности выбора структуры нейронной сети и качества ее обучения (самообучения). Недостатками подхода можно считать: необходимость наличия большого объема статистических данных по каждой конкретной ИВС для эффективного обучения ИНС; модель «черного ящика» не позволяет осуществлять обратный логический вывод - от решения к исходным ситуациям - т.е. определять причины сбоев и отказов и подтверждать правильность принятого решения; ИНС, построенная с учетом множества параметров, описывающих состояние кластерной ИВС и множества критериев, характеризующих оптимальность решения, весьма требовательна к вычислительным ресурсам.
При решении практических задач оптимального выбора и принятия решений, характерных для технологий автоматизированного обеспечения надежности обработки информации кластерными ИВС, приходится сталкиваться с многокритериальностью и многоальтернативностью. Кроме того, принимаемые решения не должны носить бинарный характер (типа «да — нет»). Напротив, они должны быть «размытыми», содержать обоснование степени уверенности, т.е. полностью имитировать поведение лица, принимающего решения (ЛПР) в конечной ситуации.
Помимо прочего, такие системы не «увязаны» в целостную единую систему или «увязаны» частично, в результате чего невозможно достоверно и в полной мере оценить текущее состояние кластерных ИВС и предпринять необходимые шаги, направленные на предотвращение возможных отказов, сбоев и неполадок. Интеграция подсистем в единую систему позволит значительно повысить оперативность и эффективность принимаемых управленческих решений при обеспечении надежности кластерных ИВС.
Дополнительным осложнением задачи обеспечения надежности работы кластерных ИВС является обширность номенклатуры элементов, их составляющих, тенденция ее постоянного развития, многочисленность характеристик объектов (параметров).
Еще одним фактором, приводящим к усложнению решаемой задачи, является процесс формирования множества альтернатив решений, требующий оценки, отбора в условиях различных предпочтений ЛПР. Кроме того, наличие нескольких ЛПР хотя бы с частично противоречивыми взглядами может приводить к еще большему росту числа критериев, используемых для сравнения принимаемых решений. Все это требует формализации построения модели рационального выбора с возможной размытостью в условиях многоальтернативности и многокритериальности.
Одним из направлений автоматизации процесса обеспечения надежности работы кластерных ИВС на этапе их эксплуатации является создание интегрированных систем управления на основе нового подхода, учитывающего условия многоальтернативности и многокритериальности. С помощью этой технологии представляется возможным формализовать качественную информацию об объектах контроля и управления. Это, прежде всего поведение обслуживающего персонала, их опыт, интуиция, словом, их интеллектуальная деятельность в процессе обеспечения отказоустойчивости кластерных ИВС. Включение в интегрированную систему средств интеллектуальной поддержки, в частности средств адаптивного самообучения системы обеспечения надежности кластерных ИВС, минимизирует субъективизм при принятии решений, обеспечит их адекватность и надежность. Использование экспертных оценок на этапе обучения весьма затруднительно или не представляется возможным из-за объемной номенклатуры структурных элементов с достаточно большим числом характеристик и параметров, а также наличия разветвленной системы связей между ними.
Таким образом, для оценки надежности обработки информации кластерными ИВС и оптимизации принятия управленческих решений по обеспечению непрерывности и достоверности процесса обработки информации в условиях многоальтернативности необходимо решить многокритериальную оптимизационную задачу, позволяющую находить компромисс в предпочтениях операторов-технологов при отборе вариантов решений в условиях размытости, неопределенности выбора. Все выше сказанное дает
основание рассматривать вопросы разработки нового подхода к поддержке принятия решений при обеспечении надежности функционирования кластерных ИВС как актуальную научную и практическую задачу.
Цель исследования заключается в разработке моделей, методов и алгоритмов, позволяющих оптимизировать принимаемые управленческие решения при обеспечении надежности обработки информации кластерными информационно-вычислительными системами.
Идея работы заключается в анализе причинно-следственных связей между физическими воздействиями внешней среды и состояниями узлов кластерной ИВС и выработке оптимальных управляющих решений для обеспечения надежности обработки информации кластерными ИВС.
Предлагаемый подход позволяет формализовать основные элементы интеллектуальной деятельности ЛПР по обеспечению надежности кластерных систем на уровне моделей и алгоритмов. Вследствие этого, становится возможным осуществлять интеграцию технологий автоматизированного контроля в глобальную систему обеспечения надежности кластерных систем и повысить, таким образом, ее эффективность.
Основные научные положения, разработанные соискателем, и их новизна: о новый подход к оценке надежности работы кластерных ИВС, состоящий из этапов: исчисление ситуационных исходов, оценка предпочтительности принимаемых решений, идентификация количества и состава классов эталонных ситуаций, распознавание ситуаций-сцен, самообучение, который позволяет формализовать процесс принятия и оптимизации управленческих решений при обеспечении надежности обработки информации; о алгоритм распознавания количества классов эталонных состояний кластерной ИВС, основанный на методе классификации и гипотезе «компактности», который, в отличие от существующих, позволяет осуществлять разбиение пространства состояний ИВС на классы как в одномерных, так и многомерных ситуациях;
о методика адаптивного самообучения системы поддержки принятия решений при обеспечении надежности обработки информации кластерными
ИВС, включающая формализацию знаний в заданной предметной области на основе теории кластерного анализа выборки значений параметров, которая, в отличие от существующих, позволяет определять оценки значимости факторов и проводить оптимизацию признакового пространства; о методика оценки технического состояния кластерной ИВС, основанная на теории распознавания дискретно представленных сцен, которая позволяет, в отличие от известных, оптимизировать процесс оценки сходства распознаваемой и эталонной сцен с учетом их «масштаба» и «освещенности».
о алгоритм формализованной оценки предпочтительности альтернативных решений на множестве критериев, характеризующих надежность обработки информации, который отличается сочетанием принципа монотонности и процедур последовательного сужения множества рассматриваемых альтернатив при оптимизации принимаемых решений; Достоверность научных положений, выводов и рекомендаций, сформулированных в диссертации, подтверждается положительными результатами экспериментального моделирования процессов оценки надежности обработки информации кластерными ИВС и принятия эффективных решений в системах обеспечения надежности кластерных ИВС с помощью разработанных инструментальных средств, позволяющих уменьшить затраты на восстановление кластерных вычислительных комплексов после сбоев, повысить уровень их надежности на 15 - 25 % по сравнению с существующими подходами. При выводе научных положений использовались методы теории многокритериальной оптимизации и принятия решений, нечетких множеств, математической статистики, кластерного анализа, математического моделирования.
Научная значимость работы состоит в разработке нового подхода к принятию управленческих решений при обеспечении надежности обработки информации кластерными ИВС, который включает модели, методики и алгоритмы формализации интеллектуальной деятельности лиц, принимающих решения, и многокритериальной оптимизации принимаемых решений, что
позволяет осуществлять интеграцию технологических процессов контроля и обеспечения надежности обработки информации» уменьшая субъективизм принимаемых решений и обеспечивая их адекватность. Практическая значимость работы состоит:
в разработке процедур для оценки текущего технического состояния кластерных ИВС, позволяющих определять его принадлежность к одному из классов типичных состояний системы;
разработке процедур оптимизации принимаемых решений при обеспечении надежности обработки информации, позволяющих осуществлять выбор в условиях многоальтернативности решений и многокритериальности оценок их оптимальности;
разработке структуры интегрированной системы поддержки принятия решений при обеспечении надежности обработки информации кластерными ИВС с определением информационных потоков взаимодействия подсистем;
создании инструментальных средств поддержки принятия решений при обеспечении надежности обработки информации кластерными ИВС;
внедрении основных результатов диссертационной работы по оптимизации принятия решений при обеспечении надежности обработки информации кластерными ИВС в разработки ЗАО «СК ПРЕСС» (г. Москва) и ФГУП «Главный информационно-вычислительный центр металлургии» (г. Москва), и в учебный процесс для подготовки бакалавров, специалистов и магистров по направлению 552800 «Информатика и вычислительная техника» на кафедре «Автоматизированные системы управления» Mil'У.
Общие сведения о кластерных информационно-вычислительных системах
Основным параметром классификации параллельных компьютеров [71,72] является наличие общей (SMP) или распределенной памяти (МРР). Нечто среднее между SMP и МРР представляют собой NUMA-архитектуры, где память физически распределена, но логически общедоступна. Кластерные ИВС являются более дешевым вариантом МРР. При поддержке команд обработки векторных данных говорят о векторно-конвеиерных процессорах, которые, в свою очередь могут объединяться в PVP-системы с использованием общей или распределенной памяти. Все большую популярность приобретают идеи комбинирования различных архитектур в одной системе и построения неоднородных систем.
Таким образом, современные параллельные компьютеры и супер-ЭВМ можно разделить на следующие классы: Массивно-параллельные системы (МРР) Система состоит из однородных вычислительных узлов, включающих один или несколько центральных процессоров (обычно RISC), локальную память (прямой доступ к памяти других узлов невозможен), коммуникационный процессор или сетевой адаптер, иногда - жесткие диски и/или другие устройства ввода-вывода. К системе могут быть добавлены специальные узлы ввода-вывода и управляющие узлы. Узлы связаны через некоторую коммуникационную среду (высокоскоростная сеть, коммутатор и т.п.). Примерами таких систем являются IBM RS/6000 SP2, Intel PARAGON/ASCI Red, SGI/CRAY T3E, Hitachi SR8000, транспьютерные системы Parsytec. Их масштабность чрезвычайно высока - общее число процессоров в реальных системах достигает нескольких тысяч (ASCI Red, Blue Mountain). Операционная система, применяемая в подобных комплексах, может существовать в виде двух основных вариантов: полноценная ОС работает только на управляющей машине (front-end), на каждом узле работает сильно урезанный вариант ОС, обеспечивающие только работу расположенной в нем ветви параллельного приложения. (Пример: Cray ТЗЕ). Вариант, близкий к кластерному - на каждом узле работает полноценная UNIX-подобная ОС. (Пример: IBM RS/6000 SP + ОС AIX, устанавливаемая отдельно на каждом узле). Симметричные мультипроцессорные системы (SMP) Система состоит из нескольких однородных процессоров и массива общей памяти (обычно из нескольких независимых блоков). Все процессоры имеют доступ к любой точке памяти с одинаковой скоростью. Процессоры подключены к памяти либо с помощью общей шины (базовые 2-4 процессорные SMP-сервера), либо с помощью crossbar-коммутатора (HP 9000). Аппаратно поддерживается когерентность кэшей. Примерами таких систем являются HP 9000 V-class, N-class; SMP-серверы и рабочие станции на базе процессоров Intel (IBM, HP, Compaq, Dell, ALR, Unisys, DG, Fujitsu и др.). Масштабность подобных систем несколько ограничена - наличие общей памяти сильно упрощает взаимодействие процессоров между собой, однако накладывает сильные ограничения на их число - не более 32 в реальных системах. Для построения сложных систем на базе SMP используются кластерные или NUMA-архитектуры. Вся система работает под управлением единой ОС (обычно UNIX-подобной, но для Intel-платформ поддерживается Windows NT). ОС автоматически (в процессе работы) распределяет процессы/нити по процессорам (scheduling), но иногда возможна и явная привязка. Параллельные векторные системы (PVP) Основным признаком PVP-систем является наличие специальных векторно конвейерных процессоров, в которых предусмотрены команды однотипной обработки векторов независимых данных, эффективно выполняющиеся на конвейерных функциональных устройствах. Как правило, несколько таких процессоров (1 - 16) работают одновременно над общей памятью (аналогично SMP) в рамках многопроцессорных конфигураций. Несколько таких узлов могут быть объединены с помощью коммутатора (аналогично МРР). Примерами таких систем являются NEC SX-4/SX-5, линия векторно-конвейерных компьютеров CRAY: от CRAY-1, CRAY J90/T90, CRAY SV1, серия Fujitsu VPP. Системы с неоднородным доступом к памяти (NUMA) Система состоит из однородных базовых модулей (плат), состоящих из небольшого числа процессоров и блока памяти. Модули объединены с помощью высокоскоростного коммутатора. Поддерживается единое адресное пространство, аппаратно поддерживается доступ к удаленной памяти, т.е. к памяти других модулей. При этом доступ к локальной памяти в несколько раз быстрее, чем к удаленной. В случае если аппаратно поддерживается когерентность кэшей во всей системе (обычно это так), говорят об архитектуре cc-NUMA (cache-coherent NUMA). Примерами таких систем являются HP 9000 V-class в SCA-конфигурациях, SGI Origin2000, Sun HPC 10000, IBM/Sequent NUMA-Q 2000, SNI RM600. Масштабность NUMA-систем ограничивается объемом адресного пространства, возможностями аппаратуры поддержки когерентности кэшей и возможностями операционной системы по управлению большим числом процессоров. На настоящий момент, максимальное число процессоров в NUMA-системах составляет 256 (Origin2000). Обычно вся система работает под управлением единой ОС, как в SMP. Но возможны также варианты динамического "подразделения" системы, когда отдельные "разделы" системы работают под управлением разных ОС (например, Windows NT и UNIX в NUMA-Q 2000).
Формализация отображений типа «ситуация - решение» при обеспечении надежности функционирования кластерных информационно-вычислительных систем
Оценка и прогнозирование надежности работы кластерных информационно-вычислительных вычислительных систем (ИВС) предполагает наличие следующей последовательности действий: измерение значений показателей, характеризующих текущее состояние кластерной системы (выявление исходной ситуации), анализ полученных данных с целью принятия решения о надежности отдельных узлов и всей кластерной ИВС в целом и формирование заключения — принятие управляющего решения. В упрощенном виде ее можно представить следующим образом - анализ текущей ситуации, оценка возможных событий и принятие решений. В общем случае имеется ряд отображений вида ситуация —» событие —» решение, позволяющих определить причины возникновения того или иного сбоя в процессе функционирования кластерной информационно-вычислительной системы, а также строить прогнозы относительно результатов принимаемых решений [4]. Однако приведенная цепь отображений не является законченной, поскольку каждое достигнутое решение может создать свою ситуацию, предшествующую новому событию, которое в свою очередь приводит к новому исходу и т.д. Таким образом, можно утверждать, что в технологиях обеспечения надежности функционирования кластерных информационно-вычислительных систем существуют причинно-следственные связи типа «ситуация - решение». Наличие подобных связей является основополагающим фактором, позволяющим перейти от простого оценивания и прогнозирования надежности кластерных информационно-вычислительных систем к активному управлению надежностью на всем протяжении функционирования кластерных ИВС с целью ее максимизации.
В связи с этим возникает необходимость проведения исследований связей типа «ситуация - решение», абстрагирования понятия ситуационных исходов и создания формального аппарата для их исчисления, позволяющего ответить на два основных вопроса: Какой была ситуация, предшествующая возникновению того или иного решения? (Анализ причин возникновения отказов.) Какое ожидается решение при той или иной ситуации? ( Идентификация текущего состояния ИВС и прогнозирование ее поведения в процессе эксплуатации.)
Кроме того, должны быть найдены ответы на вопросы о характерности решения для сложившейся ситуации и характерности ситуации при возникшем решении, о правомерности (возможности) возникновения решения. Это позволит осуществить моделирование ситуаций и прогнозирование решений, провести анализ предпосылок возникновения ситуаций, охарактеризовать качество решений, их допустимость и взаимоисключаемость.
Систему моделирования ситуационных исходов в условиях сбоев, отказов можно представить в виде динамической системы S = {X, Y, F}, где F- системообразующие отношения между воздействиями внешней среды (побуждающими воздействиями) X = \JxJ +а (ОС- случайная помеха), и техническим параметрами ИВС (реакциями системы) Y = [Jyl, характеризующими ситуационные исходы (/ = 1,/ - индекс воздействия, і - 1,/ - индекс реакции). Если входные воздействия дискретно изменяются, то на шаге и = 1, N (индекс ситуации) хп отображается в Уп .
Для заданной предметной области под системой S будем понимать кластерную ИВС, состоящую из К параллельных узлов между которыми динамически распределяется вычислительная нагрузка. Каждый -ый узел выполняет обработку своей, строго определенной, части данных из одной общей задачи. В случае сбоя происходит реконфигурация системы - перераспределение задачи по другим работоспособным узлам и перезапуск процесса обработки данных. Для сохранения промежуточных результатов работы и повышения надежности функционирования кластерных ИВ С, в зависимости от предъявляемых требований по надежности, с определенной интенсивностью происходит промежуточная фиксация состоянии системы, т.е. задаются некоторые точки архивирования, в которых состояние системы и всех ее компонентов однозначно определено и из которых можно перезапускать вычислительный процесс без необходимости возврата к началу работы системы. Под X будем понимать вектор параметров, характеризующих текущее состояние окружающей среды (температура воздуха, его влажность, напряженность электрического и магнитного полей и т.п.), под Y- вектор параметров, характеризующих текущее техническое состояние функциональных блоков узлов кластерной ИВС (температура деталей, напряжение питания на элементах, вибрации конструкций и т.д.).
Введем определения. Определение 1. Характерными состояниями кластерной ИВС 5 являются оценки типичных 2к (на уровне классов) состояний (к = 1,К - индекс классов состояний). Класс — группировка в виде кластера значений показателей реакций системы Y = (J у , полученная методами кластеризации на основе критерия максимального сходства или компактности, согласно которому объекты внутри класса более «похожи» друг на друга, чем объекты из разных классов. Трактовка понятия сходства при этом должна наиболее полно учитывать природу параметров. Под типичными ситуациями (состояниями) будем понимать некоторым образом адекватно определенные оценки «эталонов» классов, наиболее полно учитывающие свойства статистических распределений значений параметров среды.
Алгоритм контроля технического состояния узлов кластерной информационно-вычислительной системы методами аппарата распознавания дискретно представленных сцен
Реализация предложенного в работе подхода к обеспечению надежности функционирования кластерных информационно-вычислительных систем заключается в выборе необходимого комплекса программно-технических средств, создании на базе разработанных моделей и алгоритмов принятия решений программных средств и синтезе информационного обеспечения.
Технические средства представляют собой стандартный персональный компьютер, снабженный сетевым адаптером и подключенный к кластерной информационно-вычислительной системе. Программные средства включают в себя следующие компоненты: операционная система Linux с ядром версии 2.4.x или выше (в частности рекомендуется использование дистрибутива Red Hat Linux версии 7 и старше), компилятор языка C/C++, распространяемого совместно с дистрибутивом ОС Linux, набор коммуникационных библиотек для обеспечения взаимодействия автоматизированной подсистемы обеспечения надежности кластерной информационно-вычислительной системой с объектом управления.
Синтез информационного обеспечения заключается в формировании разделов декларативной части знания. Априорная информация формируется в результате исследования и анализа справочных источников и технических условий эксплуатации кластерных информационно-вычислительных систем. Апостериорная информация формируется в процессе функционирования подсистемы обеспечения надежности работы кластерной информационно-вычислительной системы. На этапе обучения осуществляется исчисление и формирование репрезентативной выборки значений технических параметров блоков (процессорный блок, блок оперативной памяти, блок хранения данных и коммуникационный блок) составляющих узлы кластерной информационно-вычислительной системы, ее классификация и построение моделей типичных состояний для узлов кластерной информационно вычислительной системы. Входной информационный поток содержит информацию о значении параметров, характеризующих состояние узлов кластерной ИВ С. Выходной информационный поток содержит информацию о кодах принимаемых решений по обеспечению надежности функционирования кластерной информационно-вычислительной системы и семантические интерпретации этих кодов для реализации взаимодействия подсистемы обеспечения надежности и обслуживающего персонала. База данных включает в себя выборки значений параметров, характеризующих состояние узлов кластерной ИВС, коды принимаемых решений по обеспечению надежности функционирования кластерной информационно-вычислительной системы, модели эталонных классов, описания этих моделей - качественную интерпретацию решений, справочную информацию о работе системы.
Разрабатываемые программные средства представляют собой подсистему поддержки принятия решений по обеспечению надежности функционирования кластерных информационно-вычислительных систем и включают в себя следующие компоненты: блок адаптивного обучения, блок принятия решений о надежности кластерной ИВС и базу данных.
Общая структура подсистемы поддержки принятия решений по обеспечению надежности функционирования кластерных информационно-вычислительных систем представлена на рисунке. Методика прогноза и контроля надежности, реализованная в подсистеме обеспечения надежности функционирования кластерных информационно-вычислительных систем основана на методах и процедурах, изложенных в разделах 2.2 и 3.4 данной диссертационной работы. Эксперты в области кластерных информационно-вычислительных систем по предъявленным ситуациям вырабатывают ряд альтернативных решений по реконфигурации вычислительных мощностей. Принятие одного из альтернативных решений осуществляется посредством определения многоальтернативных оценок предпочтительности и оценки тождественности альтернатив. В зависимости от распределения предпочтений рекомендации по принятию решений носят следующий характер: однозначный выбор альтернативы А, предпочтительный выбор альтернативы А, возможный выбор альтернативы А, отказ от выбора.
Программная реализация предложенной методики может применяться для организации подсистемы обеспечения надежности функционирования кластерных информационно-вычислительных систем как на вновь разрабатываемых системах, так и на уже реализованных.
Выбор программных и технических средств, синтез информационного обеспечения при реализации системы поддержки принятия решений при обеспечении надежности обработки информации кластерными ИВС
Здесь уже возникает вопрос об оптимизации решения. Допустим, что мы можем уменьшить среднее время ремонта того или другого узла (может быть, сразу двух, или одновременно трех узлов). Но это нам обойдется в какую-то сумму. Спрашивается, «стоит ли овчинка выделки»? То есть окупит ли увеличение дохода, связанное с ускорением ремонта, повышенные расходы на ремонт? Это уже чисто экономическая задача, не входящая в задачи данного диссертационного исследования.
Выводы по четвертой главе Реализация предложенного в работе подхода к автоматизированному обеспечению надежности функционирования кластерных информационно-вычислительных систем, позволяет сделать следующие выводы: 1. Разработана структура интегрированной системы поддержки принятия решений при обеспечении надежности обработки информации кластерными ИВ С с определением информационных потоков взаимодействия подсистем. 2. Созданы инструментальные средства поддержки принятия решений при обеспечении надежности обработки информации кластерными иве. 3. Осуществлена оценка эффективности разработанных моделей, методов и алгоритмов обеспечения надежности работы кластерных информационно-вычислительных систем. В диссертационной работе представлено теоретическое и практическое решение актуальной научной задачи разработки нового подхода к поддержке принятия оптимальных управленческих решений, позволяющих в реальном масштабе времени обеспечивать повышенную надежность обработки информации кластерными информационно-вычислительными системами. Основные выводы и научные результаты работы; исследована специфика обеспечения надежности обработки информации кластерными информационно-вычислительными системами в условиях естественных и искусственных физических воздействий и определен набор важнейших параметров, характеризующих техническое состояние кластерных ИВС. разработан алгоритм формализованной оценки предпочтительности альтернативных управленческих решений на множестве критериев, характеризующих состояние кластерных ИВС. разработан алгоритм контроля и методика оценки технического состояния кластерной ИВС на основе анализа причинно-следственных связей и технологических параметров узлов системы с использованием аппарата теории распознавания дискретно представленных сцен. методика адаптивного самообучения системы поддержки принятия решений при обеспечении надежности обработки информации кластерными ИВС, включающая формализацию знаний в заданной предметной области. Она позволяет определять значимость факторов, проводить оптимизацию признакового пространства и строить модели состояний кластерных ИВС в виде эталонов типичных состояний путем анализа и обобщения фактов. разработан программный инструментарий для поддержки принятия оптимальных решений по обеспечению надежности работы кластерных информационно-вычислительных систем, позволяющий экспериментально подтвердить правильность изложенных в работе положений.