Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Ле Куанг Минь

Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени
<
Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ле Куанг Минь. Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени : диссертация ... кандидата технических наук : 05.13.15 / Ле Куанг Минь; [Место защиты: Моск. гос. техн. ун-т им. Н.Э. Баумана].- Москва, 2008.- 134 с.: ил. РГБ ОД, 61 08-5/507

Содержание к диссертации

Введение

ГЛАВА 1. Анализ методов обеспечения отказоустойчивости бортовых вычислительных систем 12

1.1. Анализ методов, обеспечения отказоустойчивости и живучести вычислительных систем 12

1.2. Воздействие ионизирующих излучений на элементы бортовых вычислительных систем 18

1.3. Применение метода активной защиты от отказов в задаче обеспечения отказоустойчивости вычислительных систем 27

1.4. Математическая модель оценки надежности вычислительных систем 30

1.5. Формальная постановка задач исследования 3 8

1.6. Выводы 39

ГЛАВА 2. Исследование влияния ионизирующих излучений на надежность бортовых вычислительных систем 41

2.1. Оценка вероятности безотказной работы системы в условиях воздействия ионизирующих излучений 41

2.2.Влияние ионизирующих излучений на надежность традиционных схем резервирования 44

2.2.1. Резервирование в ненагруженном режиме 44

2.2.2. Резервирование в нагруженном режиме 46

2.2.3. Резервирование в сеансовом режиме 47

2.3, Организация режима принудительного переключения в системах резервирования в нагруженном режиме 50

2.4. Анализ и оценка эффективности резервирования 57

2.5. Оптимальное резервирование в отказоустойчивых вычислительных системах 63

2.6. Методика построения ОУВС, использующая резервирование и режим принудительного переключения резервных элементов 67

2.7. Выводы 68

ГЛАВА 3. Применение активной защиты от отказов в бортовых вычислительных системах реального времени 70

3.1. Организация активной защиты от отказов в бортовых вычислительных системах 70

3.2. Организация режима принудительного переключения в системах активной защиты от отказов 74

3.3. Оценка эффективности активной защиты от отказов в иерархических вычислительных системах 82

3.4. Выводы 90

ГЛАВА 4. Моделирование и оценка показателей надежностей и отказоустойчивости вычислительных систем 91

4.1. Разработка модели надежности и методики построения ОУВС 91

4.1.1. Выбор количества структурных параметров системы каноническим методом 91

4.1.2. Модель системы в ненагруженном режиме работы с учетом полноты контроля и восстановления 93

4.1.3. Модель системы в нагруженном режиме без аппаратной деградации с учетом полноты контроля и восстановления 95

4.1.4. Модель системы в ненагруженном режиме без аппаратной деградации с учетом полноты контроля и восстановления 98

4.1.5. Методика построения ОУВС, использующая механизм активной защиты и режим принудительного переключения резервных модулей - 102

4.2. Исследование показателей надежности и отказоустойчивости на модели ОУВС 103

4.3. Разработка алгоритма расчета надежности систем 108

4.4. Оценка показателей надежности ОУВС бортового Фурье-спектрометра 117

4.5. Выводы 122

Выводы 124

Список литературы

Введение к работе

Актуальность темы диссертационной работы обусловлена тем, что в настоящее время, с каждым годом увеличивается количество спутников, запу-щенных с разными целями: для прогноза погоды, для исследования природных ресурсов Земли, для решения коммуникационных и военных задач, и т.д. Системы спутниковой связи и телевизионного вещания являются основным средством увеличения объема и качества получаемой и передаваемой информации, в интересах всех отраслей экономики. Обычно такие бортовые системы должны обладать свойствами отказоустойчивости и живучести во время их функционирования, поскольку их отказы могут быть весьма дорогостоящими и иметь опасные последствия.

С первого дня появления вычислительных машин начались исследования повышения надежности их работы. В классических работах на эту тему показан путь к повышению надежности, заключающийся в резервировании. В период до конца 60-х годов прошлого столетия основная направленность исследований состояла в повышении безотказности спутниковых систем в течение достаточно ограниченных сроков активного существования (САС), не выше 3-5 лет, достигаемой в первую очередь за счет введения различных форм избыточности (аппаратной, функциональной, временной и др.). Эти исследования и полученные результаты базировались в основном на математических методах (методы теории вероятностей и математической статистики, случайных процессов, теории графов, исследования операций и др.), разработанных и развитых российскими учеными К. А. Иыуду [1-8], И.А. Ушаковым [9-12], И.Б. Шубинским [13,14], И.А. Рябининым [15-19] и др., так и зарубежные Р. Лонгботтом [20], Ж.С. Лаприе [21,22], А. Авижиенис [22-24] и др. [25-37]. В области космофизи-ки к тому времени усилиями ученых Вернова С.Н., Кузнецова В.Д и др. [38], были сформулированы представления и получены исходные экспериментальные данные о характеристиках радиационных поясов Земли, космических лучей и т.д. В области радиационной стойкости были разработаны методические подходы к заданию требований по радиационной стойкости интегральных микросхем (ИМС), начаты исследования дозовых и временных эффектов в комплектующих элементах и аппаратуре в условиях водействия ионизирующих излучений (ИИ) (в первую очередь, высокоинтенсивных воздействий искусственных источников) - ученными Агаханяным Т.М., Першенковым B.C., Поповым В.Д. [38-44].

С возникшей сегодня потребностью увеличения сроков активного существования космического аппарата (КА) эта проблема приобрела особую актуальность и значимость и стимулировала проведение исследований и разработку адекватной поставленным в работе цели и задачам. Так в современных же условиях конкурентоспособность и рентабельность проектов предоставления-услуг космической связи определяют необходимость создания КА с С АС 12 и более лет. Существующие методы не полностью обеспечивали требуемые характеристики надежности бортовых вычислительных систем. Однако, указанные методы не позволяли в необходимой мере учитывать влияние на стойкость ИМС бортовых систем в условиях специфических воздействий внешней среды космического пространства, прежде всего к дозовым эффектам при воздействий низкоинтенсивных ионизирующих излучений космического пространства, так как в центре внимания указанных исследований были вопросы стойкости электронных систем к высокоинтенсивным ионизирующим полям искусственного происхождения; Опыт, накопленный предприятиями космической отрасли показал, что прогресс в создании КА с такими САС невозможен без изменения традиционного подхода резервирования в области обеспечения отказоустойчивости их электронных систем.

Именно все это и определило важность и актуальность решаемой в диссертации научно-технической задачи - разработки методики обеспечения отказоустойчивости бортовых вычислительных систем реального времени.

Цель диссертационной работы состоит в разработке методики и средств обеспечения отказоустойчивости бортовых вычислительных систем реального времени, позволяющих повысить надежности систем в условиях низкоинтен 8 сивных ионизирующих излучений (ИИ), использующих резервирование, активную защиту от отказов и режим принудительного переключения.

Для достижения поставленной цели представляется целесообразным решение следующих задач:

1. Сравнительного анализа существующих концепций обеспечения отказоустойчивого функционирования и принципов построения современных отказоустойчивых вычислительных систем.

2. Разработки методики обеспечения отказоустойчивости бортовых вычислительных систем с целью предотвращения «сбоя или отказа от воздействия низкоинтенсивных ионизирующих излучений на элементы системы с традиционной схемой резервирования.

3. Организации активной защиты от отказов в бортовых вычислительных системах реального времени для обеспечения отказоустойчивости системы от воздействия низкоинтенсивных ионизирующих излучений на элементы системы.

4. Оценки эффективности применения активной защиты от отказов в иерархических бортовых вычислительных системах.

Методы исследования, использованные в процессе выполнения диссертационной работы: имитационное моделирование, применение аппарата теории вероятностей, комбинаторного анализа, теории графов, теории случайных процессов (марковские и полумарковские процессы), теории надежности технических систем.

Научная новизна диссертационной работы заключается в следующем:

- разработана методика построения отказоустойчивых вычислительных систем (ОУВС), использующая резервирование в нагруженном режиме и режим принудительного переключения резервных элементов, позволяющая обеспечить заданный уровень надежности системы в условиях воздействия ионизирующих излучений;

- разработана методика построения отказоустойчивых вычислительных систем, использующая активной защиты от отказов и режим принудительного переключения резервных элементов, позволяющая повысить надежность бор 9 товых вычислительных систем за счет предотвращения сбоев и отказов элементов системы, вызванных воздействием ионизирующих излучений;

- получены аналитические выражения для вероятности безотказной работы системы (ВБР) активной защиты от отказов в общем случае для любого числа основных и дополнительных вычислительных модулей, позволяющие обосновано выбирать структуру системы исходя из заданного значения вероятности безотказной работы.

Практическая ценность: Ценность полученных в работе результатов состоит в том, что разработанная методика и средства организации активной защиты от отказов и принудительного переключения резервных комплектов в бортовых вычислительных системах могут быть приняты при разработке отказоустойчивых вычислительных систем, при проектировании и построении бортовых вычислительных систем для космического аппарата в условиях водейст-вия низкоинтенсивных ионизирующих излучений.

Внедрение результатов работы: Полученные в диссертации результаты использованы в НИИ1 информатики и систем управления МГТУ им. Н.Э. Баумана при выполнении работы по созданию отказоустойчивой цифровой вычислительной системы для бортового Фурье-спектрометра, предназначенного для длительного использования в составе научной аппаратуры космического аппарата Метеор-ЗМ.

Исходя из заданных требований надежности ко всему прибору, путем моделирования с использованием разработанных в диссертации методов и алгоритмов были выработаны рекомендации по построению отказоустойчивой цифровой вычислительной системы для бортового Фурье-спектрометра.

Апробация работы и публикации. Тема и содержание диссертации отражены в 5 научных работах, из них по списку ВАК - 1 работа.

Основные положения и результаты работы заслушивались и обсуждались на научно-технических семинарах и заседаниях секции кафедры «Компьютерные системы и сети» МГТУ им. Н.Э. Баумана, на научно-технической конференции в МГТУ им. Н.Э. Баумана (Москва, 2005 г), на 14-й всероссийской меж 10 вузовской научно-технической конференции студентов и аспирантов (Москва, 2007г)

Объем и структура диссертации.

Диссертация включает введение, четыре главы, заключение, список литературы из 103 наименований. Основная часть диссертационной работы изложена на 134 страницах и содержит 44 рисунки и 20 таблиц.

Краткое содержание работы

Во введении показана актуальность темы диссертационной работы, сформулированы цели и задачи исследования, обоснованы научная новизна и практическая ценность исследований.

В первой главе были проанализированы концепции обеспечения отказоустойчивости вычислительных систем и метод применения A3. Проведен анализ методов обеспечения отказоустойчивости и живучести вычислительных систем, приведший к необходимости динамической реконфигурации систем. Рассмотрены проблемы воздействия ИИ на ИМС КМОП-структуры, в результате чего была показана необходимость разработки методов обеспечения отказоустойчивости на основе реконфигурации для предотвращения сбоя или отказа элементов системы, вызванных воздействием ИИ.

Во второй главе рассмотрены традиционные схемы резервирования в условиях водействия ИИ на ИМС, приведены анализ и метод определения эффективности резервирования в структурно-сложной системе, разработана методика построения ОУВС, использующая резервирование в нагруженном режиме и режим принудительного переключения резервных элементов

В третьей главе проведены организации активной защиты от отказов в бортовых вычислительных системах реального времени. Рассмотрены разные способы формирования пар вычислительных модулей. Введен режим принудительного переключения резервных комплектов в системе A3, позволяющий повысить надежность системы. Рассмотрены и даны оценки эффективности применения A3 в иерархической вычислительной системе.

В четвертой главе проведены моделирования и оценки показателей надежности ОУВС. Были разработаны модели, описывающие надежность различных систем с учетом влияния степени полноты контроля и восстановления. На базе этих моделей был разработан комплекс алгоритмов и программ, позволяющих исследовать влияние параметров системы на ее надежностные характеристики. Получены аналитические выражения для вероятности безотказной работы (ВБР) системы A3 в общем случае для любых количеств основных и дополнительных вычислительных модулей, позволяющие обосновано выбирать структуру системы исходя из заданной ВБР. На основе предложенных моделей и алгоритмов в результате моделирования были выработаны рекомендации по построению отказоустойчивой цифровой вычислительной системы Фурье-спектрометра. 

В Заключении делаются выводы о проведенной работе: обобщаются полученные в работе научные результатов. Даются рекомендации по возможности использования результатов работы при построении ОУВС. 

Применение метода активной защиты от отказов в задаче обеспечения отказоустойчивости вычислительных систем

В монографии [14] рассматриваются основы анализа и синтеза отказоустойчивых ВС реального времени на основе активной защиты от отказов. Рассматриваются теоретические основы, идеи и дисциплины активной защиты (A3) от отказов модульных вычислительных систем. A3 предназначена для достижения требуемых уровней отказоустойчивости ВС в условиях незначительного резерва времени и ограниченной эффективности средств обнаружения неисправностей при условии, что объем резервного оборудования не должен превышать объема основного оборудования. A3 также предназначена для решения проблемы обеспечения заданного уровня-успешной адаптации ВС к сбоям и отказам составных элементов и программ без существенного увеличения предусмотренных средств контроля и диагностики.

Активная защита основана на следующих идеях [14]:

1. Длительности всех циклов управления в пределах общего времени управления разделяются на определенные интервалы времени, называемые тактами A3. Такты A3 вводятся с целью дискретизации непрерывного времени функционирования системы. Моменты дискретизации предназначены для регистрации имеющихся в ВС в эти моменты исправных вычислительных элементов основного и резервного оборудования, а также для привязки к тактам A3 операций наблюдаемости и управляемости ВС. Такты A3 могут быть как постоянной, так и случайной длительности, что характерно для параллельных ВС с различной архитектурой. Операции наблюдаемости и управляемости строго согласуются с моментами дискретизации. В частности, контрольная точка, сформированная для вычислительного процесса какого-либо вычислительного элемента (ВЭ), обновляется через такты A3.

2. Организация динамической реконфигурации ВС через такты A3 для организации потактной параллельной работы требуемого количества основных и имеющихся исправных избыточных ВЭ.

3. Виртуальное резервирование всех основных ВЭ при наличии хотя бы одного исправного избыточного ВЭ. Это достигается за счет работы каждого из основных ВЭ поочередно параллельно с однотипным избыточным ВЭ.

4. Все этапы наблюдаемости ВС (обнаружение неисправности, ее локализация и классификация) выполняются на реальных задачах без применения в процессе управления диагностирующих средств. Важно отметить, что проверяются только те ВЭ, которые участвуют в вычислениях, а также то, что чем выше интенсивность заявок, поступающих на обслуживание в ВС, то есть, чем более загружена система, тем чаще наблюдается система с помощью A3.

5. Возможности A3 в значительной мере зависят от выбора средней длительности такта A3, которая определяется допустимыми временем локализации неисправного ВЭ и восстановления вычислительного процесса.

Таким образом, модульная вычислительная система (МВС) формируется с помощью вычислительной среды (основные модули), защитной среды (дополнительные модули), коммутационного и управляющего органа. Реконфигурация организована с помощью коммутационного органа. Управление в МВС при реализации активной защиты показаны на рис. 1.4.

Разработанные способы A3 позволяют создать широкий спектр различных дисциплин защиты. В работе [14] были подробно рассмотрены базовые и модульные дисциплины. Базовые дисциплины обеспечивают активную защиту при минимальной избыточности системы. Эти дисциплины служат основой для построения многоуровневых дисциплин защиты, поскольку в результате постепенной деградации ВМ многоуровневые дисциплины трансформируются в базовые (одно и двухуровневые). При этом должен быть выдержан единый стиль построения многоуровневой и ее базовой дисциплины. Каждая базовая дисциплина - это алгоритм взаимодействия одного или двух избыточных ВМ с множеством основных (при общей A3) или с подмножеством основных ВМ (при раздельной или смешанной A3). Модульные дисциплины в отличие от базовых предназначены для организации взаимодействия строго ограниченного количества избыточных и основных ВМ. Это обеспечивает аппаратурную реализацию управления модульной дисциплиной и позволяет сформировать модуль A3, а обслуживание множества всех основных ВМ возможно за несколько смежных тактов работы этого модуля;

В A3 хорошо использованы все известные подходы для обеспечения отказоустойчивости системы, таю например динамические реконфигурации, постоянный резерв, не постоянный резерв и т.д., и: в целом метод АЗшожет быть использован: в любой- системе. Однако, одним из недостатков при реализации A3 является сложность,реализации блока контроля ив известных работах по A3 также не было исследований для бортовых систем с режимом принудительного переключения резервных блоков с целью предотвращения сбоя или отказа, призванных воздействием ИИ на элементы структуры КМОП.

Организация режима принудительного переключения в системах резервирования в нагруженном режиме

Очевидно, что второй процессор улучшает надежность системы на 10,00%), а третий - на 1,00% (относительно надежности двухпроцессорной системы) и четвертый - только на 0,10 % относительно надежности системы с тремя процессорами. Поэтому выбор т 4 нецелесообразен.

На рис 2.3. приведена зависимость среднего времени наработки систем от числа процессоров. Из рис. 2.3 следует, что среднее время безотказной работы в рассматриваемой системы с ростом п растет сначала быстро, однако дальнейшее увеличение параллельных подсистем неэффективно, так как прирост Е[Х] незначительный.

Очевидно, что при п 3 выигрыш в надежности и в среднем времени безотказной работы незначительный. Дальнейшее включение в схему новых элементов обеспечивает лишь небольшой прирост значения готовности.

При большом числе процессоров производительность мультипроцессорной ВС резко падает [75-78]. В общем случае при переходе от однопроцессорной к мультипроцессорной архитектуре с п параллельно работающими процессами можно получить общее ускорение в решении задачи в п раз. Однако на практике общее ускорение может расти медленнее. Это происходит из-за того, что данная конкретная задача, как правило, не полностью разделяется на п независимых подзадач. Отдельные подзадачи в процессе своего решения требуют обмена данными, на что тратится дополнительное время. Кроме того, существует и другие причины снижения производительности мультипроцессорной системы. 2 3

Очевидно, что эффективность вычислений определяется как отношение ускорения Y к числу процессоров, имеет максимальное значение при малых значениях п [79]. Таким образом, будем работать над системой с п = 3, т.е. системой под названием троирования (рис. 2.4) [73].

Режим принудительного переключения резервных комплектов (РПП) осуществляется в системе путем отключения каждого ее резервного модуля на интервал времени 7} и включения в работу на интервал времени ,-. Приведена временная диаграмма режима переключения на рис. 2.5.

Идея РПП такова, что последовательно отключается питание на каждый элемент (процессор) системы. В начале все 3 элемента работают в нагруженном режиме; после длительности времени ti отключается от питания 1 -й элемент на интервал Т!} система работает с оставшимися 2-мя элементами как дублирования. Это необходимо для рассасывания зарядов на 1-ом элементе. По истека-нию времени Г/, снова включается в работу 1-й элемент. Система работает со всеми 3-мя элементами. Затем аналогично отключает 2-й, 3-й процессор на интервал времени Тг, Т3. Таким образом, система всегда защищена от воздействия ИИ на ИМС процессоров системы.

Если предположит, что все процессоры однородны, с вероятностью безотказной работы р = p(t) = e Xt, то ВБР для системы определяется по следующей формуле: R{t) = \-(\-pf=\-(\-e-x f (2з3}

С учетом воздействия ИИ по формуле (2.1), (2.3) и (2.33), получим выражение для ВБР системы в виде: ))\ 4) Предположим, что с применением принудительного переключения интегральные схемы на всех компонентах системы получают дозу накопленных зарядов в 3 раза меньше, чем обычно, тогда ВБР для системы получается в следующем виде:

Организация режима принудительного переключения в системах активной защиты от отказов

Этот сбой обнаружен по результатам параллельной работы данного основного и контролирующего ВМ. Результаты не совпали, в системе зафиксирована ошибка. Информация считывается с контролирующего ВМ, которому больше доверия, поскольку он контролируется основными ВМ в каждом такте A3. Первый основной модуль фиксируется в списке подозрительных ВМ. Через цикл A3, который в данной дисциплине равен А = т вновь работает пара из первого основного и контролирующего ВМ. Результаты совпали. Принимается решение о сбое первого ВМ в предыдущем цикле A3. Этот модуль исключается из списка подозрительных.

На рис. 3.16 показана работа ВС при отказе второго основного ВМ. Решение об отказе этого модуля принимается при наличии в ВС общей памяти в следующем цикле A3 через m тактов. После этого контролирующий ВМ вы І-І 74 полняет функции второго основного модуля и система работает в течение времени восстановления отказавшего модуля без защиты.

На рис. 3.1 в показана работа ВС в условиях сбоев контролирующего ВМ. При несовпадении результатов работы пары, образованной первым ос новным и контролирующим модулями, больше доверия согласно алгоритму отводится контролирующему ВМ. С него считывается искаженная информа ция. Следовательно, от сбоев контролирующего ВМ, необнаруженных его собственными средствами контроля, система не защищена. Этот недостаток имеет место и в случае отказа контролирующего ВМ. Хотя его отказ обнару живается и устраняется за два такта A3 (рис. 3.1 в), но в первом такте оши бочный результат регистрируется в контрольной точке соответствующего ос новного ВМ (в рассматриваемом примере первого модуля). В результате это 1 го возможно нарушение вычислительного процесса основного исправного ВМ.

Таким образом, такой способ построения отличается простотой реализации, но имеет два недостатка: вычислительная система не защищена от сбоев и отказов контролирующего ВМ; сравнительно большое время адаптации ВС к отказам основных модулей: при наличии общей памяти в системе количество тактов в цикле A3 А = т; количество тактов принятия решения об отказе основного ВМ Ъ = А = т\ количество тактов, затрачиваемых на восстановление вычислительного процесса С ПОСЛеДНеЙ КОНТРОЛЬНОЙ ТОЧКИ Ху = т.

Организация режима принудительного переключения в системах активной защиты от отказов

С учетом влияния ИИ на надежность ИМС бортовых вычислительных систем, нужно предотвращать возможность возникновения сбоя или отказа в контролирующие элементы

Предположим, что в вычислительной среде содержатся вычислительные модули (ВМ) с номерами, например, 1, 2 и 3, а в защитной среде - модули с номерами 4 и 5, как в приведенном примере на табл. 10. Предполагаем, что в кон- тролирующих модулях с номерами 4 и 5 применяется РПП на интервал выключения Т (отключения от питания). Должно выбирать время Т такое, чтобы Т равно кратному времени цикла контроля. То есть Т = zA, где z - целое число, А - количество тактов в одном цикле, в этом конкретном случае А=3.

Предполагаем, что сначала контролирующий модуль с номером 5 находится режиме выключения, тогда система работает с одним контролирующим номером 4. В первом такте A3 образуются пары 4-1, а модуль 2, 3 остаются без контроля. Во втором такте - пара 4-2, и затем пара 4-3. Через три такта A3 все основные ВМ контролируются. В последующих трех тактах A3 образуются те же пары ВМ с контролирующим модулем номером,4. После время Т = 3z система реконфигурируется, контролирующий модуль номером 5 подключается, а модуль 4 выключается от питания для релаксации от зарядов. В последующих трех такте A3 образуются пары 5-1, 5-2, 5-3, и т.д. (см. табл. 11)

С подходом переназначения вычислительного модуля, мы можем более эффективно организовать A3 с целью-предотвращения сбоя или отказа вычислительного модуля и также контролирующего модуля. Т.е., мы можем принудительно отключать каждый модуль в течение определенного интервала времени, и потом снова его включать, и отключать другой модуль.

Приведен пример организации A3 с режимом принудительного переключения на каждом модуле системы. То есть, в начале система работает с организацией, приведенной в табл. 10, в течение какого-то интервала времени отключается от питания 5-й модуль (см. табл. 13), тогда система работает с одним контролирующим модулем, и через интервал времени Т снова его включает в работу и тогда система снова работает с двумя контролирующими модулями, как в табл. 10. Затем отключает 4-й модуль, и т.д., за счет релаксации от зарядов, на всех модулях будут сохранены надежность, благодаря этому обеспечивается отказоустойчивость системы целиком.

Была организована активная защита от отказов с РПП по способу переназначения вычислительных модулей, это несложно для реализации.

Рассмотрим пример вычислительной системы, описанной выше, т.е. система имеет т = 3 рабочих модулей с номерами 1, 2, 3; два модуля для резерва и контроля с номерами 4, 5 по методу активной защите от отказов. Принципы действия этой системы рассмотрены в разделах 3.1, 3.1.

Выбор количества структурных параметров системы каноническим методом

Современные вычислительных системы сложной структуры с повышенными требованиями к характеристикам надежности обладают рядом особенностей, которые необходимо учитывать при проведении анализа надежности, безопасности, эффективности. К таким особенностям относятся [81-84]: наличие нескольких уровней эффективности функционирования (например, производительности) и постепенная деградация по эффективности при возникновении неисправностей; реализация разнообразных способов резервирования (структурного, временного, алгоритмического), стратегий восстановления, технического об служивания, например, различная «нагруженность» резерва, присутствие об щих элементов В различных резервированных звеньях, контроль функциониро вания, число ремонтных бригад; применение алгоритмических методов обработки неисправностей (в основном для вычислительных устройств) с классификацией на сбои и отказы; возможность возникновения нескольких несовместных видов отказов элементов, блоков, устройств, приводящих, при определенной кратности и последовательности возникновения, к различным последствиям на системном уровне; наличие скрытых и явных отказов.

В теоретических исследованиях и разработках в области надежности Россия находится на лидирующих позициях [85]. Что же касается программных средств, то здесь наблюдается отставание отечественных разработок от зарубежных. Подобное состояние дел обусловлено вполне объективными причинами. Дело в том, что этап автоматизации применения теоретического задела в области надежности пришелся на 90-е годы, когда в США и Европе начали соз даваться специализированные фирмы по созданию программного обеспечения анализа надежности (Relex Software, Relcon...). Хорошо организованная и целенаправленная многолетняя деятельность различных специалистов (прикладных математиков, программистов, технического персонала), работающих в этих фирмах, привела к созданию интегрированных программных средств анализа надежности. Лучшие из этих программ включают различные-методы анализа, содержат обширные базы-исходных данных, имеют развитый, интерфейс пользователя, исчерпывающе документированы, имеют как локальную, так и сетевую конфигурации, сопрягаемы по импорту-экспорту с базами данных, текстовыми редакторами, электронными таблицами, логистическим ПО.

На мировом рынке получили распространение следующие программные комплексы (ПК): зарубежные - Relex, Isograph, Item, CAFTA, RiskSpectrum, A.L.D. Среди отечественного ПК наиболее известны: ПК ACM СЗМА, УНИВЕРСАЛ, МАМОНА, АСОНИКА-К (см. табл. 17).

Был проведен сравнительный анализа ПК по ряду признаков, в частности, по» реализуемым количественным методам расчета; особенностям моделей отказов и восстановления, резервирования; вычисляемым показателям; обеспечению исходными данными, нормативной базой; способам задания моделей, точности расчетов; сопрягаемости с внешним ПО.

Количественные методы расчета показателей В исследовании надежности систем по существу применяются два класса моделей: статические, в которых состояния системы определяются наборами работоспособных и неработоспособных элементов в течение интервала времени t; динамические, в которых происходящие события, отказы рассматриваются как процессы, изменяющиеся во времени.

В рамках статических моделей анализ надежности проводится следующими методами:.

1. Метод, использующий основные формулы теории вероятностей (вероятность суммы и произведения событий, формула полной вероятности) и комбинаторики; применяется главным образом для последовательно-параллельных, параллельно-последовательных структурных надежностных схем и схем m из п.

2. Методы, основанные на записи логических условий, интересующих исследователя функций, через состояния элементов системы с последующим применением теории алгебры логики (логико-вероятностные методы, деревья отказов, схемы функциональной целостности).

В рамках динамических моделей применяются: 1. Моделирование систем марковскими процессами. 2. Методы теории восстановления, полумарковских и регенерирующих процессов (в основном используются асимптотические результаты либо для системы в целом, либо для отдельных резервированных звеньев). 3. Статистическое имитационное моделирование (Монте-Карло). Про граммные комплексы ПК ACM СЗМА, МАМОНА, RiskSpectrum, Ill

В результате анализа всех ПК позволяет сделать вывод, что наиболее развитыми программными средствами анализа надежности на сегодняшний день являются зарубежные комплексы Relex, Isograph, Item. Это обусловлено прежде всего интеграцией большого набора моделей и методов анализа надежности, безопасности, технической эффективности. Развитие теории надежности в настоящее время идет в направлении учета в расчетных моделях названных особенностей систем главным образом посредством: повышения адекватности моделирования поведения сложных систем и решениЯ Проблем размерности; алгоритмизации- методов анализа; создания интегрированных программных продуктов анализа.

Использование графа- связности (ГС) и матрицы связности (МС) требуется для» нахождения функций работоспособного состояния (ФРС)„ структурно-сложных систем. Знание ФРС необходимо для расчёта численных значений показателей надёжности, таких, например, как вероятность работоспособного состояния системы Pc(t) и средняя наработка до отказа Тс для восстанавливаемых и восстанавливаемых систем и в ряде других задач теории надёжности. А также иногда требуется рассчитать вероятность отказа системы Qc(t), плотность вероятности q(t) и др. [18,74,86,87]. Алгоритм расчета приведен на рис. 4.16.

Похожие диссертации на Методика и средства обеспечения отказоустойчивости бортовых вычислительных систем реального времени