Содержание к диссертации
Введение
1. Коэффициент готовности при неслучайном объеме выборки 10
1.1. Асимптотические свойства оценки Ki 14
1.2. Асимптотические свойства оценки Kf 22
1.3. Асимптотические свойства оценки К^ 25
1.4. Асимптотические доверительные границы для Я", постро-енные с помощью оценки К 29
2. Оценки минимального объема выборки для коэффициента готовности 32
2.1. Постановка задачи 32
2.2. Оценки минимального объема выборки 33
2.2.1.Решение, основанное на центральной предельной теореме . 34
2.2.2.Решения, принимающие во внимание точность нормальной аппроксимации 35
2.3. Точность нормальной аппроксимации и гарантированные доверительные интервалы для коэффициента готовности . 39
3. О распределении стьюдента как асимптотической аппроксимации 42
3.1. Постановка задачи 42
3.2. Распределение Стьюдента как масштабная смесь нормальных законов 44
3.3. Распределение Стьюдента как асимптотическая аппроксимация 47
3.4. О точности аппроксимации отрицательного биномиального распределения гамма-распределением 52
3.5. О скорости сходимости распределений некоторых статистик к распределению Стьюдента 61
4. Коэффициент готовности при случайном объеме выборки 68
4.1. Постановка задачи 68
4.2. Коэффициент готовности при случайном объеме выборки, имеющем отрицательное биномиальное распределение . 70
4.2.1.Асимптотические свойства оценки Kj^ 73
4.2.2.Асимптотические свойства оценки Kt? 75
4.2.3.Асимптотические свойства оценки Kf? 77
4.2.4.Асимптотические доверительные границы для К, построенные с помощью оценки /fjv„ 79
Приложение 80
Использованная литература 88
- Асимптотические свойства оценки Kf
- Оценки минимального объема выборки
- Точность нормальной аппроксимации и гарантированные доверительные интервалы для коэффициента готовности
- Распределение Стьюдента как асимптотическая аппроксимация
Асимптотические свойства оценки Kf
Развитие современной математической теории надежности, основанной, в первую очередь, на результатах и методах теории вероятностей и математической статистики, имеет не только вполне естественное серьезное теоретическое значение, но и огромную практическую важность. Это обусловлено, в первую очередь, насущной необходимостью решать на практике большое число конкретных задач, связанных с анализом рисковых ситуаций, то есть определением как размера возможных потерь, так и самой возможности потерь критического, например, катастрофического уровня из-за отказа тех или иных технических или информационных систем. Ситуации, связанные с риском отказов таких систем, чрезвычайно разнообразны. Они могут возникать в самых разных областях человеческой деятельности и могут иметь самые разные последствия -от больших материальных потерь и человеческих жертв при недооценке риска землетрясений, ураганов, наводнений или других природных катаклизмов большой силы при проектировании зданий или защитных сооружений, до значительных материальных и финансовых потерь при недооценке риска отказов энергетических или инфотелекоммуникацион-ных систем. Многие классические методы оценки показателей надежности, разработанные, как правило, в середине XX века, основаны на идеальных предположениях о том, что параметры, характеризующие, скажем, воздействие внешней среды, имеют нормальное распределение, а параметры, характеризующие надежность составных частей изучаемой системы, например, время жизни (наработки на отказ) имеют показательное (экспоненциальное) распределение. Однако, к сожалению, зачастую применение классических методов приводит к недооценке риска отказов. Причины иногда имеющей место несостоятельности классических моделей могут быть разными. К примеру, если показатели надежности вычисляются на основе статистических данных, накопленных за определенное время, то существенную роль будет иметь то обстоятельство, является или нет поток событий, в результате которых накапливаются статистические данные, однородным. То есть, стремится ли отношение количества зарегистрированных в течение определенного интервала времени событий к длине этого интервала времени к некоторому числу с течением времени. Если такое сближение указанного отношения с некоторым числом имеет место, то классические модели могут давать адекватные результаты.
Однако, если такое сближение не наблюдается, и указанное отношение сильно колеблется, оставаясь случайным (то есть непредсказуемым), то классические модели неадекватны и приводят к весьма существенной недооценке риска. В частности, вместо ожидаемого в соответствии с классической теорией нормального закона в подобных ситуациях (например, если упомянутое выше отношение ведет себя как гамма-распределенная случайная величина) могут возникать, скажем, функции распределения ущерба типа распределения Стьюден-та с произвольно малым числом у степеней свободы ( см. например [21], [9], [11]). Например, функция распределения Стьюдента при j = 2 (ему соответствует интенсивность потока информативных событий, имеющая асимптотически экспоненциальное распределение) имеет вид Хвосты этого распределения столь тяжелы, что у него отсутствуют моменты порядков S 2. Несложно видеть, что для /3 1, /?-квантиль этого распределения равна уД{2/3-1)/у/1- (2/3- I)2. Поэтому, например, расстояние между квантилями порядков 0.975 и 0.025 этого распределения (что в определенном смысле соответствует длине "наикратчайшего доверительного интервала" с коэффициентом доверия 0.95) оказывается почти в 2.2 раза больше соответствующей характеристики нормального распределения с тем же параметром масштаба. Этот при мер наглядно иллюстрирует, насколько важно учитывать случайность интенсивности потока событий, несущих регистрируемую информацию. В противном случае можно существенно недооценить размер возможного ущерба или саму возможность критического ущерба (легко видеть, что реальная доверительная вероятность "95%-ного нормального" интервала, вычисленная по приведенной выше функции распределения Ф(х), оказывается меньшей, чем 0.82). В такой же ситуации с асимптотически гамма-распределенной интенсивностью потока информативных событий вместо классического экспоненциального закона возникают распределения Парето с произвольно тяжелыми хвостами [16]. Неоднородность потока информативных событий, приводящая к возникновению неклассических вероятностных моделей с "тяжелыми хвостами", является, увы, не исключением, а правилом. Поэтому особую важность приобретает изучение именно внутренних, аналитических механизмов формирования вероятностных моделей рисковых ситуаций. Асимптотический подход, основанный на предельных теоремах теории вероятностей, дает возможности получить не только сами формальные вероятностные модели рисковых ситуаций, традиционных для теории надежности, но и в некотором смысле дать разумное теоретическое объяснение их адекватности на основе минимальных предположений о внутренней структуре изучаемых характеристик, что чрезвычайно важно при решении задач анализа надежности технических и информационных систем и рисков, связанных с их отказами, в условиях стохастической неопределенности. При изучении надежностных характеристик сложных технических и информационных систем (в том числе модифицируемых) возможны как минимум два подхода. Первый из них - параметрический - заключается в том, что распределения параметров, определяющих надежностные характеристики систем, считаются известными. Эти распределения за
Оценки минимального объема выборки
Второй подход - непараметрический — стал предметом систематических исследований только в последнее время (см., например [32], [22]). Непараметрический подход заключается в рассмотрении моделей изменения самих надежностных характеристик, минуя задачу идентификации распределений. Если распределение времени безотказной работы известно хотя бы с точностью до параметра (известна модель), то параметрический подход может привести к более точным результатам. Однако, если модель неизвестна, то параметрический подход неприменим. Более того, если модель распределения времени безотказной работы выбрана неправильно, то параметрический подход может привести к существенно неверным результатам. В то же время непараметрический подход является устойчивым по отношению к выбору модели, так как непараметрические методы не зависят от конкретной модели распределения времени безотказной работы. Именно непараметрический подход рассматривается в данной диссертации. В рамках этого подхода удается построить методы анализа показателей надежности сложных систем, и, прежде всего, коэффициента готовности, свободные от конкретного вида распределений времени безотказной работы технической или информационной системы и ремонтно-восстановительных работ. Более того, в диссертации изучается трансформация этих методов при случайной интенсивности потока информационных событий, в частности, при случайном объеме доступной выборки. Приведен достаточно общий пример такой организации испытаний сложных агрегированных систем, при которой объем выборки имеет отрицательное биномиальное распределение. Основным объектом исследования в диссертации является коэффициент готовности, который в условиях стационарного режима работы системы имеет смысл вероятности того, что система окажется работо способной в случайно выбранный момент времени. Этот показатель надежности сочетает относительную простоту его определения как отношения соответствующих средних арифметических с возможностью удобной интерпретации и лучше других показателей характеризует вероятность безотказной работы системы. В диссертации разработаны методы оценивания коэффициента готовности, позволяющие получить не просто приближенные асимптотические непараметрические доверительные интервалы для коэффициента готовности, но гарантированные доверительные интервалы как для неслучайного объема выборки, так и для упомянутой выше ситуации, в которой объем выборки имеет отрицательно биномиальное распределение.
В последнем случае вместо нормального в качестве асимптотического распределения коэффициента готовности возникает распределение Стью-дента. Поэтому в таком случае для получения гарантированных доверительных интервалов оказалось необходимым систематически исследовать точность аппроксимации распределений некоторых статистик распределением Стьюдента. В главе 1 , используя непараметрический подход к статистическому оцениванию коэффициента готовности технической или инфотелекомму-никационной системы, мы приведём точечные оценки, построенные как и по полным, так и по неполным статистическим данным. Используя новые оценки скорости сходимости в центральной предельной теореме, мы также приведём гарантированные доверительные интервалы для коэффициента готовности. В главе 2 приводятся оценки минимального объема выборки, достаточного для обеспечения требуемой точности с заданным уровнем надежности. Таких оценок мы рассматриваем три. Первая основывается на центральной предельной теореме (ЦПТ), но не учитывает погрешность нормальной аппроксимации. Вторая и третья оценки учитывают точность нормальной аппроксимации, обеспечивая уровень надежности не ниже требуемого, и потому являются гарантированными. Однако, как легко видеть, они превосходят первую, и поэтому следующая наша задача — выбрать наименьшую оценку. В главе 3 мы будем рассматривать предельные теоремы для "нарас-тающихислучайных сумм, в которых предельные распределения являются масштабными смесями нормальных законов. И еще мы укажем довольно простую асимптотическую схему, непосредственно приводящую к распределению Стьюдента как к предельному. Потом поговорим о точности аппроксимации отрицательного биномиального распределения гамма-распределением. Наконец, применим результаты, полученные в третьем и четвертом разделах, к оцениванию скорости сходимости распределений некоторых статистик к распределению Стьюдента. В главе 4 мы построим предельную функцию распределения для коэффициента готовности при случайном объеме выборки, имеющем отрицательное биномиальное распределение. В приложении приводятся таблицы всех трех оценок главы 2 в зависимости от требуемой точности приближения, надежности статистического вывода и таких характеристик распределений слагаемых, как величина третьего абсолютного момента и максимума плотности. И еще мы приводим таблицы для требуемых объемов выборок, которые обеспечивали бы желаемую точность гарантированных оценок К.
Точность нормальной аппроксимации и гарантированные доверительные интервалы для коэффициента готовности
Вернемся к задаче оценивания коэффициента готовности технической или инфотелекоммуникационной системы. В первом главе мы обещали обсудить точность нормальной аппроксимации для распределений ста-тистик Къ К\ и К"г. Данный раздел посвящен именно этой проблеме. Пусть для Ап известна оценка в форме оценки, аналогичные оценкам, приведенным в теоремах 1.3 и 1.8. В нем мы приведём уточненный аналог теоремах 1.5 и 1.8. Теорема 2.2. Для любого коэффициента доверия у Є (0,1), если объем п выборки Qi,..., Q удовлетворяет условию Мы приводим таблицы (см. приложение, таблицы (6), (7), (8)) для требуемых объемов выборок, которые обеспечивали бы желаемую точность гарантированных оценок К для случая, когда Мп является правой частью неравенства Берри-Эссеена с константой Шиганова. В каждой таблице мы положили а2 — 1 , Первый столбец содержит значения fa — -, первая строка задает значения 7 , вторая строка содержит требуемые объемы выборки, если использовать традиционный подход теоремы 1.2, а остальные строки содержат оценки объемов выборки, вытекающие из теоремы 1.5 (также в процентном соотношении, чтобы сравнить между собой эти два подхода). Итак, используя новые оценки скорости сходимости в центральной предельной теореме, мы также можем построить не асимптотические, но гарантированные асимптотические интервалы для коэффициента готовности. Эта глава состоит из пяти разделов. Сначала мы сформулируем постановку задачи. Во втором разделе мы рассмотрим распределение Стью-дснта как масштабную смесь нормальных законов, а в третьем- как асимптотическую аппроксимацию. В четвертом разделе мы поговорим о точности аппроксимации отрицательного биномиального распределения гамма-распределением. Наконец, применим результаты, полученные в третьем и четвертом разделах, к оцениванию скорости сходимости распределений некоторых статистик к распределению Стьюдента. Общеизвестна важная роль, которую распределение Стьюдента играет в математической статистике при анализе нормальных выборок. Здесь параметр 7 тесно связан с объемом выборки и принимает натуральные значения. Однако можно сказать, что в таких задачах роль распределения Стьюдента в значительной мере вспомогательна, оно является в определенном смысле абстрактной, идеальной теоретической моделью. В первую очередь здесь следует упомянуть работы П. Прэтца [47] и Р. Блаттберга и Н. Гоундса [42] Лишним подтверждением этого служит то обстоятельство, что ни в одном руководстве по теории (или практике) статистического оценивания не рассматривается задача оценивания параметра распределения Стьюдента.
По-видимому, недостаточное доверие прикладных статистиков к распределению Стьюдента как к модели, описывающей статистическое поведение реальных данных, связано с тем, что, в отличие от, скажем, нормального или пуассоновского распределений, фигурирующих в качестве предельных соответственно в центральной предельной теореме и теореме Пуассона о редких событиях, распределение Стьюдента не считается асимптотической аппроксимаци ей. Следует особо подчеркнуть, что распределение Стьюдента в силу относительной простоты представления могло бы быть удобной аналитической моделью, описывающей вероятностно-статистические свойства больших рисков, так как оно имеет более тяжелые хвосты, нежели нормальный закон. Например, оно могло бы стать удобной альтернативой устойчивым законам, часто применяемым в таком качестве (см., например, [17], [50], [6], [37], [4], [1]). Преимущество распределения Стьюдента перед устойчивыми моделями заключается, например, в том, что статистический анализ стьюдентовских моделей намного проще, так как для них функция правдоподобия выписывается в явном виде в терминах элементарных функций, в то время как для устойчивых законов это невозможно (за четырьмя исключениями). В следующих разделах мы будем рассматривать предельные теоремы для "нарастающих"случайных сумм, в которых предельные распределения являются масштабными смесями нормальных законов. И еще мы укажем довольно простую асимптотическую схему, непосредственно приводящую к распределению Стьюдента как к предельному.
Распределение Стьюдента как асимптотическая аппроксимация
Применим полученные в предыдущих разделах результаты к оцениванию скорости сходимости к распределению Стьюдента распределений таких статистик, построенных по выборке случайного объема с отрицательным биномиальным распределением, которые являются асимптотически нормальными при неслучайном объеме выборки. Всюду далее символ =Ф- обозначает сходимость по распределению, а стандартная нормальная функция распределения традиционно обозначается Ф(ж). В разделе 3.3. мы говорили, что статистика Тп асимптотически нормальна, если существуют функции т{9) и t{9) такие, что при каждом В дальнейшем для упрощения выкладок, не ограничивая общности, будем считать, что Пусть U - случайная величина, имеющая функцию распределения Grtr(x). Пусть Р2г{х) - функция распределения Стьюдента с параметром ("числом степеней свободы") 7 = 2г. Как известно, функция распределения Р2Г(ж) определяется своей плотностью Несложно убедиться (например, вспомнив определение распределения Стьюдента как распределения дроби, в числителе которой - стандартная нормальная случайная величина, а в знаменателе - корень квадратный из независимой от числителя случайной величины с распределением хи квадрат с 2т степенями свободы, деленной на 2г), что Теперь в последнем соотношении положим S = 5(п) = n d для некоторого d 0 и выберем d так, чтобы порядок убывания по п правой части (3.22) был максимально возможным. Но при таком выборе 5 и максимальный порядок убывания при п — оо, очевидно, доставляет значение Более того, легко видеть, что соотношение (3.23) выполняется равномерно по всем х из любого конечного интервала. В работе [10] показано, что, если Заметим, что для практических приложений наиболее важными (например, для приближенного вычисления так называемых .Р-значений при проверке гипотез) из ситуаций, упомянутых в замечании 3.4, являются первые две. Б. При натуральном г Теперь рассмотрим ситуацию, в которой г натуральное число. Выборки случайного объема, имеющего отрицательное биномиальное распределение с натуральным параметром г, естественно возникают в некоторых задачах теории надежности, связанных с оцениванием коэффициента готовности сложных телекоммуникационных систем. Рассмотрим задачу о скорости сходимости распределений классических асимптотически нормальных статистик, построенных по выборкам случайного объема с указанным распределением, к распределению Стьюдента. Вместо результатов работы [10] в рассматриваемой ситуации мы воспользуемся следующим утверждением.
Иногда при анализе эффективности и/или качества функционирования технических систем, экономических или финансовых компаний оценка и прогноз основных характеристик производятся на основе статистических данных, накапливаемых в течение определенного периода. Как правило, данные накапливаются в результате осуществления некоторых "информативных"событий. Например, выводы о значении так называемого "коэффициента готовности "технической системы (определяемого как отношение средней продолжительности безотказной работы системы к средней продолжительности цикла "безотказная работа - ремонт") делаются на основе статистики (Xit Qi),..., (Хщт) QN{T)) накопленной за некоторый интервал времени [О, Г], где ХІ- продолжительность безотказной работы системы после (г — 1)-го ремонта, a Qi- продолжительность г-го ремонта системы. Более того, эти выводы используются для прогнозирования коэффициента готовности на следующий период времени [Т, 2Х]. Аналогично, выводы о распределении размера страховых выплат, что играет ключевую роль при вычислении или оценивании такого важного критерия эффективности функционирования страховой компании как вероятность разорения, обычно делаются на основе статистики Х\,Хі, ...,Хщт) значений страховых требований, поступивших в течение интервала времени [О, Т] (очевидно, здесь N(T) обозначает число страховых требований, поступивших за время [0,1і]. Однако, очевидно (по крайней мере, в двух описанных выше ситуациях), что наблюдаемое число информативных событий, произошедших в течение интервала времени [0,Т], является не чем иным как реализацией некоторой целочисленной случайной величины, потому как и число страховых требований, накопленных к моменту времени Т, и число циклов "безотказная работа - ремонт "до этого времени следуют некоторым считающим случайным процессом. Если не принимать во внимание случайный характер объема доступной информации, то все что можно сделать - это построить в некотором смысле "условный"прогноз. Чтобы сделать полный прогноз с учетом случайности числа информативных событий, необходимо использовать результаты типа предельных теорем для статистик, построенных по выборкам случайного объема. В классической математической статистике типичным свойством многих измеримых функций от выборки (статистик) является их асимптотическая нормальность (при неслучайном объеме выборки). Оказывается, что при замене объема выборки случайной величиной свойство асимптотической нормальности рассматриваемых статистик трансформируется таким образом, что вместо нормального у статистик могут возникнуть предельные распределения с произвольно тяжелыми хвостами. Этот эффект приводит к тому, что