Математическое и алгоритмическое обеспечение статистического анализа данных типа времени жизни Чимитова Екатерина Владимировна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Чимитова Екатерина Владимировна. Математическое и алгоритмическое обеспечение статистического анализа данных типа времени жизни: диссертация ... доктора Технических наук: 05.13.17 / Чимитова Екатерина Владимировна;[Место защиты: «Новосибирский государственный технический университет»].- Новосибирск, 2016

Содержание к диссертации

Введение

ГЛАВА 1 Данные типа времени жизни и вероятностные модели надежности и выживаемости 20

1.1 Данные типа времени жизни 20

1.2 Законы распределения, используемые в задачах анализа данных типа времени жизни 26

1.3 Метод максимального правдоподобия 35

1.4 Проблемы проверки статистических гипотез о виде распределения 38

1.5 Выборки отказов с ковариатами 42

1.6 Регрессионные модели надежности и выживаемости

1.6.1 Непараметрические модели 46

1.6.2 Полупараметрические модели 48

1.6.3 Параметрические модели

1.7 Проблемы проверки гипотезы о виде параметрической регрессионной модели 52

1.8 Деградационная гамма-модель надежности 55

1.9 Статистическое моделирование (метод Монте-Карло) 58

1.10 Выводы 61

ГЛАВА 2 Исследование статистических свойств оценок максимального правдоподобия параметров распределений 63

2.1 Исследование статистических свойств ОМП по цензурированным справа выборкам 64

2.1.1 Исследование точности ОМП по цензурированным выборкам 64

2.1.2 Исследование смещения ОМП параметров распределений по сильно цензурированным выборкам 72

2.1.3 Исследование распределения ОМП параметров распределений по сильно цензурированным выборкам 75

2.2 Исследование свойств оценок максимального правдоподобия по выборкам усеченных слева наблюдений 80

2.2.1 Потери информации Фишера от усечения 80

2.2.2 Исследование точности ОМП по выборкам усеченных слева наблюдений 84

2.3 Определение оптимальных моментов времени тестирования устройств и исследование статистических свойств ОМП параметров распределений 91

ГЛАВА 3 Исследование свойств критериев согласия типа для полных, группированных и цензурированных выборок 97

3.1 Критерии согласия типа %2 для полных, группированных и

3.1.1 Критерий согласия %2 Пирсона для полных и группированных выборок 99

3.1.2 Критерий х2 Никулина-Рао-Робсона для полных выборок 101

3.1.3 Обобщенный критерий %2 Пирсона-Фишера для цензурированных выборок 103

3.1.4 Критерий х2 Никулина-Рао-Робсона для цензурированных выборок 106

3.1.5 Методы группирования цензурированной выборки 108

3.2 Исследование распределений статистик критериев типа %2

3.2.1 Распределения статистики х2 Пирсона при использовании различных методов оценивания по группированным данным 111

3.2.2 Исследование распределений статистик критериев типа х2 для цензурированных выборок 116

3.3 Исследование мощности критериев типа х2 124

3.3.1 Мощность критериев типа х2 для полных выборок при различных методах группирования 124

3.3.2 Мощность критериев типа %2 для полных выборок в зависимости от числа интервалов группирования 128

3.3.3 Сравнительный анализ мощности критериев типа %2 для цензурированных выборок 133

3.4 Выводы 136

ГЛАВА 4 Исследование распределений статистик и мощности непараметрических критериев согласия для цензурированных выборок 138

4.1 Критерии согласия типа Колмогорова, Крамера-Мизеса-Смирнова

4.1.1 Критерии согласия для полных выборок 139

4.1.2 Модифицированные критерии согласия для цензурированных выборок 141

4.2 Исследование распределений статистик модифицированных критериев согласия для цензурированных выборок I и II типа 143

4.2.1 Исследование распределений статистик при проверке простых гипотез 143

4.2.2 Исследование распределений статистик при проверке сложных гипотез 146

4.3 Исследование распределений статистик модифицированных критериев

согласия для случайно цензурированных выборок 148

4.3.1 Исследование свойств оценки Каплана-Мейера 148

4.3.2 Исследование зависимости распределений статистик от объема выборок 151

4.3.3 Исследование зависимости распределений статистик от степени

4.3.4 Непараметрический алгоритм моделирования случайно

4.4 Непараметрические критерии согласия на основе преобразования цензурированной выборки в псевдополную 160

4.5 Сравнительный анализ мощности критериев согласия, применяемых для цензурированных выборок 166

4.6 Выводы 177

ГЛАВА 5 Разработка и исследование критериев согласия для выборок усеченных слева наблюдений и выборок текущих состояний 179

5.1 Критерии согласия для выборок усеченных слева наблюдений 180

5.2 Исследование мощности критериев для выборок усеченных слева наблюдений 186

5.3 Разработка критериев согласия для выборок текущих состояний 189

5.3.1 Непараметрическая оценка функции распределения по выборке

текущих состояний 190

5.3.2 Исследование статистических свойств непараметрической оценки функции распределения 191

5.3.3 Критерии согласия для выборок текущих состояний 194

5.3.4 Зависимость распределений статистик критериев согласия для выборок текущих состояний от объема выборки и числа моментов тестирования 1 5.4 Исследование мощности предложенных критериев согласия для выборок текущих состояний 204

5.5 Выводы 206

ГЛАВА 6 Критерии согласия в задачах проверки гипотез о виде параметрических регрессионных моделей надежности и выживаемости 208

6.1 Проверка гипотез по полным выборкам 210

6.2 Проверка гипотез по группированным выборкам

2 6.2.1 Оценка Тернбулла 216

6.2.2 Критерии согласия для интервальных выборок 220

6.2.3 Мощность критериев согласия при проверке гипотезы о виде модели ускоренных испытаний по группированным выборкам 223

6.3 Проверка гипотез по цензурированным справа выборкам усеченных слева наблюдений 225

6.3.1 Алгоритм моделирования распределений статистик критериев согласия для цензурированных справа выборок усеченных слева наблюдений 227

6.3.2 Анализ мощности критериев по выборкам цензурированных

справа и усеченных слева наблюдений 230

6.4 Проверка гипотез по выборкам текущих состояний 234

6.4.1 Алгоритм моделирования распределений статистик критериев согласия для выборок остатков 236

6.4.2 Анализ мощности критериев по выборкам текущих состояний 237

6.5 Проверка гипотезы о виде деградационной гамма-модели 240

6.5.1 Исследование распределений статистик критериев согласия для деградационной гамма-модели надежности 242

6.5.2 Мощность критериев согласия для деградационной гамма-модели надежности 246

6.6 Выводы 248

ГЛАВА 7 Описание разработанного программного обеспечения и примеры применения предложенных алгоритмов для решения задач анализа данных типа времени жизни 250

7.1 Предпосылки для создания программной системы «LiTiS» 250

7.2 Назначение, технические характеристики и основные функциональные возможности программной системы «LiTiS» 252

7.3 Объектная модель программной системы «LiTiS»

2 7.3.1 Выборка наблюдений 259

7.3.2 Параметрическое семейство распределений 261

7.3.3 Регрессионные модели

2 7.4 Графический интерфейс пользователя 265

7.5 Примеры применения предложенных алгоритмов при проверке

гипотез о виде вероятностных моделей надежности и выживаемости 267

7.5.1 Проверка гипотезы о виде модели ускоренных испытаний по

полной выборке 267

7.5.2 Построение модели пропорциональных интенсивностей Кокса по случайно цензурированной выборке 273

7.5.3 Построение модели пропорциональных интенсивностей Кокса по случайно цензурированной справа выборке усеченных слева наблюдений 279

7.6 Выводы 285

Заключение 287

Список литературы 292

Проблемы проверки статистических гипотез о виде распределения
Исследование распределения ОМП параметров распределений по сильно цензурированным выборкам
Обобщенный критерий %2 Пирсона-Фишера для цензурированных выборок
Исследование зависимости распределений статистик от степени

Введение к работе

Актуальность темы исследования. В задачах анализа данных типа времени жизни выборки, как правило, содержат неполные наблюдения – цензурированные, интервальные или усеченные, что всегда связано со спецификой проведения эксперимента и формой регистрации наблюдений. Понятно, что при построении вероятностных моделей и проверке статистических гипотез необходимо учитывать форму представления данных, поэтому разработка и исследование статистических методов оценивания и проверки гипотез по цензурированным, усеченным, группированным и интервальным данным является актуальной задачей.

Одной из важнейших задач в прикладной статистике является построение статистической модели зависимости исследуемого количественного отклика от объясняющих переменных. Однако в задачах анализа данных типа времени жизни классические методы регрессионного анализа часто оказываются неприменимыми. Во-первых, классическая регрессионная модель определяется как зависимость математического ожидания отклика от объясняющих переменных, в то время как в задачах теории надежности и анализа выживаемости интерес представляет зависимость надежности (выживаемости) от объясняющих переменных. Во-вторых, распределение случайной величины, представляющей собой время жизни до некоторого системного события, как правило, является далеким от нормального распределения, а значит методы регрессионного анализа, в основе которых лежит предположение о нормальности ошибок, будут неприменимыми.

Наиболее широко используемыми регрессионными моделями в задачах анализа надежности и выживаемости являются модель ускоренных испытаний и модель пропорциональных интенсивностей Кокса. Регрессионные модели надежности и долговечности рассматривались в работах многих авторов, в частности, стоит отметить работы М.С. Никулина, В. Багдонавичуса (V. Bagdonavicius), Н. Балакришнана (N. Balakrishnan), Д. Кокса (D.R. Cox), У. Нельсона (W. Nelson), У. Микера (W. Meeker), К. Хьюбер (C. Huber), Дж. Лоулесса (J.F. Lawless), А.В. Антонова.

Достоверность результатов статистического анализа, в первую очередь, зависит от степени адекватности выбранной модели. Поэтому обязательным этапом является проверка гипотезы о виде модели. Задачу проверки гипотезы о виде параметрической регрессионной модели можно свести к задаче проверки сложной гипотезы о принадлежности выборки остатков базовому закону распределения, которая может быть решена с использованием одного из критериев согласия. Однако зачастую в публикациях, посвященных статистике ускоренных испытаний, о проверке гипотезы о виде модели либо не упоминается, либо проверку принадлежности выборки остатков базовому закону распределения осуществляют графическими методами. Причины такого положения вещей кроются в проблемах, связанных с использованием критериев согласия в условиях проверки сложных гипотез. В частности, (предельные)

распределения статистик непараметрических критериев согласия при проверке сложных гипотез существенно зависят от вида закона распределения, с которым проверяется согласие, от применяемого метода оценивания параметров и ряда других факторов. Применение критериев типа %² для проверки гипотез о виде распределения осложняется неоднозначностью выбора числа интервалов группирования и граничных точек.

Проблемы проверки сложных гипотез о виде распределения усугубляются в случае выборок, содержащих цензурированные, усеченные и интервальные наблюдения, поскольку на распределения статистик непараметрических критериев согласия существенное влияние оказывают как свойства непараметрических оценок функции распределения отказов, так и свойства оценок параметров вероятностной модели.

Статистические методы анализа данных типа времени жизни наиболее интенсивно используются при решении задач анализа надежности технических изделий. Среди отечественных публикаций, посвященных статистическим методам в теории надежности, необходимо отметить работы Б.В. Гнеденко, И.А. Ушакова, Ю.К. Беляева, Ю.Н. Благовещенского, В.М. Скрипника, Ю.Г. Приходько, А.Е. Назина, В.А. Острейковского, А.В. Антонова, И.З. Аронова и других авторов.

Есть озабоченность в связи с проверкой статистических гипотез относительно вида регрессионной модели надежности. Этой проблемой серьезно занимаются. Однако на настоящий момент можно однозначно утверждать, что в рамках только аналитического подхода она решена быть не может. Выходом из сложившейся ситуации является применение методики компьютерного моделирования, основанной на методе Монте-Карло. Данная методика дополняет аналитические методы, обеспечивая нахождение приближенного решения в тех случаях, когда этого не удается сделать аналитическими методами. Вместе с тем применение методов статистического моделирования требует разработки соответствующего алгоритмического и программного обеспечения.

Цель и задачи. Основной целью диссертации является расширение возможностей математического аппарата и развитие компьютерных технологий исследования статистических закономерностей для решения задач анализа данных типа времени жизни. Для достижения поставленной цели осуществляется:

Исследование статистических свойств оценок максимального правдоподобия (ОМП) параметров наблюдаемых законов по цензурированным справа выборкам, выборкам усеченных слева наблюдений и выборкам текущих состояний.
Исследование распределений статистик и мощности критериев согласия типа %² по полным, группированным и цензурированным выборкам.
Исследование распределений статистик и мощности модифицированных критериев типа Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга для цензурированных данных.

Разработка статистических критериев согласия для проверки простых и сложных гипотез по выборкам усеченных слева наблюдений и выборкам текущих состояний.
Исследование распределений статистик и мощности непараметрических критериев согласия, применяемых к выборкам остатков, для проверки гипотез о виде регрессионных моделей по выборкам, содержащим полные, цензурированные, усеченные слева или интервальные наблюдения.
Разработка методики проверки гипотезы о виде деградационной гамма-модели с использованием непараметрических критериев согласия типа Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга.
Разработка программного обеспечения для построения вероятностных моделей типа времени жизни по выборкам, содержащим полные, цензурированные, усеченные слева или интервальные наблюдения. Область исследования. Содержание диссертации соответствует области

исследования п. 5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текстов, устной речи и изображений» паспорта специальности 05.13.17 - «Теоретические основы информатики» (в области технических наук).

Методы исследования. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, математического анализа, линейной алгебры, статистического моделирования, численных методов и математического программирования.

Научная новизна диссертационной работы заключается в следующем:

для ряда законов распределения вычислена относительная эффективность ОМП по цензурированным справа выборкам и выборкам усеченных слева наблюдений по отношению к ОМП по полным выборкам. Показано, что при ограниченных объемах выборок распределения ОМП при высокой степени цензурирования и степени усечения оказываются далекими от многомерного нормального распределения;

для ряда законов распределения найдены оптимальные планы для тестирования (испытаний) устройств одноразового срабатывания, позволяющие повысить точность ОМП параметров распределений;

предложен метод оптимального группирования для заданной пары конкурирующих гипотез, использование которого позволяет существенно повысить мощность критериев согласия типа %² для цензурированных данных;

в результате сравнительного анализа мощности критериев согласия для цензурированных справа выборок при проверке сложных гипотез о виде распределение показана предпочтительность критерия типа Андерсона-Дарлинга по сравнению с другими рассмотренными в работе критериями;

для анализа выборок текущих состояний предложены критерии согласия, предусматривающие интерактивное исследование распределений статистик при справедливости нулевой гипотезы, требуемых для принятия решения;

разработана методика проверки гипотез о виде параметрических регрессионных моделей по выборкам, содержащим полные, цензурированные, усеченные слева или интервальные наблюдения, на основе критериев согласия, применяемых к выборкам остатков;

разработана методика проверки гипотезы о виде деградационной гамма-модели надежности с использованием критериев типа Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга.

Положения, выносимые на защиту. На защиту выносятся:

Результаты исследования статистических свойств ОМП параметров законов распределения по цензурированным справа выборкам и выборкам усеченных слева наблюдений, свидетельствующие о существенном отличии свойств оценок в реальных ситуациях от асимптотических.
Метод оптимального разбиения цензурированной выборки на интервалы, позволяющий существенно повысить мощность применяемых критериев согласия типа %² относительно заданной пары конкурирующих гипотез.
Результаты сравнительного анализа мощности множества критериев согласия, используемых при проверке сложных гипотез по цензурированным справа выборкам. Рекомендации по выбору критериев.
Критерии согласия, предложенные для анализа выборок текущих состояний. Применение критериев базируется на статистическом моделировании требуемых распределений статистик, осуществляемом в интерактивном режиме проводимого анализа.
Методика проверки гипотез о виде параметрических регрессионных моделей по выборкам отказов, содержащим полные, цензурированные, усеченные слева или интервальные наблюдения, на основе критериев согласия, применяемых к выборкам остатков.
Алгоритмы моделирования распределений статистик критериев согласия при справедливости проверяемой гипотезы, существенно расширяющие сферу применения аппарата математической статистики для проверки гипотез о виде распределения по выборкам, содержащим полные, цензурированные, усеченные слева или интервальные наблюдения.
Методика проверки гипотезы о виде деградационной гамма-модели надежности с использованием критериев согласия типа Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга.

Достоверность и обоснованность научных положений, рекомендаций и выводов обеспечивается корректным использованием методов исследования, согласованностью выводов с известными теоретическими результатами, а также подтверждается решением тестовых задач с использованием методов статистического моделирования.

Практическая ценность и внедрение результатов работы. Полученные в результате работы методики, алгоритмы и программное обеспечение могут применяться в прикладных задачах статистической обработки полных, группированных, цензурированных справа выборок, а также выборок, содержащих усеченные слева наблюдения, и выборок текущих состояний.

Результаты диссертационного исследования могут использоваться при решении задач в теории надежности, биомедицине, социологии, экономике, демографии и других областях.

Для разработанной программной системы статистического анализа данных
типа времени жизни «LiTiS» получены свидетельства о государственной
регистрации программы для ЭВМ № 2012618138 (2012 г.), № 2012618143
(2012 г.), № 2014661905 (2015 г.). – М.: Федеральная служба по

интеллектуальной собственности (Роспатент).

Исследования и разработка программного обеспечения проводились при поддержке Министерства образования и науки РФ в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» (по государственным контрактам №П1190 от 27 августа 2009 г., №П2611 от 26 ноября 2009 г., № П950 от 20 августа 2009 г., №02.740.11.5187 от 12 марта 2010 г., соглашения №14.B37.21.0860 от 6 сентября 2012 г.) и в рамках проектной части государственного задания (проект №2.541.2014/К), АВЦП «Развитие научного потенциала высшей школы» (проекты №2.1.2/3970, №2.2.2.3/9104), а также при поддержке РФФИ (проекты №00-01-00913а, 06-01-00059а, 09-01-00056а).

Результаты проведенных исследований и разработанное программное
обеспечение были внедрены в практику деятельности ФГБУ «НИИ онкологии
им. Н.Н. Петрова» Минздрава РФ, в практику деятельности ООО «НПК
Морсвязьавтоматика» и ООО «Велман», а также использованы в учебном
процессе на факультете прикладной математики и информатики ФГБОУ ВО
«Новосибирский государственный технический университет», что

подтверждается соответствующими актами о внедрении.

Апробация результатов. Результаты исследований докладывались на
Российской научно-технической конференции «Информатика и проблемы
телекоммуникаций'' (Новосибирск, 1999, 2000, 2001, 2006, 2007, 2009);
Сибирском Конгрессе по Прикладной и Индустриальной Математике
(ИНПРИМ) (Новосибирск, 2000); Международной научно-технической
конференции «Информатика и проблемы телекоммуникаций» (Новосибирск,
2002, 2003, 2005); Российской научно-технической конференции "Обработка
информационных сигналов и математическое моделирование" (Новосибирск,
2013, 2014, 2015); Международной конференции «Информационные системы и
технологии» (ИСТ) (Новосибирск, 2000; Нижний Новгород, 2001);
Международной конференции «Идентификация, измерение характеристик и
имитация случайных сигналов (состояние, перспективы развития)»

(Новосибирск, 2009); Международной конференции «Актуальные проблемы электронного приборостроения'' (АПЭП) (Новосибирск, 2000, 2002, 2010, 2014); Региональной конференции (с участием иностранных ученых) «Вероятностные идеи в науке и философии» (Новосибирск, 2003); Международной конференции “Korea-Russia International Symposium of Science and Technology” (KORUS) (Ульсан, Корея, 2003; Томск, 2004); Международной конференции “Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods” (CDAM) (Минск, 2004, 2010); Международной конференции “Mathematical Methods in Reliability” (MMR) (Москва, 2009; Пекин, Китай, 2011);

Международной конференции «Accelerated Life Testing» (ALT) (Бордо,
Франция, 2008; Клермон-Ферран, Франция, 2010); Международной

конференции «Applied Stochastic Models and Data Analysis» (ASMDA) (Крит,
Греция, 2007); Международной конференции “Stochastic Modeling Techniques
and Data Analysis” (Крит, Греция, 2010); Международном симпозиуме по
непараметрическим и робастным методам в кибернетике (Томск, 2012);
Российской конференции «Энергетика: эффективность, надёжность,

безопасность» (Томск, 2012); Европейском семинаре “Mathematical Methods for Survival Analysis, Reliability and Quality of Life” (Париж, Франция, 2010); Международной конференции “Applied Methods of Statistical Analysis” (AMSA) (Новосибирск, 2011, 2013, 2015); Международной конференции “International Workshop on Simulation” (IWS) (Римини, Италия, 2013; Вена, Австрия, 2015); Международной конференции “Advanced Mathematical and Computational Tools in Metrology and Testing” (AMCTM) (Санкт-Петербург, 2014), Международной конференции “Interface between Statistics and Engineering” (ICISE) (Гонконг, Китай, 2014); научной сессии НИЯУ МИФИ, секция «Современные проблемы надежности. Анализ надежности оборудования АЭС» (Обнинск, 2015).

Публикации. Основные результаты исследований по теме диссертации опубликованы в 76 печатных работах, в том числе в 25 статьях в рецензируемых изданиях, рекомендованных ВАК РФ, в 3 монографиях, 48 публикациях в сборниках научных работ, трудах и материалах научных конференций. Получено 5 свидетельств о государственной регистрации программ для ЭВМ.

В опубликованных работах автору принадлежат результаты, изложенные в тексте диссертации.

Структура работы. Диссертация состоит из введения, 7 глав основного содержания, заключения, списка литературы и 3 приложений. Основное содержание представлено на 323 страницах, включая 57 таблиц, 73 рисунка и список литературы из 259 источников.

Проблемы проверки статистических гипотез о виде распределения

Если время эксперимента ограничено, то есть наблюдение за объектами ведется до заранее определенного момента времени с, тогда VS, = 0: Q = с, и полученная в результате выборка называется цензурированной первого типа [218]. В случае, если эксперимент продолжается до наступления определенного количества отказов г, и наблюдение за остальными объектами прекращается в момент наступления г-го отказа, то полученная в результате выборка наблюдений называется цензурированной второго типа, и Щ= 0: Q =Г(г), где Т,г) - время наступления последнего отказа [218]. Возможны ситуации, в которых цензурирование происходит в один момент времени - однократное цензурирование, или в различные моменты времени - многократное цензурирование. В случае многократного цензурирования моменты цензурирования Ct могут быть зафиксированы, например, если при тестировании некоторых изделий в определенные моменты времени из исследования выводилось по несколько объектов.

В противном случае, если С,- - случайная величина с некоторой функцией распределения Fc(t), то выборка наблюдений (1.3) называется цензурированной третьего типа или случайно цензурированной [76]. Данный тип цензурирования, в свою очередь, делится на неинформативное цензурирование, когда параметры закона распределения F (7) не зависят от функции распределения F(t) значений 7], и информативное цензурирование, при котором случайные величины Ti и Сг, і = 1,п являются зависимыми. В данной работе при исследовании свойств оценок параметров и распределений статистик критериев по случайно цензурированным выборкам рассматривается неинформативное цензурирование.

Степенью цензурирования выборки будем называть процент цензурированных наблюдений относительно полного объема выборки. Необходимо отметить, что поскольку в случае I и III типов цензурирования задаются соответственно момент цензурирования с и распределение F (7), то степень цензурирования в этом случае является случайной величиной.

Для объяснения понятия усеченной слева случайной величины рассмотрим следующий пример. Пусть имеется генеральная совокупность людей, страдающих определенной болезнью. Обозначим через F(t) функцию распределения случайной величины Т - времени с начала болезни до смерти. Предположим, что в момент времени t0 началось обследование п пациентов с данной болезнью. При этом люди из этой же генеральной совокупности, которые умерли до момента времени t0, не включены в выборку. Обозначим через Т1,Т2,...,Тп независимые времена жизни с начала болезни до смерти пациентов, включенных в выборку. Необходимо отметить, что если рассматривать данную выборку как обычную выборку из распределения F(t), то полученный результат будет слишком оптимистичным, поскольку чем больше продолжительность жизни пациента, тем больше у него шансов попасть в выборку, в то время как пациенты c ранними смертями в выборку не попадают. Обозначим через Д время с начала болезни / -го пациента до начала обследования t0. В этом случае случайная величина 7) имеет распределение „ ( F(t)-F(Dt) Г TTt) = , t D: . и 1-ДД) В выборку могут быть включены также пациенты, заболевшие уже после момента времени t0. В этом случае соответствующий элемент выборки представляет собой наблюдение из распределения F(t). Выборку усеченных слева наблюдений можно представить в следующем виде [8]: Xw ={(T1,I\),(T2,D2),...pn,Dn)}, (1.4) где п - объем выборки, Ti - время отказа / -го объекта, Д - время усечения, і = 1,п. В такой выборке содержатся наблюдения с функциями распределения F(7) и FLT(t). На практике выборки усеченных слева наблюдений вида (1.4) встречаются довольно редко. Чаще всего выборки являются цензурированными справа и содержат усеченные слева наблюдения: Xw ={(X1,D1,51),(X2,D2,52),...,(XW,DW,5W)}, (1.5) где п - объем выборки, Xt - время отказа или момента цензурирования / -го объекта, Д - время усечения, 8г - индикатор цензурирования, i = 1,n. В результате испытаний на надежность устройств одноразового срабатывания в некоторые детерминированные моменты времени вместо выборки отказов получают данные о состоянии устройств на моменты времени тестирования. В случае успешного срабатывания устройства мы имеем цензурированное справа наблюдение; если же устройство не сработало, значит, отказ произошел до момента времени тестирования, и мы получаем цензурированное слева наблюдение. Таким образом, полученная выборка будет содержать цензурированные слева и цензурированные справа наблюдения и не содержать полных наблюдений. В зарубежной литературе [60, 70] такие выборки называют выборками текущих состояний (current status data).

Рассмотрим эксперимент на надежность, в котором п устройств одноразового срабатывания, принадлежащих одной генеральной совокупности, тестируются в моменты времени tbt2,---Jk к п. Обозначим через щ к количество объектов, тестируемых в момент времени tt, и- = п. В результате /=1 эксперимента часть объектов успешно сработала, в то время как остальные оказались в неработоспособном состоянии. Таким образом, полученную выборку текущих состояний можно записать в следующем виде: TLn={(ti,Ki,ni\i = \...,k}, (1.6) где Kt - количество устройств, оказавшихся в неработоспособном состоянии на момент времени тестирования tt, что означает, что отказ произошел до момента времени ti (цензурированные слева наблюдения).

Исследование распределения ОМП параметров распределений по сильно цензурированным выборкам

Обозначим отношение функций интенсивности Xx=a{t,Q)/Xx=b{t,Q) в точке t = 0 через с0. Тогда в зависимости от значения с0 функции выживаемости расходятся или приближаются друг к другу, если у 0. Если же у 0, то отношение функций интенсивности убывает с с0 до 0, то есть функции выживаемости в этом случае при разных значениях ковариаты пересекаются на интервале (О,GO). Достаточно подробный обзор различных вероятностных моделей надежности можно найти в [105]. Неизвестные параметры модели могут быть оценены методом максимального правдоподобия.

После оценивания неизвестных параметров важнейшим этапом построения параметрической регрессионной модели надежности является проверка ее адекватности. Как правило, проверка адекватности регрессионной модели осуществляется на основе анализа выборки остатков.

Параметрическую регрессионную модель вида (1.20) можно записать следующим образом: Tx = g(x;j];s), s F0(t;Q), (1.32) где г) - вектор регрессионных параметров модели. При этом, в случае модели ускоренных испытаний (1.26) и модели пропорциональных интенсивностей Кокса (1.29) имеем г, = р, а в случае обобщенных моделей (1.28), (1.30) и (1.31) r\ = wT,yT) . Основным предположением, лежащим в основе модели (1.32), является принадлежность случайной величины s базовому распределению отказов F0(Y;9).

Обозначим через /г(х;г;Гх) единственное (согласно предположению 3) решение уравнения (1.32) относительно случайной величины s. Тогда, согласно общему определению остатков, введенному Коксом и Снеллом в [49], остатки для параметрической регрессионной модели можно записать в следующем виде: ei =A(jc();fi;7;), / = 1,Я (1-33) где fj - оценка максимального правдоподобия вектора параметров модели. В частности, остатки для параметрической модели ускоренных испытаний (1.26), построенной по полной выборке вида (1.15), имеют вид:

Как было отмечено в разделе 1.6, в задачах анализа надежности и выживаемости регрессионные модели обычно записываются в виде функции надежности (1.22) или соответствующей кумулятивной функции риска. В этом случае параметрическая регрессионная модель записывается следующим образом: Sx(t;4Q) = g(S0(t;Q);x;r]), (1.34) где л - вектор регрессионных параметров модели, 0 - вектор параметров базовой функции распределения. Тогда остатки для параметрической регрессионной модели по полной выборке с ковариатами (1.15) имеют следующий вид: е. =S01(S(i)(Ti;r\,Q)j\, i = 1,n, (1.35) где S0 1(-) - функция, обратная к базовой функции надежности, ц и 0 - оценки максимального правдоподобия.

Если параметрическая регрессионная модель (1.34) адекватно описывает распределение исследуемой случайной величины Тх в зависимости от значений вектора ковариат, то выборка остатков е1,е2,...,еп должна подчиняться базовому закону распределения с параметром 0 = 0. Таким образом, задачу проверки адекватности параметрической регрессионной модели можно свести к задаче проверки сложной гипотезы о принадлежности выборки остатков базовому закону распределения, которая может быть решена с использованием одного из критериев согласия. Вид гипотезы определен выражением (1.13).

При проверке сложных гипотез условные распределения статистик критериев согласия типа Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга зависят от ряда факторов: от метода оценивания параметров, от типа и числа оцениваемых параметров, а в случае таких законов как гамма- и бета-распределения, обобщенного распределения Вейбулла, обратного гауссовского закона - от конкретных значений параметров формы [177]. Кроме того, в случае проверки сложной гипотезы (1.13) по выборкам остатков проверяемой параметрической регрессионной модели на распределения статистик критериев согласия, в общем случае, будут также оказывать влияние: вид регрессионной модели, размерность вектора ковариат, а также план эксперимента. В этой связи актуальной задачей оказывается исследование распределений статистик и мощности критериев согласия, применяемых для анализа выборок остатков, в зависимости от перечисленных факторов, а также в зависимости от вида и характеристик анализируемых выборок: от числа интервалов группирования для выборок вида (1.16); от типа и степени цензурирования для выборок вида (1.17); от степени усечения и процента усеченных наблюдений для выборок вида (1.18); от выбора моментов тестирования для выборок текущих состояний вида (1.19).

Если речь идет о высоконадежных изделиях, то данных об отказах таких изделий может быть недостаточно для оценки функции надежности, поскольку в период проведения эксперимента наступление отказов наблюдается крайне редко. Один из возможных способов получить дополнительную информацию о надежности изделий заключается в проведении ускоренных испытаний, когда изделия подвергаются повышенным нагрузкам, в результате чего отказы наступают раньше. На основе полученных данных об отказах строится регрессионная модель надежности, описанная в разделе 1.6. Другой способ состоит в измерении значений некоторого показателя, характеризующего процесс старения (деградации) изделия. Оба подхода можно совместить, наблюдая процессы деградации и наступление отказов изделий, эксплуатирующихся при повышенных нагрузках.

Одной из наиболее популярных деградационных моделей является гамма-модель [10, 28], в основе которой лежит предположение о принадлежности независимых приращений деградационного показателя гамма-распределению.

Случайный процесс Z(t), характеризующий процесс деградации исследуемых изделий называется деградационным гамма-процессом с параметром формы v(t) и параметром масштаба а, если: 1) Z(0) = 0; 2) Z(t) является случайным процессом с независимыми приращениями; 3) приращения AZ(t) = Z(t + Лї) - Z(t) подчиняются гамма-распределению с функцией плотности

Обобщенный критерий %2 Пирсона-Фишера для цензурированных выборок

Пусть имеется выборка усеченных слева наблюдений (без цензурирования) вида: X,,={(Tl,DlUT2,D2),...,(T„,D„)}, где п - объем выборки, Тг - время отказа / -го объекта, Di - время усечения, г: = \п. Если Д = 0, то / -е наблюдение является полным. В выборке могут содержаться как полные наблюдения, так и наблюдения усеченных случайных величин, причем времена усечения могут быть различными. Такого рода выборки обычно являются результатом наблюдения за объектами, начиная с некоторого момента времени t0. При этом отсчет времени для некоторых объектов (дата рождения, момент начала эксплуатации и др.) начался раньше момента времени t0, когда началось наблюдение. В этом случае наблюдаемые случайные величины являются усеченными слева и время усечения Di равно разности между t0 и началом отсчета времени / -го объекта.

Если же отсчет времени начался позже начала наблюдения t0, то соответствующее наблюдение является полным.

В соответствии с тем, как формируется выборка в задаче анализа выживаемости, она может представлять собой смесь элементов, принадлежащих усеченным законам вида FLT(t;Q) с различной степенью усечения, и элементов, принадлежащих F(t;Q). В частном случае может наблюдаться смесь двух законов вида F(t;Q) + y-FLT(t;Q), где 0 у 1 задает долю присутствия наблюдений усеченной случайной величины. Поскольку в решаемых задачах анализа выживаемости и надежности известно, какое наблюдение принадлежит усеченному, а какое - неусеченному закону, то нет принципиальных проблем с записью функции правдоподобия, а, следовательно, и с поиском оценок. Информация Фишера о параметре 0 в этом случае представляет собой линейную комбинацию Iy(Q) = ILr(Q\M = nY) + n(l-y)i(Q), где /(б) - информация Фишера о параметре 0, содержащееся в одном полном наблюдении. В таблице 2.12 представлены значения информационного количества Фишера ILT(Q\M = l) и определителей соответствующих информационных матриц det/Lr(0 М = \) для случая векторного параметра распределения Вейбулла с параметрами 0Х = 2 и 02 = 2 для различных значений степени усечения. Значения в первой строке таблицы при d = 0.0 соответствуют информационному количеству /(Є) в полном наблюдении.

На основе значений, представленных в таблице 2.12, можно рассчитать значения информации Фишера 1у (0) в выборке из смеси двух законов вида F(t;Q) + y-FLT(t;Q) при различных процентах наблюдений из усеченного распределения у 100%.

Количество информации Фишера в одном наблюдении из усеченного распределения Вейбулла с параметрами 91 = 2 и 62 = d0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 О параметре fy распределений экспоненциального, Релея и Вейбулла О параметре 92распределенияВейбулла О двух параметрахраспределенияВейбулла

Информационное количество Фишера определяет нижнюю границу дисперсии несмещенных оценок. ОМП являются асимптотически эффективными, т.е. при и— со достигается нижняя граница неравенства Рао-Крамера:

Реальную же оценку точности ОМП при ограниченных объемах выборок можно получить, вычислив отношение минимальной (асимптотической) дисперсии /Де) к дисперсии ОМП при заданном объеме выборки: параметра формы (при известном параметре масштаба) распределения Вейбулла по выборкам, принадлежащим смеси усеченного и неусеченного распределений Вейбулла, при различных процентах наблюдений из усеченного распределения у 100% и при различной степени усечения d. Таблица 2.13 – Оценки относительной дисперсии ОМП параметра формы распределения Вейбулла по выборкам с усеченными слева наблюдениями в зависимости от объема выборки n

Как видно из таблицы 2.13, с ростом объема выборки дисперсия ОМП стремится к соответствующей асимптотической дисперсии Iу_1(е2). Отметим, что при степени усечения d = 0.1 и d = 0.3, когда информация Фишера ILT (02 M = 1) в наблюдении из усеченного распределения меньше, чем в полном наблюдении (см. таблицу 2.12), точность ОМП параметра формы падает с ростом процента усеченных наблюдений в выборке. Этого не наблюдается при d = 0.5 и d = 0.7, когда информационное количество Фишера в наблюдении усеченного распределения больше, чем в полном наблюдении. для

ОМП векторного параметра распределения Вейбулла. В данном случае информация Фишера в одном наблюдении из усеченного распределения значительно меньше, чем в полном наблюдении, и уменьшается с ростом степени усечения. Поэтому для всех рассмотренных значений степени усечения точность ОМП параметров падает с увеличением процента наблюдений из усеченного распределения. Заметим, что при увеличении величины у-100% от 25% до 75% уменьшение скорости сходимости detD 9 к detI_1(0) не столь существенно как при увеличении у 100% от 75% до 100%.

Необходимо отметить, что в случае оценивания только параметра масштаба распределения Вейбулла (при известном параметре формы) количество информации Фишера о параметре масштаба в наблюдении усеченной случайной величины ILT(Ql\M = \) совпадает с информацией в полном наблюдении (см. таблицу 2.12). Поэтому ОМП параметра масштаба распределения Вейбулла по выборке усеченных слева наблюдений оказываются эквивалентными по точности ОМП по полной выборке того же объема.

Рассмотрим, каким образом степень усечения и процент усеченных наблюдений у-100% влияют на распределение ОМП вектора параметров распределения Вейбулла. На рисунках 2.7 - 2.8 представлены диаграммы рассеяния ОМП вектора параметра 0, которые были получены по выборкам объемом n = 100 при различных значениях степени усечения (рисунок 2.7) и различных процентах усеченных наблюдений (рисунок 2.8).

Исследование зависимости распределений статистик от степени

При анализе наблюдений случайных величин оценивание параметров модели наблюдаемого закона всегда оказывается лишь первым этапом. Следующим этапом является проверка адекватности построенной модели наблюдаемым данным с использованием критериев согласия. Если мы проверяем согласие по той же выборке, по которой оценивали параметры, то имеем дело с проверкой сложной гипотезы. В этом случае предельное распределение статистики любого критерия согласия зависит от применяемого метода оценивания параметров. И для того, чтобы воспользоваться каким-либо критерием согласия, вычислив оценки каким-либо методом, необходимо знать (предельное) распределение статистики этого критерия, имеющее место в данном случае.

В частности, как уже говорилось в разделе 3.1.1, при справедливости сложной проверяемой гипотезы Н0 предельным распределением G 2{у\Н0) стати 112 стики Пирсона (3.1) является %k_s_x -распределение в том случае, если s компонентов вектора параметров закона оцениваются по этой же выборке в результате минимизации этой же статистики, либо если используются ОМП по группированным наблюдениям. Проведенные автором данной диссертационной работы исследования методами статистического моделирования распределений статистики Х при проверке сложных гипотез и использовании ОМП по группированным наблюдениям (при конечных объемах выборок) подтвердили хорошее согласие получаемых эмпирических распределений статистики с Xk-s-i -распределениями [234]. Рассмотрим некоторые часто используемые на практике методы вычисления оценок параметров закона f(t; 0) по группированным данным, в каждом из которых минимизируется или максимизируется по параметрам некоторая статистика.

Метод минимума х2 [211]. Предполагается, что выборка, по которой оцениваются параметры, полностью группирована. В данном методе оценка определяется как значение параметра, минимизирующее статистику %2 Пирсона (3.1).

Метод максимального правдоподобия. ОМП неизвестного параметра по группированным наблюдениям называется такое значение параметра, при котором функция правдоподобия (см. таблицу 1.1) достигает максимума на множестве возможных значений параметра. Для вычисления ОМП, как правило, дифференцируют функцию правдоподобия по компонентам вектора Є и, приравнивая производные нулю, получают систему уравнений правдоподобия где s - размерность вектора параметров 6 = (6j, 02,..., 6s) . В случае группированных данных система (3.13), за редким исключением, решается только численно. И хотя принципиальных трудностей нет, для ряда параметрических законов, используемых в задачах надежности и контроля качества, попутно возникает необходимость в решении задач численного интегрирования, в том числе вычисления несобственных интегралов.

Все перечисленные методы при соответствующих условиях регулярности, как показал Рао [211], дают состоятельные и асимптотически эффективные оценки. Однако имеются и различия между этими методами, возникающие при учете введенной Рао эффективности второго порядка. Им показано, что асимптотическая дисперсия оценки определяется соотношением D(Q) = + Jl + 0 где /(0) - информационное количество Фишера о параметре, а величина v/(0) определяется выбранным методом оценивания и неотрицательна. Если обозначить v/(0) для метода максимального правдоподобия как \ум, то для метода минимума %2 i/(9) = \\fM + 8, где 8 - неотрицательная величина, равная нулю только в специальных случаях, для модифицированного %2 у(0) = цм + 48, для расстояния Хеллингера \/(0) = \/м + 8 / 4, для дивергенции Кульбака-Лейблера у(9) = Ум+. Следовательно, метод максимального правдоподобия при учете эффективности второго порядка является наилучшим.

Все перечисленные выше оценки принадлежат к классу M-оценок, где оценка неизвестного параметра определяется как решение задачи минимизации некоторой статистики. Примером другого подхода является построение L-оценок, представляющих собой линейные комбинации порядковых статистик. При больших объемах выборок строить L-оценки с использованием всего множества порядковых статистик весьма затруднительно и более экономично для вычисления оценок параметров воспользоваться выборочными квантилями. Многочисленные модификации метода квантилей эффективно используются при различной форме регистрации наблюдений [218]. Примером таких оценок являются L-оценки параметров сдвига и масштаба распределений по выборочным квантилям.

При построении L-оценок используются квантили рассматриваемого закона, которые делят область возможных значений случайной величины в соответствии с заданными вероятностями R = F(t;) - F(t;) попадания наблюдений в интервалы, где t- = . l 1 l Q1 Выражения для оценок [214] можно преобразовать в совсем простые зависимости [197]. При известном параметре масштаба Q1 L-оценка параметра сдвига 00 принимает вид