Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента Тарима Сергей Сергеевич

Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента
<
Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Тарима Сергей Сергеевич. Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента : диссертация ... кандидата технических наук : 05.13.01.- Томск, 2002.- 149 с.: ил. РГБ ОД, 61 03-5/221-2

Содержание к диссертации

Введение

Глава 1. Методы использования дополнительной информации 16

1.1. Метод коррелированных процессов 16

1.2. Метод проекций 2 3

Глава 2. Адаптивные оценки вероятностей событий

2 2.1. Первая адаптивная оценка 3 0

2.2. Вторая адаптивная оценка 41

2.3. Третья адаптивная оценка 4 8

2.4. Сравнительный анализ адаптивных оценок

2.5. Учет информации о полной группе событий в первой адаптивной оценке 61

2.6. Оценка с использованием сглаженной функции распределения - 72

2.7. Оценка с априорной догадкой 7 6

2.8. Сравнительный анализ оценок с учетом

Информации о полной- группе событий 7 7

Глава 3 Оценки с учетом пропорций и условных вероятностей 87

3.1. Знание пропорций и условных вероятностей 8 9

3.2. Минимизация расстояния кульбака-леиблера 91

3.3. Минимизация расстояния евклида 92

3.4. Произвольный критерий качества 93

3.5. Учет знания вероятностей двух событий 94

Глава 4. Оценивание по данным с пропусками

4.1. Способы борьбы с пропусками 105

4.2. Привлечение информации из других выборок 108

4.3. Оценки вероятностей по данньм с пропусками 119

Заключение 127

Внедрение результатов диссертационной работы 132

Литература

Метод проекций

Задача статистического оценивания вероятностей событий по данным натурного эксперимента давно привлекает внимание исследователей. Эта проблема рассматривается как в литературе по математической статистике и теории вероятностей (см., например, [2, 11, 13, 14, 35, 36, 46, 62, 63, 70] и др.), так и в более специализированных источниках (например, [7, 8, 37, 41, 51, 74, 75] и др.) .

В условиях схемы Бернулли [5] наилучшей оценкой вероятности является относительная частота появления рассматриваемого события. Но во многих практических задачах схема Бернулли усложнена реальными условиями проведения статистического эксперимента . Такие условия часто определены планами выборочного наблюдения [45, 69], но ими не ограничены. Например, возможность ошибок в наблюдениях может существенно ухудшить качество статистических оценок (см., например, [10]) . Так, согласно Kahneman [77], медицинские эксперты, определяя вероятность заболевания, часто дают смещенные оценки вероятности.

Ситуация по оцениванию вероятности усложняется, когда наблюдения фиксированы в разных шкалах. Большое количество информации по шкалам и способам сравнения разношкальных наблю -8 дений находится в работах Айвазяна, Загоруйко и др. (см., [1, 30, 47, 50, 65] ) .

Желание исследователей уменьшить потерю точности в оценивании статистических характеристик (в частности вероятностей) от неправильного выбора статистической модели воплотилось в создании и развитии робастной статистики [64, 71]. Следующей сложностью, с которой сталкивается практик, является наличие пропусков в протоколе наблюдений. Над такой проблемой работали Литтл [42], Anderson [72], Bishop [73] и другие исследователи [68, 84].

В качестве дополнительной априорной информации, используемой в статистическом оценивании функционалов от распределений, может выступать знание симметричности распределения, знание моментов, информация, полученная из предыдущих экспериментов. Рациональное использование таких знаний может существенно улучшить качество оценок.

В данной работе дополнительная информация представлена в виде известных заранее вероятностей некоторых событий, пропорций, условных вероятностей, информации по вероятностям полной группы событий, а также в виде оценок, построенных по другим выборкам.

Базовыми методами для данной работы являются метод коррелированных процессов Пугачева [48] и метод проекций (Дмитриев Ю. Г., Устинов Ю. К., [28]), однако некоторые идеи, использованные в данной работе, заимствованы из следующих подходов.

Подход В.- П. Кузнецова [39] позволяет определять эмпирическую и дополнительную информацию в виде интервальных вероятностей, т.е. в виде нижней и верхней возможных границ вероятности события. Предложенная Кузнецовым теория интервального оценивания позволяет учитывать также и «интервальные» резуль -9 таты опыта. Например, опрашиваемый может ответить: «С вероятностью 60-70 процентов я проголосую за пятого кандидата в предложенном списке». Отметим, что наличие пропусков хорошо укладывается в предлагаемую им теорию. Так, пропуск может интерпретироваться наблюдением с интервальной вероятностью [0,1] . Наблюдения в виде интервалов могут быть получены и во многих технических областях.

Подход Дж. Литтла [42] используется в параметрических семействах распределений и предназначается для обработки данных с пропусками. Суть подхода заключается во введении распределения пропусков в обработку. Подбор параметров заданного параметрического распределения осуществляется, исходя из максимизации логарифма правдоподобия. Причем упомянутое параметрическое семейство распределений включает не только распределение исследуемых признаков, но и распределение пропусков, как отдельную составляющую.

В [73] предложено разделять «вероятностные» и «структурные» пропуски. «Вероятностные» пропуски могут возникать в выборке по причине существования вероятности непопадания наблюдения в выборку, а «структурные» - связаны с выбранной моделью.

В работах Дмитриева Ю. Г. и Устинова Ю. К. [29], Тарасен-ко П. Ф. [51] разработаны процедуры по вовлечению дополнительной информации в оценивание функционалов от распределений .

Третья адаптивная оценка

Принимая во внимание полученные ранее выражения для СКО и дисперсий оценок, а также их асимптотическую несмещенность _ л (Р(АВ)-Р(А)Р(В)У і о о получаем, что д, д = \ - — , 1=1,2,3. Заме " Р(А)(\ Р(А))Р(В)(\-Р(В)) я і 2 Р(АВ)-Р(А)Р(В) тим, что о = \-р , где 0= . коэффициент JP(A)(l-P(A))P(B)(l-P(B)) корреляции между 1А (X) и 1В (X). Учитывая инвариантность коэффициента относительно смены аргументов, следует отметить, что и учет вероятности события В для оценивания события А, и учет вероятности события А для оценивания события В дают асимптотически одинаковое относительное улучшение дисперсии оценки по сравнению с эмпирическим распределением.

Для сравнения отношений St при конечных п рассмотрим несколько частных случаев. На рисунках 2.4 - 2.14 отражены графики зависимостей 6i (график 3) , 82 (график 4) , б3 (график 5) и 5 (график 2) от р, график 1 соответствует тождественной единице (для построенных графиков тождественная единица соответствует отношению дисперсии эмпирической оценки (1.1) к самой себе). Для построения функций использовался ряд параметров, которые необходимо было задать заранее: объем наблюдений (я), вероятность события А (Р(А)), вероятность события В {Р(В)). Для построения графиков использовались значения коэффициента р, изменяющегося от -1 до 1, с шагом 0,1. Однако для каждого набора Р(А) и Р(В) р может изменяться в допустимом интервале: МАХ{(У,Р(В) + Р(А)-\}-Р{А)Р(В) MIN{P(A);P(B)}-Р(А)Р(В) JP(A)(\-P(A))P(B)(\-P(B)) Р{А)(\-Р{А))Р{В)(\-Р{В)) -53-СЛУЧАЙ 1. Р(А)=0,5, Р(В)=0,5. Рассмотрим рис 2.4, построенный при п=7 -1 -0,8 -0,6 -0,4 -0,2 р 0 0,2 0,4 0,6 0,8

Рис. 2.4. Р(А)=0,5, Р(В)=0,5, п=7, /?е[-1;1] Из рисунка видно, что первая адаптивная оценка предпочтительнее второй и третьей, т. к. её СКО ближе к СКО оптимальной оценки. Для каждой из трех адаптивных оценок существует своя окрестность около нулевого р, где их использование нежелательно ввиду превышения величины дисперсии DPn{A) .

В данном примере такая окрестность у первой адаптивной оценки меньше, чем у второй и третьей. Рассмотрим рис. 2.5., построенный при п=45. f -0.8 -0.6 -0.4 -0.2 р 0 0.2 0.4 0.S 0.8 График 1 Грвфик2 График З График 4 График Рис. 2.5. Р(А)=0,5, Р(В)=0,5, п=45, рє[-1;1, -54 Рис. 2.5 показывает, что первая адаптивная оценка снова предпочтительнее второй и третьей, однако для большей наглядности на рис. 2.6 представлен вариант с большим масштабом. о График "График 2 - fr График 3 —-М График - График Б Рис. 2.6. Р(А)=0,5, Р(В)=0,5, п=45, рє[-1;1\ На рис. 2.5 и рис. 2.6 первая адаптивная оценка снова дает большую точность при привлечении дополнительной информации. Следует отметить, что на рис. 2.6 вторая адаптивная оценка, в некоторых случаях имеет меньшее СКО, чем третья. Рис. 2.7 построен при п=111. О е « О О О О flr jj &Л Й о о о о о о , о График Трафик 2 - tr График 3 —и "График -График Рис. 2.7. Р(А)=0,5, Р(В)=0,5, п=111, рє[-1;1] -55 При большом количестве наблюдений асимптотические свойства адаптивных оценок определяют близость графиков 2 - 5 на рис. 2.7. і ....і— І88 і- і . — »ВД I . , -0.15 -0.1 -0.05 0 0,05 0.1 0,!5 Рис. 2.8. Р(А)=0,5, Р(В)=0,5, п=111, рє[-1;1] На рис. 2.8 поведение графиков в нулевой окрестности коэффициента р отражено с большим масштабом. Как видно первая адаптивная оценка снова предпочтительнее второй и третьей. -56-СЛУЧАЙ 2. Р(А)=0,05, Р(В)=0,5. Рассмотрим вариант п=7 . Рис. 2.9. Р(А)=0,05, Р(В)=0,5, п=7, рє[-0,229;0,229] На рис. 2.9 видно, что вторая адаптивная оценка предпочтительнее, чем первая и третья. Более того, эта оценка всегда точнее эмпирического распределения, а иногда точнее оптимальной. Это происходит в силу смещенности второй адаптивной оценки. Причем, согласно (2.24) смещение осуществляется всегда в сторону нуля. Т.е. имеется заниженная оценка вероятности события А. Соответственно, чем ближе вероятность события А к нулю, тем. меньше «вреда» (в смысле СКО) приносит такого рода смещение. Рассматривая первую и третью адаптивные оценки, вновь стоит выделить третью, т.к. она для данного примера немного, но предпочтительнее.

Далее рассмотрим ситуацию для большего количества наблюдений (п=45). -57 Рис. 2.10. Р(А)=0,05, Р(В)=0,5, п=45, рє[-0,229;0, 229] Рис. 2.10 представлен в увеличенном масштабе. На его графиках просматриваются те же тенденции, которые были отмечены на рис. 2.9. Исключение составляет лишь небольшое предпочтение первой адаптивной оценки по отношению к третьей, чего не было на рис. 2.9.

Минимизация расстояния кульбака-леиблера

В [25], проектированием (в смысле минимума расстояния Кульбака-Леиблера) Р„{А) в априорный класс, заданный вероятностями полной группы событий, была получена следующая оценка Р -Ь(А) = УЬІР АВ . (2.35) " tt км) Сглаженное эмпирическое распределение (2.34) используется для количественных данных. Но когда измерения проводятся в других шкалах (например, в номинальной или порядковой), тогда принимает другой вид. Различные виды ядерных оценок для формирования К для различных шкал можно найти, например, в [38]. Пусть измерения проведены в номинальной шкале.

В номинальной шкале операции «-» и «/» не определены, т.е. аргумент в (2.34) распадается на три различных параметра K = K {Xt). Функцию К (Х можно выбрать следующим образом:

Из (2.40) видно, что оценка (2.38) является асимптотически несмещенной. После соответствующих преобразований получаем СКО оценки (2.38) s{p; {A))=Y,p0). I \} - 2/;„ ) Р{Щ) + АД Ї0 - 2/7„ ) Р(АВ,) + АД п X и j п Г(1-2Ип)± + И1)((\-2И,У1+ИпЛ п \ і P(AB)PUB) 0-2AJ"Ч\АВ,) + Ь& ,-1 и O-2/iJ + A,, /7 (1-2Ая)А + Ая 2.41 Заметим, что 4n(pf(A)-P(A))= i(Pn (A)-P(A))-2jn hnPJA) +47i h„, тогда L\P (A))=L\I n (А)), и из теорем непрерывности [14] следует, что L(P;»(A))=L(P;(A)). -75-СЛУЧАЙ 2. Оценку (2.35) можно изменить использованием для её формирования не только сглаженных эмпирических распределений, но и эмпирических. Рассмотрим оценку РҐ(А) = ±Ь, -Щ) ,=. р;(в,) Математическое ожидание оценки (2.42) имеет вид (2.42) J, Р(А\В,) МР-Ь\А) Р(]) - і=\ (1-2/,,, )- + / „ и (2.43) С КО s(p:h{A))=ZP{]) п Р(АВ,)\ Р(АВ,) + » А п у. п ( п +±к плвжлв.) _2P(A J/ 1_ (\-2h„) +h„ = (1-2Ая) + Ая v // - + Р2(А) [2 .44 По аналогии с первым случаем L\P b (A))=L{P (A)). Другие шкалы: 1. Предположим, что при проведении эксперимента события BlrB2f... ,BS подверглись измерению в порядковой шкале. В этом случае К может принять, например, следующий вид: Г МАХ V Y MAX кН ,)- о К-РвМ А. где /9B.(X,) = /- , при Х;&Вк, k=l,...,s. -76 2.7. Оценка с априорной догадкой В [51] предложено использовать оценку PK4(A) = fib,P:,(ABl), (2.45) i =i где Р;(/ЩН Q(ABt) ; ЗД) 0 , ЗД) = 0 Q - априорная догадка (т.е. вероятностная мера, удовлетворяющая условию Q(Bi) = bi, i=lr...,s) . Аналогичные подходы по использованию априорной догадки можно найти в [29, 82, 24]. Согласно теореме 1.4.1 из [51], для схемы Бернулли оценка (2.45) имеет математическое ожидание M(p:{A))=P(A) + fj(l-bi)"{Q(ABi)-P(ABi)) (2.46) i=i и СКО Ufa{A))=P(A)+jr(l-b, -bj + bjS9У{Q(ABi)-P(AB,Ц&(Щ)-P(ABj))+ ,/=1 (2.47) + Ї1Р{Щ){Ь,-Р{Щ))С ИЬІ(1-ЬІГ 1: i=i M J В зависимости от правильности выбора априорной догадки меняются свойства оценки (2.45). Так, если априорная догадка будет Q-P , то оценка (2.45) становится несмещенной.

Для проведения сравнительного анализа воспользуемся статистическим экспериментом. В рамках данного эксперимента проведены испытания (по 50 испытаний для каждого эксперимента). После каждого испытания определены значения оценок (2.28), (2.38), (2.42) и (2.45) по уже проведенным испытаниям.

Для каждого эксперимента использована полная группа из трех событий BlrB2rB3l вероятности Р(Ві), Р(В2), Р(В3), Р(АВ1)/ Р(АВ2), Р(АВ3), коэффициент hn для определения оценок (2.38) и (2.42), значения Qlr Q2 и Q3, определяющие априорную догадку для оценки (2.45). Визуализация результатов каждого эксперимента приведена на соответствующем рисунке, где график 1 соответствует оценке (2.28), график 2 - оценке (2.38), график 3 - оценке (2.42) и график 4 - оценке (2.45).

На рисунках 2.15(a), 2.16(a), 2.17(a), 2.18(a), 2.19(a), 2.20(a) отображены результаты эксперимента при последовательном увеличении количества испытаний п=1, 2,..., 50. Каждая отдельная точка, графиков этих рисунков соответствует одному эксперименту при соответствующем п. чНа рисунках 2.15(6), 2.16(6), 2.17(6), 2.18(6), 2.19(6), 2.20(6) отображены усредненные по 40 сериям результаты эксперимента при последовательном увеличении количества испытаний п=1, 2,..., 50. Каждая отдельная точка графиков этих рисунков соответствует усредненному значению, полученному по 40 экспериментам, при определенном объеме выборки п. Усредненные графи -78 ки позволяют достовернее сравнить соответствующие оценки, т.к. имеющиеся тенденции проявляются выразительнее.

Привлечение информации из других выборок

С развитием электронно-вычислительной техники стали появляться работы по обработке данных с пропусками [68, 72, 73, 84]. Среди этих работ можно выделить следующие направления: - метод исключения некомплектных наблюдений (название метода говорит само за себя, т.е. если в наблюдении по одному из исследуемых признаков имеется пропуск, то необходимо исключать это наблюдение из рассмотрения); следует отметить, что при применении такого метода (самого простого из методов обработки данных с пропусками) может привести к существенным смещениям, напри -106 мер, когда пропуски связаны с нежеланием состоятельных граждан сообщать размеры своих доходов; методы с заполнением пропусков (в этих методах происходит заполнение пропусков в некомплектных наблюдениях; получаются «полные» данные; дальнейшая работа производится с использованием стандартных статистических методов- и математических моделей; эта достаточно несложная с первого взгляда процедура порождает великое множество вариантов заполнения пропусков);

Рассмотрим основные методы заполнения: о Дедуктивный метод (пропуск заполняется с использованием заранее известных фактов, полученных либо из самой анкеты, либо из здравого смысла, либо от эксперта в данной области); к математике прямого отношения не имеет, однако для полноты картины нельзя его не упомянуть; о Заполнение без подбора (cold deck) (пропуск заполняется некоторой константой, данные заведомо получаются смещенные, хотя дисперсия снижается, т.к. дисперсия константы нулевая); о Заполнение средними значениями (вычисляется оценка среднего по данным без пропусков в данной переменной, и происходит заполнение пропусков в данной компоненте именно этим значением; существуют модификации этого метода, когда заполнение происходит средними не по совокупности, а по выделенным классам) ; о Метод случайного подбора (hot deck или hot deck within classes) (в этом случае подстановка осуществляется многократно и случайным образом, но выбирается тот вариант, который в наибольшей степени минимизирует дисперсию, посчитанную для полученно -107-го варианта заполнения пропусков; существует также последовательный hot deck: метод замещения предыдущим значением (здесь используется инертность природы, влияющей на значения заполняемого признака) , однако в этом случае большую роль играет порядок расположения наблюдений. Очевидно, что требуются в большей или меньшей степени вычислительные мощности);

Метод подстановки ближайшего соседа (в этом методе вводится расстояние (например, метрика Хэмминга, .расстояние Евклида и др.) между наблюдениями и подставляется значения из ближайшего наблюдения);

Прогнозирование с использованием соотношения пропорции с каким-то связанным признаком. Например, для заполнения значения X вычисляется пропорция среднее X по её комплектным, среднее Y по её комплектным, рассматривается их отношение и предполагается, что отношения X и Y в наблюдении такие же. Чем сильнее связь X и Y, тем выше точность заполнения;

Заполнение по регрессии (выбирается регрессионная модель, вычисляются её коэффициенты по комплектным наблюдениям, и происходит заполнение пропусков по полученной модели);

Замещение элемента выборки (в случае, когда некоторый элемент выборки, не давший информацию по всем необходимым для исследования признакам, замещается на другой, близкий к исследуемому элементу, но не включенный в план выборочного исследования. Однако в этом случае из выборочного исследования заведомо исключаются данные с пропусками); -методы взвешивания (суть методов взвешивания заключается в том, что каждое наблюдение выбирается в выборку с некоторой вероятностью, которая может быть известна или нет; таким образом, при вычислении статистических характеристик наблюдения используются с весами; проблема вычисления весов решается многими способами, например, оценки весовых групп (оценка Хорвица-Томпсона для вычисления среднего [76]),), метод выравнивания для групповых частот подгоняет групповые частоты под их маргинальные распределения; элементы этого подхода будут использованы для решения проблемы пропусков); методы, основанные на моделировании (строится модель порождения пропусков, параметры модели оцениваются с помощью функции правдоподобия; такие методы рассматриваются в [42], они работают в параметрических семействах распределений).

Похожие диссертации на Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента