Содержание к диссертации
Введение
Глава 1. Методы оценивания плотности вероятностей 24
1.1. Параметрическое оценивание плотностей 24
1.2. Сведения о непараметрических оценках плотности 32
1.3. Непараметрические оценки плотности Розенблатта-Парзена 38
1.4. Непараметрические оценки условной плотности. Теорема сходимости 43
Глава 2. Непараметрические вероятностные алгоритмы идентификации 52
2.1. Постановка задачи идентификации, приводящая к определению моды условной плотности 52
2.2. Оптимизация непараметрических оценок 58
2.3. О некоторых оценках функции распределения 63
2.4. О нахождении оптимального параметра размытости при восстановлении плотности одномерного распределения 70
Глава 3. Алгоритмы нахождения наиболее вероятного значения плотности 86
3.1. Аналитическое нахождение моды 86
3.2. Способы нахождения параметра х0 при логарифмической трансформации исходных данных 95
3.3. Нахождение моды плотности, используя систему кривых Пирсона .99
3.4. Численные исследования применения метода логарифмической трансформации и применения аналитических формул определения моды 101
Глава 4. Численные исследования работы регрессионной и модально-регрессионных моделей 108
4.1. Имитационное моделирование объекта 109
4.2. Сравнительный анализ работы регрессионной и модально-регрессионной (вида А) моделей 111
4.3. Сравнительный анализ работы регрессионной и модально-регрессионной (вида В) моделей 116
Заключение 119
Библиографический список 122
Приложение 131
- Сведения о непараметрических оценках плотности
- Постановка задачи идентификации, приводящая к определению моды условной плотности
- Способы нахождения параметра х0 при логарифмической трансформации исходных данных
- Сравнительный анализ работы регрессионной и модально-регрессионной (вида А) моделей
Введение к работе
Актуальность темы. В связи с развитием таких направлений науки и информационных технологий, как математическое моделирование, системный анализ, обработка статистической информации стало возможным построение математических моделей сложных систем. Прогрессивная методология системного анализа [2], имеющая общетеоретическое значение при рассмотрении сущности и общих принципов исследования сложных систем, позволяет поставить задачу познания объекта (процесса, явления) в конкретных науках и выбрать эффективную стратегию его изучения как системы. Эта методология на основе сравнительного анализа альтернативных решений позволяет выбрать соответствующую концепцию построения и совершенствования моделей сложных систем, сформулировать общие условия, обеспечивающие успешную работу ряда компонент при их объединении в одно целое. Высокая результативность методологии системного анализа позволяет ставить и решать задачи организации, функционирования и дальнейшего развития сложных систем, у которых состав и границы далеко не очевидны.
Попытки моделирования сложных систем привели к появлению множества приемов, подходов, которые постепенно обобщались, образуя определенную технологию преодоления количественных и качественных сложностей. Такие ситуации возникали в разных сферах практической деятельности, а соответствующие технологии вместе с их теоретическими основами получали разные названия: в инженерной деятельности - «методы проектирования», «системотехника»; в экономике - «исследование операций»; в административном и политическом управлении — «системный подход», «политология»; в прикладных научных исследованиях — «имитационное моделирование» и т. п.
Построение математических моделей является эффективным методом исследования различных объектов и систем. Внимание к вопросам построения моделей объектов и систем в условиях их функционирования обусловлено
5 высокой практической значимостью. В работах [5,12,21] рассматриваются проблемы моделирования, отличающиеся и методами и алгоритмами. В [71] особое внимание уделяется построению математических моделей (аналитических или имитационных), реализуемых на современных ЭВМ. Моделирование используется для принятия обоснованных решений в различных сферах деятельности.
Создание моделей может быть осуществлено на основе изучения некоторой совокупности входных и выходных величин, которые описывают поведение объекта. Моделирование на основе результатов реализаций «вход-выход» известно в настоящее время как идентификация объектов или систем.
Задача идентификации состоит в оценивании функции на основе выборки в форме: ys = fs О, у і , xt), (В. 1) где у і - выходные, а х, =(jc, ;jCj ;...;д:(-) - входные измеряемые величины,
1 = 1,5, 5 - объем выборки. Для нахождения оценки (В.1) могут быть применены как параметрические, так и непараметрические методы. В зависимости от применяемых методов формулы типа (В.1) являются параметрическими или непараметрическими моделями объекта.
Любые данные, представляющие собой количественные характеристики каких-либо объектов или систем, формируются под воздействием множества факторов, не все из которых доступны внешнему контролю. Обычно предполагают, что все факторы, не учтенные явно в модели, оказывают на объект или систему некоторое результирующее воздействие, значение которого невозможно предсказать заранее. Его можно рассматривать как некоторую случайную величину с неизвестной плотностью распределения р(). При построении моделей с использованием данных экономического, медицинского, экологического характера все факторы, не учтенные в модели, обычно, носят не аддитивный, а мультипликативный характер. С помощью центральной предельной теоремы можно показать, что их закон распределения близок к логарифмически нормальному при самых общих условиях, аналогично тому, как нормальное распределение имеет место при сложении ошибок. Введение случайного компонента в модель приводит к тому, что взаимосвязь остальных ее переменных перестает быть строго детерминированной и становится стохастической. Наличие стохастической (вероятностной) связи между входными и выходными измеряемыми величинами предполагает, что каждому фиксированному значению входной переменной соответствует определенное (условное) распределение вероятностей выходной переменной с плотностью р(у/х)~ Можно рассматривать некоторую типичную характеристику этого распределения, такую, как среднее, мода, медиана и т. п. [32]. Вообще говоря, это значение будет зависеть от х и может быть обозначено ух. При изменении х, точка (х,ух) описывает некоторую кривую, которая называется модельной линией регрессии, а саму функцию — модельной функцией регрессии. Если в качестве ух выбирать условное среднее, то будем получать среднюю регрессию, если за ух принимать моду, то получается модальная регрессия, в случае выбора за ух медианы, говорят о медианной регрессии.
Стохастическая природа данных обуславливает необходимость применения специальных адекватных им статистических методов для их анализа и обработки. Для одного и того же объекта в зависимости от конкретных требований практики и типа решаемой задачи может быть построен ряд моделей. В математической статистике можно выделить два подхода к решению одних и тех же задач. Эти подходы обусловили возникновение двух больших групп методов: параметрического и непараметрического, в определенной мере конкурирующих и противостоящих друг другу.
Группа параметрических методов предполагает достаточный объем априорной информации о закономерностях функционирования изучаемых объектов, поскольку в этом случае необходимо на первом этапе определить параметрический класс моделей с точностью до набора вектора параметров. Если класс моделей, к которому принадлежит изучаемый объект, задан, то
7 рассматривают постановку задачи идентификации в «узком смысле», которая трактуется как оценивание коэффициентов алгебраического или дифференциального уравнения объекта.
Общим вопросам идентификации в узком смысле посвящено много научной литературы. В книгах П. Эйкхоффа [72,84] рассмотрены основные понятия и определения модели, постановка задач оценивания параметров и методы решения задач для различных классов объектов. Э.П. Сейдж и Д.Л. Мелса в [63] рассматривают классические методы получения модели, базирующиеся на корреляционной теории случайных функций, методы стохастической аппроксимации. Исследуют оптимальные байесовские оценки и оценки максимума правдоподобия. В работах Н.С. Райбмана и В.М. Чадеева [57,58] рассматриваются общие методы и алгоритмы построения моделей, на базе которых решаются задачи выбора структуры параметров на основе данных «вход-выход». Формулируется постановка задачи идентификации и предлагаются методы построения линейных и нелинейных моделей. Все эти модели изучаются с точки зрения математического описания, т. е. приводятся соотношения, использующие данные наблюдения объекта. В книге ЯЗ. Цыпкина [82] в основном изложение касается идентификации линейных объектов, описывающихся линейными разностными уравнениями. Среди разнообразных алгоритмов, предназначенных для оценивания коэффициентов уравнений по наблюдаемым данным, чаще всего используются рекуррентные методы. У Ф. Фишера [77] рассмотрены вопросы идентификации экономических систем, а именно, вопросы оценивания параметров зависимостей, выражающих технологию или экономическое поведение систем на основе эмпирических исследований. Дается систематическое изложение проблем, связанных с идентификацией моделей больших размерностей. Рассматриваются условия, накладываемые на систему, а также проблемы, связанные с нелинейностью уравнений.
Для сложных реальных объектов приходится предварительно решать такие задачи, как: выбор структуры или задание класса моделей, оценивание
8 степени и формы влияния входных переменных на выходные. Часто из-за отсутствия достаточных априорных сведений эти проблемы становятся неразрешимыми. В этом случае рассматривают задачу идентификации в «широком смысле» [43, 72 и др.].
Принципы формирования алгоритмов идентификации тесно связаны с выбором аппроксимирующего уравнения объекта, выбором критерия качества этой аппроксимации (функции потерь) и выбором метода оптимизации критерия [56,83]. До сих пор этот выбор был в значительной степени произвольным, и поэтому предпочитали квадратичную функцию потерь. В этом случае получали в качестве оценки выходов среднеквадратичную (среднюю) регрессию, которую обычно называют просто регрессией, т. е. традиционно при сглаживании данных применяют модели вида: y = M{Ylx). (В.2)
Построение и исследование регрессионных моделей можно рассматривать как с позиций параметрического подхода [5,21,27,32,33], так и непараметрического [26,48,64,80]. Следует заметить, что использование моделей средней регрессии оправдано, если условная плотность распределения выходных переменных при данном значении входа имеет симметричный или близкий к нему вид. В последнее время появилась потребность многих наук в обработке данных, не имеющих характерное гауссовское распределение. В частности, таковы многие задачи экономики, социологии, биологии и т. д. В этом случае, более разумно в качестве оценки выхода выбирать наиболее вероятное значение условного распределения [43,80,93], т. е. строить модели вида: y = mod p(yfx), (В.З) которые назовем модально-регрессионными. Следует отметить, при использовании модально-регрессионных моделей получаемые оценки выходов являются робастными, т. е. менее чувствительны к «засорениям» статистических данных и влиянию грубых ошибок, попавших в статистический материал. Пропагандой робастных методов оценивания занимались Д. Тьюки
9 [75], Н. Джонсон и Ф. Лион [14]. В книге В. Хардле [80] упоминается о таком простом и устойчивом методе оценивания, как медианное сглаживание и говорится об устойчивости этого метода по отношению к большим выбросам. В этой же работе рассматривается "...задача предсказания на один шаг для одномерных временных рядов", а одним из способов предсказания будущих значений является метод, основанный на функции моды условной плотности (в предположении ее однозначности).
Ясно, что применение моделей (В.З) при идентификации различных объектов предпочтительнее, т. к. оценки выходов, получаемые по этим моделям, будут точнее, чем оценки, полученные с использованием обычных регрессионных моделей (В.2), но здесь возникает задача оценивания моды условной плотности. Естественный путь ее решения — восстановить плотность и найти абсциссу максимума оценки. Этот прием основан на том, что Парзеном была введена оценка 6S моды в распределения, а именно: ps(0s) = maxps(x).
Причем в случае, когда мода 0-единственна, доказана состоятельность и асимптотическая нормальность этой оценки 6S.. Сама по себе задача восстановления плотности распределения по результатам наблюдений является центральной задачей математической статистики. Для ее решения могут применяться как параметрические, так и непараметрические подходы. При параметрическом подходе на основании некоторых априорных сведений выдвигается гипотеза о том, что закон распределения наблюдаемых данных принадлежит к тому или иному параметрическому семейству - гауссовскому, показательному и т. п. Эти распределения считаются зависящими от конечного числа параметров, которые оцениваются по выборочным данным. К настоящему времени разработаны различные алгоритмы оценивания неизвестных параметров по наблюдениям входа и выхода объектов с привлечением, как правило, классических методов - метода наименьших квадратов, метода максимального правдоподобия и метода моментов [10,33,56]. На следующем этапе проверяется адекватность выбранного распределения с
10 использованием критериев согласия типа % Пирсона, Колмогорова, со Мизеса и др. Применение критериев согласия для проверки простых и сложных гипотез рассматривается в [39, 65, 68].
Естественно, что ограниченное множество типов параметрических распределений, используемых на практике, не всегда позволяет адекватно описать реально существующие зависимости, или априорной информации недостаточно для того, чтобы выдвинуть ту или иную гипотезу относительно предполагаемого закона распределения. В этом случае применяют методы обработки данных, которые не предполагает знания априори параметрического семейства законов распределений, т.е. применяют непараметрические методы. Они начали развиваться значительно позднее, чем гауссовские и обладают перед ними рядом преимуществ. Основные из них — более широкое поле приложений, а также возможность их использования для выборок малого объема.. Вопросам непараметрического оценивания плотностей последнее время в научной литературе посвящено много работ и монографий [13, 15-18]. Внимание к этой проблеме вызвано как ее теоретическим значением, так и важностью для приложений.
Предварительными простейшими оценками плотностей можно считать гистограмму и полиграмму первого и более высокого порядков [60,68,74].
Последующий вклад в теорию непараметрического оценивания плотности внесли М. Розенблатт, Е. Парзен [88, 89], В.А. Епанечников [18]. В работах этих и других авторов вводятся новые классы оценок, обобщающие гистограмму. Так, один из этих классов, называемых "ядерными оценками", был предложен Розенблаттом и Парзеном. В работах [16,44,49,64] исследуются вопросы несмещенности оценок, асимптотика и скорость сходимости отклонений, изучается влияние формы ядра на качество приближения оценки к функции плотности. В статьях [24,31] рассматриваются варианты определения параметра размытости (сглаживания) непараметрических оценок плотности, в частности, с гауссовым ядром. Определяются границы области поиска экстремума по параметру размытости функционала правдоподобия или
11 эмпирического риска, исследуется скорость сходимости к нулю интегральной среднеквадратичной ошибки. Mark Brewer в работе "Байесовская модель для локального сглаживания в ядерной оценке плотности" [86] предлагает процедуру для управления шириной окна в ядерной оценке одномерной плотности с использованием перекрестной проверки и анализа графической модели. Процедура допускает гибкий выбор ширины окна в терминах требуемой величины степени сглаживания. Показывается особое преимущество метода с точки зрения квадратичного риска при малых объемах выборок, что подтверждено на примере оценки плотности по реальным данным.
При построении оценок естественными являются вопросы исследования их асимптотического поведения и сходимости к оцениваемым функциям. Задачи статистического оценивания, свойства параметрических и непараметрических оценок рассматриваются в книгах Л. Девроя и Л. Дьерфи [13], И.А. Ибрагимова и Р.З. Хасьминского [23], Г.М. Мания [41], Э.А. Надарая [49], Ф.П. Тарасенко [74], в статьях Ю.А. Кошевника [ЗО], Г.М. Кошкина [31], СЮ. Новака [52,53].
Работа посвящена построению модально-регрессионных моделей, причем рассматривается несколько подходов к их построению, т. е. применяются как параметрические, так и непараметрические методы.
Вопрос о том, какую группу методов следует использовать при анализе данных, составлял предмет спора с давних времен. Примером тому могут служить разногласия между Пирсоном и Фишером, о которых пишет в своей монографии В. Хардле [80]: "...обе точки зрения по-своему интересны. Пирсон отмечал, что цена, которую мы должны заплатить за чисто параметрическое приближение, - это возможность грубой ошибки при спецификации, приводящей к слишком большому смещению модели. С другой стороны, Фишер выражал обеспокоенность в связи с рассмотрением моделей без параметров в чистом виде, которые могут приводить к большому разбросу оценок, особенно для выборок малого объема".
В научной литературе разрабатывается идея о совместном использовании тех и других методов для наиболее полного учета априорной информации. В.Хардле отмечает, что совмещение параметрических и непараметрических составляющих может даже привести к построению лучших моделей. В последнее время получены успешные результаты при восстановлении стохастических зависимостей, использующих учет частичных сведений об их виде и данных экспериментальных исследований. Такой комплексный подход имеет место в работах Г,М. Мания [41], А.В. Лапко, В.А. Лапко, С.В.Ченцова [35-37].
В диссертационной работе при построении модально-регрессионных моделей (В.З) для нахождения оценки моды условной плотности предлагается несколько способов. Один из них состоит в том, что, сначала, используя непараметрические оценки Розенблатта-Парзена, восстанавливается условная плотность, а затем находится абсцисса ее максимума (модель А). Применение ядерных оценок связано с нахождением оптимального параметра размытости. Этому вопросу посвящены работы [24,31,42]. В данной работе предлагается несколько видов новых критериев для его нахождения, проведен их численный сравнительный анализ.
Другой подход предусматривает для некоторого типа данных нахождение моды плотности без восстановления последней (модель В).
Цель работы состоит в построении модально-регрессионных моделей идентификации стохастических объектов по наблюдениям входа и выхода, измеренными с помехами с неизвестными функциями распределения. Для достижения поставленной цели необходимо решить следующие задачи: сформировать выборку условного распределения выходов при каждом фиксированном значении вектора входных переменных; найти оценку условной плотности одномерного распределения выходов; предложить критерий нахождения оптимального параметра размытости; предложить алгоритмы нахождения моды условной плотности; при нахождении моды с использованием аналитических формул предложить способ определения параметра *q.
Методы исследования. При выполнении диссертационной работы использован современный вероятностно-статистический аппарат, методы теории оптимизации и статистического моделирования, элементы аналитической геометрии, а также методы непараметрического оценивания плотностей вероятностей.
Научная новизна работы состоит в следующем:
Предложен новый метод идентификации стохастических систем, а именно, новый класс модально-регрессионных моделей;
Сконструирована непараметрическая оценка условной плотности и доказана с помощью трех лемм теорема ее асимптотической сходимости к условной плотности в среднеквадратическом смысле;
Предложены критерии выбора оптимального значения параметра размытости в оценках одномерных плотностей Розенблатта-Парзена, в которых используется новая непараметрическая оценка функции распределения и доказана ее сходимость к оцениваемой функции;
Выведены формулы определения моды плотности в зависимости от асимметрии распределения для некоторого вида изучаемых данных и аналитически построен интервал, которому принадлежит мода;
Предложены некоторые виды нелинейных преобразований статистических данных, сводящие их распределение к нормальному, и метод определения параметра таких преобразований.
Практическая ценность. Результаты работы могут найти применение в математическом моделировании, в обработке статистической информации и системном анализе при изучении работы сложных стохастических объектов и систем, наблюдаемые входные и выходные данные которых осуществляются с помехами с неизвестными функциями плотностей распределения. Предлагаемые в диссертации методы могут быть использованы в широком
14 круге приложений экономики - инвестиционный анализ, принятие решений, управление риском и др.
На защиту выносятся: 1.. Методы построения модально-регрессионных моделей; 2. Критерии нахождения оптимального параметра размытости при непараметрическом ядерном восстановлении плотностей; 3- Методы определения оценки моды плотности;
4. Результаты сравнительного анализа оценивания выходов по регрессионной и модально-регрессионным моделям, проведенного на модельных примерах;
5, Теоремы об асимптотической сходимости непараметрических оценок условной плотности и функции распределения в среднеквадратическом смысле к оцениваемым функциям.
Апробация работы. Основные результаты диссертации докладывались и обсуждались: на V, VII Всероссийских научно-практических конференциях "Проблемы информации региона. ПИР", Красноярск, 1999,2001 гг.; на I, II Всесибирских конгрессах женщин-математиков, Красноярск, 2000,2001 гг.; на IV, V Международных симпозиумах "Интеллектуальные системы" INTELS '2000,2002, Москва, 2000г., Калуга, 2002г.; на Международной научной конференции **Интеллектуальные системы и информационные технологии управления IS&ITC - 2000", Псков, 2000г.; на VIII Международной конференции "Математика. Компьютер. Образование.", Пушино, 2001г.; на Межрегиональной научно-практической конференции преподавателей и работников торговли, Красноярск, 2001г.; на Всероссийской научно-практической конференции с международным участием "Достижения науки и техники - развитию сибирских регионов", Красноярск, 2001г.; на VI Международной конференции "Computer Data Analysis and Modeling", Минск, 2001г.; на Ш Международной конференции "Кибернетика и технологии XXI века", Воронеж, 2002г.; на I, II Всероссийских конференциях по финансово-актуарной математике и смежным вопросам. ФАМ' 2002, 2003, Красноярск,2002, 2003гг.; на Межрегиональной конференции "Математические модели природы и общества", Красноярск, 2002г.; на Международной конференции САКС-2002; на семинарах в Научно-исследовательском институте СУВПТ (2000-2003гг.); семинарах кафедры высшей и прикладной математики КГТЭИ (2000-2004гг.).
Публикации. По результатам работы опубликовано 15 печатных работ; в том числе, лично -8; в виде статей — 13 и тезисов докладов - 2.
Структура и объем работы. Дссертация состоит из введения, четырех глав, заключения, списка используемой литературы из 104 названий и приложения. Содержание работы изложено на 130 страницах печатного текста, проиллюстрировано 78 рисунками.
Содержание работы.
Во введении обосновывается актуальность темы, приводится обзор литературы и основных результатов исследований по рассматриваемой тематике, определена цель исследования, отмечены научная новизна и практическая ценность полученных результатов.
В первой главе рассматриваются некоторые методы статистического оценивания неизвестных плотностей. В соответствии со сложившимся мнением различают два подхода к решению такой задачи: параметрический и непараметрический, выбор которых в конкретных условиях зависит от объема исходной информации о функции плотности.
Теория статистического оценивания неизвестной плотности является одной из актуальных в современной математической статистике. Восстановленную плотность используют, например, при решении таких задач как моделирование, прогнозирование, оптимальное управление, распознавание образов, или делая статистические выводы о различных функционалах от плотности, таких как энтропия, функция опасности отказа и функция надежности в теории массового обслуживания.
Параметрический подход включает, как правило, два этапа. На первом этапе, из некоторых соображений, высказывается предположение о том, что наблюдаемые данные имеют закон распределения, принадлежащий к тому или иному параметрическому семейству. На втором этапе проверяется адекватность выбранного распределения с использованием критериев согласия. При выборе подходящего вида распределения можно воспользоваться справочниками [4,29,81], где подробно описаны дискретные и непрерывные одномерные распределения, наиболее часто используемые на практике. В приложениях справочников приведены их графики, помогающие выбрать тип теоретического распределения.
Наиболее важным для приложений является гауссовское (нормальное) семейство, так как оно наиболее изучено, и его удобно применять для решения практических задач. На его примере были разработаны теперь уже классические методы оценки неизвестных параметров [11,32,56]. В этой главе приведены формулы аналитического выражения для плотности нормального закона и для статистического оценивания параметров этого распределения. В течение долгого времени статистическая техника, базирующаяся на предположении нормальности, была основной в обработке реальных данных. Дальнейшее развитие статистических методов и применение их к решению реальных задач выявило неадекватность моделей, построенных на предположении нормальности распределений изучаемых показателей.
Далее представлен другой класс параметрических оценок плотности, называемый разложением по ортогональным рядам.. Основная идея такого
17 подхода состоит в аппроксимации неизвестной плотности некоторым отрезком ее ряда Фурье по подходящей системе ортонормированных функций. Для непрерывных величин широкое распространение получило разложение, основанное на нормальном распределении. Здесь же описан метод приближенного аналитического представления плотностей, основанный на применении системы кривых распределения 1С Пирсона [32,55,56].
В следующих параграфах первой главы приведены сведения о непараметрических оценках плотностей, простейшей из которых является гистограмма. Изучению ее свойств посвятили ряд работ В. И. Гливенко, Н.В.Смирнов, Н.Н. Ченцов и другие авторы. В частности, В.И. Гливенко установил почти наверное (п.н.) равномерную сходимость гистограммы к непрерывной теоретической плотности. Н.В. Смирнову [66] удалось установить предельный закон распределения для максимума абсолютной величины нормированного уклонения гистограммы от теоретической гладкой кривой. Н.Н. Ченцов [83] нашел точный наименьший порядок уклонения гистограммы от плотности- с ограниченной производной второго порядка в метрике пространства Ь^. Использование гистограммы в качестве оценки функции плотности дает возможность, хотя бы приближенно, определить тот класс, которому принадлежит закон распределения вероятностей, но выводы, сделанные на основе таких грубых оценок являются совсем не однозначными и бесспорными. Другими словами, на основе таких оценок можно только строить гипотезы о законе распределения. Еще одним способом предварительной оценки плотности можно считать полиграмму первого и более высокого порядков [60,74].
Последующий вклад в теорию непараметрического оценивания плотности вероятностей внесли М. Розенблатт, Е. Парзен, Г.М. Мания, В.А. Епанечников, Н.Н. Ченцов. В работах этих и других авторов вводятся новые классы оценок, обобщающие гистограмму. Так, один из этих классов, называемых "ядерными", был предложен в 1956 году М. Розенблаттом и Е. Парзеном в 1962 году. М. Розенблатт исследовал несмещенность оценки
18 плотности и асимптотику средней квадратической ошибки отклонения неизвестной плотности и ее оценки. Г.М. Мания обобщил результаты Розенблатга на многомерный случай. Е. Парзеном доказана асимптотическая несмещенность и нормальность «ядерных» оценок. В.А. Епанечниковым [18] была выведена оптимальная форма ядра при минимизации дисперсии оценки.
В последние десятилетия интерес к проблеме непараметрического восстановления плотности и кривой регрессии по результатам наблюдений (по эмпирическим данным) не ослабевает. В работе Э.А. Надарая [49] исследуется предельное распределение для максимума абсолютной величины нормированного уклонения оценки типа Розенблатга - Парзена от неизвестной плотности, что позволяет строить доверительные зоны для неизвестной плотности, разрабатываются общие методы асимптотического анализа непараметрической оценки для широкого класса функциональных характеристик закона распределения.
В конце первой главы сконструирована непараметрическая оценка условной плотности, сформулирована и доказана с помощью трех лемм теорема об ее сходимости в среднеквадратическом смысле к условной плотности.
Вторая глава посвящена непараметрическим вероятностным алгоритмам идентификации. Обоснована постановка задачи, приводящая к определению моды условной плотности. Приведены непараметрические оценки средней и модальной регрессии и рассматриваются вопросы их оптимизации.
Предлагается при оценивании выхода у; по модально-регрессионной модели для каждого значения входа ^ (одномерного или многомерного) строить окно, с использованием значения параметра размытости, выбранного при построении регрессионной модели в случае, когда все компоненты вектора входных данных предварительно нормированы. Далее формируется выборка значений выходов, попавших в данное окно, и по ней находится оценка. При использовании регрессионной модели в качестве оценки выбирается средневзвешенное значение, при работе с модально-регрессионной моделью оценкой выхода будет наиболее вероятное значение условной плотности. Задача нахождения моды плотности решается разными способами. Один из них рассматривается в третьем параграфе этой главы, а именно: восстанавливается плотность с использованием оценок Розенблатта-Парзена. При этом точность оценивания существенно зависит от выбора параметра размытости, который предлагается находить, применяя полученный здесь критерий: W4(Cs) = mm IfeC^)-^^))2, cs k=l (B.4) где Fsi(xk) =
2ft-l a FS2(xk) - новая непараметрическая оценка функции распределения, предложенная в данной работе и имеющая вид: *«<*) = jfc-t
1 К-1 й s І=1 при д: < д:^, xi+l + xi
, при х^_і < х < Xfr, к = 2,5, при x>xs (В.5) где Ф(-) - колоколообразные функции (ядра), удовлетворяющие определенным условиям. Для этой оценки доказана с помощью двух лемм теорема об ее сходимости к функции распределения в среднеквадратическом смысле.
Далее представлены численные исследования для выборок большого и малого объемов, подтверждающие хорошее качество оценок Розенблатта-Парзена с параметром размытости, выбранным по критерию (В.4).
В третьей главе, основываясь на общем подходе преобразования непрерывных распределений, описанных в книгах [3,27,55], предложены логарифмические преобразования. С их помощью многие распределения могут быть сведены, в точности или приблизительно, к известным формам. Наибольший интерес представляют методы, позволяющие путем подбора некоторой преобразующей функции, в отдельных случаях, получать данные, распределение которых ближе к нормальному, чем у исходных.
20 Преобразующие функции, такие как: у = arcsin(jc), y = ln(jc) или з? = 1п(х + 1), у = — или у = , у = -Jx или у = лЛт+1, предложены в [55, 69,75,78]. X х + 1
Для определенного типа экономических данных можно предположить, что их функции плотностей имеют логарифмически нормальное распределение, которое можно вывести как статистическую модель для случайной величины, значения которой получаются в результате умножения большого числа небольших ошибок, аналогично тому, как нормальное распределение имеет место при сложении ошибок. С помощью центральной предельной теоремы можно показать, что распределение произведения л независимых положительных случайных величин приближается к логарифмически нормальному распределению при самых общих условиях. В этом случае, можно применять логарифмическое преобразование, которое можно распространить на случай интервала, отличного от (0; <*>), введя параметр = х0, характеризующий центр распределения [79]. Оно имеет положительную асимметрию и характеризуется тем, что логарифм такой случайной величины (*о + х) подчиняется нормальному распределению. Иногда на практике приходится рассматривать данные, распределение которых получается из логнормального, зеркальным отображением относительно прямой jc = jcg, и, следовательно, имеющем отрицательную асимметрию. В этом случае логарифм случайной величины (jt0 — х) имеет нормальное распределение. В работе предлагается применять, в зависимости от асимметрии, преобразующие функции вида: y = ±ln(jr0±Jt), (В.6) (знак минус выбран для того, чтобы преобразующая функция в случае отрицательной асимметрии была монотонно возрастающей), значение параметра х0 определяются по предложенному в [96] критерию W5(x0), который имеет вид: х0 =argminW5(j:0) = argmin(^-M^)2. (В. 7)
21 Логарифмически нормальное распределение применяется в самых различных областях — от экономики до биологии. Примерами могут служить распределения суммы личных доходов, суммы банковских вкладов, распределение размеров организма, развитие которого происходит под влиянием большого числа незначительных воздействий, эффект каждого из которых пропорционален мгновенному значению размера организма. Логарифмическое преобразование применяется в том случае, когда стандартное отклонение изменяется прямо пропорционально средней, а пропорциональность - широко распространенное явление в экономике.
Учитывая, что изучаемый признак имеет логнормальное или зеркальное ему распределение, можно аналитически выразить моду плотности.
Функцию плотности р(х), в случае положительной асимметрии, можно (ln(x+j^)-In(a+j^))2 записать: р(х) =—j= е 2а . Параметр а здесь <Тл/2ят (х+х0) выступает в качестве медианы Мех, аналогично тому, как в нормальном распределении а - есть среднее значение случайной величины. Обозначим ln(jr+ ^)-111(^^+:) ,^ 1 и= ^ і—^ ^,. тогда р(х) = $?(«), где <7 C{X + Xq) q>(u)=-j=e 2- функция Гаусса. Абсцисса максимума плотности распределения (мода), определяется из уравнения р'(х) = 0. Производная функции плотности после преобразований, проведенных в работе, может быть
1 , /, мл записана: р\х)= іг<р(и)
, таким образом, мода определяется из уравнения ІН— = 0. (В.8) tx mQ4 ln(jc + х0) - ЩМех + х0)
Из (В.е), где и= — —, получим, что при положительной асимметрии моду плотности можно определить по формуле: Mqx = Шех +xQ)e а ~х0, (В.9а) где о* по определению равна: а ~ У\кУі -у) > т- а2 =—г0п(^ + х0)-\п{МХ +xQ)f =—->2 f Xj+Xq У (В. 10а)
С помощью аналогичных преобразований при отрицательной асимметрии функции плотности случайной величины X, получается следующая формула: -а2 М0х =х0- (*0 - Мех )е (В -9в) *0 _ хг .2_ 1 п„,_ _ч ,„,„ 1# «2_ 1 * "' --" ^ где cr = —- (inUo -*,-)- М*о - м«)) = —: ЕІІҐ ^-^=1 ^ —! i=l . (ВЛОв)
Далее был найден интервал, которому принадлежит мода, а именно:
1) при положительной асимметрии: ЪМех — 2х< Мох <М^, (ВЛ 1а) причем Зс = (Мех + х$)е ' ~Xq;
2) при отрицательной асимметрии: М^ < Мох < ЗМ^. —23с, (ВЛ1 в) - /i,f л 0.5сг2
Причем JC - JC0 — (Mgj. — Xq)
В этой главе приведены численные исследования результатов данного преобразования и применения формул (В.9а и В.9в) для оценивания моды.
Для класса распределений, входящих в систему Пирсона можно показать, что величина z- гг+? да-12)
2(5у| -6jf +6) где 7і и 72 " коэффициенты асимметрии и эксцесса соответственно. К. Пирсон ввел в качестве меры асимметрии разность между средним х и модой Moxt поделенную на стандартное отклонение, т. е. х=^~^^- (в-із)
23 В этом случае моду функции плотности можно определить, используя формулу: где х определяется по формуле (В. 12).
Всеми вышеописанными способами можно найти значение моды плотности, т. е. наиболее вероятное значение исследуемого показателя.
Четвертая глава посвящена исследованию и сравнению работы регрессионной и модально-регрессионных (вида А и В) моделей при идентификации объектов. Рассмотрены примеры имитационного моделирования объектов, т. е. генерирования различных данных, описывающих поведение объекта. На основе их проведен сравнительный анализ точности оценивания выходов с использованием построенных моделей. Представлены сравнительные графики полученных оценок и посчитаны абсолютные ошибки моделей. В результате проведенных исследований сделаны выводы о том, что при асимметричной функции распределения помех оценивание выходов по модально-регрессионным моделям на порядок точнее, чем с использованием традиционных моделей средней регрессии.
Сведения о непараметрических оценках плотности
На практике обычно в разложении не берут члены, содержащие моменты более четвертого порядка, т. е. уже первые четыре члена разложения дают хорошее приближение. Также полностью не решен вопрос сходимости ряда к плотности р(х). Разложением пользуются, не исследуя вопроса о его сходимости, т. к. здесь он не имеет практического значения, важно лишь, чтобы плотность р(х) могла быть с достаточной точностью представлена с помощью небольшого (обычно двух — трех) числа членов ряда. Кроме того, обычно более или менее точно можно оценить только несколько первых моментов, а относительно моментов высших порядков даже не известно существуют ли они.
Следующий метод приближенного аналитического представления плотностей скалярных случайных величин основан на применении системы кривых распределения КЛирсона [32,55,56]. Разработанная Пирсоном система функций плотности вероятностей многих непрерывных распределений у = р(х), встречающихся в практических задачах, удовлетворяет дифференциальному уравнению: нормальное, показательное, % -распределение, бэта-распределение, распределения Стьюдента и Фишера. Изменяя параметры a, b$, by, b2 можно получить большое разнообразие кривых распределений. Любое распределение, получаемое из одного из перечисленных посредством линейного преобразования случайной величины, будет, конечно, удовлетворять уравнению этого вида. Можно показать, что постоянные этого уравнения могут быть выражены через первые четыре момента, если только эти моменты конечны. В книге Дж. Полларда [55] рассмотрены процедуры при подборе кривых различного типа, и приведены примеры их использования. Данный метод удобен в тех случаях, когда необходимо просто подобрать подходящую кривую плотности и не стоит задача обоснования типа функциональной зависимости, соответствующей такой кривой. Применимость тех или иных частных типов распределений (с подходящими параметрами) может быть установлена по графику эмпирического распределения.
На практике не редко основной интерес представляет не установление принадлежности распределения исследуемой величины к тому или другому семейству, а решение задач, в которых требуется дать ответ при условии, что об исходном распределении делаются лишь весьма общие предположения. В результате математическая статистика встала перед необходимостью заняться циклом проблем, в которых разыскиваются статистические правила, пригодные для широкого класса исходных распределений.
Непосредственное оценивание распределений без предположения, что они являются известными с точностью до конечного числа параметров функциями, называется непараметрическим. В настоящее время непараметрические задачи статистики находятся в процессе интенсивной разработки, хотя следует отметить, что здесь имеются существенные трудности в вопросах самых простых по постановке..
Одним из самых распространенных способов оценивания плотности может служить относительная плотность экспериментальных данных (точек). На практике выборки из непрерывных распределений часто подвергаются группировке, причем, чем больше число опытов, тем мельче можно взять интервалы разбиения области возможных значений. При этом нет необходимости перечислять все выборочные значения, а достаточно лишь указать количество вариант, попавших в каждый интервал некоторого определенного разбиения. Затем, в одномерном случае, каждый интервал этого разбиения принимается за основание прямоугольника высотой —-, где h длина интервала, a ms число выборочных значений,, попавших в этот интервал. Получающаяся при этом фигура, состоящая из прямоугольников, называется гистограммой выборки [10,14,75]. Площадь каждого прямоугольника гистограммы равна частоте —- соответствующей группы. При больших S можно ожидать, что эта площадь будет приблизительно равна вероятности для наблюденного значения попасть в соответствующий интервал, т. е. будет приблизительно равна интегралу от плотности р(х), распространенному на данный интервал. Таким образом, значения относительной плотности экспериментальных точек (относительные частоты) представляют собой оценки плотности вероятностей в некоторых средних точках соответствующих интервалов разбиения. При этом, чем больше число опытов S, тем точнее гистограмма будет аппроксимировать плотность. Изучению свойств гистограммы посвятили ряд работ В.И. Гливенко, Н.В. Смирнов, Н.Н. Ченцов и другие авторы. При построении гистограмм область определения случайной величины разбивают на интервалы равной длины или равной вероятности. Причем в основном осуществляется разбиение на интервалы равной длины с последующим объединением тех смежных интервалов, в которые попало малое число наблюдений. Такое группирование рассматривается в наиболее часто используемых для руководства источниках [68,76]. Хотя в [28] говорится, что в случае унимодального распределения допускается уменьшение ожидаемых частот для одного или двух интервалов до одного наблюдения. Практически интервалы рекомендуется выбрать так, чтобы в каждом из них было не меньше пяти - десяти экспериментальных точек [10]. Можно также воспользоваться формулой Стреджеса, определяющей длину интервала разбиения h следующим образом.
Постановка задачи идентификации, приводящая к определению моды условной плотности
В диссертационной работе было предложено при идентификации стохастических объектов использовать не общепринятые регрессионные, а новые модально-регрессионные модели. Построение таких моделей осложнено тем, что необходимо оценивать моду условных плотностей. Поскольку сами условные плотности априори неизвестны, в работе сконструированы их непараметрические оценки и доказана, с помощью трех лемм, теорема об асимптотической сходимости оценки условной плотности в среднеквадратическом смысле к условной плотности. Эти оценки, в случае к -мерных входных переменных, зависят от ( + 1)-мерных векторов параметров размытости, задача нахождения которых пока не решена. В диссертации предложен алгоритм формирования одномерной выборки выходов при каждом фиксированном значении вектора входных переменных. По этим выборкам осуществляется оценивание моды, которая и принимается за оценку выхода. Задача нахождения оценки моды плотности условного распределения решается разными методами, каждый из которых имеет свои сложности. Один из методов построения модально-регрессионных моделей предполагает восстановление условной плотности с использованием непараметрических оценок Розенблатта—Парзена. В этом случае качество восстановление существенно зависит от выбора параметра размытости Cs В работе предложено несколько критериев для настройки этого параметра, проведено численное исследование восстановления плотностей по выборкам как большого, так и малого объемов, где параметр Cs находился по одному из этих критериев. После чего был сделан вывод, что наиболее оправдано применение критерия W4(CS). При выборе параметра размытости по этому критерию требуется меньше машинного времени, чем при работе с критериями Щ(Сз)-УУз(С$), при этом у восстановленной плотности видны ее все особенности. Это очень важно, если учесть, что целью восстановления является определение моды.. В каждом из этих критериев используется новая непараметрическая оценка функции распределения, которая была предложены в данной работе. Доказана теорема об ее асимптотической сходимости в среднеквадратическом смысле к функции распределения.
Другой метод может применяться в таких областях как экономика, медицина, экология и др. В этом случае можно показать, что условные плотности будут иметь распределения близкие к логарифмически нормальным. В работе выведены формулы нахождения моды плотности Мох, аналитические выражения которых зависят от таких характеристик как медиана Мех и среднее квадратичное отклонение с Они легко определяются по имеющимся данным. Также в этих формулах присутствует параметр х$, для однозначного определения которого, предложен критерий W$ ( о) Применение этих формул значительно упрощает задачу построения модально-регрессионных моделей, т. к. в этом случае нет необходимости восстанавливать условную плотность, но может применяться только для определенного типа данных.
В диссертации предложен способ преобразования данных, имеющих асимметричную функцию плотности, к данным, распределение которых имеет близкий к нормальному вид. Так же аналитически получен интервал, которому принадлежит мода, что позволит уменьшить объем вычислений при нахождении моды по восстановленной плотности. Применяя методы имитационного моделирования, были проведены численные исследования применения модально-регрессионных и регрессионных моделей при идентификации стохастических объектов и систем. Предложенные и построенные модально-регрессионные модели показали лучшую точность восстановления зависимостей по статистическим данным с точки зрения абсолютных ошибок, посчитанных по моделям. Сформулируем кратко заключительные выводы. 1. Предложен новый класс модально-регрессионных моделей при идентификации 2. Сконструирована непараметрическая оценка условной плотности и предложена новая непараметрическая оценка функции распределения, доказаны теоремы асимптотической сходимости этих оценок к оцениваемым функциям в среднеквадратическом смысле. 3. Предложены критерии выбора параметров размытости для оценок плотности Розенблатта-Парзена и исследовано их применение на различных выборках. 4. Выведены формулы нахождения моды для данных, имеющих распределение близкое к логнормальному или зеркально ему отраженному. 5. Предложен способ преобразования статистических данных, имеющих логнормальное распределение к нормальному.
Способы нахождения параметра х0 при логарифмической трансформации исходных данных
Математические модели являются мощным инструментом при изучении различных объектов и систем. Они представляют собой формализацию, необходимую для определения основных признаков, связей, закономерностей, присущих объекту - оригиналу, и отсеивания второстепенных признаков. На их основе может быть осуществлена формализация различных функций этого объекта или внешних воздействий на него. Моделирование (в широком смысле) является основным методом исследований во всех областях знаний и научно обоснованным методом оценок характеристик объектов или систем, используемых для принятия решений в различных сферах деятельности. Существующие и проектируемые объекты или системы можно эффективно исследовать с помощью математических моделей (аналитических или имитационных), реализуемых на современных ЭВМ, В книге Б.Я. Советова и С.А. Яковлева [71] рассматриваются методология и технология машинного моделирования различных объектов и систем, а также организация статистического моделирования на ЭВМ. Рассмотрен один из методов моделирования случайных воздействий на объект. Предложено несколько способов получения непрерывных и дискретных случайных величин с заданным законом распределения, например, метод обратной функции или приближенный способ преобразования случайных чисел.
В данной главе было проведено имитационное моделирование объекта, а именно сгенерированы величины, которые носят характер внешних воздействий (входные векторные переменные) и другие величины (выходные скалярные переменные), которые характеризуют работу объекта, т. е. зависят от входных переменных. Далее была исследована работа предложенных модально-регрессионных моделей (вида А и В), а также проведен сравнительный анализ оценивания выходов по регрессионной и построенным модально-регрессионным моделям, посчитаны ошибки по этим моделям.
Реальные входные данные объекта, как правило, не являются независимыми, поэтому этот факт был учтен при моделировании. Для наглядности рассмотрим объект, на вход которого поступает двух мерный вектор входных переменных X; = (лг; ,Xi ), а у,-- выходная скалярная переменная этого объекта, при і = 1,5, S- объем выборки. Реальная зависимость значений выходов ув моделируется с использованием некоторой функции: 1 2 ув=у(х tx ). Поскольку на практике невозможно включить в модель все факторы, влияющие на поведение объекта, или наблюдения выходной переменной осуществляется с помехой 4. плотность вероятности р() которой неизвестна, то при моделировании значений выходной переменной необходимо на ув наложить помеху. Другими словами, получение данных, используемых в исследованиях в качестве выходных значений, осуществлялись по формуле: где г- уровень помех. Для исследования предлагается несколько модельных примеров, которые отличаются тем, что на выходную переменную накладывалась помеха с разной функцией плотности распределения р(). Рассматривались случаи с симметричной плотностью помехи, а именно: равномерное (рисунок 4.1.1) и нормальное распределение (рисунок 4.1.2). А также случаи ее асимметричного распределения, причем с положительной асимметрией (логарифмически нормальное рисунок 4.1.3) и распределения, которое получено из логнормального, зеркальным отображением относительно прямой х = XQ , и, следовательно, имеющим отрицательную асимметрию (рисунок 4.1.4). В данной работе при моделировании ошибки с заданным законом распределения использовался метод Неймана [70], и датчик случайных величин с равномерным законом распределения. Применяя формулы нормировки (2.2.4а) при Л = -1 и j3 2, получали распределения принадлежащие интервалу [-1, 1]. Также была использована стандартная программа получения случайной величины, распределенной по нормальному закону (1.1.1) с параметрами а = 0 и 0- = 0,33.
Сравнительный анализ работы регрессионной и модально-регрессионной (вида А) моделей
В данной работе подробно рассмотрены примеры применения логарифмического преобразования, причем рассматриваются более общие преобразующие логарифмические функции вида, в зависимости от асимметрии. Также предложены [98] способы нахождения параметра этих преобразований., Ясно, что метод логарифмической трансформации будет успешным, если преобразовывать будем случайную величину, имеющую распределение близкое к логарифмически нормальному с положительной асимметрией или зеркально отраженному относительно прямой X = XQ. В качестве обоснования применимости преобразующих логарифмических функций у = ±ln(jc0 ± х) можно привести цитату из книги [79] авторе Г. Хана С. Шапиро: "Логарифмически нормальное распределение можно распространить на случай интервала, отличного от введя параметр характеризующий центр распределения. Логарифмически нормальное распределение можно вывести как статистическую модель для случайной величины, значения которой получаются в результате умножения большого числа небольших ошибок, аналогично тому, как нормальное распределение имеет место при сложении ошибок. С помощью центральной предельной теоремы можно показать, что распределение произведения п независимых положительных случайных величин приближается к логарифмически нормальному распределению при самых общих условиях.
Логарифмически нормальное распределение применяется в самых различных областях - от экономики до биологии. Примерами могут служить распределения суммы личных доходов, суммы банковских вкладов; распределение размеров организма, развитие которого происходит под влиянием большого числа незначительных воздействий, эффект каждого из которых пропорционален мгновенному значению размера организма. Логнормальное распределение используется также для описания размеров частиц, получаемых в процессе дробления породы и при испытаниях на долговечность ".
Дж. Снедекор в [69] пишет: "Наибольший интерес представляют методы, позволяющие путем подбора некоторой преобразующей функции, в отдельных случаях, получать данные, распределение которых ближе к нормальному, чем у исходных. . . . Логарифмическое преобразование применяется в том случае, когда стандартное отклонение изменяется прямо пропорционально средней. Пропорциональность - широко распространенное явление в экономике".
В книгах К.А. Браунли [3] и В. Хардле [80] говорится о том, что логарифмическое преобразование является стабилизирующим дисперсию, т. е. преобразованная случайная величина будет иметь постоянную дисперсию.
В большинстве статистических задач предполагается, что дисперсия изучаемой случайной величины и ее среднее никак не связаны между собой (например, в регрессионном анализе). Однако часто возникают ситуации, когда подобные предположения не имеют места (например, среднее и дисперсия пуассоновского распределения совпадают). Тогда необходимо преобразовать случайную переменную так, чтобы среднее и дисперсия не были связаны. Для пуассоновского и биномиального распределений применяют соответственно преобразования квадратного корня и арксинуса, которые описаны в [55].. Помимо того, что такого рода преобразования у = у/(х) делают среднее и дисперсию независимыми, они также приводят к распределениям, которые ближе к нормальным, чем исходные. Логарифмическое преобразование применяется при построении моделей, когда влияние факторов, не учтенных явно в модели, скорее мультипликативно, чем аддитивно. При изучении различных показателей в таких областях наук как социология, биология, экономика и другие, получают распределения близкие к логнормальным. В этом случае, применяя логарифмическое преобразование, можно получить случайную величину, распределенную по нормальному закону; Приведенные выше высказывания подтверждают актуальность применения метода логарифмической трансформации распределений.
Итак, если мы имеем дело с функцией плотности с асимметричным распределением, то теоретически всегда можно подобрать некоторую нелинейную функцию /(х), применяя которую к случайной величине можно получить преобразованную случайную величину Y; плотность распределения которой будет приближенно следовать нормальному закону (трансформировать случайную величину X в случайную величину Y с помощью некоторой функции).