Содержание к диссертации
Введение
ГЛАВА 1. Методы обработки и анализа экспериментальных данных 13
1.1. Аппроксимация регрессионных зависимостей 13
1.2. Аппроксимация статистических функций 23
1.3. Критерии выбора оптимальных аппроксимирующих функций .31
1.4. Выводы по главе 33
ГЛАВА 2. Совершенствование методов оценивания и повышение точности аппроксимации статистических показателей 35
2.1. Параметрическая аппроксимация функции плотности вероятности и интенсивности с построением доверительных интервалов 35
2.2. Параметрическая аппроксимация функции интенсивности 39
2.3. Выравнивание объемов выборок локальных оценок 42
2.4. Исследование влияния коррелированности данных на результат аппроксимации регрессионных зависимостей 46
2.5 Определение интегральных показателей по результатам аппроксимации функции интенсивности 68
2.6. Выводы по главе 68
ГЛАВА 3. Сопоставление и анализ точности апроксимации статистических функций различными методами 70
3.1. Сравнительный анализ точности параметрического оценивания функций интенсивности 70
3.2. Сопоставление точности вычисления средней ожидаемой продолжительности жизни 77
3.3. Сравнительный анализ точности оценивания статистических функций 80
3.4. Сравнительный анализ точности методов непараметрического оценивания функции интенсивности 83
3.5. Выводы по главе 87
ГЛАВА 4. Практическая реализация методов и экспериментальные исследования на реальных данных 89
4.1. Разработка прикладной программной системы на основе рассматриваемых методов 89
4.2. Анализ показателей качества производства листового стекла на ОАО «Борский стекольный завод» 93
4.3. Анализ показателей здоровья населения 98
4.4. Выводы по главе 117
Заключение 119
Список использованной литературы 121
- Аппроксимация регрессионных зависимостей
- Параметрическая аппроксимация функции плотности вероятности и интенсивности с построением доверительных интервалов
- Сравнительный анализ точности параметрического оценивания функций интенсивности
- Разработка прикладной программной системы на основе рассматриваемых методов
Введение к работе
Активные системы, к каким относятся промышленные предприятия, города, промышленные зоны, прилегающие к ним территории, бизнес и общество в целом, представляют собой сложные объекты, свойства которых не могут быть выражены через свойства образующих их подсистем. Важность изучения состояния таких систем вытекает из необходимости для исследователя познать механизмы их функционирования, управлять ими и поддерживать в рабочем состоянии, оценить степень влияния внешних факторов, построить и изучить модель объекта на базе существующих методов математического и статистического моделирования.
Широкое применение методы моделирования нашли в системах мониторинга, прикладных промышленных системах, в системах управления качеством промышленного производства, при изучении физических процессов происходящих в промышленных системах, а также в системах регулирования состоянием объекта исследования. В диссертационной работе объектами исследования выступают как технические системы, так и социальные системы, в которых возникают схожие задачи математического моделирования, построения, исследования и анализа статистических показателей объекта.
Под математическим моделированием подразумевается процесс построения моделей риска в технических и социальных системах. В технических системах такими моделями будут показатели надежности и вероятности отказа технических объектов, показатели, характеризующие качество выпускаемой продукции. В социальных системах, связанных с биологическими исследованиями - интенсивность смертности (в том числе от заданных причин) и относительная смертность популяции индивидуумов. Причем, изменение состояния социальных систем рассматривается как результат воздействия на них промышленных, на территории которых они располагаются.
Построение и изучение моделей риска является частью системного
подхода к решению задач анализа уровня развития промышленного производства и промышленности в целом, его влияния на состояние среды обитания и общество. Особенно сильно такое влияние проявляется в системах биологического мониторинга, когда объектом исследования являются популяции людей, проживающих в городах и на территориях, прилегающих к промышленному производству.
Окружающая среда
*. Промышленные ' системы
Социальные системы
У
Модели показатепеи системы:
Условная вероятность.
Плотность распределения вероятности.
Интенсивность.
Модели показателей системы:
Плотность распределения вероятности.
Условная вероятность смерти.
Интенсивность смертности (в т.ч. от причин).
Ожидаемая продолжительность жизни
Рис. В.1. Схема взаимодействия активных систем
Роль современной математической статистики как отрасли науки при решении прикладных задач в системах, рассматриваемых в работе, только увеличивается. Это объясняется особой важностью применяемых методов для получения готовых результатов, необходимостью применять специализированные руководства для научных работников разного профиля, экономистов, инженеров, врачей, агрономов, руководителей промышленных и производственных предприятий, то есть для всех тех, кто связан с математическим описанием разнообразных сложных явлений, процессов и объектов в масштабах различных уровней.
На первых этапах развития математической статистики ее широкое применение ограничивалось большим объемом вычислений, необходимых для получения результата. Развитие вычислительной техники кардинально изменило ситуацию. Появилась возможность автоматизировать многие вычислительные процедуры. На их базе были написаны многочисленные программы, многим из которых уже более полувека [1, 2].
Кроме моделей, структуры которых выражаются формулами, в рамках математической статистики рассматриваются модели, которые задаются и алгоритмически [3]. Это приводит к возможности внедрения имитационных моделей при решении различных исследовательских задач. Со временем происходит усложнение задач, и роль статистики здесь продолжает увеличиваться [4].
Загрязнение окружающей среды вследствие техногенной деятельности человека поставило задачу анализа показателей здоровья населения на всех уровнях не только перед органами здравоохранения. Проблемы выявления и устранения неблагоприятных факторов, влияющих на здоровье населения, решаются на государственном уровне, поэтому основная тенденция развития современных систем мониторинга промышленных зон и предприятий - выявление и изучение влияния негативных причин на здоровье и продолжительность жизни людей [5, 6, 7, 8].
Цель разработки основ управления промышленными предприятиями и санитарно-эпидемиологической ситуацией можно определить как обоснование принципов и критериев выявления элементов сложившейся социально-биологической системы и, в конечном счете, способа воздействия на них, направленного на совершенствование различных аспектов устойчивого развития рассматриваемых систем. Важным показателем всеобъемлющего благополучия общества является здоровье его населения [9, 10], которое, как уже говорилось ранее, является объективным показателем состояния окружающей среды. Учитывая эту особенность, можно перейти к задачам регулирования и мониторинга уровня загрязнения окружающей среды промышленностью. Снижение выбросов в окружающую среду токсичных и вредных веществ однозначно приводит к снижению уровня смертности населения. Далее покажем взаимосвязь промышленных и социальных систем, рассматриваемых в диссертационной работе, с учетом особенностей, показанных на рис. В.1, на примере г. Владимира.
Так на рис. В.2 приведена карта плотности проживания населения г. Владимира. Из рисунка видно, что наибольшее значение плотности проживания населения города приходится на места близкие к, так называемым, промышленным зонам. В частности это территория завода «Электроприбор» и район Горьковской железной дороги. На остальных территориях плотность распределения жителей примерно одинакова. Взаимосвязь между районами с высокой плотностью населения и промышленными зонами обусловлена недалеким местом проживания населения от места работы. На территориях, прилегающих к таким крупным промышленным объектам, как завод «Автоприбор», «Владимирский химический завод», «Тракторный завод», «Точмаш» и «Электроприбор» наблюдается аналогичная ситуация.
На рис. В.З приведена карта концентрации свинца в грунте. При сопоставлении географического месторасположения предприятий г. Влади-
мира с участками повышенного содержания свинца в грунте, можно обнаружить взаимосвязь. Участки с повышенным содержанием свинца в грунте близки или совпадают с территориями промышленных предприятий. Максимум функции смещен в сторону прохождения путей Горьковской железной дороги, традиционно считающейся зоной повышенной загрязненности.
Рис. В.2. Исторический центр г. Владимира. Плотность населения. Аппроксимация по данным о смертности за 1990 г
км 7 8 9
7 8 9 км
Рис. В.З. Исторический центр г. Владимира и прилегающие территории. Концентрация свинца в грунте (в 0.0001%), аппроксимирующая функция
Таким образом, можно говорить о взаимосвязи между местами проживания людей, расположением промышленных предприятий и очагами загрязненности окружающей среды. Такая взаимосвязь обусловлена деятельностью промышленных предприятий и заводов.
На рис. В.4 приведены результаты картирования продолжительности жизни населения г. Владимира. На рис В.5 и В.6 представлены результаты картирования относительной смертности населения от сердечнососудистых и онкологических заболеваний соответственно. Качественно видно, что области с низкой продолжительностью жизни и высокой смертностью от указанных причин совмещены с географическим расположением промышленных зон и/или районом железной дороги, либо смещены в эти участки города. Область с низкой продолжительностью жизни, наблюдаемая на северо-западном участке карты, является следствием расположения в этой части города бывшей свалки радиоактивных отходов завода «Электроприбор»
Рис. В.4. Исторический центр г. Владимира Продолжительность жизни населения (в годах), 1988 - 90 гг. Средний возраст 66.2 лет
км
Рис. В.5. Исторический центр г. Владимира и прилегающие территории. Относительная смертность населения от онкологических заболеваний, 1988-90 гг.
Рис. В.6. Исторический центр г. Владимира и прилегающие территории. Относительная смертность населения от болезней сердечнососудистой системы, 1988-90 гг.
Таким образом применяя механизмы косвенного (через смертность и интенсивность смертности населения, проживающего на исследуемой территории) оценивания состояния окружающей среды можно давать конкретные решения по регулированию экологической обстановкой. Карты на рис. В.2. - В.6. предоставлены проф. Дубовым Р.И. и Дубовым И.Р., ВлГУ, г. Владимир [11].
В свою очередь, показатели здоровья населения формируются как под воздействием внешних болезнетворных факторов, так и биологических особенностей популяции людей, которые в совокупности и образуют оценку экологического состояния изучаемой территории. Число таких факторов чрезвычайно велико. Поэтому при анализе здоровья населения на популяционном уровне, болезни обычно классифицируют по группам (нозологическим формам), объединяющих в себе несколько болезней, или рассматривают в целом от всех болезней. Некоторые виды заболеваний и причин смерти связаны исключительно с наличием вредных веществ в окружающей среде на территории проживания изучаемой популяции людей. Проведение дополнительных исследований в цепочке промышленные системы—>экология—>социальные в рамках системного подхода, позволяет выявлять неблагополучные территории и предприятия расположенные на ней. Такой показатель как средняя ожидаемая продолжительность жизни служит истинной оценкой общего санитарно-эпидемиологического благополучия населения проживающего на исследуемой территории [12], уровня развития промышленности и медицины.
Не смотря на разнообразие сфер применения моделей, в их основе лежат общие положения математической статистики, связанные с фундаментальной задачей оценивания плотности распределения случайной величины, в изучаемом физическом процессе рассматриваемого объекта исследования. Сложность решения указанной задачи в условиях неопределенности приводит к затруднениям применения известных методов анализа риска в конкретных ситуациях. В условиях недостаточной априорной информации применяются непараметрические методы построения моделей риска, поэтому особенно важно уменьшить субъективное влияние исследователя и тем самым повысить их точность. В этом направлении в существующих методах анализа риска имеются еще не решенные задачи, связанные с оптимизацией выбора параметров алгоритмов построения моделей на различных этапах.
Цель диссертационной работы - развитие и совершенствование методов оценивания статистических показателей в системах мониторинга промышленных зон городских территорий.
Для достижения поставленной цели необходимо решить следующие задачи:
Снизить вычислительные затраты алгоритмов аппроксимации зависимостей, определяемых отношением функций плотности, без потери точности.
Разработать методику определения интегральных показателей риска по результатам аппроксимации.
Разработать методику параметрического оценивания моделей зависимостей, определяемых отношением функций плотности вероятности.
Выполнить сравнительный анализ точности аппроксимации функции риска различными методами.
Выполнить экспериментальные исследования показателей риска реальных промышленных и социальных объектов по фактическим данным.
Разработать алгоритмическое и программное обеспечение оптимизированной аппроксимации статистических показателей.
Диссертационная работа состоит из 4 глав, введения и заключения. В конце приведены приложения о практическом внедрении основных положений, излагаемых в работе.
Первая глава посвящена обзору известных методов обработки статистической информации. Рассматривается общая постановка задачи построения аппроксимирующих функций.
Вторая глава посвящена развитию и совершенствованию метода аппроксимации логарифма плотности вероятности по локальным оценкам взятого за основу в диссертационной работе.
Третья глава посвящена сравнительному анализу точности оценок показателей риска, полученных с использованием различных методов, встречающихся в литературе.
Четвертая глава посвящена решению прикладных задач связанных с исследованиями в реальных промышленных и технических системах, с использованием методов, изложенных в перовой главе, с учетом предлагаемых усовершенствований и изменений, рассматриваемых во второй главе.
Диссертация изложена на 146 страницах рукописного материала. В конце приведен список использованной литературы, состоящий из 90 источников и 5 приложений.
Аппроксимация регрессионных зависимостей
Таким образом применяя механизмы косвенного (через смертность и интенсивность смертности населения, проживающего на исследуемой территории) оценивания состояния окружающей среды можно давать конкретные решения по регулированию экологической обстановкой. Карты на рис. В.2. - В.6. предоставлены проф. Дубовым Р.И. и Дубовым И.Р., ВлГУ, г. Владимир [11].
В свою очередь, показатели здоровья населения формируются как под воздействием внешних болезнетворных факторов, так и биологических особенностей популяции людей, которые в совокупности и образуют оценку экологического состояния изучаемой территории. Число таких факторов чрезвычайно велико. Поэтому при анализе здоровья населения на популяционном уровне, болезни обычно классифицируют по группам (нозологическим формам), объединяющих в себе несколько болезней, или рассматривают в целом от всех болезней. Некоторые виды заболеваний и причин смерти связаны исключительно с наличием вредных веществ в окружающей среде на территории проживания изучаемой популяции людей. Проведение дополнительных исследований в цепочке промышленные системы— экология— социальные в рамках системного подхода, позволяет выявлять неблагополучные территории и предприятия расположенные на ней. Такой показатель как средняя ожидаемая продолжительность жизни служит истинной оценкой общего санитарно-эпидемиологического благополучия населения проживающего на исследуемой территории [12], уровня развития промышленности и медицины.
Не смотря на разнообразие сфер применения моделей, в их основе лежат общие положения математической статистики, связанные с фундаментальной задачей оценивания плотности распределения случайной величины, в изучаемом физическом процессе рассматриваемого объекта исследования. Сложность решения указанной задачи в условиях неопределенности приводит к затруднениям применения известных методов анализа риска в конкретных ситуациях. В условиях недостаточной априорной информации применяются непараметрические методы построения моделей риска, поэтому особенно важно уменьшить субъективное влияние исследователя и тем самым повысить их точность. В этом направлении в существующих методах анализа риска имеются еще не решенные задачи, связанные с оптимизацией выбора параметров алгоритмов построения моделей на различных этапах.
Цель диссертационной работы - развитие и совершенствование методов оценивания статистических показателей в системах мониторинга промышленных зон городских территорий. Для достижения поставленной цели необходимо решить следующие задачи: 1. Снизить вычислительные затраты алгоритмов аппроксимации зависимостей, определяемых отношением функций плотности, без потери точности. 2. Разработать методику определения интегральных показателей риска по результатам аппроксимации. 3. Разработать методику параметрического оценивания моделей зависимостей, определяемых отношением функций плотности вероятности. 4. Выполнить сравнительный анализ точности аппроксимации функции риска различными методами. 5. Выполнить экспериментальные исследования показателей риска реальных промышленных и социальных объектов по фактическим данным. 6. Разработать алгоритмическое и программное обеспечение оптимизированной аппроксимации статистических показателей. Диссертационная работа состоит из 4 глав, введения и заключения. В конце приведены приложения о практическом внедрении основных положений, излагаемых в работе. Первая глава посвящена обзору известных методов обработки статистической информации. Рассматривается общая постановка задачи построения аппроксимирующих функций. Вторая глава посвящена развитию и совершенствованию метода аппроксимации логарифма плотности вероятности по локальным оценкам взятого за основу в диссертационной работе. Третья глава посвящена сравнительному анализу точности оценок показателей риска, полученных с использованием различных методов, встречающихся в литературе. Четвертая глава посвящена решению прикладных задач связанных с исследованиями в реальных промышленных и технических системах, с использованием методов, изложенных в перовой главе, с учетом предлагаемых усовершенствований и изменений, рассматриваемых во второй главе. Диссертация изложена на 146 страницах рукописного материала. В конце приведен список использованной литературы, состоящий из 90 источников и 5 приложений.
Развитие теоретических и экспериментальных наук характеризуется непрерывным возрастанием полноты и строгости учета факторов, включаемых в модель исследуемого объекта. Многие достижения физики, радиотехники, биологии, медицины, кибернетики, социологии, измерительной техники, геофизики и других наук, связанных с обработкой экспериментальных данных основаны на применении различных методов. Возросли требования к качеству и точности разрабатываемых моделей объектов при обработке экспериментальных данных. При этом объект моделирования может содержать элементы, не поддающиеся формализации, обладать стохастическими свойствами или подвергаться влиянию случайных внешних воздействий. Поэтому можно оценить коэффициенты и рассчитать движение планет, но не удается предсказать объем производства и оценить его влияние на окружающую среду более чем на 5-7, суток с приемлемым качеством.
Главной причиной необходимости получения новых статистических методов и развития уже существующих, является расхождение между моделью, которая базируется на имеющихся методах, и наблюдаемой реальной ситуацией. Значительная часть результатов математической статистики основана на предположении о том, что информации, имеющейся у потребителя, достаточно для представления участвующих в задаче распределений в виде некоторых функций с конечным числом параметров. Однако в действительности это предположение часто оказывается нереальным или же оценить степень влияния факторов, вошедших в модель, на интересующий исследователя показатель не удается в силу ограничений связанных с точностью, предоставляемой моделью.
Параметрическая аппроксимация функции плотности вероятности и интенсивности с построением доверительных интервалов
Для окончательного проведения исследования остается только один не определенный варьируемый параметр - ковариационная матрица ошибок наблюдений. Из [39] известен общий вид ковариационной матрицы при непараметрической аппроксимации прямых наблюдений. Таким образом, возможно два варианта формирования ковариационной матрицы 1. В первом случае структура определяется следующим формулой
Компоненты вектора ц0 не коррелированы. Для того чтобы т]0 был коррелированным вектором, определяемым соотношениями (2.13) или (2.14) необходимо выполнить дополнительные преобразования. Для этого можно использовать стандартные вычислительные методы линейной алгебры [50]. Но из-за сложности прямого использования этих алгоритмов в работе использовался другой распространенный метод [51], основанный на построении преобразующей матриц где ю( - элемент ковариационной матрицы; N- объем выборки.
После умножения вектора т]0 на преобразующую матрицу Т получаем вектор г\, компоненты которого коррелированы с заданной ковариационной матрицей. Завершающей операцией для проведения исследований будет Y = Y + т]. Построение аппроксимирующих функций
Как сказано ранее, сопоставление точности непараметрической аппроксимации разными видами МНК необходимо проводить на общих данных для придания большей достоверности получаемым результатам. Это означает, что необходимо формировать два вектора ц0 и выполнять соответствующие преобразования. Один для случая, когда учитывается полная ковариационная матрица 1 (при аппроксимации обобщенным МНК). Другой для случая, когда учитывается только диагональ матрицы 1 (при аппроксимации весовым МНК). Очевидно, что остальные элементы при этом считаются равными 0. Точно так же очевидно, что преобразующие матрицы Т в каждом из случаев будут разными. Это, в свою очередь, означает, что конечные вектора ц, которые накладывается на вектор также будут разными. Таким образом, получается, что сопоставление методов будет неправомерным.
Для исключения этого предварительно предлагается выполнить поиск оптимальных аппроксимирующих функций обобщенным МНК и весовым МНК на раздельных данных. По результатам построения нескольких аппроксимирующих функций берется медианное значение степени аппроксимирующего полинома, которое считается наилучшим при данных условиях моделирования для данного МНК.
Оптимальной аппроксимирующей функцией будет полином, степень которого будет разной при разных значениях параметров. В описываемых исследованиях строились оптимальные аппроксимирующие функции для весового МНК и для обобщенного МНК для каждой модельной функции на множестве варьируемых параметров: { уровень дисперыш , способ формирования ковариационной матрицы , закон распределения аргумента выборки D , объем выборки D }. Результаты построения оптимальных аппроксимирующих полиномов при различных параметрах моделирования приведены в таблицах 1-3 приложения 1. Случай, когда вектор X распределен в соответствии с (2.12), а ковариационная матрица сформирована вторым способом (2.14), не рассматривается, так как структура ковариационной матрицы в этом случае будет совпадать с (2.13).
Сопоставление точности непараметрической аппроксимации Перед проведением каждого эксперимента задаются начальные условия, при которых он будет проводиться: N - объем выборки D и функция распределения аргумента в D. Дальнейший ход эксперимента определяется следующей схемой 1. Формируются вектор X в соответствии с выбранной функцией рас пределения; вектор Уф для заданной модельной функции; ковариационная матрица П (согласно (2.13) или (2.14)) и преобразующая матрица Т . 2. Формируется вектор некоррелированных случайных компонент г0. 3. Вносится коррелированность в ц0 (формируется ц), результирующий вектор складывается с Уф. 4. Строятся аппроксимирующие функции / и f D (алгебраические полиномы степеней взятых из таблиц Приложения 1 для заданных параметров эксперимента), соответственно, с учетом всех элементов матрицы 1 (обобщенный МНК) и с учетом только главной диагонали 1 (весовой МНК).
Сравнительный анализ точности параметрического оценивания функций интенсивности
Предлагаемое усовершенствование метода и возможности его применения, рассмотренные в предыдущей главе, позволяют говорить об их эффективности при решении различных задач. Однако, если рассматривать прикладной аспект решаемых задач, то можно сказать, что в настоящее время существуют альтернативные методы и методики решения таких задач. Новые методы или результаты усовершенствования уже существующих, как правило, не сразу находят применение на практике. Поэтому в задачи исследований данной главы входит проведение машинных экспериментов, направленных на сопоставление точности оценивания статистических показателей и связанных с ними характеристик, с использованием различных методов, встречающихся в литературе.
Исследования по сопоставлению точности параметрического оценивания функций интенсивности проводились на примере оценивания параметров законов Гомперца, Гомперца-Мейкема и рассматриваемого в [32] уточненного закона Гомперца. Как уже говорилось, при сопоставлении смертности различных популяций на различных территориях принят закон Гомперца и Гомперца-Мейкема. Коэффициенты, входящие в запись уравнения, могут быть определены различными способами.
Формула (1.18) является исходной для традиционного метода оценивания функции интенсивности через коэффициенты смертности на основании повозрастных чисел жителей и умерших. Здесь знаменатель согласно (1.19) заменяется выражением где tm- середина периода наблюдений, а вместо плотности распределений возрастов умерших и живущих подставляются их гистограммные оценки, вычисленные на общих возрастных интервалах. Таким образом, коэффициенты смертности Mt в / -м возрастном интервале служат оценками X(a), определяются согласно (2.8) и образуют выборку lc ={xj,\n(Mi)} объемом N, . В [85] рекомендуется выбирать ширину возрастного интервала равным 5 годам. На практике же очень часто выбор такого возрастного интервала приводит к тому, что исследователь лишен возможности выявить причины смертности или какие либо закономерности ее изменения.
Другой подход к получению оценок интенсивности смертности основан на функциональной аппроксимации повозрастных показателей, с использованием локальных оценок логарифма функции интенсивности, который рассматривался в предыдущей главе при параметрической аппроксимации закона Гомперца. Выборка /, = {х,1п(А,,)} объемом N, содержит оценки интенсивности смертности, полученные в соответствии с (1.21).Дальнейшие рассуждения направлены на сопоставление точности параметрического оценивания функций интенсивности смертности построенным по коэффициентам смертности (2.8) и по оценкам логарифма функции интенсивности (1.21). Под параметрическим оцениванием подразумевается оценивание параметров законов Гомперца (2.5) и Гомперца-Мейкема (2.7).
Рассматриваемая в [32] четырехпараметрическая модель вида где R), а-[ и R2, а2 - параметры, также подлежащие оцениванию, дает наиболее точное описание процесса вымирания популяции на всем промежутке возрастов. Оценивание параметров (2.5) выполняется отдельно на выборке 1с и отдельно на I, методом наименьших квадратов с учетом преобразования (2.6). Никакое преобразование функций (2.7) и (3.1) не позволяет получить из них аддитивную функцию, в которую оцениваемые параметры входили бы линейно относительно переменной. Поэтому подбор параметров для Ц.ГДД/) и и.л(/) выполняется методом многомерной оптимизации (покоординатного спуска). Параметры, полученные в результате этого, должны минимизировать сумму квадратов отклонений, вычисленную отдельно на выборке 1с и отдельно на /,. Исследования по сопоставлению точности параметрического оценивания функций интенсивности проводились на примере закона Гомперца и его разновидностей. При проведении исследований моделировалось поведение популяции населения г. Владимира по состоянию 1995 год. Для мужчин средняя ожидаемая продолжительность жизни составляет 65 лет, а для женщин 74 года. В настоящее время средняя ожидаемая продолжи 72 тельность жизни по г. Владимиру несколько снизилась и для мужчин и для женщин. Перед началом моделирования задается средняя ожидаемая продолжительность жизни для моделируемой популяции. Дальнейший алгоритм моделирования определяется следующей последовательностью шагов: 1. Из табл. 3.1. выбираются параметры для функций распределения повозрастных чисел жителей и умерших для заданной СОПЖ. 2. Генерируется выборка возрастов жителей, приходящихся на каждый возрастной интервал (ширина интервала 1 год). 3. Генерируется выборка возрастов умерших. Оценивание точности параметрического моделирования законов (2.5), (2.7) и (3.1) выполнялось по серии экспериментов. Алгоритм сравнения точности оценивания параметров для каждого эксперимента выглядит следующим образом: 1. Выбор одного из законов, на примере которого выполняется сопоставление параметрической аппроксимации. 2. Формирование выборок возрастов умерших и живущих для заданной функции интенсивности с известными параметрами согласно алгоритму, представленному выше. 3. Расчет коэффициентов смертности в соответствии с (2.8) и оценка параметров одного рассматриваемого закона. 4. Получение локальных оценок логарифма интенсивности смертности согласно (1.21) и оценивание по ним параметров того же закона, что и на предыдущем шаге. 5. Сравнение параметров, полученных на шагах 3 и 4, с заданными. В проведенной серии машинных экспериментов шаги 2-5 выполнялись 500 раз отдельно для функций (2.5), (2.7) и (3.1). Для каждого оцениваемого параметра рассчитывались его среднее отклонение и оценка дисперсии относительно истинного значения. Результаты проведенного моделирования представлены в таблицах 3.2 - 3.4. Из таблиц видно, что оценки, полученные по прямым наблюдениям логарифма интенсивности, в целом имеют меньшее отклонение и обладают меньшей дисперсией. Это дает основание считать оценки, полученные с использованием локальных оценок логарифма функции интенсивности (1.21) более точными и рекомендовать их к использованию в исследованиях на реальных данных.
Разработка прикладной программной системы на основе рассматриваемых методов
Задачи обработки и анализа данных различной природы носят прикладной характер и являются практически значимыми в рамках общего системного подхода к исследованиям, проводимым в той или иной предметной области. В тоже время, методы анализа и обработки данных рассматриваемые в работе и предлагаемые усовершенствования, носят универсальный характер. Исходя из такого подхода к представлению прикладных задач и процесса их решения, была реализована программная система, которую в дальнейшем называется программная система оценивания статистических показателей.
В основу работы программной системы положены методы, рассматриваемые во второй и третьих главах работы. Процесс подготовки данных и работы с программной системой представляется схемой информационного 90
Наиболее общие блоки - служба аналитики, стратегического планирования и управления являются внешними по отношению к разработанной подсистеме, и присутствуют практически в любых системах мониторинга. Первичные результаты сбора данных с объектов исследования поступают в аналитические отделы, которые в своей работе могут использовать разработанную подсистему. В настоящей работе объектами исследования могут выступать объекты и их совокупности различной природы и происхождения, где возникают общие задачи анализа статистических показателей. Например, исследования, описанные в главах 3 и 4, проводились в социальных системах, с соответствующими рассматриваемыми для них показателями. Исследования, описываемые далее, проводились на реальных данных для объектов как социального и технического происхождения. Все исследования проводились с использованием описываемой программной системы.
В соответствии с математическими положениями и алгоритмами, изложенными в данной диссертационной работе, программная система позволяет решать следующие задачи: - построение оптимальной непараметрической оценки одномерной плотности распределения; - построение оптимальной непараметрической оценки функции интенсивности отказов (от всех причин и по отдельным причинам); - построение оптимальной непараметрической оценки функции условной вероятности; - вычисление интегрального показателя по непараметрической оценке функции интенсивности; - построение параметрических моделей законов Гомперца, Гомпер-ца-Мейкема и уточненного закона Гомперца. - построение периодных таблиц смертности классическим методом с использованием коэффициентов смертности, вычисление по ним средней ожидаемой продолжительности жизни и оценивание параметров моделей Гомперца и Гомперца-Мейкема. Универсальность реализованных в программной системе математических методов, как и самой программной системы оценивания статистических показателей такова, что внесение незначительных модификаций позволяет адаптировать ее под особенности и используемую терминологию соответствующей предметной области. Основные изменения коснутся внешнего пользовательского интерфейса программы и блока работы с исходными данными. Архитектурно программная система состоит из 7 связанных между собой блоков, каждый из которых несет законченный набор функций. Общая схема модулей представлена на рис. 4.2. На рисунок не вынесены некоторые дополнительные блоки, не являющиеся особенностью системы, и не рассматриваемые в диссертационной работе. Далее проведем более детальное рассмотрение каждого модуля программной системы. Модуль «Работа с исходными данными» отвечает за чтение и обработку исходных данных, для которых необходимо выполнить анализ и построение моделей. Модуль «Регрессионный анализ и МНК» реализация второго этапа (раздел 1.2) общей схемы аппроксимации статистических данных. Внутренняя реализация алгоритмов учитывает все результаты, полученные в предыдущих главах. В частности, обобщенный МНК, в соответствии с исследованиями главы II раздела 2.4 заменен весовым МНК, что дает значительное ускорение при поиске оптимальных аппроксимирующих функций. В случае, когда пользователь системы обладает достаточной квалификацией и опытом проведения анализа данных, существует возможность отказаться от использования по умолчанию весового МНК и воспользоваться обобщенным МНК. Модуль «Оценивание статистических функций» является обобщением трех модулей более низкого уровня: «Построение периодных таблиц», «Оценивание плотности условной вероятности» и «Оценивание интенсивности». Модуль учитывает особенности аппроксимации каждого отдельного показателя, представляя собой единый программный интерфейс разработанной системы. Модуль «Представление результатов анализа» включает функции по представлению конечного результата проводимых расчетов в виде выходных файлов и таблиц. Одновременно с этим в функции модуля входит визуализация графиков и зависимостей встроенными в программу средствами. Согласно общим требованиям к программной системе и требованиями, учитывающими область ее применения, представление результатов может быть существенно тремя способами: - значения аппроксимирующей функции выводятся в тех же значениях, что и локальные оценки логарифма целевой величины; - значения аппроксимирующей функции выводятся в значениях сети с равноотстоящими друг от друга интервалами; - значения аппроксимирующей функции выводятся в значениях сети с задаваемыми пользователем интервалами. Например, официальная форма статистического наблюдения С-51, принятая в органах.