Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка адаптивных статистических моделей классификации и прогнозирования Суфиянов Вадим Гарайханович

Разработка адаптивных статистических моделей классификации и прогнозирования
<
Разработка адаптивных статистических моделей классификации и прогнозирования Разработка адаптивных статистических моделей классификации и прогнозирования Разработка адаптивных статистических моделей классификации и прогнозирования Разработка адаптивных статистических моделей классификации и прогнозирования Разработка адаптивных статистических моделей классификации и прогнозирования Разработка адаптивных статистических моделей классификации и прогнозирования Разработка адаптивных статистических моделей классификации и прогнозирования Разработка адаптивных статистических моделей классификации и прогнозирования Разработка адаптивных статистических моделей классификации и прогнозирования
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Суфиянов Вадим Гарайханович. Разработка адаптивных статистических моделей классификации и прогнозирования : Дис. ... канд. физ.-мат. наук : 05.13.18 : Ижевск, 2004 142 c. РГБ ОД, 61:04-1/1155

Содержание к диссертации

Введение

1. Обзор статистических методов классификации и прогнозирования 17

1.1. Этапы проведения статистического исследования 17

1.2. Обзор подходов к решению задач классификации и прогнозирования... 18

1.3. Статистический подход к решению задач классификации и прогнозирования 20

1.4. Описание объекта исследования 22

1.5. Описание методов решения задач классификации и прогнозирования... 24

1.5.1. Множественный регрессионный анализ 24

1.5.2. Логистический регрессионный анализ 32

1.5.3. Регрессионный анализ на основе модели пропорциональных интенсивностей Кокса 36

1.6. Анализ точности статистической модели 39

2. Повышение информативности регрессионных моделей классификации на основе оптимизации интервала неопределенности 42

2.1. Постановка задачи повышения информативности статистической модели классификации на основе оптимизации интервала неопределенности 42

2.1.1. Стандартная постановка задачи классификации 43

2.1.2. Оценка качества модели классификации по выборке 45

2.1.3. Постановка и решение задачи классификации на основе оптимизации интервала неопределенности 48

2.1.4. Способы аппроксимации распределений 55

2.1.5. Проверка гипотезы согласия 56

2.2. Решение практической задачи из области кардиологии на основе оптимизации интервала неопределенности 57

2.2.1. Прогнозирование утраты трудоспособности и летального исхода в течение года после инфаркта миокарда 57

2.2.2. Оценка достаточности данных для построения прогнозной модели... 62

2.2.3. Применение логистической регрессии для предсказания исходов инфаркта миокарда 65

2.2.4. Оценка оптимального количества переменных при прогнозировании утраты трудоспособности на основе логистической регрессионной модели. 66

2.2.5. Оптимизация интервала неопределенности при решении задачи прогнозирования утраты трудоспособности 69

2.2.6. Оценка оптимального количества переменных при прогнозировании летального исхода на основе логистической регрессионной модели 72

2.2.7. Оптимизация интервала неопределенности при решении задачи прогнозирования летального исхода 75

3. Применение регрессионных моделей в задаче прогнозирования времени возникновения повторного пароксизма мерцательной аритмии 79

3.1. Объект и методы исследования 80

3.2. Применение множественного регрессионного анализа в задаче прогнозирования времени возникновения повторного пароксизма мерцательной аритмии 83

3.2.1. Аппроксимация времени возникновения повторного пароксизма мерцательной аритмии квазилинейной зависимостью 83

3.2.2. Оценка оптимального количества переменных в модели прогнозирования времени возникновения повторного пароксизма мерцательной аритмии 87

3.2.3. Интервальный прогноз времени возникновения повторного пароксизма мерцательной аритмии для логистической зависимости 89

3.2.4. Оценка оптимального количества переменных в модели регрессии Кокса для прогнозирования времени возникновения пароксизма мерцательной аритмии 92

4. Разработка адаптивных алгоритмов построения статистических моделей с пространственно-временной неоднородностью 91

4.1. Постановка задачи разработки модели статистической системы с пространственно-временной структурой 98

4.1.1. Определение весовых коэффициентов, учитывающих временную неоднородность данных ..99

4.1.2. Определение весовых коэффициентов, учитывающих пространственную неоднородность данных 99

4.1.3. Определение весовых коэффициентов, учитывающих совместную пространственно-временную неоднородность данных 101

4.2. Оценка весовых коэффициентов наблюдений, при построении логистической регрессионной модели 102

4.3. Метод определения параметров в весовых коэффициентах... 104

4.4. Критерии качества моделей распознавания 105

4.5. Общая схема построения моделей, в условиях пространственно-временной неоднородности 106

4.6. Верификация алгоритма адаптации на модельных данных 108

4.7. Применение алгоритма адаптации к данным с пространственно-временной неоднородностью... 114

5. Разработка и использование информационно-аналитической системы поддержки принятия решений врача-кардиолога 116

5.1. Обзор программного обеспечения сбора и обработки статистических данных 116

5.2. Архитектура информационно-аналитической системы 117

5.2.1. Структура базы данных информационно-аналитической системы 118

5.2.2. Возможности информационно-аналитической системы 123

Заключение 129

Библиографический список 131

Введение к работе

Актуальность темы исследования. Статистические методы находят все более широкое применение в областях, изучающих объекты, подверженные большой вариабельности, в частности, это относится к медико-биологическим, социальным и экономическим исследованиям. Исследования в области методов обработки статистических данных начались, как отмечает Б.В. Гнеденко [1], во второй половине XVII века, но систематическое построение основ теории вероятности и математической статистики началось позже. В 1763 г. Т. Байес опубликовал работу, которая легла в основу целого направления в статистике - байесовского подхода. Весьма значимый вклад в исследование статистических методов, как отмечают авторы [2], внес К. Гаусс, который разработал один из наиболее эффективных способов восстановления зависимостей - метод наименьших квадратов (МНК). К. Гаусс, и независимо от него П. Лаплас, изучили свойства нормального распределения [3]. Дальнейшие исследования в области статистики продолжались по пути изучения свойств параметрических семейств распределений. Изучались предельные свойства числовых характеристик выборок при стремлении количества наблюдений к бесконечности. Значимый вклад в исследование предельных свойств распределений внесли выдающиеся русские математики П.Л. Чебышев, А.А. Марков, А.М. Ляпунов.

Началом современного этапа развития статистических методов, как указывает А.И. Орлов [4], можно считать начало XX века с момента опубликования работ К. Пирсона. Он обобщил и математически обосновал применение многих статистические методов анализа данных, например, корреляционного анализа, вывел обобщенное дифференциальное уравнение, из которого можно получить большинство из известных законов распределения и т.д. Областью приложения статистических методов первоначально было исследование биомедицинских данных, именно поэтому К. Пирсоном в 1900 году был основан журнал "Biometrika", в котором обсуждались как статистические, так и биомедицинские исследования. Среди других известных био-

статистиков важную роль сыграл Ф. Гальтон [4], который, при изучении одной из задач наследственности, ввел термин регрессия, закрепившийся за множественным регрессионным анализом. Наиболее существенный вклад в основании современной параметрической статистики внесли работы Р. Фишера, в которых он разработал и обосновал применение широкого круга статистических методов, в том числе и метода максимального правдоподобия. Этот метод является базисом при оценке параметров большинства статистических моделей.

Работы этих ученых заложили основы современного параметрического анализа данных. Тогда же статистические методы для конкретных отраслей знаний получили свои названия, так биометрика (биостатистика) занимается изучением объектов живой природы, эконометрика - изучает экономические явления и т.д. Несмотря на различие объектов исследования, методы обработки данных существенно не различаются.

Применение параметрических методов при обработке реальных данных показало, что область их применения достаточно ограничена. Поэтому были начаты исследования по разработке не параметрических статистических методов, предназначенных для обработки реальных данных, не зависящих от вида распределения. Большое влияние на развитие непараметрических методов оказали работы таких математиков как А.Н. Колмогоров и Б.В. Смирнов, которые предложили непараметрические методы проверки критерия согласия, а также работы Д.Р. Кокса, предложившего одну из основополагающих моделей - модель пропорциональных интенсивностей при изучении вопроса выживаемости.

На основе статистического подхода, разработан огромный спектр методов прогнозирования и классификации, каждый из них имеет свои преимущества и недостатки. Конечной же целью использования статистических методов является разработка адекватной (качественной) модели. Оценкой качества моделей является проверка применимости их на новых данных. Достаточно широко распространены случаи, когда достаточно точные модели на

12 обучающей группе являются менее точными на практике. Этот эффект известен как «переобучение», который состоит в том, что при усложнении статистической модели, за счет введения новых параметров или при добавлении новых переменных, существует предел, при котором точность модели на контрольной группе не увеличивается или даже уменьшается. Поэтому необходимо искать другие пути повышения точности моделей.

Наряду с задачей увеличения точности модели достаточно важным является вопрос пространственно-временной неоднородности данных, в том числе и в регрессионном смысле [2]. Так, с одной стороны, модель, разработанная по данным одного региона, может не работать в условиях другого региона. С другой стороны, изменения внешних условий могут воздействовать на изучаемые явления, что особенно характерно для вариабельных систем. В медицинских исследованиях, изучающих в основном биологические системы, внешними факторами могут служить изменение экологической, социально-экономической обстановки и т.п. В связи с этим необходимо разрабатывать системы, адаптированные к региону и определенному времени.

Важно отметить, что область приложения данной работы — медицина, которая наряду с другими гуманитарными дисциплинами, остается, по мнению многих авторов [5-10], наукой, в которой доля математики все еще мала по сравнению с такими естественнонаучными областями, как физика, химия, астрономия и т.д. Несмотря на широкий спектр математических методов прогнозирования, традиционным в медицине, по-прежнему, остается предсказание возможного исхода течения болезни на основе личного опыта и интуиции врача. И этому есть свои причины, которые, как указывают авторы монографии [10], кроются в историческом развитии математики и медицины, отличающиеся своей методологией, философией и системой научных приоритетов. Как отмечает И.М. Гельфанд [8], "непостижимая эффективность математики в естественных науках не распространяется пока на науки гуманитарные и описательные", что связанно с особенностью эмпирической части медицины, которая отличается не только значительным объемом, но и тем,

что сам характер рассматриваемых явлений характеризуется значительной

сложностью. Поэтому, из всего спектра математических методов, наиболее адекватное применение в медицинских исследованиях находят методы вероятностно-статистического характера.

Целью работы является разработка адаптивного алгоритма построения статистических моделей для анализа данных с пространственно-временной неоднородностью, а также исследование возможности повышения точности статистических моделей.

Объектом исследования и разработки является информационно-аналитическая система для решения задач прогнозирования исходов заболеваний в кардиологии.

Предметом исследования являются статистические модели задач классификации и прогнозирования по данным медицинского обследования.

В ходе работы решались следующие научные и практические задачи:

  1. Разработка методов повышения точности статистических моделей распознавания.

  2. Разработка вероятностно-статистических моделей прогнозирования летального исхода и утраты трудоспособности в течение года после инфаркта миокарда (ИМ).

  3. Разработка вероятностно-статистической модели прогнозирования времени сохранения синусового ритма (СР) после купирования пароксизма мерцательной аритмии (МА).

  4. Разработка алгоритма адаптации статистической модели к данным с неоднородной пространственно-временной структурой.

  5. Разработка программного комплекса для сбора, хранения, первичной обработки данных о пациентах и статистического моделирования исходов кардиологических заболеваний.

Для решения указанных задач использовались методы статистической обработки данных и средства объектно-ориентированного программирования.

14 По теме диссертации опубликовано 15 печатных работ [114-128], в том

числе 9 статей и 6 тезисов докладов. Получено 2 патента на изобретения

[129, 130].

Диссертационная работа состоит из введения, пяти глав и заключения.

В первой главе рассматриваются этапы проведения статистического исследования, анализируются подходы к решению задач классификации и области применения существующих методов статистического прогнозирования. Дается обзор и описание известных теорий и методов разработки квазилинейных статистических моделей, используемых в настоящей работе, таких, как: множественный регрессионный анализ, логистическая регрессия, регрессия Кокса. Описывается существующие методики определения оптимального количества переменных в статистических моделях. Приводятся методы оценки точности вероятностно-статистических моделей.

Вторая глава посвящена решению задачи классификации на основе алгоритма минимизации интервала неопределенности. Большинство методов классификации базируется на теории принятия решений. На основе этой теории оптимальное решение обеспечивает минимум функции средних потерь. В этой главе впервые рассматривается вопрос о возможности увеличения точности классификации за счет выделения интервала, в котором имеется наибольшее количество ошибок. Задача состоит в минимизации потерь, связанных как с неправильной классификацией, так и с отказом от классификации. Рассматриваются модифицированные функции средних потерь, которые должны удовлетворять условию, что при пустом интервале неопределенности они должны совпадать с обычной функцией средних потерь. Решение данной задачи оптимизации основано на методе проекции градиента.

Для классификации объектов наблюдения используется пошаговый логистический регрессионный анализ. Проводится исследование задачи определения оптимального количества переменных, входящих в логистическую регрессию, на основании проверки модели на контрольной группе. Увеличение количества переменных в статистической модели позволяет повысить

15 точность классификации на обучающей группе, однако верификация на контрольной группе показывает существование оптимального набора переменных, такого, что при добавлении в этот набор новой переменной точность модели не улучшает.

Предложенные алгоритмы исследуются на примере прогнозирования исходов ИМ, таких как, летальный исход и утрата трудоспособности в течение года с момента начала болезни.

В третьей главе решается задача прогнозирования времени сохранения СР после купирования пароксизма МА. Проведено сравнение подходов решения задачи на основе регрессионной модели пропорциональных интен-сивностей Кокса и традиционного подхода с использованием множественного регрессионного анализа. Как и в предыдущей главе рассматривается задача определения оптимального количества переменных, входящих в регрессионные модели.

Рассматривается вопрос о построении плотности распределения случайной величины с неоднородной дисперсией и её доверительного интервала. Анализируется график интенсивностей нарушения СР.

В четвертой главе предложен метод адаптации статистических квазилинейных моделей к данным с неоднородной пространственно-временной структурой, основанный на использовании весовых коэффициентов. Предполагается, что при построении статистической модели, адаптированной к некоторому региону и определенному году, вес объекта наблюдения уменьшается по некоторому закону. В качестве тестовых задач рассматривались выборки, смоделированные из многомерного нормального распределения. Разработанный алгоритм нашел применение для прогнозировании времени сохранения СР после купирования пароксизма МА,

Пятая глава посвящена описанию информационно-аналитической системы сбора и хранения данных о пациентах, а также прогнозирования исходов заболеваний. Рассматривается вопрос о представлении данных, пред-

назначенных для хранения медицинской информации. Продемонстрированы основные возможности информационно-аналитической системы.

Таким образом, в работе рассматривается круг вопросов, касающихся разработки вероятностно-статистических моделей классификации и прогнозирования. Разработанные методы применяются к решению конкретных задач в области прогнозирования исходов ряда кардиологических заболеваний. Созданные алгоритмы реализованы в виде программного комплекса, а результаты проведенных исследований оформлены в виде информационно-аналитической системы поддержки принятия решений врача кардиолога.

Автор искренне признателен и благодарен научному руководителю д.т.н., профессору И.Г. Русяку за постоянную помощь и поддержку в работе, научному консультанту д.м.н., профессору СБ. Пономареву за предоставленную информацию и ценные консультации по медицинским вопросам, а также к.ф-.м.н., доценту А.Ш. Камалетдинову и к.ф-.м.н., доценту М.М. Горохову за полезные замечания и предложения.

Статистический подход к решению задач классификации и прогнозирования

Актуальность темы исследования. Статистические методы находят все более широкое применение в областях, изучающих объекты, подверженные большой вариабельности, в частности, это относится к медико-биологическим, социальным и экономическим исследованиям. Исследования в области методов обработки статистических данных начались, как отмечает Б.В. Гнеденко [1], во второй половине XVII века, но систематическое построение основ теории вероятности и математической статистики началось позже. В 1763 г. Т. Байес опубликовал работу, которая легла в основу целого направления в статистике - байесовского подхода. Весьма значимый вклад в исследование статистических методов, как отмечают авторы [2], внес К. Гаусс, который разработал один из наиболее эффективных способов восстановления зависимостей - метод наименьших квадратов (МНК). К. Гаусс, и независимо от него П. Лаплас, изучили свойства нормального распределения [3]. Дальнейшие исследования в области статистики продолжались по пути изучения свойств параметрических семейств распределений. Изучались предельные свойства числовых характеристик выборок при стремлении количества наблюдений к бесконечности. Значимый вклад в исследование предельных свойств распределений внесли выдающиеся русские математики П.Л. Чебышев, А.А. Марков, А.М. Ляпунов.

Началом современного этапа развития статистических методов, как указывает А.И. Орлов [4], можно считать начало XX века с момента опубликования работ К. Пирсона. Он обобщил и математически обосновал применение многих статистические методов анализа данных, например, корреляционного анализа, вывел обобщенное дифференциальное уравнение, из которого можно получить большинство из известных законов распределения и т.д. Областью приложения статистических методов первоначально было исследование биомедицинских данных, именно поэтому К. Пирсоном в 1900 году был основан журнал "Biometrika", в котором обсуждались как статистические, так и биомедицинские исследования. Среди других известных биостатистиков важную роль сыграл Ф. Гальтон [4], который, при изучении одной из задач наследственности, ввел термин регрессия, закрепившийся за множественным регрессионным анализом. Наиболее существенный вклад в основании современной параметрической статистики внесли работы Р. Фишера, в которых он разработал и обосновал применение широкого круга статистических методов, в том числе и метода максимального правдоподобия. Этот метод является базисом при оценке параметров большинства статистических моделей.

Работы этих ученых заложили основы современного параметрического анализа данных. Тогда же статистические методы для конкретных отраслей знаний получили свои названия, так биометрика (биостатистика) занимается изучением объектов живой природы, эконометрика - изучает экономические явления и т.д. Несмотря на различие объектов исследования, методы обработки данных существенно не различаются.

Применение параметрических методов при обработке реальных данных показало, что область их применения достаточно ограничена. Поэтому были начаты исследования по разработке не параметрических статистических методов, предназначенных для обработки реальных данных, не зависящих от вида распределения. Большое влияние на развитие непараметрических методов оказали работы таких математиков как А.Н. Колмогоров и Б.В. Смирнов, которые предложили непараметрические методы проверки критерия согласия, а также работы Д.Р. Кокса, предложившего одну из основополагающих моделей - модель пропорциональных интенсивностей при изучении вопроса выживаемости.

На основе статистического подхода, разработан огромный спектр методов прогнозирования и классификации, каждый из них имеет свои преимущества и недостатки. Конечной же целью использования статистических методов является разработка адекватной (качественной) модели. Оценкой качества моделей является проверка применимости их на новых данных. Достаточно широко распространены случаи, когда достаточно точные модели на обучающей группе являются менее точными на практике. Этот эффект известен как «переобучение», который состоит в том, что при усложнении статистической модели, за счет введения новых параметров или при добавлении новых переменных, существует предел, при котором точность модели на контрольной группе не увеличивается или даже уменьшается. Поэтому необходимо искать другие пути повышения точности моделей.

Наряду с задачей увеличения точности модели достаточно важным является вопрос пространственно-временной неоднородности данных, в том числе и в регрессионном смысле [2]. Так, с одной стороны, модель, разработанная по данным одного региона, может не работать в условиях другого региона. С другой стороны, изменения внешних условий могут воздействовать на изучаемые явления, что особенно характерно для вариабельных систем. В медицинских исследованиях, изучающих в основном биологические системы, внешними факторами могут служить изменение экологической, социально-экономической обстановки и т.п. В связи с этим необходимо разрабатывать системы, адаптированные к региону и определенному времени.

Важно отметить, что область приложения данной работы — медицина, которая наряду с другими гуманитарными дисциплинами, остается, по мнению многих авторов [5-10], наукой, в которой доля математики все еще мала по сравнению с такими естественнонаучными областями, как физика, химия, астрономия и т.д. Несмотря на широкий спектр математических методов прогнозирования, традиционным в медицине, по-прежнему, остается предсказание возможного исхода течения болезни на основе личного опыта и интуиции врача. И этому есть свои причины, которые, как указывают авторы монографии [10], кроются в историческом развитии математики и медицины, отличающиеся своей методологией, философией и системой научных приоритетов. Как отмечает И.М. Гельфанд [8], "непостижимая эффективность математики в естественных науках не распространяется пока на науки гуманитарные и описательные", что связанно с особенностью эмпирической части медицины, которая отличается не только значительным объемом, но и тем, что сам характер рассматриваемых явлений характеризуется значительной сложностью. Поэтому, из всего спектра математических методов, наиболее адекватное применение в медицинских исследованиях находят методы вероятностно-статистического характера.

Постановка и решение задачи классификации на основе оптимизации интервала неопределенности

В последней сфере хорошо известны такие системы как: ARAMIS, NEUREX, ANGY [31-34] и др. Более подробную классификацию методов прогнозирования можно найти в [35]. В последнее время широкое применение в экспертных системах получили методы, использующие теорию нечетких множеств и нечеткой логики. Основная идея этого подхода состоит в задании так называемой функции принадлежности некоторому множеству. Функция принадлежности, так же как и вероятность, принимает значения от 0 до 1, но, в отличие от вероятности, функция принадлежности, не является частотной характеристикой, а является субъективной оценкой экспертов. Преимущество такого подхода состоит в том, что нет необходимости в сборе данных, однако, субъективизм экспертной оценки не всегда может соответствовать реальности. Первая работа по теории нечетких множеств была опубликована в 1965 г. основоположником этого направления Л.А. Заде [36]. Подобный подход, основанный на понятии субъективной вероятности, также рассматривается в работе М. Де-Гроота [37]. Одним из первых изданий на русском языке по теории нечетких множеств была работа Л.А. Заде [38]. С начала 80-х годов появились первые публикации российских исследователей по теории нечетких множеств и нечеткой логики: А.И. Орлова [39] и С.А. Орловского [40].

Другое направление эмпирического подхода, основанное на изучении прецедентов, требует сбора информации о пациентах. База данных заполняется сведениями о пациенте в момент начала заболевания или поступления его в медицинское учреждение. В дальнейшем лечение и другие мероприятия проводятся на основе знаний и опыта лечащего врача. Сведения об исходе заболевания также регистрируются в базе данных. Под исходом заболевания будем подразумевать такие события как, например, повторный пароксизм МА, утрата трудоспособности или летальный исход и т.д.

Различают методы решения задач распознавания по использованию в них математического аппарата. Кратко рассмотрим подход, связанный с применением алгебраических методов. Первой работой, в которой предлагается использование алгебраических методов распознавания образов, была опубликована в 1967 г. М.М. Бонгардом [41], где предлагается один из первых алгебраических алгоритмов распознавания — «Кора». В дальнейшем исследования были продолжены Ю.И. Журавлевым [42]. Подобный подход исследован в работе В.Д. Мазурова [14] - метод комитетов, который, однако, не нашел широкого применения.

Параллельно с алгебраическими методами проводились исследования по изучение систем, позволяющих имитировать поведение биологических нейронов, так называемые нейронные сети. Сегодня это одно из самых бурно развивающихся направлений, что связано с возможностью имитировать нейронные сети на цифровых ЭВМ и строить нейрокомпьютеры на микросхемах непосредственно эмулирующих нейроны. Работы по разработке нейронных сетей были начаты Ф. Розенблаттом, русский перевод его книги опубликован в 1965 году [43]. В дальнейшем на развитие этого направления оказало влияние совместная работа М.Л. Минского и С. Пейперта [44], в которой было показано, что однослойные нейронные сети (персептроны) не могут распознавать некоторые достаточно простые функции, например, логическую функцию «исключающее ИЛИ». После выхода этой работы количество исследований в этой области заметно уменьшилось. В дальнейшем исследования других авторов показали, что многие ограничения, накладываемые на однослойные нейронные сети, преодолеваются многослойными нейронными сетями. Одной из работ, в которой наиболее полно представлены сведения по разработке и использованию различных архитектур нейронных сетей, можно считать монографию Ф. Уосермена [45]. Нейронные сети обладают большим количеством достоинств, тем не менее, некоторые недостатки не позволяют в полной мере использовать этот подход. Перечислим некоторые из них. Во-первых, трудность интерпретации нейронной сети, поскольку для конечного пользователя эта модель представляет собой «черный ящик». Во-вторых, необходимость использования достаточно большого массива данных для ее обучения. В-третьих, длительность процесса обучения и недостаточно полно разработанная теория обучаемости нейронной сети.

Кроме этого существует ещё целый ряд методов распознавания, являющиеся комбинациями вышеназванных методов, так называемые методы добычи данных ("data mining") [46]: деревья принятия решений, методы эволюционного программирования и т.д.

Достаточно широко используемый подход, основан на изучении статистической природы данных, который обладает рядом преимуществ по сравнению с вышеописанными методами. Одним из достоинств статистического анализа данных является удобство интерпретации полученных результатов, так как они представляются в удобной для восприятия форме: графики, таблицы, диаграммы и т.п. Следует отметить, что применение других методов не исключает первичной статистической обработки данных. В данной работе целью применения статистического анализа является построение статистической модели, способной прогнозировать у пациента исход заболевания в течение определенного времени, например, одного года, либо время через которое у него произойдет то или нарушение. Некоторые задачи прогнозирования исходов заболевания можно редуцировать и рассматривать их как задачу классификации. Пациенты, у которых не произошло исследуемое событие в течение определенного времени, относятся к первой группе, остальные - ко второй, т.е. рассматривается задача, где функцией отклика является дискретная величина, принимающая в данном случае лишь два значения. Таким образом, задача сводится к построению модели, позволяющей разделять пациентов на 2 группы.

Методы построения моделей основаны на применении логистического регрессионного анализа, дискриминантного анализа и др. Кроме этих методов можно воспользоваться множественным регрессионным анализом совместно с теорией принятия решений. Для решения задачи прогнозирования, времени появления у пациента того или иного нарушения, когда исследуется непрерывная величина, будем применять такие статистические методы как регрессия пропорциональных интенсивностей Кокса и множественный регрессионный анализ.

Аппроксимация времени возникновения повторного пароксизма мерцательной аритмии квазилинейной зависимостью

Впервые математический метод определения прогноза при ИМ был разработан Schnur [80] в 1953 г. Автор предложил судить о возможном исходе ИМ на основании прогностического индекса (ПИ), представляющего собой сумму условных цифровых оценок признаков, влияющих на прогноз. Вес каждого фактора был определен им произвольно на основании личного опыта и данных имеющейся на тот период времени литературы. В дальнейшем, различными авторами были разработаны прогностические индексы, предсказывающие отдаленные исходы после ИМ: Peel et al. (1967) [81], Norris et al. (1969) [82], Э.Ш.Халфен и соавт. (1973) [83], И.М.Гельфанд и соавт. (1989) [8], Л-АЛещинский и соавт. (1994, 1997) [84, 85]) и др.

Первые ПИ Peel и Shnur основывались в основном на эмпирическом знании и в настоящее время представляют исторический интерес. Шагом вперед была система Norris, построенная с применением ЭВМ. Однако в силу закономерных процессов нозоморфоза ИМ и значительных достижений в его лечении прогностические индексы Norris и И.М. Гельфанда и-Э.Ш, Халфена, утратили свою актуальность и применяются в настоящее время в основном для оценки степени тяжести ИМ, а не точного прогноза. Разработанные под руководством Л.А. Лещинского прогностические индексы, нацеленные на прогнозирование трудоспособности и летальности после ИМ, основывались на обработке данных ранних нагрузочных проб и показали высокую степень информативности. К сожалению, обязательным условием прогнозирования в этом случае является проведение ранних нагрузочных проб, обладающих определенной травматичностью, что не всегда обосновано и практически невозможно у «тяжелого» контингента больных.

Сказанное заставило продолжить работы по совершенствованию уже существующих методов прогнозирования и разрабатывать новые пути решения данной проблемы. Одной из целей работы была оценка влияния клинико-инструментальных данных больных ИМ на исход заболевания в среднесрочном периоде (1 год).

Исследовалась группа пациентов численностью 204 человека с доказанным инфарктом миокарда по критериям Всемирной Организации Здравоохранения. У всех больных после поступления в палату интенсивной терапии отделения неотложной кардиологии, наряду с тщательным клиническим наблюдением и традиционными при ИМ инструментальными и лабораторными методами исследования, определялись уровень перекисного окисления липи-дов (ПОЛ) и величина устойчивости клеточных мембран [86]. После курса стационарного лечения (через 24-30 дня после ИМ) проводился повторный анализ указанных параметров. После выписки больного, в течение года за больными осуществлялось наблюдение. При этом фиксировались утрата трудоспособности и летальные исходы. Таким образом, каждому больному соответствовал определенный набор характеристик, определяющий его состояние в течение нескольких суток после ИМ, на момент окончания стационарного этапа лечения, а также исход заболевания. Данные о больном можно условно разделить на 3 группы: I — данные анамнеза и клинического обследования: возраст, курение, наличие артериальной гипертонии (АГ), наличие перенесенного ИМ, наличие хронической аневризмы, наличие стенокардии и др.II — показатели, характеризующие состояние больного инфарктом мио карда: локализация ИМ, интенсивность ангинозных приступов, суточная по требность в нитратах, толерантность к нагрузке, наличие недостаточности кровообращения, наличие аритмии, величина ПОЛ, уровень стабильности клеточных мембран, уровень холестерина липопротеидов высокой плотности (ХС ЛПВП) и уровень холестерина липопротеидов низкой плотности (ХС ЛПНП); III - отдаленные исходы заболевания: потеря трудоспособности (опре деление II группы инвалидности), летальный исход и повторный ИМ в тече ние года после выписки из стационара, В табл. 2.3 и 2.4 представлено описание параметров, регистрируемых у пациентов. Эти параметры будем в дальнейшем называть переменными.

Определение весовых коэффициентов, учитывающих пространственную неоднородность данных

Рассмотрим задачу прогнозирования времени нарушения некоторого стабильного состояния. Функция отклика в данном случае является положительной непрерывной случайной величиной. Целью исследования является восстановление зависимости между начальным состоянием объекта наблюдения и временем наступления нарушения.

Проблема, которая рассматриваться в этой главе, связана с одним из направлений кардиологии — аритмологией. Рассматриваемая задача прогнозирования у пациента времени возникновения повторного пароксизма МА (очередной "срыв" СР) до сих пор остается одной из самых сложных в кардиологии, что обусловлено зависимостью прогноза от многих экзогенных факторов. Правильно установленный прогноз определяет дальнейшую тактику лечения больного с МА, что в итоге влияет на качество жизни [87], и, как показали результаты одного из крупномасштабных исследований, которое проводилось в рамках целого города в течение нескольких десятилетий, -Фремингхемского исследования [88], на продолжительность жизни пациента. По данным работы [89] смертность в течение 1 года достигает в отдельных группах больных МА 16%. Важность проблемы прогноза при МА обусловлена также и достаточно высокой ее распространенностью: по данным [90] МА составляет 65% всех аритмий и блокад.

Авторами [7-8, 91-99] были разработаны методики прогноза очередного "срыва" СР при МА. Предложенные способы прогноза, обладая определенными достоинствами, тем не менее, имеют ряд недостатков: описательный характер рекомендаций, невозможность достаточно точного предсказания времени наступления повторного пароксизма, отсутствие практических рекомендаций к совокупному использованию большого количества парамет 80 ров, отсутствие проверки приведенных прогностических критериев на независимой контрольной группе.

В работе рассматриваются пациенты, с купированным пароксизмом МА. Экспериментальные статистические данные были собраны на базе Республиканского клинического кардиологического диспансера г. Ижевска. В работе рассматриваются данные о 129 пациентах. Обозначим это количество пациентов через п. Для оценки достоверности результатов прогнозирования, пациенты были случайным образом поделены на две независимые группы -группу обучения количеством и, пациентов и группу контроля количеством пг-п-пх пациентов. Данные первой группы численностью щ -81 наблюдений, которую будем называть обучающей группой, участвовали в построении прогнозных моделей. Результаты прогнозирования проверялись на контрольной группе из «2 = 48 наблюдений.

В работах отечественных и зарубежных авторов [93-103] были определены параметры с различной прогностической значимостью в плане прогноза времени наступления пароксизма МА. Из множества показателей, как общеклинических, так и инструментальных, с применением специальных методов исследования (эхкардиография, рентгенокардиография, биохимические исследования и др.) был выделен круг исследуемых переменных. Общее их количество в результате анализа было сокращено до т — 22. Для того, чтобы отличать эти переменные от переменных, введенных в предыдущей главе, будем обозначать их через Zj, j = l,m. Тогда {Z,,Z2,...,Zm} является множеством этих переменных. Их описание приведено в табл. 3.1. Обозначим вектор входных данных, характеризующий /-го пациента, через ъ{ =(zntzi2t...yzim)i / = 1,и, где г.. соответствует Zj-ой переменной. Тогда матрица Z будет содержать в себе информацию о п пациентах. Описание клинико-инструментальных показателей где Z, — ЫЛ — — матрица, соответствующая обучающей группе, состоит из первых щ строк матрицы Z; Z2 = (z().=— - - матрица, соответствующая контрольной группе, состоит из последних п2 строк матрицы Z. Исследуемой величиной являлось время, прошедшее между купированием МА, которое будем считать точкой начала отсчета, и новым пароксизмом МА. Обозначим эту случайную величину через Т, которую будем измерять в днях. Поставим каждому объекту г. в соответствие значение tk є R+, / = 1,/ї, которое является временем повторного пароксизма МА для /-го объекта. Тогда через Т обозначим вектор, состоящий из двух Tj и Т2, элементами которых являются время пароксизма МА объектов из группы обучения и группы контроля соответственно: — - вектор-столбец, соответствующий обучающей группе, состоит из первых щ элементов вектораТ; Т2 = (?Д= ЙТ; вектор-столбец, соответствующий контрольной группе, состоит из последних «2 элементов вектораТ. Таким образом, задача состоит в нахождении зависимости Т от переменных Zj, j = l,m.

Похожие диссертации на Разработка адаптивных статистических моделей классификации и прогнозирования