Содержание к диссертации
ВВЕДЕНИЕ 3
ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ РАЗРАБОТКИ СИСТЕМ ДИАГНОСТИКИ ЗАБОЛЕВАНИЙ 11
1.1. Цели практической медицины 16
1.2. Анализ процесса медицинской диагностики 18
1.3. Анализ факторов, влияющих на диагноз 20
1.4. Определение области исследований 22
1.5. Аналитический обзор разработок, связанных с поставленной задачей 26
1.6. Выводы по обзору разработок 30
1.7. Математическая постановка задачи диагностики 31
1.8. Заключение по главе 1 33
ГЛАВА 2. РАЗРАБОТКА АЛГОРИТМОВ РЕШЕНИЯ ЗАДАЧ ДИАГНОСТИКИ, ДИФФЕРЕНЦИАЛЬНОЙ ДИАГНОСТИКИ И ПРОГНОЗИРОВАНИЯ ЗАБОЛЕВАНИЙ МЕТОДАМИ МНОГОМЕРНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА 35
2.1. Общие принципы многомерного статистического анализа 35
2.2. Разведочный анализ медико-биологических данных 37
2.3. Оценка работоспособности модели 81
2.4. Разработка алгоритма диагностики 85
ГЛАВА 3. РЕШЕНИЕ ПРИКЛАДНЫХ ЗАДАЧ ДИАГНОСТИКИ, ДИФФЕРЕНЦИАЛЬНОЙ ДИАГНОСТИКИ И ПРОГНОЗИРОВАНИЯ ЗАБОЛЕВАНИЙ 88
3.1. Разработка алгоритмов диагностики, дифференциальной диагностики и прогнозирования исхода лечения абдоминального сепсиса 88
3.2. Разработка алгоритмов диагностики, дифференциальной диагностики и прогнозирования панкреонекроза 107
3.3. Разработка системы диагностики описторхоза 109
3.4. Разработка системы прогнозирования риска развития климактерического синдрома у женщин в перименопаузальном периоде 118
ЗАКЛЮЧЕНИЕ 124
Введение к работе
Процессы диагностики, дифференциальной диагностики и прогнозирования заболеваний имеют решающее значение в деятельности врача. Только своевременно установленный диагноз позволяет выбрать адекватный метод лечения. При этом на выбор стратегии лечения влияет также оценка риска неблагоприятного исхода заболевания для данного пациента [7, 23, 53].
Классические принципы диагностики и прогнозирования принятые в медицине основываются в основном на личном опыте врача, его мастерстве, знаниях и интуиции, которые он приобретает на практике. Н. Бейли [7] акцентирует внимание на том, что точность диагноза и быстрота, с которой его можно поставить, зависят от очень многих факторов: от состояния больного, от имеющихся данных о симптомах и признаках заболевания и результатах лабораторных анализов, от общего объема медицинской информации о наблюдении таких симптомов при самых различных заболеваниях и от квалификации самого врача. Исходя из этих знаний о процессе диагностики, можно определить условия, при которых диагноз может быть поставлен максимально быстро и точно.
Впервые математические методы исследования стали применять к медико-биологическим объектам во второй половине 19 веке. Пионерами в этой области считаются английские ученые Ф. Гальтон, В. Вэлдон и К. Пирсон. В это время были разработаны такие методы исследования как хи-квадрат, корреляция, регрессия, метод моментов и др. [74, 76, 77] которые остаются популярными и в наши дни.
В последние годы благодаря применению современных методов лечения и диагностики, основанных на новейших достижениях науки и техники, возможности получения успешных результатов значительно возросли. Вместе с этим стали актуальными задачи поиска новых, более точных методов описания, исследования, оценки и контроля процесса постановки диагноза. Очевидно, что наилучшим путем к формализации любых процессов является математический подход. Поэтому в настоящее время лет медицина находится в новой фазе своего развития, когда проводятся исследования количественных закономерностей, создаются математические модели исследуемых явлений и объектов, статистически обрабатывается накопленный экспериментальный опыт и его систематизация.
Все это требует привлечения современных математических методов обработки информации, моделирования и системного анализа. Об этом свидетельствуют многочисленные публикации, связанные с задачами, возникающими на стыке математики и медицины [7, 18, 24, 37, 44, 80]. Этот факт также подтверждают тексты медицинских статей и диссертаций - в подавляющем большинстве работ авторы используют в том или ином объеме методы статистики [41, 42, 48].
Росту популярности математических методов в медицине способствует появление мощных, универсальных пакетов прикладных программ доступных широкому кругу пользователей ПК. Наиболее популярными из них являются программы Statistica (разработчик фирма StatSoft) и SPSS (разработчик фирма SPSS Inc.). Методы и алгоритмы, заложенные в эти программы, существуют уже давно и хорошо известны, но для выполнения исследований с помощью указанных программ от исследователя требуются определенные навыки и теоретическая подготовка. От этого зависит корректность применения статистических процедур.
Появление специальных справочников и руководств по выполнению с исследований с помощью различных статистических программ [10, 11, 12, 17, 51], а также выход русскоязычных версий этих программ способствует увеличению числа исследований, проведенных с помощью компьютера. Вследствие этого все чаще задачи, возникающие на границе медицины и математики, решаются с помощью современных компьютерных технологий.
Начиная с 70-х годов за рубежом и в СССР стали появляться публикации, критически оценивающие качество статистического анализа в биомедицинских исследованиях. Часто встречающиеся ошибки в исследованиях: не правомерное применение статистических критериев; не учитывается эффект множественных сравнений; применяются устаревшие методы исследования, путаница в математических терминах, вместо достигнутых уровней значимости приводятся лишь сравнения с критическим значением критерия и т.д. Из отечественных публикаций можно привести следующие: [40, 43, 39, 41, 42]. Данные статьи опубликованы в Интернете (электронный ресурс http://www.biometrica.tomsk.ru).
Данный факт свидетельствует о том, что математические процедуры диагностики не согласуются с опытом врачей. Поэтому такие задачи необходимо решать совместно медикам и математикам [65]. Совместное исследование медико-биологических данных начинается с формализации цели этого исследования. Причем, формализовать цель нужно так, чтобы она была понятна, как экспериментатору, который эти данные собирает, так и для тех, кто их будет анализировать с помощью математических методов [69].
Как уже отмечалось, для медицинской практики врача на первом плане стоят три задачи: диагностика, дифференциальная диагностика и прогнозирование [7, 37].
• Задача диагностики - правильно определить заболевание и правильно назначить лечение;
• Задача дифференциальной диагностики - правильно определить заболевание среди нескольких альтернативных;
• Задача прогнозирования - дать прогноз исхода лечения заболевания и предупредить осложнения.
Следует подчеркнуть, что до настоящего времени диагностика многих заболеваний осуществляется дорогостоящими методами, нередко обладающими низкой чувствительностью, требующими больших затрат времени и средств. При этом зачастую врачу приходится быстро принимать решения, не дожидаясь результатов анализов, опираясь лишь на данные клинических показателей и свой личный опыт. Такого рода заболевания являются слабо диагностируемыми. Поэтому являются актуальными задачи систематизации, создания банка данных клинических показателей и создания способов решения задач диагностики, дифференциальной диагностики и прогнозирования слабо диагностируемых заболеваний с помощью математических методов.
Анализ литературы показывает, что математические способы диагностики и прогнозирования позволяют значительно сократить затраты средств и времени на диагностику заболевания, увеличить точность диагностики помогают врачу оперативно принимать решения.
Спецификой массивов данных экспериментальной медицины является большой их объем. Обычно массивы медико-биологической информации содержат десятки или сотни переменных и от ста до нескольких десятков тысяч наблюдений. При решении практических задач диагностики часто требуется представить каждое многомерное наблюдение с помощью меньшего количества вспомогательных или исходных переменных, т.е. перейти от векторов X, = (х],...,хН к векторам меньшей размерности Z(. =(z( ,...,zM, где к р.
Это требование возникает по ряду причин:
• стремлением к уменьшению количества исследуемых переменных, что обусловлено необходимостью снижения количества лабораторных, клинических и других тестов проводимых над пациентами в дальнейшем;
• необходимостью наглядного представления исходных данных, что достигается их проецированием в трехмерное (к = 3), двумерное (к = 2) или одномерное пространство;
• необходимостью удовлетворять условиям применимости математической модели.
При формировании новой системы переменных требуется, чтобы они были в определенном смысле наиболее информативными. Имеется несколько предпосылок к возможности снижения размерности. Это, во-первых, дублирование информации, возникающее вследствие наличия сильно взаимосвязанных переменных, описывающих медико-биологическую систему. Во вторых, наличие переменных, которые слабо изменяются при переходе от одного объекта другому.
Отбор наиболее информативных переменных для процедур диагностики осуществляется с помощью критериев внешней информативности, общие подходы, к построению которых изложены в [1, 64, 66]. Разработка соответствующего критерия является одной из задач в данной работе. Задача снижения размерности решается путем исключения не изменяющихся, а также сильно коррелированных признаков.
Главной задачей является формализация процессов медицинской диагностики, дифференциальной диагностики и прогнозирования. В работе показано, что эта задача может быть решена в рамках методов многомерного статистического анализа с применением экспертной информации.
Вследствие сложности вычислений возникает необходимость в разработке программно-алгоритмических средств, которые были бы удобны в работе и позволяли бы легко интерпретировать результат обработки данных врачом.
Таким образом, проблема разработки формального подхода к исследованию медико-биологических данных с учетом их специфики для решения задач диагностики и прогнозирования конкретных слабо диагностируемых заболеваний в настоящее время является актуальной.
Цель. Разработка математических методов обработки слабоструктурированных многомерных данных с учетом особенностей медико-биологических закономерностей и их использование при разработке диагностических и прогностических алгоритмов и систем для конкретных слабо диагностируемых заболеваний.
В соответствии с поставленной целью были определены следующие задачи:
1. Разработка концептуальной модели процесса исследования медико-биологических данных для решения задач медицинской диагностики и прогнозирования слабо диагностируемых заболеваний.
2. Разработка логической схемы процесса исследования медико-биологической информации и построения систем диагностики и прогнозирования заболеваний.
3. Разработка критериев отбора информативных признаков из исходного массива данных.
4. Разработка алгоритма построения систем диагностики, дифференциальной диагностики и прогнозирования конкретных слабо диагностируемых заболеваний.
5. Апробация разработанного алгоритма построения систем диагностики и прогнозирования заболеваний.
6. Экспериментальное подтверждение работоспособности разработанных систем диагностики и прогнозирования заболеваний.
Объектом исследования являются системы диагностики, дифференциальной диагностики и прогнозирования слабо диагностируемых заболеваний.
Предметом исследования являются математические методы анализа медико-биологических данных, построения систем диагностики, дифференциальной диагностики и прогнозирования слабо диагностируемых заболеваний с помощью статистических методов.
Методы. При решении поставленных задач применялись методы системного анализа, математической статистики, многомерного статистического анализа, нейросетевого моделирования, информационные технологии и различные языки программирования.
Результаты. Разработаны системы диагностики, дифференциальной диагностики и прогнозирования конкретных заболеваний. Процесс разработки является поэтапным. Первый этап - разведочный анализ многомерных медико-биологических данных, второй этап - многомерный статистический анализ, третий этап - разработка алгоритма и программного обеспечения (ПО). Суть схемы такова:
1 этап. Разведочный анализ многомерных данных.
- Классификация переменных по типам данных - номинальные, порядковые, количественные.
Цензурирование и исправление ошибок данных. Вычисление описательных статистик.
- Проверка гипотез.
- Выявление мало информативных переменных.
2 этап. Многомерный статистический анализ.
Выполнение дискриминантного и канонического анализа, построение линейной модели.
Нейросетевое моделирование, построение нелинейной модели. Оценка чувствительности и специфичности линейных диагностических функций и нейронной сети.
3 этап. Разработка алгоритма и ПО.
Разработка алгоритма. Программная реализация алгоритма. В рамках разработанной концептуальной схемы было решено несколько практических задач:
1. Проведен анализ данных компьютерной морфоденситометрии и разработаны алгоритмы диагностики, дифференциальной диагностики и прогнозирования исхода лечения абдоминального сепсиса.
Проведено исследование информационной ценности 303 числовых показателей морфоденситометрии эритроцитов и лимфоцитов для использования в алгоритмах диагностики абдоминального сепсиса. Выполнен канонический и дискриминантный анализ. Построены линейные дискриминантные функции.
2. Проведен анализ данных компьютерной морфоденситометрии и разработаны алгоритмы диагностики, дифференциальной диагностики и прогнозирования исхода лечения панкреатита.
Проведено исследование информационной ценности показателей мор-фоденситометрии эритроцитов и лимфоцитов для алгоритмов диагностики и дифференциальной диагностики панкреатита. Исследовано 170 числовых признаков. Построены линейные дискриминантные функции.
3. Проведен анализ данных и разработан алгоритм диагностики описторхоза.
Проведено исследование уровней иммуноглобулинов крови и клинических признаков. Исследовано 11 переменных. Разработан алгоритм и компьютерная программа «Тест на описторхоз» на основе построенной нейросете-вой модели.
4. Разработан алгоритм и ПО для прогнозирования развития климактерического синдрома у женщин в перименопаузальном периоде.
Исследованы основные факторы риска развития климактерического синдрома у женщин (25 переменных) проживающих в Алтайском крае. Выявлены наиболее значимые факторы. На основе нейросетевой модели разработан алгоритм и компьютерная программа прогнозирования риска развития данного заболевания.
Научная новизна предлагаемой работы заключается в достижении следующих научных результатов:
1. Разработан комплексный метод исследования медицинских данных, состоящий из процедур статистической обработки данных с привлечением экспертной информации, учитывающий специфику слабо структурированных медико-биологических данных.
2. В рамках разработанного метода проведены исследования больших массивов медико-биологической информации и разработаны алгоритмы и компьютерные программы, предназначенные для использования в процессе диагностики следующих слабо-диагностируемых заболеваний: описторхоза, панкреатита, абдоминального сепсиса, а также для прогнозирования развития климактерического синдрома у женщин перименопаузальном периоде.
3. Разработаны алгоритмы и программы, которые могут быть использованы на этапах предварительного анализа данных, позволяющие более точно оценивать следующие характеристики исследуемых нечисловых признаков: точечная и интервальная оценка вероятности в схеме Бер-нулли, вероятность ошибки 1-го рода в точном критерии Фишера при анализе таблиц сопряженности 2x2.
4. Даны оценки диагностической значимости комплексов признаков на основе имеющихся статистических данных по Алтайскому краю. Теоретическая значимость работы. Предложена концептуальная схема метода создания систем диагностики, дифференциальной диагностики и прогнозирования слабо диагностируемых заболеваний.
Практическая значимость работы. Выявлены дискриминантные переменные для использования в системах диагностики описторхоза, панкреатита, сепсиса в Алтайском крае. Выявлены факторы риска развития климактерического синдрома у женщин в перименопаузальном периоде. Разработаны эффективные алгоритмы диагностики и прогнозирования вышеуказанных заболеваний на основе данных по Алтайскому краю, которые внедрены в нескольких медицинских учреждениях края.
Публикации. По материалам диссертации опубликовано двенадцать печатных работ, в том числе три статьи в периодических журналах, семь тезисов докладов на конференциях, получено два свидетельства о регистрации программных продуктов.
Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы из 80 источников, 13 приложений. Общий объем работы составляет 125 страниц.
В первой главе «Постановка задачи разработки систем диагностики, дифференциальной диагностики и прогнозирования заболеваний» проведен анализ процесса медицинской диагностики. Рассмотрены проблемы анализа медико-биологических данных и построения систем медицинской диагностики с помощью различных методов. Изложены основные идеи подхода с использованием многомерного статистического анализа, в рамках которого проводится алгоритмизация процесса диагностики и построение поэтапной логической схемы указанного процесса, а также выделение необходимых для ее реализации математических моделей и методов.
В диссертационной работе в результате анализа литературы показано, что методы многомерного статистического анализа в диагностике заболеваний используются недостаточно широко.
Вместе с тем анализ литературы по многомерному статистическому анализу показывает, что данный метод с успехом применяется в других сферах. Разработка и его применение особенно актуальны в настоящее время в связи с использованием современных диагностических систем (томографов, морфоденситометров, аппаратов ИВЛ и др.) с огромным количеством признаков.
Для преодоления этих трудностей предлагается метод разработки систем диагностики, дифференциальной диагностики и прогнозирования заболеваний с привлечением экспертной информации не только на стадии многомерного статистического анализа, но и процессе настройки диагностических процедур. Предлагаемая информационная технология включает несколько этапов:
1. Разведочный анализ (формирование исходного признакового пространства, предварительный анализ связей, исключение малоинформативных с точки зрения диагностики признаков).
2. Многомерный статистический анализ (метод главных компонент, сокращение признакового пространства, дискриминантный анализ).
3. Разработка алгоритма диагностики, дифференциальной диагностики и прогнозирования (алгоритмы на основе результатов дискриминантного анализа, нейросетевого моделирования, программирование).
Во второй главе «Разработка алгоритмов решения задач диагностики, дифференциальной диагностики и прогнозирования заболеваний методами многомерного статистического анализа» излагаются основные этапы процес са исследования медико-биологических данных, конечной целью которого является разработка системы диагностики или прогнозирования. При этом выделяются методические задачи, которые возникают при реализации разработанной концептуальной схемы, и указываются математические инструменты (модели и методы), необходимые для решения этих задач.
Первоначально нужно решить несколько задач, чтобы подготовить таблицу к дальнейшему анализу.
Общая схема действий такова:
1. Определение типа каждой переменной.
2. Устранение ошибок и выбросов.
3. Исключение малоинформативных переменных.
4. Описание данных.
5. Проверка различных гипотез о структуре зависимостей.
Решение вышеперечисленных задач производится методами разведочного анализа данных.
При решении задач диагностики и прогнозирования наиболее подходящей моделью для описания данных является дискриминантная модель, когда точки данных относятся к нескольким группам.
В диссертации рассмотрена математическая постановка задачи диагностики. Предположим, что рассматривается ограниченная группа g различных заболеваний Е = {G\, G2..., Gg}, и что каждый больной страдает только одним из них (т.е. события G\, G2..., Gg несовместны). Допустим также, что имеется список из п признаков, симптомов или результатов лабораторных анализов \ = (х\, х2, ..., хп). Для того чтобы немедленно начать лечение, и, возможно, назначить специальные дополнительные проверки, необходимо поставить предварительный диагноз. Выражаясь математическим языком, врачу нужно знать вероятность каждого заболевания при данном симптомо-комплексе, т.е. P(Gk\x).
В данной работе постановка задачи оценки вероятности заболеваний используется для структурирования понятий диагностики, дифференциальной диагностики и прогнозирования.
Под дифференциальной диагностикой понимается решение следующей задачи. Пусть каждое из заболеваний Gk, входящих в Е может являться следствием одной из множества Ск=[сн,с2к,...,сщЛ повреждающих организм причин. Тогда врача интересует, какова вероятность той или иной патологической причины, вызвавшей заболевание при наблюдаемом им симптомо-комплексе и предварительном диагнозе Gk, т.е. Р(сц х, G )?
Под прогнозированием понимается решение задачи оценки вероятности P(tj х, хрхь сц) того или иного исхода tj из множества возможных исходов Т= {t\, h,..., tv) лечения или профилактики причины Сц, при выборе им тактики тр лечения или профилактики данной причины из множества Нц = {Т\,І,Ь 2,i,b--- xwik} возможных тактик. При этом если не идет речь об исследовании эффективности некоторой новой тактики лечения или профилактики, задача заключается в отыскании либо P(tj х, с,-, ), либо P(tj х, Gk).
В литературе для решения задач диагностики предлагается использовать формулу Байеса. Основная проблема при использовании метода Байеса состоит в трудности отыскания согласованных априорных вероятностей. Если данная задача решена, то формула Байеса может здесь с успехом применена. Другим методом, использованным в работе является многомерный дис-криминантный анализ.
В работе также отмечено, что наибольший интерес для практического здравоохранения представляют системы диагностики и дифференциальной диагностики заболеваний основанные на комплексе самых разнообразных данных, таких как анамнез, клинический осмотр, результаты лабораторных тестов и сложных функциональных методов. Смесь таких разнородных данных слабо подается классификации методами дискриминантного анализа ос нованного на линейных функциях классификации и ограничениями на параметры распределения признаков.
В третьей главе диссертационной работы «Решение прикладных задач диагностики, дифференциальной диагностики и прогнозирования заболеваний» приведены результаты исследований процесса диагностики пациентов при четырех конкретных заболеваниях. В ходе этих исследований решались задачи диагностики, дифференциальной диагностики и прогнозирования.
В приложениях содержится ряд вспомогательных материалов, которые иллюстрируют результаты расчетов, выполненных в третьей главе.
Автор благодарен многим лицам, способствующим формированию принципов диагностики, дифференциальной диагностики и прогнозирования, изложенных в данной работе. Прежде всего, отмечу моего научного руководителя СП. Семенова, который заинтересовал меня данной проблемой и Я.Н. Шойхета, который на разных стадиях разработки осуществлял поддержку и консультирование по рассматриваемым проблемам и методам их решения. Практическим врачам Толстокорову И.Г., Зоркину А.А, Карбышевой Н.В, Кобозевой Л.Н. за то, что предоставили исходные данные и принимали участие в их обработке. Выражаю признательность сотрудникам МФ АлтГУ за обсуждение результатов и высказанные замечания.