Содержание к диссертации
Введение
Глава 1. Постановка задачи использования методов распознавания образов для прогноза развития пневмонии при острых отравлениях ПСС 13
1.1. Вводные замечания 13
1.2. Решающее правило в задаче распознавания с двумя классами 22
1.3. Неоднородная последовательная процедура 25
1.4. Постановка задачи прогноза развития пневмонии при острых отравлениях ПСС 27
Глава 2. Отбор признаков, существенных для прогноза развития пневмонии 32
2.1. Сбор медицинских данных 32
2.2. Инструментальная база данных 33
2.2.1 Вводные замечания 33
2.2.2 Схема инструментальной базы данных 33
2.2.3 Язык записи данных 36
2.2.4 Структура базы данных больных с острыми отравлениями ПСС 38
2.3. Редукция пространства признаков 40
2.4. Проверка статистической независимости прогностических признаков 47
2.5. Выводы 49
Глава 3. О распределении вероятностей логарифма отношения правдоподобия 51
3.1. Функция плотности логарифма отношения правдо подобия при неравных внутриклассовых дисперсиях 51
3.2. Функция плотности логарифма отношения правдо- подобия при равных внутриклассовых дисперсиях 65
3.3. Функция плотности логарифма отношения правдопо добия для качественных признаков 65
3.4. Выводы 66
Глава 4. Модификация неоднородной последовательной процедуры 67
4.1. Вычисление функции плотности суммы Вальда 67
4.1.1. Непрерывные признаки 67
4.1.1.1. Вычисление функции плотности суммы 67
4.1.1.2. Теорема об ограниченности функции f2k (s) 74
4.1.2. Дискретные признаки 81
4.1.3. Функция плотности суммы непрерывных и дискретных признаков 81
4.1.2. Обобщение для случая отсутствующих значений 82
4.2. Классификатор Байеса 83
4.3. Интерпретация модели распознавания на исходных данных 85
4.4. Выводы 90
Глава 5. Прогноз развития пневмонии при острых отравлениях ПСС по двум признакам 91
5.1. Вводные замечания 91
5.2. Прогноз на основе аппроксимации выборочных данных двумерным нормальным законом 93
5.2.1. Определение границы области принятия решений 93
5.2.2. Интерпретация модели распознавания на исходных данных 96
5.3. Прогноз на основе аппроксимации выборочных данных произведением кривых Пирсона I типа 101
5.3.1. Способ аппроксимации 101
5.3.2. Алгоритм вычисления границы области принятия решений 104
5.3.3. Интерпретация модели распознавания на исходных данных 106
5.4. Оценка вероятности ошибки классификации 110
5.5. Выводы 113
Глава 6. Проверка эффективности разработанных алгоритмов прогноза развития пневмонии при острых отравлениях ПСС 114
6.1. Прогноз пневмонии по шести параметрам больного 114
6.2. Прогноз пневмонии по двум параметрам больного 118
6.2. Выводы 120
Заключение 121
Список литературы 123
Приложение 140
- Решающее правило в задаче распознавания с двумя классами
- Проверка статистической независимости прогностических признаков
- Функция плотности логарифма отношения правдо- подобия при равных внутриклассовых дисперсиях
- Функция плотности суммы непрерывных и дискретных признаков
Введение к работе
Предлагаемая работа выполнена в Государственном учреждении "Информационно-консультативный токсикологический центр" (ГУ ИКТЦ) Минздрава России, в Московском центре лечения острых отравлений НИИ скорой помощи им. Н.В. Склифосовского и в Институте прикладной математики им. М.В. Келдыша Российской Академии Наук в связи со следующими обстоятельствами. Современный этап отечественного здравоохранения характеризуется стремительным развитием фармакологической помощи населению Российской Федерации. Одним из побочных эффектов этого процесса является увеличение числа и тяжести течения острых отравлений лекарственными средствами и медикаментами, которые в соответствии с Международной классификацией болезней и проблем, связанных со здоровьем, ВОЗ 10-го пересмотра входят в группы Т36-Т50. Это приводит к росту смертности среди населения. По данным Международной программы химической безопасности ЮНЕП/МОТ/ВОЗ, случайные и преднамеренные острые отравления такого вида определяют до 40-60% от всей острой химической патологии в развитых странах [123]. Аналогичная картина наблюдается и в современной России, при этом причинными факторами примерно половины острых медикаментозных отравлений являются психотропные препараты и снотворные средства. Ниже станет понятной важность этого обстоятельства для данной диссертационной работы.
Приказ Министерства Здравоохранения Российской Федерации от 08.01.2002 г. №9 "О мерах по совершенствованию организации токсикологической помощи населению Российской Федерации" определил в качестве одного из основных направлений развития клинической токсикологии разработку и внедрение информационных технологий в систему медицинской помощи населению при острых химических отравлениях. Это объясняется тем, что в последние годы острым химическим отравлениям придается все большее значение как одному из основных факторов, определяющих смерт-
7.
ность населения от неинфекционных заболеваний [117, 144, 147]. При этом, несмотря на относительно высокий уровень лечебно-диагностических технологий, отечественная клиническая токсикология существенно отстает от развитых стран в практическом использовании компьютерных технологий для информационной поддержки врача токсиколога в условиях продолжающегося возрастания числа, видов и тяжести течения острых отравлений [121, 122, 123].
Данная работа посвящена одному из направлений информатизации токсикологии - разработке и внедрению в клиническую практику алгоритмов прогноза осложнений острых химических отравлений. Известно, что осложнения значительно увеличивают вероятность неблагоприятного исхода при всех патологических состояниях человека [45], а для некоторых нозологических форм заболеваний1 осложнения являются одной из основных причин смерти [108, 124].
В Московском центре лечения острых отравлений НИИ скорой помощи им. Н.В. Склифосовского отмечено, что одним из основных осложнений, приводящих к летальному исходу после острых медикаментозных отравлений препаратами психофармакологического действия и снотворными средства является последующая пневмония, осложняющая заболевание примерно у 40% (по некоторым данным [74] у 50%) больных. Тяжелые формы таких отравлений и сами по себе отличаются высокой летальностью (их общая летальность колеблется в пределах 3-6 % [109]), но при наличии осложнения пневмонией летальность возрастает по разным данным от 30 % до 40 % [70,73,108].
Следствием своевременного прогноза развития пневмонии при острых отравлениях ПСС могло бы стать снижение вероятности смерти больных за счет более раннего начала проведения превентивных лечебных мероприятий [70, 108]. Однако количественная оценка вероятности развития пневмонии
медицинский термин нозологическая форма заболевания означает то же, что и вид заболевания
8.
для конкретных больных при острых отравлениях ПСС до сих пор не проводилась. Между тем, такая оценка, возможная в результате разработки и использования в данной области методов прикладной математики, позволила бы повысить обоснованность и надежность решений, принимаемых врачом при лечении больных с острыми отравлениями ПСС.
Таким образом, целью предлагаемого исследования является разработка математического и программного обеспечения для прогноза возможности развития пневмонии при острых отравлениях психотропными и снотворными средствами (ПСС). Для достижения этой цели должны были быть решены следующие задачи:
создание базы данных больных с острыми отравлениями ПСС.
определение подмножества клинико-лабораторных признаков, существенных для прогноза развития пневмонии у больных с острыми отравлениями ПСС (такие признаки далее называются прогностическими признаками);
синтез и исследование решающих правил с использованием выделенных признаков для прогноза развития пневмонии при острых отравлениях ПСС;
создание комплекса программ для прогноза развития пневмонии при острых отравлениях ПСС, предназначенного для использования врачами;
Для решения этих задач автором использовалась совокупность историй болезни 129 больных с острыми отравлениями ПСС (79 без пневмонии и 50 с развившейся не позднее первых 3-х суток с момента отравления пневмонией), лечившихся в Московском центре лечения острых отравлений НИИ скорой помощи им. Н.В. Склифосовского, содержащая 109 качественных и численных параметров протекания болезни, ее лечения и результатов процесса лечения. Информация предоставлена ведущим научным сотрудником Московского центра лечения острых отравлений НИИ скорой помощи им. Н.В. Склифосовского, доктором мед. наук К.К. Ильяшенко.
p.
Для анализа и возможности преобразования и развития этой достаточно большой и весьма неоднородной совокупности данных понадобилось разработать в качестве инструментального средства специализированную базу данных, описываемую в главе 2.
В базе данных исходная совокупность историй болезни была использована как для выделения в результате их анализа подмножества признаков, значимых для данного прогнозирования (эта работа выполнялась в непосредственном контакте с врачом), так и для последующего определения параметров аппроксимационнои модели рассеивания данных на выделенном подмножестве из множества всех признаков (логика этого анализа и его результаты также описаны в главе 2).
В результате анализа распределения данных в совокупности уже известных сведений о протекании болезни и лечении больных с отравлениями ПСС оказалось возможным (очевидно, в силу внутренней специфики исследуемой болезни) последовательное сокращение пространства значащих признаков с 109 до 59 и затем до 6-ти, а при ограничении исходного пространства признаков форменными элементами крови - до двух (см. главы 1, 2 и 5). Этот результат, естественно, упростил последующие процедуры принятия решений.
Для решения задачи прогнозирования пневмонии на выбранной совокупности признаков понадобилось развить известные статистические методы построения решающего правила в проблеме распознавания образов. Для этого оказалось возможным и целесообразным (в силу независимости выбранных признаков в данном случае) отказаться от известной процедуры последовательного анализа Вальда, но воспользоваться суммой Вальда в качестве статистического критерия отнесения результата анализа признаков данного больного к тому или иному классу (см. главы 3 и 4). Это потребовало разработки специального алгоритма для приближенного вычисления функций плотности распределения суммы Вальда в пространстве наблюдаемых признаков.
10.
В случае двумерного пространства признаков в задаче прогнозирования пневмонии необходимо описать два двумерных внутриклассовых распределения рассеивания признаков в каждом классе. Их аппроксимация может быть выполнена, в частности, следующими двумя способами:
посредством двумерных нормальных распределений,
посредством двумерных распределений, функции плотности вероятности которых представляют собой произведение двух кривых Пирсона I типа [15, 90, 111], построенных на осях такой системы координат на плоскости, в которой исследуемые величины статистически независимы.
При обоих способах аппроксимации потребовалась разработка алгоритма построения границы областей принятия решений.
Метод аппроксимации функциями плотности двумерных нормальных распределений удобен тем, что в этом случае удается получить аналитическое решение уравнения минимума ошибки классификации. Преимуществом аппроксимации произведениями кривых Пирсона I типа является отсутствие необходимости в том, чтобы внутриклассовые выборочные распределения соответствовали нормальному закону (см. главу 5).
Таким образом, решение задачи прогнозирования развития пневмонии состояло из трех этапов:
анализ и преобразование пространства признаков с целью сокращения его размерности,
аппроксимация полученных в пространстве значащих признаков статистических параметров внутриклассовых распределений и
построение решающего правила на базе исходной совокупности больных.
В результате проведенных исследований разработаны оригинальные алгоритмы прогнозирования пневмонии, как осложнения при острых отравлениях ПСС, основанные на совокупности анализов, выполняемых в Московском центре лечения острых отравлений НИИ скорой помощи им. Н.В.
11.
Склифосовского. Задача решена разработанными методами построения решающих правил на доступном объеме обучающей выборки. Основными предположениями о статистических свойствах распределений анализов больных являются: разделимость классов, приемлемость нормальной аппроксимации и, для модификации неоднородной последовательной процедуры, независимость распределений отдельных признаков.
В результате описанного подхода был разработан алгоритм прогноза развития пневмонии и соответствующее программное средство (см. Приложение). Они внедрены в практику работы Московского отделения лечения острых отравлений НИИ скорой помощи им. Н.В. Склифосовского.
Принцип организации упомянутой выше инструментальной базы данных и программные механизмы управления данными, разработанные в ходе диссертационного исследования, использованы в "Компьютерной информационно-аналитической токсикологической системе Токсстат 1.0", которая была создана ГУ ИКТЦ Минздрава России во исполнение приказа Министерства здравоохранения Российской Федерации от 29.12.2000 г. №460 "Об утверждении учетной документации токсикологического мониторинга". КИАТС Токсстат 1.0 (свидетельство Минздрава России от 04.03.2002 №80 -см. Приложение).
Предлагаемый алгоритм и его программная реализация имеют достаточно общий характер. Это позволяет их рекомендовать для опытного использования при решении аналогичных задач и при других нозологических формах острых химических отравлений.
Результаты диссертационной работы были доложены на I Всесоюзной конференции по клинической токсикологии "Острые токсикозы в клинической токсикологии" (Баку, 1991), на Всероссийской конференции "Актуальные вопросы оказания экстренной медицинской помощи при неотложных состояниях и перспективы их развития" (Новокузнецк, 1994), на Городской научно-практической конференции "Актуальные проблемы клинической
«
12.
токсикологии" (Москва, 1997), на I съезде токсикологов России (Москва, 1998), на V международном, форуме "Информационные технологии и интеллектуальное обеспечение медицины" (Турция, Кемер, 1998), на Всеармейской научно-практической конференции "Актуальные вопросы военно-полевой терапии" (Санкт-Петербург, 1999), на международной научной конференции "Интеллектуализация обработки информации" (Алушта, 2000 г.), на двух семинарах в Институте прикладной математики им. М.В. Келдыша РАН (Москва, 2001 и 2002 гг.), на семинаре в Институте проблем информатики РАН (Москва, 2002 г.), на семинаре в Вычислительном Центре им. А.А. Дородницына РАН (Москва, 2003 г.) и прошли апробацию в НИИ скорой помощи им. Н.В. Склифосовского Комитета здравоохранения Правительства Москвы и Государственном учреждении "Информационно-консультативный токсикологический центр" Минздрава России.
По теме диссертации опубликовано 19 работ, в том числе 3 международных.
Автор выражает глубокую благодарность д.т.н. проф. В.Н. Новосельцеву (ИПУ им. В.А. Трапезникова РАН), д.м.н. К.К. Ильяшенко (НИИ скорой помощи им. Н.В. Склифосовского) и к.м.н. Н.Н. Литвинову (ГУ ИКТЦ Минздрава РФ).
13.
Решающее правило в задаче распознавания с двумя классами
Рассмотрим следующую задачу. Пусть даны два класса сої и а 2 больных с соответствующими этим классам априорными вероятностями Pj—P((0\) и Р2=Р((й2) появления в опыте каждого из них (Р]+Р2=\). В этом случае номер к класса, к которому принадлежит наблюдаемый больной, представляет собой реализацию дискретной случайной величины К с двумя возможными значениями -1 и 2. Каждый больной характеризуется вектором х своих характеристик ("признаков") Х = (Х],..., хп). Вероятностные распределения этих векторов, в зависимости от того, к какому классу относятся характеризуемые ими больные, описываются условными плотностями рк (5с) = р{х / соk ) вероятности рассеивания вектора х при условии его принадлежности к классу со , Л=1, 2. Зная х, требуется отнести больного к одному из двух указанных классов. Следуя В.С.Пугачеву [127], рассмотрим один из подходов к решению этой задачи. Ясно, она может быть решена только в том случае, если плотности Pi(x) и р2(х) не совпадают тождественно, именно их различие образует тот признак, по которому можно разделить рассматриваемые классы больных.
Вследствие случайности появления образов разных классов вырабаты ваемая в результате применения решающего правила оценка к номера клас-са представляет собой реализацию случайной величины К. Если К К, то модель распознавания вырабатывает ошибочное решение. Правильное реше-ние имеет место при равенстве К и К. Обозначим через e(j условную вероят А ность события K = i при К =j, т.е. Тогда вероятность Рс правильного решения определяется по формуле полной вероятности Разделив признаковое пространство на две непересекающиеся области А\ и Ait определим решающее правило следующим образом: если вектор х , характеризующий больного попал в область Аь к=1, 2, то этот больной относится к классу сок. Границы между областями А\ и Аг следует определять так, чтобы вероятность правильного решения была максимальной. Вероятности eij3 /,./=1, 2, в данном случае равны Pi(x) Р2 Найденное решающее правило, оптимальное с точки зрения максимума вероятности правильного ответа, является оптимальным и с точки зрения максимума апостериорной вероятности (классификатор Байеса), т.е. условной вероятности [54, 127, 141] Рассмотрим еще одно правило принятия решений, тесно связанное с классификацией по Байесу, а именно неоднородную последовательную процедуру принятия решений, представляющую собой применение последовательного критерия отношений вероятностей. Идея этого критерия принадлежит Доджу и Ромигу (H.F. Dodge, H.G. Romig) (1929) [142], которые предложили алгоритм двойной выборки, однако главный шаг на пути построения последовательного анализа в его современном виде сделал А. Вальд (1947) [22]. В классической последовательной процедуре принятия решений при повторении опыта рассматриваются реализации одной и той же случайной величины. Переход к неоднородной последовательной процедуре заключается в том, что в ней в рассмотрение последовательно вводятся случайные величины с различающимися распределениями. Для медицинской диагностики последовательный анализ Вальда в таком виде ввел А.А. Генкин (1962), показавший его применимость для случая многих распределений независимых признаков. Первые результаты применения неоднородной последовательной процедуры в медицине были получены А.А. Генкиным и Е.В. Гублером [34]. В дальнейшем эта процедура нашла широкое применение при решении задач вычислительной диагностики в различных областях медицины [6, 27, 34, 36, 43,44,92,93,134,135,148].
Неоднородная последовательная процедура основана на анализе последовательности отношений Байеса [43]: Будем далее считать ошибкой первого рода [2] отнесение больного, входящего в класс а 2 к классу со і (отсюда ошибка второго рода есть отнесение больного класса со і к классу сог). Пусть Q, — это максимально допустимая вероятность ошибки первого рода, Q2 - максимально допустимая вероят ность ошибки второго рода и А = —, В = —-— [41]. В таком случае алгоритм классификации согласно неоднородной последовательной процедуре заключается в том, что на основе анализа последовательных значений суммы Вальда на каждом шаге алгоритма принимается одно из следующих решений: 1) если sm lnB, алгоритм заканчивается отнесением распознаваемого объекта к классу і; 2) если sm lnA, алгоритм заканчивается отнесением распознаваемого объекта к классу Шг; 3) если т=п, алгоритм заканчивается неудачей. 4) если InB sm InA и т п, то т увеличивается на единицу и алгоритм переходит к выполнению шага 1.
При апробации неоднородной последовательной процедуры для решения задачи прогноза развития пневмонии при острых отравлениях ПСС выяснилось, что, наряду с достоинствами этот подход имеет определенные недостатки. Одним из них можно считать трудность оценки ошибок I и II рода, поскольку даже в классическом последовательном анализе известны не сами ошибки, а лишь их верхние границы [22, 101, 142]. Другим недостатком является возможность отказа в ответе, обусловленная исчерпанием имеющихся значений признаков еще до достижения одного из диагностических порогов. Кроме того, для медицинских задач сам принцип последовательного ввода признаков в рассмотрение далеко не всегда является целесообразным, т.к. нередко исследователю становятся известны сразу все интересующие его параметры больного. В процессе решения проблемы прогноза развития пневмонии при острых отравлениях ПСС оказалась полезной модификация неоднородной последовательной процедуры, основной идеей которой является возврат к одномерной задаче распознавания образов.
Проверка статистической независимости прогностических признаков
Для первой постановки следующим шагом в анализе данных явилось определение степени коррелированности прогностических признаков (ЦВД, лейкоциты, рОг, иНСТ-тест, трахеобронхит и экспозиция яда), т.к. одним из допущений принятой в работе модели данных является их статистическая независимость. В силу этого идеальным вариантом был бы такой, при котором в корреляционных матрицах, вычисленных для существенных признаков внутри каждой из двух исследуемых групп больных, отсутствовали бы статистически достоверно отличающиеся от нуля элементы.
Выборочные корреляционные связи между прогностическими признаками отражены в табл. 2.3,а (группа больных без пневмонии) и табл. 2.3,6 (группа с пневмонией). Каждая из таблиц состоит из двух частей. Слева даны верхние треугольники внутригрупповых матриц корреляции. Правые части отражают количество пар значений, на основании которых посчитаны соответствующие корреляционные моменты в левой части. Для расчета применялись три способа: корреляционный момент Спирмена для непрерывных признаков; В — двухсерийный выборочный корреляционный момент, когда одна из переменных является непрерывной, а вторая дихотомической (например, в паре "ЦВД-трахеобронхит"); и ф - так называемый ф-коэффициент корреляции двух переменных, каждая из которых принимает лишь два значения [136]. Последний способ использован для расчета корреляции между признаками "трахеобронхит" и "экспозиция яда".
Рассмотрим табл. 2.3, а. Как видно из таблицы, достоверной (р 0.05), хотя и незначительной г=-0.31, приходится признать корреляцию между признаками р02 и "трахеобронхит". Можно указать также на то, что для оценки корреляции между признаками "ЦВД"-"иНСТ" недостает данных. Судя по выборке других достоверно отличающихся от нуля корреляций между выбранными семью показателями в группе больных без пневмонии нет.
Обратившись к табл. 2.3, б (группа больных с пневмонией) отметим, что относительно высокие значения оценок корреляционных моментов для некоторых пар признаков ("лейкоциты"-"иНСТ" и "глубокая кома"-"иНСТ") тем не менее не являются статистически достоверными (в обоих случаях р 0.1). В этой группе также наблюдается лишь одна достоверно (/? 0.05) отличная от нуля корреляционная связь - между признаками "экспозиция яда" и "трахеобронхит", но ее уровень (что существенно) не значителен: г=0.34. Для остальных пар признаков оценка корреляционного момента от нуля достоверно не отличается.
Таким образом, в каждой группе лишь один из 14 выборочных корреляционных моментов достоверно отличен от нуля. Отсюда можно заключить, что высказанная выше гипотеза об отсутствии корреляционной связи между существенными для прогноза признаками хорошо согласуется с представленными клиническими данными.
Во второй постановке наблюдается высокая корреляция между признаками "лейкоциты" и "сегментоядерные" в группе больных без пневмонии. В группе больных с пневмонией корреляция между этими признаками отсутствует.
В главе описана простая методика выбора прогностических признаков для прогноза развития пневмонии при острых отравлениях ПСС.
Описана специализированная инструментальная СУБД, целью создания которой является обеспечение удобных механизмов работы с исходной ме дицинской информацией и преобразование ее в удобный для вычислений формат.
Получен набор из 6 важных для прогноза пневмонии признаков (ЦВД, лейкоциты, рОг и иНСТ-тест, трахеобронхит и экспозиция яда) и показано, что статистически достоверные корреляционные связи между выделенными признаками в обеих группах больных либо достоверно (р 0,05) отсутствуют, либо (в двух случаях) являются незначительными. Таким образом сформированное признаковое пространство, состоящее из 6 клинико-лабораторных признаков, можно с достаточным приближением считать статистически независимыми.
При необходимости ограничиться минимальным количеством признаков для дальнейшего анализа выбраны два легко доступных в клинических условиях параметра - Л и С.
Функция плотности логарифма отношения правдо- подобия при равных внутриклассовых дисперсиях
Предлагаемый алгоритм использует для прогноза ту же сумму, которая используется в доказавшей свою практическую эффективность неоднородной последовательной процедуре.
Основным этапом преобразования неоднородной последовательной процедуры в простейшую одномерную задачу распознавания образов является приближенное вычисление условных функций плотности распределения суммы Вальда для непрерывных признаков в табличном виде. Процесс вычисления является итерационным.
Для реализации байесовского классификатора, решающего одномерную задачу распознавания, преобразованную из неоднородной последовательной процедуры, необходимо вычислить и хранить таблицы функций плотности вероятностей для всех сочетаний непрерывных признаков - всего (С2 + С3 +.. .+С"1) таблиц. Функции плотности вероятностей для всех сочетаний дискретных признаков хранить не надо, т.к. их несложно вычислить динамически в процессе распознавания.
Из самой природы предлагаемого алгоритма следует его нечувствительность по отношению к отсутствию значений у части признаков, что является весьма важным для задач медицинской прогностики.
Преимуществом предлагаемого алгоритма является возможность оценки ошибки классификации, которая производится путем расчета соответствующих интегралов.
Как экспериментальный факт установлено, что в рассматриваемой задаче прогноза пневмонии при острых отравлениях ПСС границей принятия решений при всех сочетаниях известных признаков может служить точка ноль.
В предшествующей главе дано описание модели прогноза развития пневмонии при острых отравлениях ПСС в предположении существования множества статистически независимых прогностических признаков. Однако использование статистически доказанных корреляционных связей между признаками, поскольку они, в частности, отражают степень адаптации организма к факторам агрессии [83], в рассматриваемом случае также может оказаться плодотворным. Поэтому в настоящей главе рассматривается еще одна постановка задачи прогноза пневмонии при острых отравлениях ПСС, в которой не выдвигается требования о статистической независимости прогностических признаков, причем число этих признаков сведено к минимуму. С этой целью была использована информация, содержащаяся в подмножестве исследованных во второй главе 129 историй болезни больных с отравлениями ПСС, у которых в первые сутки болезни были измерены одновременно значения двух параметров — количество лейкоцитов и содержание сегменто-ядерных нейтрофилов (всего 15 больных без пневмонии и 15 с пневмонией).
Рассмотрим плоскость, на которой введена прямоугольная система координат хОу таким образом, что ось х соответствует лейкоцитам, а ось у — сегментоядерным нейтрофилам. Так как масштабы рассматриваемых признаков различаются, и в дальнейшем потребуется производить преобразования, включающие оба признака, перейдем к относительным переменным, для чего поделим значения исходных признаков на некоторые (в достаточной степени произвольные) константы 1Х и 1уу размерности которых совпадают с размерностями исходных величин. Таким образом, переходя к новым безразмерным переменным, будем откладывать по оси х значения признака Л, поделенные на Іх=30 109/л, а по оси у значения признака С, поделенные на 1,=100%.
Исходные выборочные и обезразмеренные данные представлены в таблице 5.1. В левой половине таблицы приведены значения показателей Л и С, раздельно в классах Ю/ и ( 2, организованные в виде вариационных рядов по признаку Л, причем каждый член ряда сопоставлен с соответствующим ему значением признака С. Правая половина табл. 5.1. содержит относительные данные по тем же показателям. Для перехода к относительным величинам использованы определенные выше константы 1Х и 1У. В нижней части таблицы приведены выборочные средние, среднеквадратические отклонения и коэффициенты корреляции в обеих группах больных для исходных и относительных значений показателей.
Функция плотности суммы непрерывных и дискретных признаков
Теперь можно получить условия, задающие границу областей решений. С этой целью перепишем уравнение (1) в виде где pi (х,у) ир2(х,у) определяются выражением (26). По сравнению с уравнением (1), уравнению (27) удовлетворяют также все точки на плоскости, в которых что делает задачу нахождения решающей границы, на первый взгляд, неопределенной. Чтобы преодолеть эту неопределенность, необходимо более внимательно рассмотреть условия, задающие области решения. Как известно, возможны три реакции байесовского классификатора на предъявление образа: 1 - при попадании образа в некоторую область Ah предъявленный объект (больной) квалифицируется как объект класса со/; 2 - при попадании образа в область А2 - как объект класса (ад 3 - в случае, если образ оказывается принадлежащим области А3, ответ классификатора не определен. Пусть область А, определяется условием Q(x,y) 0, область А2 — условием Q(x,y) 0, и область А3 - условием Q(x,y)=0. Каждая из функций рк(х,у) по определению отлична от нуля лишь в ограниченной области плоскости. Поэтому область А3 не есть линия (как, например, в случае двух нормальных распределений на плоскости). Таким образом, граница каждой из областей решений будет состоять из участков двух типов - в любой точке участка границы первого типа/?; (х,у)=р2 (х,у) 0, (там, где А, граничит с А2\ на участках второго типа/?/ (х,у)=р2 (х,у)=0, (где А, или А2 граничит с Аз). Очевидно, что участки границы второго типа области Ак суть отрезки границы области ненулевых значений функции Рк(х,у). Опишем алгоритм приближенного построения решающей границы для рассматриваемого случая. Будем исходить из того, что граница области принятия решений удовлетворяет уравнению (27) и является замкнутой непрерывной кривой на плоскости хОу.
Тогда ее проекции на оси х и у представляют собой отрезки - обозначим их, соответственно [а, Ь] и [с, d]. Попытаемся приближенно представить 3, в виде совокупности табличных аппроксимаций двух функций: x=qi(y) и x=q2(y), определенных на [с, d\ и таких, что qi(c)=q2(c) и qi(d)=q2(d) (в случае неудачи можно поменять ролями х и у). В начале работы алгоритма концы отрезка [с, d] предполагаются неизвестными, тем не менее, область определения функций qi(y) и q2(y) можно приближенно оценить, исходя из результатов аппроксимации выборки с помощью двумерного нормального распределения Для этого достаточно спроектировать образующий решающую границу эл липс на ось ординат и рассмотреть крайние точки проекции. Между этими дву мя точками (но достаточно далеко от каждой из них) возьмем произвольную точку у о и построим сечение поверхности Q(x,y) плоскостью, параллельной плоскости xOz и проходящей через точку у0. Вид этого сечения определяется тем, что функция уо (х) представляет собой результат вычитания двух (сдвинутых друг относительно друга и взятых с некоторым, зависящим от уо коэффициентом) проекций на плоскость xOz кривых Пирсона I типа или, если один из членов этой разности при данном у0 тождественно равен нулю, то у о (х) есть просто проекция умноженной на коэффициент кривой Пирсона на указанную плоскость.
Так как область положительного изменения функции Q(x,y) соответствует области большей вероятности появления объектов класса со/, то аналогичное утверждение справедливо и для ее сечений плоскостями, параллельными xOz. Отсюда следует, что точки Gj,o и G2io границы Зі однозначно определяются нулями xlto и х2,о функции уо(х), которые можно найти с помощью подходящего численного метода. Беря малое (положительное или отрицательное) приращение Лу, переходя последовательно от точки уо к точкам уг=уо±і-Лу, /=1,2... и поступая аналогичным образом, вычислим нули xii±h Х2,±І функций yi(x) и точки Gi,±i, G2,a границы З,. В качестве критерия остановки процесса можно использовать условие близости ТОЧеК Xji±i И X2,±t., т.е. где є—достаточно малое число. Пусть процесс закончился на шаге п. Тогда можно считать, что выполняется соотношение [с, d]&[x],-„, х2,п\. Полагая xi,&=qi(у±), и X2,±rq2(y±i) для всех i=0, ±1, ...,±п, получаем табличные определения функций qi(y) и qi(y) и, следовательно, приближение границы 3, области принятия решений А,. Для подтверждения сказанного перейдем к интерпретации данных таблицы 5.1 на основе предлагаемого подхода. Как и в случае нормального распределения рассмотрим выборки в относительных величинах в двух группах больных по показателям Л и С, находящиеся в правой половине таблицы. Введем две дополнительные системы координат - t,iOi7]i для класса ос / (больные без пневмонии) и 202т]2 для класса со2 (больные с пневмонией). Положение их начал определим выборочными средними (табл. 5.1), а углы наклона осей по отношению к исходной системе - соответствующими углами наклона осей координат qh. Тогда ф,=42.9 и р2=0. Чтобы получить аппроксимации выборочных плотностей в виде (25) необходимо осуществить подбор коэффициентов четырех кривых Пирсона — по одной на каждую координату в каждом классе. Исходные данные должны быть преобразованы к внутриклассовым координатам. Результаты подбора коэффициентов по критерию минимума tf отражены в таблице 5.2.