Содержание к диссертации
Введение
Глава 1. Одномерная идентификация и ранжирование 26
1.1. Постановка задачи идентификации 26
1.2. Задача одномерной идентификации. Идентификация методом разделения 27
1.2.1. Постановка задачи
1.2.2. Необходимые и достаточные условия оптимальности 28
1.2.3. Численный метод для минимизации т(х) 32
1.2.4. Квазивыпуклыс функции 32
1.3. Одномерная идентификация методом изоляции 33
1.3.1. Идентификация методом изоляции 33
1.3.2. Метод покоординатного спуска для минимизации m(z) 34
1.3.3. Метод сопряженных направлений для минимизации m(z) 35
1.4. Ранжирование параметров 37
1.4.1. Ранжирование с помощью одномерной идентификации 37
Глава 2. Метод главного эксперта в задачах идентификации 38
2.1. Постановка задачи идентификации 38
2.2. Метод главного эксперта 41
2.3. "Выборочные" вероятности правильной и неверной идентификации методом главного эксперта 45
2.4. Параметрическая оптимизация 46
2.5. Примеры 47
Глава 3. Задача прогнозирования и метод главного эксперта 59
3.1. Введение 59
3.2. Задача прогнозирования 60
3.3. Исследование множеств П\ и Г22 методом главного эксперта 61
Глава 4. Прогнозирование эффективности химиотерапии при лечении онкологических заболеваний 64
4.1. Введение и постановка задачи 65
4.2. Разделение баз СТ-140 и WCT-113 66
4.2.1. Разделяющие гиперплоскости 66
4.2.2. Разделение базы СТ-140 67
4.2.3. Разделение базы WCT-113 68
4.3. Перекрестное исследование баз WCT-113 и СТ-140 69
4.3.1. Исследование базы WCT-113 с помощью плоскости L\ 69
4.3.2. Исследование базы СТ-140 с помощью плоскости Li 71
4.4. Заключение и рекомендации 72
Глава 5. Прогнозирование эффективности химио- и гормональной терапии при лечении нкологических заболеваний 75
5.1. Задача прогнозирования 75
5.2. Разбиение базы СНЕМО-253 на подбазы 76
5.3. Разделение баз I—IV с помощью параметров 30 и 35 78
5.3.1. Разделение базы WCT-113 79
5.3.2. Разделение базы СТ-33 79
5.3.3. Разделение базы НТ-49 80
5.3.4. Разделение базы СНТ-58 81
5.3.5. Перекрестное исследование баз I—IV с помощью рямых L\ — L4 82
5.4. Разделение баз I—IV с помощью параметров 30, 33 и 35 86
5.4.1. Разделение базы WCT-113 87
5.4.2. Разделение базы СТ-33 87
5.4.3. Разделение базы НТ-49 88
5.4.4. Разделение базы СНТ-58 89
5.4.5. Перекрестное исследование баз I—IV с помощью плоскостей L\ — L4 89
5.5. Оценка эффективности прогнозирования различными экспертами 92
Заключение 95
Публикации по теме диссертации 96
Литература 98
Приложения 106
- Задача одномерной идентификации. Идентификация методом разделения
- "Выборочные" вероятности правильной и неверной идентификации методом главного эксперта
- Разделение баз СТ-140 и WCT-113
- Разбиение базы СНЕМО-253 на подбазы
Введение к работе
Актуальность темы. "Homo sapiens" , как "человек разумный" , наблюдая явления внешнего мира, старается выявить его закономерности ("законы природы") и действует, учитывая эти законы. Другими словами, человек строит модель внешнего мира (или какого-то процесса). Все современные науки (исключая гуманитарные) представляют собой набор моделей, описывающих те или иные стороны внешнего мира. Математика, как "царица" наук, призвана обслуживать эти модели. Иногда эти модели достаточно адекватно описывают изучаемые объекты или процессы (так называемые "точные" науки), другие процессы пока не поддаются точному описанию (медицина, биология), но и там прогресс стремительно развивается (см., например, [3, 4]). Толчком к этому послужило развитие вычислительной техники и основанных на ней информационных технологий. Многие выдающиеся достижения биологии последних десятилетий были бы невозможны без использования математических методов. Биоматематика стала существенной частью биологии. Необходимость решения задач диагностики в медицине и технике привели к появлению "математической диагностики" , которая включает в себя математический аппарат, используемый для изучения моделей для решения задач идентификации, распознавания образов, обработки экспериментальных данных, технической и медицинской диагностики, прогнозирования. Такие задачи возникают в различных областях науки. Для их решения строятся различные модели и применяются различные подходы. К сожалению, одного универсального подхода не существует, что приводит к необходимости строить модели, учитывающие специфику конкретного класса задач, и разрабатывать (или использовать существующие) методы их исследования.
Конечной целью изучения баз данных является выявление закономерностей, которым подчиняется изучаемый процесс или явление. Часто эта цель недостижима, поскольку имеющиеся данные могут быть недостаточно достоверными или не отражающими существенные свойства процесса и потому не позволяющими выявить искомые закономерности. Это зависит и от качества имеющейся модели. В данном исследовании эти вопросы не затрагиваются. Нашей целью является оптимальная (в том или ином смысле) обработка уже имеющейся информации (баз данных).
Практические задачи идентификации, диагностики, обработки баз экспериментальных данных, планирования эксперимента привели к развитию теории распознавания образов (см., например, работы В.Н.Вапника, Ю.И.Журавлева и др. [9, 27, 29, 41, 88], а также обзор [82]). Вначале в основном применялись статистические методы обработки баз данных, начало которым положили работы Р.А.Фишера [68] (см. также [2, 4, 5, 42]). Р.Фишер создал линейный дискриминантный анализ [51]. Появилась математическая теория обучения (см. работы В.Н.Вапника, Ф.Розенблата, В.Н.Фомина, Я.З.Цыпкина, В.А.Якубовича [9, 46, 52, 53, 79, 85, 88]) и соответствующие алгоритмы [17, 32, 40, 46, 87]. В середине прошлого столетия наряду со статистическим подходом стал широко применяться оптимизационный подход. Это связано как с развитием численных методов оптимизации и вычислительной техники, так и с тем, что зачастую статистические характеристики баз данных либо неизвестны, либо их трудно получить. В развитие теории и методов оптимизации внесли существенный вклад как отечественные (советские и российские) ученые, так и зарубежные исследователи (Л.В.Канторович, Ю.И.Журавлев, И.И.Еремин, Б.Н.Пшеничный, В.Н.Тихомиров, Дж.Данциг, Р.Рокафеллар и др.). Методы оптимизации применяются к решению широкого круга вопросов идентификации и обработки данных (см., например, работы А.А.Первозванского, Я.З.Цыпкина, Б.Т.Поляка [11, 13, 44, 46, 63, 70, 75, 76, 78, 89]).
Одним из эффективных методов решения задач обработки данных является кластерный анализ (см. [26, 27, 55, 58, 61, 69, 71, 80, 86]).
В настоящее время существует два подхода к решению задач математической диагностики: статистический и оптимизационный. Первый подход использует вероятностные и статистические методы (это требует изучения статистических характеристик изучаемого процесса, что иногда затруднительно вследствие отсутствия достаточного количества наблюдений), второй - оптимизационный - использует методы математического программирования. Эти подходы взаимно дополняют друг друга и позволяют проводить диагностику и прогнозирование, например, эффективности применения той или иной методики лечения или обучения, с большей надежностью.
Хотя, как отмечено выше, статистический подход к решению задач диагностики начал развиваться еще с начала прошлого века, а оптимизационный - с середины XX столетия, остается немало нерешенных вопросов, актуальность которых не уменьшается. Возникают новые задачи, требующие соответствующего математического и программного обеспечения.
Предлагаемая работа относится ко второму (оптимизационному) направлению.
Одна из задач, которая изучается в данной работе, ставится следующим образом. Имеется две (в действительности может быть и больше) базы экспериментальных данных: А и В. Каждая из них представляет собой набор точек в многомерном пространстве. Предполагается, что каждая из этих баз является генеральной выборкой из некоторого (каждая из своего) случайного процесса. Требуется найти правило, по которому любую точку из множества С = А У В можно идентифицировать как точку того или иного множества. Математически задача сводится к разделению двух множеств точек. Если выпуклые оболочки множеств А и В не пересекаются, то задача решается с помощью теоремы отделимости: проводится разделяющая гиперплоскость, и точки, находящиеся по одну сторону гиперплоскости, принадлежат одному множеству, а точки, находящиеся по другую ее сторону, принадлежат второму множеству. К сожалению, в реальных задачах указанное условие не выполняется, поэтому приходится проводить разделение неточно. И здесь возникает задача найти такую гиперплоскость (если разделение проводится с помощью гиперплоскости, хотя можно разделять и другими поверхностями и способами), которая обеспечивает наилучшее (в том или ином смысле) разделение. И вот на этом этапе и возникают задачи выбора функционала, способа идентификации (построение идентификатора), построение численного метода.
Вначале для разделения множеств применялись, в основном, методы линейного программирования, которые исторически были разработаны раньше (см. [13, 44]). Наиболее популярным в настоящее время является метод опорных плоскостей (SVM - support vector machines), основанный на линейном программировании или сводящиеся к нему с помощью так называемых методов ядра (kernel methods) (В.Н.Вапник, О.Мангасарян) ([9, 54, 60, 65, 75, 66, 76, 77, 88]). Использование методов нелинейного и негладкого программирования позволяет значительно улучшить качество идентификации (см. [14, 15, 33, 37, 47, 56, 59, 73]).
Одной из важных проблем при обработке баз данных является ранжирования параметров. Выбор наиболее значимых параметров позволяет ускорить обработку результатов экспериментов и удешевить их проведение (поскольку получение данных является часто дорогостоящей или - в случае медицинских баз данных - болезненной или даже опасной процедурой).
Существуют различные способы ранжирования [26, 34, 35, 57, 62, 72, 83].
Задачи диагностики в медицине являются одновременно и весьма важными, и сложными. Им посвящены многие исследования (см., например, работы [1, 12, 16, 24, 25, 36, 43, 48]).
Актуальность тематики определяется и необходимостью разработки эффективных методов диагностики и прогнозирования, в том числе "экспресс-диагностики" для принятия оперативных решений (первая помощь в медицине, при технологических авариях), когда полная информация недоступна или еще не готова.
Цели и задачи исследования
Целями диссертационной работы являются:
1) исследование задач обработки баз экспериментальных данных и разработка оптимизационных методов идентификации, распознавания, классификации, диагностики и прогнозирования эффективности различных способов обучения и лечения,
2) на основе полученных результатов выявление закономерностей изучаемого процесса.
Указанные цели достигаются:
а) решением задач одномерной и "малоразмерной" идентификации;
б) решением задачи ранжирования параметров на основе одномерной идентификации;
в) разработкой нового метода (метод главного эксперта) для построения правила идентификации (идентификатора, решающего правила или классификатора) при наличии нескольких идентификаторов;
г) разработкой методики прогнозирования эффективности различных способов обучения и лечения на основе метода главного эксперта.
Основными методами исследования являются методы математической диагностики, математического программирования, теории вероятностей и математической статистики, математического моделирования. Предлагаемые методы идентификации и прогнозирования построены на основе оптимизационного подхода и не используют статистические характеристики изучаемого процесса или явления (которые обычно заранее не известны).
Эти методы апробированы на конкретных базах данных (в частности, на базе данных больных раком молочной железы СНЕМО-253 Висконсинского университета для прогнозирования эффективности различных схем послеоперационного лечения).
Научная новизна диссертационной работы состоит в разработке оптимизационных методов решения задач одномерной идентификации баз данных, метода главного эксперта (позволяющего построить более эффективный метод идентификации, используя имеющиеся идентификаторы, полученные, например, с помощью одномерных или двумерных идентификаторов), метода прогнозирования эффективности разных способов обучения, лечения и т.п.
Основные положения, выносимые на защиту:
1) новые оптимизационные методы решения задач одномерной идентификации точек двух множеств (метод разделения и метод изоляции);
2) метод ранжирования на основе одномерной идентификации; с его помощью строятся простые идентификаторы (одномерные, двумерные или трехмерные) для наиболее существенных параметров. Эти простые идентификаторы могут использоваться для экспресс-идентификации PI распознавания.
3) метод главного эксперта (МГЭ) для построения правила идентификации (идентификатора, решающего правила или классификатора) при наличии нескольких идентификаторов. Каждый из указанных идентификаторов может оказаться не очень точным, но с помощью МГЭ качество идентификации может быть существенно улучшено.
4) методика прогнозирования эффективности различных способов обучения и лечения, разработанная на основе метода главного эксперта.
Практическая ценность. С помощью разработанной методики проведено исследование базы данных СНЕМО-253 больных раком молочной железы и предложена методика прогнозирования эффективности применения или неприменения различных видов терапии для лечения конкретного пациента. База содержит данные о 253 пациентах, которым была сделана хирургическая операция. Будем считать, что комплексное лечение было успешным, если срок жизни пациента после операции составил 5 и более лет. В результате математической обработки были составлены 16 подгрупп - от неблагоприятного до благоприятного прогноза по каждой из четырех схем лечения со своей вероятностью.
Для каждого пациента определено место в одной из подгрупп и рекомендовано именно то лечение, при котором прогноз для него наиболее благоприятен. В действительности более 5 лет прожило 115 человек. При использовании двух параметров удалось прогнозировать благоприятный исход у 141, а при использовании трех параметров - у 155 пациентов. Метод главного эксперта позволяет существенно повысить качество прогнозирования эффективности лечения.
Указанный метод может оказать существенную помощь не только в процессе сопровождения лечебно-диагностического процесса, но и при обработке результатов массовых обследований, проводимых в целях профессионального психофизиологического отбора и психофизиологического сопровождения профессиональной деятельности.
Результаты научных исследований прошли апробацию на Международной конференции "Longevity, Aging and Degradation Models in Reliability, Public Health, Medicine and Biology (LAD 2004)"(Санкт-Петербург, СП6ПТУ, 2004); на 35-й межвузовской научной конференции аспирантов и студентов СПбГУ "Процессы управления и устойчивость"(С.Петербург, 2004г.); на 37-й межвузовской научной конференции аспирантов и студентов СПбГУ "Процессы управления и устойчивость"(С.-Петербург, 2006г.); на Международной конференции "Устойчивость и процессы управления" (С.-Петербург, 29.06.2005-01.07.2005); на Всероссийской конференции "Психофизиология профессионального здоровья человека"(С.Петербург, Военно-медицинская Академия, 16 ноября 2007г.); на научной конференции Военного Института физической культуры (СПб, 1995г.), на Международном семинаре по математической диагностике в Эриче (Сицилия, Италия, 10-20 июля 2006г., Workshop MATHEMATICS AND MEDICAL DIAGNOSIS).
Связь с научными программами. Частично исследования по теме диссертации выполнялись в рамках проекта "Инновационная образовательная среда в классическом университете" Национального проекта "Образование" в 2006 и 2007 годах по темам "Методика составления прогноза эффективности применения различных способов лечения" (2006 г., СПбГУ) и "Разделение баз данных результатов медицинских исследований" (2007 г., СПбГУ).
Публикации. По материалам диссертации опубликованы 12 работ, четыре из которых в изданиях, входящих в перечень ВАК рецензируемых научных журналов. Список работ приведен в конце диссертации.
Структура и объем диссертации. Диссертация изложена на 156 страницах и состоит из Введения, пяти глав, заключения, шести Приложений, списка обозначений и списка литературы, включающего 91 наименование. Работа содержит 10 рисунков и 30 таблиц в основном тексте и 6 рисунков и 36 страниц таблиц в Приложениях.
Задача одномерной идентификации. Идентификация методом разделения
Пусть т\(х) — \А \, где А = {а А а ж}, т2(х) = \В \, где /3 = {6j Є В \ bj ж}. Здесь С - число точек множества С. Итак, ті(х) (т2(х)) представляет собой количество точек множества А (соответственно, В), неправильно идентифицированных идентификатором F(x,c). Теперь построим критериальную функцию, положив т(х) — max{rrii(x), гп2(х)}. (1) Требуется найти ттхЄ т(х) — т . Функции т(х), mi(x) т2(х) принимают только целые значения, они разрывны и кусочно постоянны. Множество А является множеством точек разрыва функции ті, а множество В является множеством точек разрыва функции т2- Функция 7Пі(ж) неубывающая и, следовательно, квазивыпукла, а функция ті(х) невозрастающая и также квазивыпукла (см. [28]). Функция т(х), как максимум квазивыпуклых функций, - тоже квазивыпукла (см. [28]). (Определение и некоторые свойства квазивыпуклых функций приведены в пункте 1.2.4, являющимся приложением к настоящему параграфу.)
В качестве критериальной можно выбрать и другие функции. Например, функция fi(x) = mi (ж) + т2(х) представляет интерес (это общее количество ошибочно идентифицированных точек). Однако множество точек глобального минимума функции т выпукло и не существует локальных минимумов, в то время как функция /і может иметь локальные минимумы, а множество точек глобального минимума может оказаться невыпуклым.
В примере, изображенном на Рис. 1, множества Л СІи5с1 содержат по 8 точек каждое: A = { 2i, ...:as}, В = {6i,...,6g}. Множество М точек минимума функции т(х) = max{mi(ж), 777,2( )} есть интервал [65 4) (и это выпуклое множество), а у функции fi(x) = mi(x) + т2{х) множество точек минимума представляет собой объединение трех интервалов: М = [ 5) аз) U[ 7? аъ) U[ 8j аб); которое не является выпуклым. По этой причине мы и выбрали для дальнейшего использования функционал т{х).
Проблемы разделения двух точечных множеств на прямой возникают, например, в теории распознавания и в задачах диагностики. В настоящей главе рассматривается задача идентификации точек двух конечных множеств точек на прямой. В 1.2 задача разделения решается с помощью линейного идентификатора. Точки, принадлежащие одной полупрямой, считаются принадлежащими одному множеству, а точки, принадлежащие другой полупрямой, идентифицируются как точки другого множества. При таком правиле идентификации некоторые точки могут быть неверно идентифицированы. Требуется провести разделение таким образом, чтобы количество ошибочно идентифицированных точек было наименьшим. В качестве функционала выбран максимум количества неверно идентифицированных точек (из двух множеств). Этот функционал является разрывным. Используя его квазивыпуклость, удается вывести необходимые и достаточные условия оптимальности, и на их основе построить численный метод.
Точки, принадлежащие этому отрезку, считаются принадлежащими одному множеству, а точки, не принадлежащие этому отрезку, идентифицируются как точки другого множества. Требуется найти такой отрезок, для которого количество ошибочно идентифицированных точек является наименьшим. В качестве функционала тоже выбран максимум количества неверно идентифицированных точек. Этот функционал (как функция концов отрезка) является разрывным, принимает целые значения. По каждой из координат этот функционал является квазивыпуклым, что позволяет использовать метод покоординатного спуска (применяя изложенный в 1.2 алгоритм минимизации по каждой координате при фиксированной другой координате). Этот метод изложен в п. 1.3.2. В п. 1.3.3 предлагается модификация метода сопряженных направлений.
Используя одномерную идентификацию, можно проводить ранжирование параметров. Один способ такого ранжирования описан в п. 1.2.4. Замечание. Пусть заданы две нормально распределенных величины i и 2, принимающие значения в R. В качестве правила идентификации выберем следующее: разобъем R на два множества Пі и П2: К. = f2i(Jfi2- Если реализовалось некоторое а; Є R, то будем считать, что произошло событие і, если ж Є Пі, и событие г если жб . Известно, что оптимальным (с точки зрения минимизации максимума вероятности неверно идентифицированных точек) является разбиение R на две полупрямые (если дисперсии величин і и 2 одинаковы) или разбиение на отрезок и его дополнение до К (если эти дисперсии различны). Эти результаты будем использовать ниже и для построения оптимального правила идентификации множеств на прямой, каждое из которых содержит конечное количество точек.
"Выборочные" вероятности правильной и неверной идентификации методом главного эксперта
Таким образом, описанный выше метод главного эксперта позволяет провести более эффективную идентификацию, чем каждый из индивидуальных экспертов. Кроме того, точность идентификации зависит от того, в какое из подмнооїсеств исходного пространства "попадает" исследуемая точка. Замечание 1. Наличие "плохих" экспертов (тех, кто делает много ошибок при идентификации точек) не ухудшает качество идентификации главным экспертом: каждый плохой эксперт только удваивает количество множеств, на которые делится пространство W1. Если какой-то эксперт не улучшает качество идентификации главным экспертом (или улучшает несущественно), его можно исключить из "команды" экспертов. Замечание 2. Аналогично можно рассмотреть случай, когда некоторые эксперты делят пространство на несколько (более, чем 2) частей. Замечание 3. Ошибочно идентифицированные каждым экспертом точки могут быть и неизвестны ему (а известны только главному эксперту), т.е. все эксперты (кроме главного) могут работать "вслепую". Замечание 4. Если множества Л и В являются генеральными выборками некоторых случайных величин, то для упрощения вычислений предпочтительнее "уравнять" количество точек в выборках: взять iVi = N2. Этого можно добиться, например, присвоением весового коэффициента точкам одного из множеств. 2.4. Параметрическая оптимизация В описанном выше методе главный эксперт строит новое правило идентификации /, используя правила идентификации /i,...,/m экспертов Pi,..., Рто, соответственно. Теперь рассмотрим случай, когда каждый эксперт Ps, s Є 1 : m, может выбрать идентификатор из некоторого семейства идентификаторов Г8 = {fsas{x) = fs{x,as) \asensG W1 }. Пусть F = {(Ла15 -, fmam) fiUi Є Ті Vi Є 1 : 17l}. Любой набор из т идентификаторов вида F{a) = F(oii,..., ат) = (/iai,..., fmam) Є Т — 47 — (где (а) — (аі,...,ато) Є О = (Г2і х ... х f2m)) назовем т-мерным идентификатором. Используя описанный выше метод (применяя его к семейству идентификаторов F(a)), получим новое правило идентификации, описанное выше (см. (14)-(15)).
Обозначим через A (F(a)) С Л (см. (22)) множество точек Л, неверно определенных идентификатором F(a), а через B (F(a)) С В (см. (24)) -множество точек В, неверно определенных идентификатором F(a). Выберем один из функционалов (pi(F(a)):i Є 1 : 4, описанных в (7)-(10). Обозначим его tp(a). Теперь можно сформулировать следующую задачу минимизации: Найти (см. (11)): (р(а )=тш(р(ас). (25) aeil Отметим, что не предполагается, что исходные идентификаторы /і,..., fm являются "наилучшими" классификаторами в своих семействах классификаторов (а если даже и являются, это не гарантирует, что идентификатор, полученный главным экспертом, является оптимальным). Замечание 5. Функционал р(а) (см. (25)) является разрывным и многоэкстремальным. Рассмотрим иллюстративные примеры. 2.5. Примеры Пример 1. Пусть х = {хъ х2) Є М2, А = {щ Є Ш2 і Є 1 : iVi}, В = {bj Є R2 j Є 1 : JV2}, где Ni = 7, аг = (1,2), а2 = (2,2), а3 = (3, 2), а4 = (1,1), а5 = (2,1), а6 = (3,1), а7 = (-2, -1); N2 = 7, Ьх = (-1,3), 62 = (-1,2), Ь3 = (-1,1), Ь4 = (2, -1), 65 = (3, -1), 66 = (4, -1), b7 = (2, -2). Положим С — Ли В. Пусть заданы идентификаторы /і(ж) = х\ и /г(ж) = х2 со следующими решающими правилами: идентификатор /s, s Є 1 : 2, точку с = (сі,С2) Є С "приписывает" множеству Д, если /s(c) 0, и множеству В - если /s(c) 0. Из рис. 4 и 2.2 ясно, что Сіл = {«і - 6, &4 - b6}, Ст = {bi - Ьз, a7 , -49 At = А П Сіл = {ai - a6}, B+ = В П Сш = {61 - Ьз}, Аї = А П Сів = {a?}, #Г = П Сы = ( - b7}. Отсюда следует, что точки а7, Ь4 — Ъ7 неверно идентифицированы классификатором /і (всего 5 неверно определенных точек). В этом примере используем следующее обозначение: {а\ — ag, 64 — &б} означает, что {щ \ і Є 1 : 6} U {bj \ j Є 4 : 6}. Аналогично имеем Сгл = {ai - a6, bi - 63}, C2B = {b4 - Ь7, a7}, Л = Л П С2д = {01 - a6}, /- = В П C2z? = {&4 - b7}, Аї = АП C2B = {a7}, Вї = ВП C2A = {61 - 63}. И опять заключаем, что точки a7,bi — 63 неверно идентифицированы классификатором /2 (всего 4 неверно определенных точки). Множество содержит 4 точки: = {Ei,E2, Е ,Е4} where Е\ — (1,1), 2 = (1, 2), Е3 = (2,1), Е4 = (2, 2). Имеем (см. (12)) CEl = {ceC\ е(с) = Яі} = {ai - a6}, СЕ, = {с Є С е(с) = 2} = {Ь4 - М» Ся3 = {с Є С е(с) = Е3] = {bi - h}, СЕі = {сєС\ е(с) = Е4} = {а7}. Теперь построим множества (см. (13)) AES — А П CEs, BES — В П CEs : ЛЕі = CEl = {«і - a6}, #ях = 0, Л 2 = 0, BE2 = {64 - 67}, АЕз = Ф, ВЕЗ = {ЬІ-Ь3}, АЕ4 = {а7}, ВЕ, = Ф. Очевидно, \AEl\ = 6, I J = 0; Л = 0, \ВЕ2\ = 4, І зІ = 0, 1] = 3, \АЕ4\ = 1, Яя4 = 0. В соответствии с (14)-(15), имеем следующее РП: так как \AEl\ — \BEl\ = 6 0, то с Є CEl "приписываем" множеству Л; так как \АЕ2\ ДЕ2 — 4 0, то с Є СЕг считаем принадлежащим множеству В; так как \АЕз\ — \ВЕз\ = —3 0, то считаем, что с Є CEz принадлежим В; если же \АЕА\ — \ВЕА\ = 1 0, ТО точку с Є СЕА считаем точкой множества А.
Разделение баз СТ-140 и WCT-113
Как и в [74], в нашем исследовании было выделено несколько наиболее информативных параметров. Ниже приводятся данные, полученные с помощью трех параметров: наибольшая гладкость (worst smoothness), точка наибольшего изгиба (worst concave point), наибольшая фракталыюсть (worst fractal dimension). Они были найдены по методике, описанной в 1.4, и отличались от использовавшихся в [74]. Выбранные параметры в базе [90, 91] имеют соответственно номера 30, 33, 35. База данных СНЕМО-253 была разделена на две: СТ-140 (содержащую сведения о 140 пациентах с х/т), и WCT-113 (со сведениями о 113 пациентах без х/т). В силу сказанного выше, СТ-140 = AXU Вх, WCT-113 = А2 U В2. Для каждой из баз была найдена плоскость (в данном случае в трехмерном пространстве), наилучшим способом (в смысле общего количества неверно -67 идентифицированных точек - см. [72]) разделяющая множества А\ и В\ (для базы СТ-140) и множества Ач и В2 (для базы WCT-113). Упомянутые плоскости находились по методу, являющемуся обобщением метода Фишера (оно описано в [72, 73]). Далее проводилось перекрестное исследование баз СТ-140 и WCT-113 с помощью "чужих" плоскостей по методике, предложенной в [18, 67]. Для базы СТ-140 была построена плоскость L\ = [х Є R3 \ /її (ж) = 0}, где hi(х) - линейная функция: /її(ж) = (x,yi) + di, х Є В3, ух Є Д3, dx є R, Уі = (-0.5136, 0.11415, -0.85037), dx = 0.13123. С помощью этой плоскости проводилась идентификация точек множества СТ-140 следующим образом: если /її(с) 0, то считаем, что с Є А\\ если /її(с) 0, то считаем, что с Є В\. Аналогично для базы WCT-113 была построена плоскость L2 = {х Є R3 /іг(ж) = 0}, где /іг(ж) - линейная функция: h2{x) = (ж, г/2) + d2, х є R3, Ї/2 Є Д3, d2 Є Л, У2 = (-0.481204, -0.75574, -0.44419), d2 = 0.223685. С помощью этой плоскости проводилась идентификация точек множества WCT-113 таким образом: если h2(c) 0, то считаем, что с Є А2; если h2(c) 0, то считаем, что с Є В2. Плоскости L\ и L2 разделяли соответствующие множества неточно (см. таблицы ниже). Заметим, что угол между плоскостями L\ и L2 оказался равным 57,41, или примерно 1 радиан.
Отметим, что плоскость L\ не очень удачно разделила множество А\. только 27 из 61 пациентов в этой группе (или 44.26 % ) были идентифицированы правильно. Этот факт объясняется тем, что критерием при построении разделяющей гиперплоскости было общее количество правильно определенных точек (а, как следует из табл. 12, правильно идентифицировано было 67.86 %). В дальнейшем можно выбрать какой-нибудь другой функционал (например, наибольший процент неверно определенных точек в группах А\ и i?i), который следует минимизировать. Количество правильно идентифицированных точек как точек множеств А\ и В\ (в процентах) в группах h\-\- и h\— для базы СТ-140 с помощью плоскости L.
Вначале рассмотрим базу WCT-113 (т. е. группу пациентов без х/т), и исследуем ее с помощью плоскости L\. Посмотрим, как эти точки были бы идентифицированы с помощью функции h\. Из табл. 5 следует, что 37 точек попали в группу /г2 + h\+ (обозначим ее ++), т. е. и плоскость 1,2, и плоскость Ь\ определили их как точки, попавшие в группу В (с неблагоприятным прогнозом в случае и применения х/т, и без нее); -70 Таблица 5: Результаты разделения базы WCT-113 с помощью плоскости Lx (чел.) h2 + /ii + h2 + hi- hi - hi + h2 — hi — E А2в2 7 ЗО 2 4 16 12 29 13 54 59 37 6 28 42 113 6 точек попали в группу /i2+ h\— (группа -\—), т. е. плоскость Li отнесла их в группу В (с неблагоприятным прогнозом в случае неприменения х/т), а плоскость L\ - в группу А (с благоприятным прогнозом при применении х/т); 28 точек попали в группу hi — h\+ (ее обозначим —ь), т. е. плоскость Li отнесла их в группу А (с благоприятным прогнозом в случае неприменения х/т), а плоскость L\ - в группу В (с неблагоприятным прогнозом при применении х/т); 42 точки попали в группу /г2 — /її— (группа ), т. е. и плоскость Li-, и плоскость L\ определили их как точки, попавшие в группу А (с благоприятным прогнозом в случае и применения химиотерапии, и без нее). Таблица 6: Прогноз для базы WCT-113 при применении химиотерапии (чел.) Множество h2+ hi+ hi + hi — hi - hi+ hi - hi — А В 12.3324.67 4.26 1.64 9.32 18.68 29.84 12.16 S 37 6 28 42 В табл. 6 приведен прогноз применения химиотерапии к каждой из четырех указанных групп пациентов без химиотерапии (база WCT-113) с учетом вероятности (см. табл. 13) их попадания в группу А (с благоприятным прогнозом) или В (с неблагоприятным прогнозом). Хотя в группе ++ оба прогноза неблагоприятны, применение химиотерапии переведет в группу А 12.3 пациента (а не 7, как оказалось на самом деле без нее - см. табл. 5). В группе Ч— при проведении химиотерапии 4.26 чел. попадут в группу Л -71 (а не 2, как оказалось без х/т), в группе —- 9.23 чел. окажутся в группе А ( а не 16, как без х/т). Наконец, в группе 29.84 пациента попадут в группу А (т. е. почти столько же, сколько попало без х/т). Таким образом, только пациентам группы —Ь строго не рекомендована химиотерапия. Следовательно, применение химиотерапии к группам ++ и Н— позволит перевести в группу А 12.3 + 4.3 = 16.6 пациента, а не 7 + 2 = 9, как произошло при отсутствии химиотерапии, т. е. на 7,6 чел. больше. Заметим, что (согласно общепринятой терминологии [2]) в данном случае база СТ-140 представляет собой обучающее множество (training set), а база WCT-113 - контрольное (testing set).
Разбиение базы СНЕМО-253 на подбазы
Приведем результаты анализа базы данных СНЕМО-253 (см. [90, 91]). К пациенту, которому сделана хирургическая операция по удалению опухоли, может быть либо применена, либо нет химио- и/или гормональная терапия; или не применена ни химио-, ни гормональная терапия. Как уже отмечалось, имеются четыре базы данных о пациентах, подвергшихся хирургической операции. Обозначим базу данных о пациентах, которым не была сделана ни химио-, ни гормональная терапия WCT-113 (или база I), базу данных о пациентах, прошедших курс только химиотерапии, - СТ-33 (или база II), базу данных о пациентах, которым назначен курс только гормональной терапии, - НТ-49 (или база III), базу данных о пациентах, испытавших и курс химиотерапии, и гормональной терапии, - СНТ-58 (или база IV).
Информация о базах I—IV сведена в табл. 11. Применение или неприменение химио- и гормональной терапии указано соответственно числами 1 или 0 в соответствующей графе. Предполагается, что эти базы представляют собой репрезентативные выборки из множества пациентов, подвергшихся хирургической операции. К сожалению, имеющаяся в нашем распоряжении база СНЕМО-253 не может считаться достаточно репрезентативной (особенно база СТ-33), поэтому выводы, которые будут сделаны ниже, имеют только иллюстративный характер. Для практического использования рекомендаций необходимо взять более обширную базу данных. Однако мы выбрали именно базу СНЕМО-253, поскольку она общедоступна и используется многими исследователями для сравнения эффективности методов идентификации.
В работе рассматривается следующая задача: найти критерий, с помощью которого для каждого конкретного пациента можно определить, следует ли ему рекомендовать химио- и/или термотерапию либо эти процедуры ему противопоказаны (т. е. дать прогноз о продолжительности жизни в случаях, если химио(гормо)терапия будет назначена и когда не назначена).
В настоящем параграфе приводятся данные, полученные с помощью двух параметров: наибольшая гладкость (worst smoothness) и наибольшая фрактальность (worst fractal dimension). Эти параметры были найдены по методике, описанной в главе 1. Выбранные параметры в базе СНЕМО-253 имеют соответственно номера 30 и 35. В силу сказанного выше, WCT-113 = AiUBi, СТ-33 = А2 U В2, НТ-49 = А3 U В3, СНТ-58 = АА U ВА.
Результаты разделения баз I—IV плоскостями L\ — L4 сведены в табл. 20. В последней строке этой таблицы указаны вероятности благоприятного исхода в случае попадания в соответствующее подмножество (Ai или В І) (СМ. табл. 13, 15, 17 и 19). Жирным шрифтом дается вероятность благоприятного исхода, если пациент оказался в соответствующем подмножестве с благоприятным исходом (т. е. в подмножестве Ai) при применении данной терапии (г-й). Так, если пациент имеет благоприятный прогноз при применении только гормональной терапии (т. е. в четырехзначном номере его группы на третьем месте стоит 1), то вероятность благоприятного исхода равна 0,542 (см. табл. 17); если же он неблагоприятный (т. е. в номере его группы на третьем месте стоит 0), то вероятность благоприятного исхода равна 0,4.
Для каждой группы (0000, 0001, 0010 и т. д.) в соответствующей ей строке указано количество пациентов из каждого подмножества (Ai и В І) базы і, і є {І, II, III, IV}, идентифицированных как пациенты этой группы. Так, в группе 0000 (т. е. в группе пациентов, для которых любой способ лечения имеет неблагоприятный прогноз) из подмножества А\ базы I оказалось 8 пациентов, из подмножества В\ базы I - 23; из подмножества Ач базы II - 1 пациент, из подмножества B i базы II - 16; из подмножества Аз базы III оказалось - 10 пациентов, из подмножества В базы III -15; из подмножества А\ базы IV - 6 пациентов, из подмножества В \ базы IV - 7. Общее количество пациентов, попавших в группу 0000, -86. Поскольку любой способ лечения для них имеет неблагоприятный прогноз, следует выбрать способ лечения, имеющий наибольшую вероятность успеха.