Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка системы поддержки принятия решений на основе прецедентов Юдин Валерий Николаевич

Исследование и разработка системы поддержки принятия решений на основе прецедентов
<
Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов Исследование и разработка системы поддержки принятия решений на основе прецедентов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Юдин Валерий Николаевич. Исследование и разработка системы поддержки принятия решений на основе прецедентов : диссертация ... кандидата технических наук : 05.13.11 / Юдин Валерий Николаевич; [Место защиты: Ин-т систем. программирования].- Москва, 2007.- 88 с.: ил. РГБ ОД, 61 07-5/4004

Содержание к диссертации

Введение

1 Обзор методов вывода по прецедентам и добычи данных в системах поддержки принятия решений 7

2 Организация базы прецедентов 33

2.1 Классификация неполностью описанных объектов 33

2.2 Мера близости 37

2.3 Отбор прецедентов 38

2.4 Адаптация решения 40

2.5 Выявление зависимостей 40

3 Реализация 48

3.1 Выбор структуры системы 48

3.2 Выбор средства программирования 49

3.3 Инсталляция системы 51

3.4 Система «Универсальный Классификатор» 53

3.5 Система «Спутник Врача» 62

3.6 Выводы 75

Заключение 77

Литература 79

Приложение. Акт о внедрении системы «Спутник Врача» 88

Введение к работе

В диссертации рассматривается задача построения систем поддержки принятия решений на основе прецедентов.

В настоящее время разработано множество различных программных систем поддержки принятия решений. Наиболее трудными для анализа и принятия решений являются ситуации, чьи характеристики не поддаются формализации, т.е. выявлению основных факторов, связей между ними и силы влияния одних факторов на другие. В силу недостаточности знаний об объекте и среде, в которой он функционирует, попытки получить точную модель поведения такого объекта не представляются возможными. Однако управление такими объектами представляет не меньший интерес и является не менее важным, чем управление хорошо формализуемыми объектами.

Вывод, основанный на прецедентах - это метод принятия решений, в котором используются знания о предыдущих ситуациях или случаях (прецедентах). При таком выводе прецедент, если он признан схожим, часто является обоснованием решения. Практика принятия решения, моделирующая человеческие рассуждения, применяется во многих областях человеческой деятельности. Это широкий спектр возможных приложений, в том числе управление слабо формализуемыми объектами, медицина, управление предприятием и т.д. Все это обусловливает актуальность и значимость исследований в этой области.

Одна из основных проблем при построении подобных систем - выбор наиболее подходящих прецедентов, который упирается в оценку схожести прецедента и текущего случая. Суть предлагаемого подхода - в том, чтобы при отборе прецедентов использовать знания о предметной области (фоновое знание), полученные методами добычи данных. Анализ исследований в области интеграции методов вывода по прецедентам и добычи данных выявил незначительное число готовых решений в данной области. Это связано с новизной проблемы и отсутствием проработанной практики решения

подобных задач. Такой подход востребован и актуален в области систем поддержки принятии решений.

Цель работы - разработка методики построения и реализация системы поддержки принятия решений на основе интеграции методов вывода по прецедентам и добычи данных.

Для достижения поставленной цели определены следующие основные задачи:

сформулировать метод построения интеллектуальных систем на основе интеграции алгоритмов и эвристик вывода по прецедентам и добычи данных,

решить проблему выбора наиболее подходящих прецедентов в условиях, когда объект исследования не полностью описан и оценивается неоднозначно,

реализовать программный комплекс на основе предложенных принципов и методов анализа данных.

На защиту выносятся следующие основные результаты:

метод выбора наиболее подходящих прецедентов (аналогов) для неполностью описанных объектов, базирующийся на предварительном разбиении базы прецедентов на классы эквивалентности,

метод принятия решений по прецедентам с использованием методов добычи данных для отбора прецедентов,

эвристический алгоритм обнаружения зависимостей,

система поддержки принятия решений на основе прецедентов.
Все результаты являются новыми.

Практическая ценность работы заключается в том, что на основе предложенного подхода реализована программная система поддержки врачебных решений «Спутник Врача», внедренная в Московском областном научно-исследовательском клиническом институте (МОНИКИ).

Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на 5 научных конференциях:

6-я международная конференция "РАСПОЗНАВАНИЕ ОБРАЗОВ И АНАЛИЗ ИЗОБРАЖЕНИЙ: НОВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ" (РОАИ-6-2002), октябрь 2002г., Великий Новгород,

6-й открытый российско-немецкий семинар "РАСПОЗНАВАНИЕ ОБРАЗОВ И ПОНИМАНИЕ ИЗОБРАЖЕНИЙ", Поселок Катунь, Республика Алтай, РФ, август 2003г.,

11-я Всероссийская конференция "Математические методы распознавания образов (ММРО-11)", Пущино, 2003г.,

международная научная конференция "Интеллектуализация обработки информации (ИОИ 2004)", Алушта, 2004г.,

12-я Всероссийская конференция "Математические методы распознавания образов (ММРО-12)", Звенигород, 2005г.

Система поддержки врачебных решений «Спутник Врача» внедрена в эксплуатацию в Московском Областном Научно-исследовательском Клиническом Институте (МОНИКИ) с весны 2007 года.

Результаты, полученные в диссертации, включались в научные отчеты по проектам РФФИ № 03-01-00322, № 06-07-89098, № 06-01-00503.

Краткое описание следующих глав:

В первой главе дан обзор методов вывода по прецедентам и добычи данных, приведена мотивация для интеграции обоих методов в системах поддержки принятия решений и возможные подходы к ней. На примере различных систем показано, что интеграция является не только возможной, но и заслуживающей внимания.

Во второй главе описывается подход к классификации неполностью описанных объектов, на его основе определяются мера близости и метод отбора прецедентов. Описывается эвристический алгоритм обнаружения зависимостей.

Третья глава посвящена реализации системы поддержки принятия решений в интегрированной среде объектно-ориентированного программирования Borland C++ Builder. Перечислены основные технические требования, предъявляемые к системе. Описываются две инсталляции системы:

«Универсальный Классификатор» - система, предназначенная для исследователя и реализующая набор возможностей для анализа данных.

Система поддержки врачебных решений «Спутник Врача» - система вывода по прецедентам. Приведены результаты, которые показали обе системы.

В заключении подведены итоги проделанной работы, сформулированы основные результаты и направления дальнейших исследований.

Обзор методов вывода по прецедентам и добычи данных в системах поддержки принятия решений

Вывод на основе прецедентов - это метод принятия решений, в котором используются знания о предыдущих ситуациях или случаях (прецедентах). При рассмотрении новой проблемы (текущего случая) находится похожий прецедент в качестве аналога. Вместо того чтобы искать решение каждый раз сначала, можно пытаться использовать решение, принятое в сходной ситуации, возможно, адаптировав его к изменившейся ситуации текущего случая. После того, как текущий случай будет обработан, он вносится в базу прецедентов вместе со своим решением для его возможного последующего использования. Более формальное определение дано в [34]. Прецедент - это описание ситуации, в которой указана проблема, в совокупности с указанием действий, предпринятых для решения этой проблемы. Это может быть либо ранее произошедший случай, либо типовой пример решения проблемы. Согласно [19], прецедент включает: 1. Описание проблемы, 2. Описание решения проблемы, 3. Результат применения решения (исход). Описание проблемы должно содержать информацию, необходимую для достижения цели вывода.

Прецеденты могут быть описаны по-разному: в виде записей баз данных, поля которых содержат признаки ситуации, в плоских файлах, в виде древовидных структур, и т. д. Описание может включать ссылки на другие прецеденты, дополнительную текстовую информацию (комментарий).

Решение, содержащееся в прецеденте, это совокупность действий, направленных на достижение этой цели. Например, если цель состоит в диагностике заболеваний, то описательная информация должна содержать симптомы больного, результаты лабораторных исследований, и т.д. Если цель - выбор лечения, то в дополнение к этой информации, возможно, в сочетании с диагнозом, понадобятся еще хронология состояния больного, сведения о возможной аллергической реакции на те или иные лекарственные средства и т. д. Этапы примененного к больному лечения могут также сохраняться в описании решения. Прецедент тем ценнее, чем больше информации о решении проблемы он хранит. Исход - это результат применения решения. Описание результата может содержать перечень выполненных операций, результат их выполнения (например, состояние больного после примененного лечения). Прецедент может содержать не только положительный исход. Информацию о том, что у больного не наступило улучшение самочувствия в результате лечения, надо сохранять, чтобы избежать бесполезных назначений в будущем. Объяснение того, какой отказ произошел, и почему, может быть использовано в будущем. Некоторые системы могут хранить обоснование примененного решения в качестве комментария. Хотя не все системы вывода, основанного на прецедентах, полностью включают этапы, приведенные ниже (рис. 1.1), подход, основанный на прецедентах, в целом состоит из следующих компонентов [14]: 1. Извлечение из библиотеки (базы) прецедентов наиболее подходящих прецедентов для текущего случая. 2. Адаптация и применение выбранного из прецедента решения к текущему случаю. 3. Оценка применения (проверка корректности). 4. Сохранение (добавление текущего случая в базу прецедентов).

Одна из основных проблем при построении подобных систем - выбор наиболее подходящих прецедентов. Цель выбора - поиск прецедентов, которые содержат решение, потенциально полезное для решения проблемы, указанной в текущем случае. Если нет совпадающих прецедентов, нужно либо рассматривать все варианты, либо доверить эксперту выбор наиболее подходящих из них. Первый способ приводит к большим издержкам по времени и памяти, второй - предполагает включение человека в процесс рассуждения, что нежелательно.

«Традиционные методы анализа многомерных данных, опирающиеся на геометрическую метафору, используют представление об общем пространстве признаков для всех объектов и об одинаковой мере, применяемой для оценки их сходства или различия. ... В задачах формирования знаний, когда мы имеем дело с системами надкибернетического уровня сложности, каждый объект следует рассматривать как самостоятельный информационный факт (совокупность зафиксированных значений признаков), имеющий важные уникальные особенности. Последние раскрываются путем конструирования для любого объекта собственного пространства признаков и нахождения индивидуальной меры, определяющих иерархию его сходства с другими объектами, релевантную заданному контексту...» [76].

Конструирование собственного пространства признаков и нахождение индивидуальной меры в работе называется «локальным преобразованием пространства признаков». В частности, в случае преобразования в классификационный показатель «все объекты, проранжированные по удаленности..., заменяются идентификатором своего класса, образно говоря, "окрашиваются" в цвета своего класса» [76].

Меру близости можно ввести разными способами, например, явным перечислением близких прецедентов, либо указав правило их отбора в какой-либо форме. Оригинальный способ введения меры близости описан в главе 2.

После того, как выбран подходящий прецедент, при поиске решения для целевой проблемы выполняется адаптация - модификация имеющегося в нем решения. Процесс модификации может включать в себя разные варианты действий. В общих чертах, это замена компонентов решения применительно к текущему случаю.

Задача адаптации и использования найденного решения до сих пор остается недостаточно формализованной, весьма сложной и сильно зависящей от предметной области. По этой же причине невозможно выработать единый подход к адаптации.

Если перейти к истории возникновения систем вывода по прецедентам, то первое упоминание о таком подходе прослеживается в работе Р. Шанка [59]. Изложенные им идеи были далее расширены Д. Колоднер, которая разработала систему CYRUS [50]. С 1988 года проводился ряд ежегодных семинаров под эгидой DARPA (Управление Перспективных Исследований Министерства Обороны США). Интерес к методу вырос в последние годы, регулярно проводятся конференции и семинары типа широко известного Европейского семинара (EWCBR, в последующем - ECCBR), семинара Соединенного Королевства (UKCBR).

К ранним разработкам относят CHEF [41] - систему, которая предназначалась для формирования кулинарных рецептов. Эта программа принимает информацию о целевых характеристиках блюда (тип, вкусовые качества, своеобразие) и формирует подходящий рецепт. Результатом работы программы должен быть рецепт - последовательность операций, позволяющая приготовить такое блюдо. Получив заказ, программа просматривает свою базу прецедентов, отыскивает в ней рецепт приготовления аналогичного блюда и адаптирует его в соответствии с особенностями текущего заказа.

Исследователи пришли к выводу, что представление знаний внутри подобных систем должно со временем привести к созданию систем обучения с помощью компьютера. В основу программы HYPO [26, 27], которая была создана для обучения студентов-юристов методике ведения судебных дел, положена абстрактная модель процесса прения сторон. В юриспруденции стороны процесса выдвигают аргументы, выражающие противоположные интересы, с помощью которых пытаются склонить на свою сторону судью и присяжных, убедить их в том, что именно предлагаемая интерпретация закона и фактов является корректной в данном случае. Базовая предпосылка, сделанная авторами, состоит в том, что эти ходы могут быть описаны в рамках какой-то системы и затем использованы для обучения. Для выполнения очередного хода в игре нужно выбрать прецеденты в базе знаний о прецедентах, причем выбор должен учитывать как информацию о текущем случае, так и возможные ходы оппонентов.

Отбор прецедентов

Описанная мера близости лишь частично отражает специфику отбора прецедентов. В ней используется описание текущего случая и прецедента до применения решения. При отсутствии точного аналога прецеденты выстраивают по рангу. При наличии нескольких аналогов одного ранга, их можно сравнивать по другим критериям.

Для принятия решения важнее всего результат, а именно, то, насколько оно приближает к цели. При отборе прецедентов следует учитывать и этот критерий. Если итог представляет собой один дихотомический признак (успех, неуспех), отфильтровать по нему прецеденты легко. В общем случае, при совпадении признаков прецедентов одного ранга более близким можно считать прецедент, больше приближающий к цели.

Первоначальный отбор прецедентов может не дать ощутимого результата. Например, наличие в текущем случае всего лишь одного признака «высокая температура» даст обилие аналогов. Тогда нужно либо констатировать, что с таким набором признаков проблему не решить, либо наращивать этот набор.

Отбор прецедентов можно разбить на несколько этапов. Сначала выбираем аналоги, соответствующие текущему случаю. Далее производим оценку, насколько этот набор конкретен для того, чтобы выбранные прецеденты можно было использовать. При отрицательном ответе нужно принимать меры для выявления дополнительных признаков. Перечень признаков, которые будут дифференцировать классы, в пересечение которых попал текущий случай, как показано, можно взять из самих прецедентов. Часть признаков заведомо не удастся выявить (например, не работает аппарат, нет специалиста, и т.п.), остальные можно расположить по рангу в зависимости от степени влияния признака на разделение классов (ниже будет описан эвристический алгоритм определения такого влияния).

По мере выявления дополнительных признаков весь цикл повторяется. Система, в действительности, сама не принимает решения, какие прецеденты оставить, а только предлагает несколько возможных вариантов, возможно, выстроив их в порядке предпочтения. Нет четких критериев для решения о том, какие прецеденты можно использовать, а какие - нет. Решение всегда остается за человеком. Он принимает его, используя знания о предметной области, в дополнение к тому фоновому знанию, которое имеется в системе.

Так, опытный врач, пытаясь избежать ненужных и дорогостоящих исследований, выбирает исследования, основываясь на своем опыте, учитывая значимость показателей и скрытые связи между ними.

После того, как выбран подходящий прецедент, выполняется адаптация - модификация имеющегося в прецеденте решения с целью его оптимизации к текущему случаю. Как уже упоминалось, невозможно выработать единый подход к адаптации, так как это в большой степени зависит от предметной области. Многие системы только извлекают из базы наиболее подходящие прецеденты, а процесс адаптации оставляют за человеком.

Прецеденты часто содержат достаточно информации для принятия человеком решения. Иногда в адаптации просто нет необходимости (например, при диагностике заболеваний).

Во многих случаях без выявления дополнительных признаков достоверная классификация объекта невозможна. Если знать влияние того или иного признака по его вкладу в близость прецедентов, задача облегчается: несущественные признаки можно не принимать во внимание или выявлять в последнюю очередь.

Традиционно используемые при исследовании данных регрессионные методы являются основным средством для исследования зависимостей в данных, позволяющих по значениям независимых (входных) признаков получать оценки значений зависимого (целевого) признака. Эти методы основаны на стандартных статистических методиках и требуют значительного объема вычислений. Самая распространенная модель линейной регрессии требует решения системы линейных уравнений для получения коэффициентов регрессии по каждой входной переменной.

Но в большом числе случаев нет нужды искать точную форму функциональной зависимости. Необходимо обнаружить само наличие связей и оценить степень зависимости.

При исследовании данных с целью выявления зависимостей встречается и другая постановка задачи: задано разбиение объектов на диапазоны значений по целевому признаку, необходимо выявить влияние указанного входного признака на это разбиение. Если целевой признак - принадлежность объекта к тому или иному классу, он превращается в номинальную величину, определенную на конечном множестве значений.

Для разрабатываемой прикладной системы поддержки принятия решений на основе прецедентов был предложен быстрый метод выявления зависимостей. Метод имеет простую геометрическую интерпретацию: влияние признака на принадлежность объекта к тому или иному классу определяется тем, насколько разделены классы по этому признаку.

Рассмотрим проекции объектов и самих классов на этот признак. Объект, находящийся в одном из классов, может попасть в проекцию только своего класса, либо одновременно в проекцию другого класса (или классов), если эти классы пересекаются. Введем понятие значимости признака (по его влиянию на разделение классов) и определим её как отношение числа объектов в классах к числу попаданий в проекции классов на этот признак. Она равна 1, когда классы разделены, и меньше I, когда классы пересекаются.

На рис. 2.4 условно изображены 9 объектов в двух классах. У 4-х из них признак Xi попадает в проекции обоих классов. Значимость признака х\ равна (5+4)/(5+4 2) = 9/13. Для случая двух классов значимость признака может варьироваться от 1 до 1/2, для трех - от 1 до 1/3, и т.д.

Рассмотрим несколько видоизмененную задачу определения взаимозависимости двух признаков, один из которых выберем как входной, другой - как целевой, с заданными на нем диапазонами значений.

Пусть на оси х2 (рис. 2.5) выделены два интервала, разделяющие объекты по значениям этого признака на две группы. Рассматривая эти группы как кластеры, отметим их проекции на ось Xi. Если полученные интервалы не пересекаются, признак х\ является определяющим для заданного разделения. Если интервалы пересекаются, то о степени влияния х\ на это разделение можно судить по значимости признака х\, вычисляемой так же, как и в предыдущем примере.

Выявление зависимостей

После того, как выбран подходящий прецедент, выполняется адаптация - модификация имеющегося в прецеденте решения с целью его оптимизации к текущему случаю. Как уже упоминалось, невозможно выработать единый подход к адаптации, так как это в большой степени зависит от предметной области. Многие системы только извлекают из базы наиболее подходящие прецеденты, а процесс адаптации оставляют за человеком.

Прецеденты часто содержат достаточно информации для принятия человеком решения. Иногда в адаптации просто нет необходимости (например, при диагностике заболеваний).

Во многих случаях без выявления дополнительных признаков достоверная классификация объекта невозможна. Если знать влияние того или иного признака по его вкладу в близость прецедентов, задача облегчается: несущественные признаки можно не принимать во внимание или выявлять в последнюю очередь.

Традиционно используемые при исследовании данных регрессионные методы являются основным средством для исследования зависимостей в данных, позволяющих по значениям независимых (входных) признаков получать оценки значений зависимого (целевого) признака. Эти методы основаны на стандартных статистических методиках и требуют значительного объема вычислений. Самая распространенная модель линейной регрессии требует решения системы линейных уравнений для получения коэффициентов регрессии по каждой входной переменной.

Но в большом числе случаев нет нужды искать точную форму функциональной зависимости. Необходимо обнаружить само наличие связей и оценить степень зависимости.

При исследовании данных с целью выявления зависимостей встречается и другая постановка задачи: задано разбиение объектов на диапазоны значений по целевому признаку, необходимо выявить влияние указанного входного признака на это разбиение. Если целевой признак - принадлежность объекта к тому или иному классу, он превращается в номинальную величину, определенную на конечном множестве значений.

Для разрабатываемой прикладной системы поддержки принятия решений на основе прецедентов был предложен быстрый метод выявления зависимостей. Метод имеет простую геометрическую интерпретацию: влияние признака на принадлежность объекта к тому или иному классу определяется тем, насколько разделены классы по этому признаку.

Рассмотрим проекции объектов и самих классов на этот признак. Объект, находящийся в одном из классов, может попасть в проекцию только своего класса, либо одновременно в проекцию другого класса (или классов), если эти классы пересекаются. Введем понятие значимости признака (по его влиянию на разделение классов) и определим её как отношение числа объектов в классах к числу попаданий в проекции классов на этот признак. Она равна 1, когда классы разделены, и меньше I, когда классы пересекаются.

Рассмотрим несколько видоизмененную задачу определения взаимозависимости двух признаков, один из которых выберем как входной, другой - как целевой, с заданными на нем диапазонами значений.

Пусть на оси х2 (рис. 2.5) выделены два интервала, разделяющие объекты по значениям этого признака на две группы. Рассматривая эти группы как кластеры, отметим их проекции на ось Xi. Если полученные интервалы не пересекаются, признак х\ является определяющим для заданного разделения. Если интервалы пересекаются, то о степени влияния х\ на это разделение можно судить по значимости признака х\, вычисляемой так же, как и в предыдущем примере. о о Ш X/

Влияние дихотомического признака %\ на разделение классов Каждый класс проецируется в две точки на оси х\, причем обе проекции совпадают. К дихотомическому признаку неприменимо понятие «граница», поэтому поступим по-другому. Чтобы использовать ту же формулу для вычисления значимости, как в предыдущем случае, предположим, что у каждого класса есть «своя» и «чужая» точки в этих проекциях. Если объект класса проецируется в «свою» точку, он имеет одно попадание в проекцию, если в «чужую» - еще одно дополнительное попадание (по аналогии с областью пересечения в первоначальном варианте).

Предложенный метод представляет удобный набор возможностей для выбора наиболее информативных признаков. Он позволяет быстро обнаружить наличие связей в данных и получить данные о степени зависимости, хотя и не предоставляет точную форму этой зависимости. Метод удобен для первичного обнаружения зависимости в данных. Если необходимо, исследование можно продолжить с помощью других средств статистического анализа. Метод легко работает с массивами данных большой размерности. Процедура исследования разбивается на два этапа: первый проход - по всем объектам для выделения проекций множеств на каждый из входных признаков; второй проход - по уже выделенным объектам - для подсчета числа попаданий в проекции. Для случая, когда исследуется влияние признака на разделение классов, достаточно одного прохода, так как границы классов по каждому признаку известны.

Учитывая, что, главной проблемой методов обнаружения зависимостей является перебор вариантов за приемлемое время, процедура исследования упрощается, позволяя перейти от массивного перебора к сравнению границ классов.

Метод можно широко применять для оценки влияния факторов в медицине, особенно в лабораторных исследованиях, в банковском деле и во многих других сферах.

Пример 1. Поиск факторов, влияющих на продолжительность лечения в стационаре. Входные факторы - показатели пациента - берутся из историй болезни. Один из показателей - срок пребывания в стационаре - принимается за целевой фактор. Выделив на нем диапазоны значений, можно искать значимые входные показатели, которые дают наилучшее разделение по срокам пребывания.

Пример 2. Необходимо оценить факторы, влияющие на результат лечения определенного вида, примененного к группе больных. По результату лечения больных разделили на группы с положительной и отрицательной динамикой. Считая результат целевым фактором, нужно исследовать пространство исходных показателей пациентов и установить, какие из них несовместимы с данным лечением. В этом случае достаточно оценить лишь степень влияния каждой из входных переменных, выразив ее, например, в диапазоне от 0 до 1.

Пример 3. Банковское дело. Анализ оправданных и неоправданных кредитных рисков. Целевым фактором при выявлении скрытых закономерностей в архивных банковских данных является возврат кредита. Входными признаками, которые необходимо исследовать, служат сведения о клиенте. Метод можно применять для прогноза возврата кредита.

Система «Универсальный Классификатор»

Как уже упоминалось, задача системы «Универсальный Классификатор» - довести до пользователя интерфейс прикладного уровня. Поэтому все, что будет говориться здесь о системе, за исключением форм, будет касаться прикладного уровня. На рис. 3.3 показана иерархия основных сущностей и связи в системе «Универсальный Классификатор» (значок т — означает отношение «многие-к-одному»).

Компоненты, отвечающие за доступ к данным и логику системы, отделены от интерфейсных элементов (форм) для облегчения ее дальнейшей модернизации. Для этой цели в BDE C++ Builder имеется специальный тип, называемый модулем данных. Часть диаграммы данных этого модуля приведена на рис. 3.4. Основные сущности, входящие в структуру данных (приложение, класс, объект, признак), размещены в левой части диаграммы. Для полноты логической структуры необходимо также хранить описания признаков приложения, описания (границы) классов, результаты распознавания (отнесения объектов к классам), области пересечения классов, аналоги, входные и целевые признаки, а также интервалы на них для выявления зависимостей. Все они образуют те или иные связи между собой и основными сущностями. Например, каждая из сущностей Аналоги и Область Пересечения образует связи многие-к-одному с сущностью Объект (объект может иметь несколько аналогов и может входить в область пересечения по нескольким признакам).

Реляционный вид представления данных является оптимальным для приложений с нефиксированным набором признаков. Для сравнения рассмотрим другой способ хранения - табличный, или плоский, когда объекты расположены по строкам, а признаки - по столбцам. Если признак отсутствует, его место в таблице - пустое, но хуже всего - то, что невозможно предугадать ширину такой таблицы: появление нового признака неизбежно приведет к ее расширению, т.е. переопределению всей таблицы.

Вид формы выбирался, исходя из определенных требований к дизайну. Чтобы избежать перенасыщения экрана большим количеством полей, использовались закладки. Основные (часто используемые) поля могут быть продублированы во всех закладках, другие - доступны только в конкретной закладке, в зависимости от стадии процесса.

В 2002 году был произведен эксперимент с обезличенными данными для проверки работоспособности системы. Институтом Биохимической физики РАН была предоставлена выборка, состоящая из двух групп объектов. В группу 1 входит 104 объекта (участники ликвидации аварии на ЧАЭС), в группу 0-34 объекта (контрольная выборка). В описании объектов - до 69 признаков (присутствуют различные параметры человеческого организма). Требуется выявить влияние признаков на принадлежность к группе и выбрать из них главный.

После того, как обучающая выборка была введена в систему, объекты были снова предъявлены системе (рис. 3.6). В левом нижнем поле окна -информация о том, что из 104 объектов 1-й группы, 3 были отнесены одновременно к обоим классам, остальные оценены однозначно. С другой стороны, из 34 объектов 0-й группы 15 отнесены к обоим классам. Это говорит о том, что в области пересечения находится почти половина группы 0, и только небольшая часть группы 1.

Как оценить взаимное расположение классов, наличие областей пересечения? Геометрически невозможно представить перекрытие классов в пространстве, размерность которого больше трех. В системе для наглядности выбран простой способ: распознавание контрольной выборки. В качестве последней используется вся совокупность объектов с заранее заданной принадлежностью (обучающая выборка, или результат разбиения на кластеры).

Пользователь любит работать в знакомой ему обстановке. Поэтому «Спутник Врача» содержит амбулаторную карту и справочники в таком виде, с которым врач привык работать. Карта органично вписана в процесс принятия решения. Структура справочников хранит основные типы исследований, их состав, заболевания, показатели заболеваний, модели лечения и многое другое (рис. 3.9). И-Н-М 1

Похожие диссертации на Исследование и разработка системы поддержки принятия решений на основе прецедентов