Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления Демин Александр Викторович

Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления
<
Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Демин Александр Викторович. Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления : диссертация ... кандидата физико-математических наук : 05.13.11 / Демин Александр Викторович; [Место защиты: Ин-т систем. инфор.].- Новосибирск, 2008.- 171 с.: ил. РГБ ОД, 61 09-1/170

Содержание к диссертации

Введение

ГЛАВА 1. Анализ методов извлечения знаний из данных 14

1.2. Реляционный подход к извлечению знаний 20

1.3. Постановка задачи разработки метода извлечения знаний и метода предсказания . 27 CLASS ГЛАВА 2. Метод извлечения знаний и метод предсказания 30 CLASS

2.1. Метод извлечения знаний из данных 30

2.1 Л. Формализация способа задания классов гипотез 30

2.1.2. Определение вероятностной закономерности 36

2.1.3. Метод обнаружения вероятностных закономерностей 39

2.1.4. Алгоритм поиска вероятностных закономерностей 44

2.2. Метод предсказания и метод принятия решений 49

2.2.1. Общая формулировка метода предсказания 49

2.2.2. Метод предсказания 50

2.2.3. Метод предсказания, основанный на оценке максимальной вероятности 54

2.2.4. Метод принятия решений 71

ГЛАВА 3. Систама «discovery» и ее применения 74

3.1. Программная система «Discovery» 74

3.1.1. Описание системы «Discovery» 74

3.1.2. Технология решения задач в системе «Discovery» 83

3.2. Применение системы «Discovery» в медицине 86

3.2.1. Проблема диагностики фолликулярной опухоли щитовидной железы 86

3.2.2. Диагностика по цитологическим признакам 88

3.2.3. Диагностика по УЗИ признакам 93

3.2.4. Обсуждение и заключение 98

3.3. Применение системы «Discovery» в финансах 99

3.3.1. Разработка торговой системы 99

3.3.2. Тестирование торговой системы 103

3.3.3. Сравнение с другими методами 110

3.3.4. Выводы 115

3.4. Применение системы «Discovery» в биоинформатике 116

3.4.1. Задача распознавания ССТФ 116

3.4.2. Применение системы «Discovery» для распознавания ССТФ 119

3.4.3. Обсркдение 124

ГЛАВА 4. Модель адаптивной системы упраления 126

4.1. Обзор адаптивных систем управления и проблемы их разработки 126

4.2. Система управления аниматом

4.2.1. Теория функциональных систем 135

4.2.2. Архитектура системы управления 137

4.2.3. Модель работы функциональной системы 140

4.2.4. Схема работы системы управления 144

4.2.5. Метод самообучения 147

4.2.6. Метод обнаружения подцелей 152

4.3. Эксперименты 154

Заключение 163

Литература

Введение к работе

Актуальность проблемы. В последние годы интенсивно развивается направление исследований Knowledge Discovery in Databases and Data Mining (KDD&DM). К настоящему времени разработано достаточно большое количество KDD&DM методов и реализующих их программных систем. Однако существующие на данный момент KDD&DM методы обладают рядом ограничений, не позволяющих извлечь из данных знания в полном объеме. Впервые эта проблема была сформулирована на международной конференции «Philosophies and Methodologies for Knowledge Discovery» (25 августа 2005, Копенгаген) и продолжает активно обсуждаться.

В результате анализа выясняются следующие основные ограничения существующих KDD&DM методов:

  1. каждый метод ориентирован на работу с вполне определенными данными и позволяет использовать для анализа только часть информации, содержащейся в данных;

  2. каждый метод явно или неявно обнаруживает на данных только вполне определенные типы закономерностей.

Тем самым становится актуальной проблема разработки такого метода извлечения знаний, который обладал бы достаточно универсальностью, чтобы использовать всю информацию, содержащуюся в данных, и обнаруживать любые виды закономерностей. Разработку такого метода целесообразно осуществлять, основываясь на некотором общем универсальном подходе к проблеме извлечения знаний. На данный момент единственным подходом, в котором в достаточно полном объеме разрешены все теоретические и философские аспекты для разработки такого метода, является реляционный подход к извлечению знаний, предложенный в работах Е.Е. Ви-тяева и Б.Я. Ковалерчука. Данный подход использует язык логики первого порядка с вероятностной мерой для представления данных и формулировки различных видов закономерностей. Идеи реляционного подхода позволяют преодолеть большинство ограничений существующих KDD&DM методов. Однако реляционный подход не был сформулирован в виде конкретного метода извлечения знаний, пригодного для практической реализации в виде программной системы. Таким образом, задача разработки «универсального» метода остается актуальной.

В данной работе предложен логико-вероятностный метод извлечения знаний, основанный на идеях реляционного подхода. Данный метод реализован в виде программной системы и обладает достаточной универсальностью, чтобы использовать всю информацию, содержащуюся в данных, и обнаруживать любые виды закономерностей.

В настоящее время все чаще оказывается целесообразным использовать обнаруженные при помощи KDD&DM методов знания для осуществления прогноза в различных научно-прикладных задачах. Предложенный

метод обладает рядом преимуществ по сравнению с существующими KDD&DM методами, однако пока еще отсутствует необходимый опыт применения данного метода для решения задач прогноза. Поэтому важной задачей является разработка методов предсказания, использующих предложенный метод, и их исследование на примере решения реальных прикладных задач. В данной работе рассматривается применение разработанного метода извлечения знаний для построения прогнозирующих систем, предназначенных для решения ряда актуальных прикладных задач: 1) диагностика фолликулярного рака щитовидной железы (в медицине); 2) прогнозирования курсов ценных бумаг (в финансах); 3) распознавание сайтов связывания транскрипционных факторов (в биоинформатике).

В последнее время KDD&DM методы активно используются в алгоритмах самообучения адаптивных систем управления. Однако анализ показывает, что в сложившихся условиях постоянной тенденции к увеличению сложности и разнообразия задач управления, существующие подходы к построению адаптивных систем управления уже не способны обеспечить необходимый уровень управления и адаптации. Становится актуальной задача разработки универсальной системы управления, основанной на некоторых общих универсальных принципах управления и адаптации.

Разработку универсальной системы управления целесообразно проводить, отталкиваясь от общих концептуальных теорий и схем. Одной из таких общих концепций является теория функциональных систем, разработанная в 1930-70-х годах советским нейрофизиологом П.К. Анохиным. В данной работе предлагается новая модель универсальной адаптивной системы управления, которая включает схему управления на основе теории функциональных систем П.К. Анохина, алгоритм самообучения на основе разработанного логико-вероятностного метода извлечения знаний и возможность автоматического обнаружения новых подцелей.

Цель работы. Целью работы является разработка логико-вероятностного метода извлечения знаний из данных и его применение для создания прогнозирующих систем и разработки модели адаптивной системы управления. Для достижения этой цели необходимо:

1. Разработать метод обнаружения на данных полного множества закономерностей для заданного класса гипотез, выраженных в языке логики первого порядка, пополненного вероятностными оценками. Для решения этой задачи необходимо:

а) разработать спецификацию фрагмента языка логики первого по
рядка для задачи обнаружения знаний в таблицах данных;

б) разработать интерактивный способ задания классов гипотез для
рассматриваемых данных;

в) разработать алгоритм обнаружения на данных полного множества закономерностей заданного класса.

  1. Разработать метод предсказания, использующий множество вероятностных закономерностей, обнаруженных на данных.

  2. Разработать и реализовать программную систему, позволяющую задавать класс обнаруживаемых закономерностей, извлекать из данных множество закономерностей заданного класса, использовать найденные закономерности для прогноза и принятия решений.

  3. Используя разработанный метод и программную систему, провести ряд вычислительных экспериментов в исследованиях, связанных с решением следующих задач: 1) диагностика фолликулярного рака щитовидной железы; 2) прогнозирование финансовых временных рядов; 3) распознавание сайтов связывания транскрипционных факторов.

  4. Разработать модель адаптивной системы управления, основанной на логико-вероятностном методе извлечения знаний из данных и обладающей возможностями самообучения, формирования иерархии целей и автоматического обнаружения новых подцелей.

  5. Провести ряд вычислительных экспериментов по исследованию возможностей разработанной модели адаптивной системы управления.

Методы исследования. В работе использовались аппарат и методы математической логики, теории вероятности и математической статистики. Основным методом исследования являлось представление информации, содержащейся в данных, в виде множества отношений и операций в языке логики первого порядка и разработке специальных методов вычисления и обнаружения вероятностных закономерностей, выраженных в терминах этих отношений и операций. Разработка модели адаптивной системы управления осуществлялась путем формализации основных принципов организации и работы функциональных систем организма, изложенных в теории функциональных систем П.К. Анохина. При проектировании и разработке программных систем использовались методы объектно-ориентированного программирования, проектирования и анализа алгоритмов и программ.

Научная новизна. Следующие результаты, полученные в данной диссертации, раскрывают научную новизну работы:

  1. Разработана спецификация фрагмента языка логики первого порядка для задачи обнаружения знаний в таблицах данных.

  2. Разработан способ представления классов гипотез для рассматриваемых данных, позволяющий реализовать интерактивную систему задания классов гипотез.

  1. Разработан алгоритм обнаружения вероятностных закономерностей, реализующий семантический вероятностный вывод.

  2. Разработан метод предсказания и принятия решений, использующий множество вероятностных закономерностей, обнаруженных на данных.

  3. Разработана архитектура программной системы, реализующей предложенный метод обнаружения закономерностей.

  4. Разработана новая модель адаптивной системы управления, основанной на теории функциональных систем П.К. Анохина.

  5. Разработан метод самообучения системы управления, основанный на методе обнаружения по истории деятельности системы множества вероятностных закономерностей, дающих максимально вероятный прогноз достижения цели.

  6. Разработан метод автоматического обнаружения новых подцелей и формирования иерархии целей.

Практическая ценность. Разработана программная система «Discovery», предназначенная для обнаружения закономерностей на данных и осуществления прогноза на основе обнаруженных закономерностей. Разработанная система была успешно применена для решения следующих задач:

  1. В медицине для диагностики фолликулярного рака щитовидной железы. Автор работы вместе с д.м.н. Т.Л. Полоз и проф. В.А. Шкурупием являются авторами патента на изобретение № 2293524 «Способ дифференциальной диагностики фолликулярной аденомы и фолликулярного рака щитовидной железы».

  2. В финансах для прогнозирования курсов ценных бумаг.

  3. В биоинформатике для распознавания сайтов связывания транскрипционных факторов. Результаты работы были использованы в работах по гранту РФФИ 05-07-90185в «Разработка научно-исследовательского комплекса программ "Expert Discovery" познания строения всех уровней геномной ДНК» и интеграционному проекту СО РАН № 115 «Разработка интеллектуальных информационных технологий генерации и анализа знаний для поддержки фундаментальных научных исследований в области естественных наук».

Результаты работы по разработке модели адаптивной системы управления использовались в работах по Программе Президента Российской Федерации поддержки научных школ 4413.2006.1.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих научных конференциях: Меж-

дународная конференция «Мальцевские чтения» (Новосибирск, 2006); Конференция-конкурс «Технологии Microsoft в теории и практике программирования» (Новосибирск, 2007); Всероссийская конференция с международным участием «Знания - Онтологии - Теория» (Новосибирск, 2007).

Кроме того, полученные результаты обсуждались на семинарах в Институте систем информатики СО РАН и в Институте математики СО РАН.

Публикации. По материалам диссертации опубликовано 20 печатных работ, среди которых 10 статей в периодических изданиях и журналах, 3 статьи в трудах конференций, 6 тезисов докладов научных конференций, 1 патент на изобретение.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы. Объем работы составляет 171 страницу. Список литературы содержит 85 наименований. Работа включает 25 рисунков и графиков, полученных в результате расчетов на ЭВМ.

Постановка задачи разработки метода извлечения знаний и метода предсказания

Рассмотрим, как должен осуществляться процесс извлечения знаний для некоторой предметной области в соответствии с реляционным подходом [7-13].

Для этого надо сначала задать предметную область. Задание предметной области осуществляется заданием онтологии. Поэтому первый шаг в обнаружении знаний состоит в задании онтологии. Онтология включает: систему понятий предметной области, в которой формулируется и интерпретируется эмпирическая теория; в свойства, признаки, величины и соответствующие измерительные процедуры, интерпретируемые в системе понятий; априорные и экспертные знания; Предполагается, что онтология является заданной. Извлечение всей интерпретируемой информации из данных. В реляционном подходе для корректного извлечения всей интерпретируемой информации из числовых данных предлагается использовать теорию измерений [34-36].

Теория измерений основана на принципе: свойства определяются отношениями. Из теории измерений следует, что числовые значения величин и функциональные выражения для законов являются лишь удобным и математически хорошо разработанным способом числового кодирования элементов эмпирических систем [7,37-38]. Например, число 5 само по себе смысла не имеет, оно приобретает смысл лишь при его интерпретации в некоторой эмпирической системе: например, если мы говорим 5 метров, 5 баллов, 5 деталей и т. д. Интерпретация чисел, в частности, определяет, какие математические действия с ними можно осмысленно проводить, чтобы не получать бессмысленных результатов типа 1.5 дровосека, 1 м + 1 кг и т.д. Фиксация набора интерпретируемых отношений и операций приводит нас к понятию эмпирической системы [7,37-38]. Эмпирическая система — это множество (идеали зированных) объектов с заданным на нем множеством интерпретируемых в системе понятий отношений и операций, удовлетворяющих некоторой системе аксиом. Такой семантический уровень рассмотрения с необходимостью возникает из того факта, что интерпретировать человек может только качественно. Поэтому, интерпретируя количественные значения величин, модели, функции и т. д., он интерпретирует их качественно — в системе понятий предметной области — и в промежуточной стадии такой интерпретации — на семантическом уровне в (многосортной) эмпирической системе.

В теории измерений определяются в некотором смысле «истинные» величины и зависимости. Числовые представления величин, получаемые в теории измерений, «истинны» в том смысле, что они интерпретируемы в системе понятий предметной области и являются лишь числовыми кодами значений величины соответствующей эмпирической системы. Следующий вывод, который следует из теории измерений, состоит в том, что необходимым условием для обнаружения «истинных» законов является интерпретируемость данных и результатов обработки данных в системе понятий предметной области. Так как числа сами по себе смысла не имеют, то интерпретируемость данных и результатов счета означает их интерпретируемость на семантическом уровне в системе понятий предметной области без использования чисел.

Из теории измерений следует, что для извлечения из данных всей интерпретируемой информации необходимо представить числовые данные в виде (многосортных) эмпирических систем. Системы аксиом, которым удовлетворяют эти эмпирические системы, дают нам логическую эмпирическую теорию предметной области [7]. Однако знания - это не только системы аксиом, но и высказывания, имеющие высокую степень вероятности. Поэтому обнаружение знаний должно состоять в обнаружении истинных и высокове-роятных высказываний на данных, представленных многосортными эмпирическими системами. Поэтому задача полного извлечения знаний из данных сводится к задаче усиления (в логическом смысле) логической эмпирической теории за счет обнаружения истинных и высоковероятных высказываний в логике первого порядка.

Таким образом, для корректного извлечения всей интерпретируемой информации из числовых данных необходимо в соответствии с методологическим принципом теории измерений определить множество интерпретируемых в системе понятий предметной области отношений и операций для всех понятий, свойств, величин и признаков онтологии, и представить данные в виде многосортной эмпирической системы. В работах [7,38] показано, каким образом такие известные типы данных, как парные и множественные сравнения, матрицы упорядочений, матрицы близости и матрицы объект-признак, могут быть представлены многосортными эмпирическими системами. Используя найденные отношения и операции можно представить числовые величины, а также априорные знания онтологии в виде системы аксиом.

Обнаружение закономерностей на данных. Знания — это высказывания, имеющие некоторую степень вероятности, нечеткости, размытости или достоверности. Для решения задачи извлечения знаний из данных необходимо определить класс формул, достаточный для представления закономерностей, и разработать индуктивный метод, позволяющий обнаруживать закономерности данного класса на данных, представленных многосортными эмпирическими системами.

В работах [7,38] показано, что для представления закономерностей практически достаточно ограничиться рассмотрением закономерностей, сформулированных только в виде универсальных формул (формул, содержащих только кванторы всеобщности). Найденный класс формул дает возможность сформулировать метод обнаружения закономерностей как метод обнаружения совокупности универсальных формул по данным [7,11,38].

Метод обнаружения вероятностных закономерностей

Пусть Reg(Th) — множество закономерностей, полученное методом обнаружения закономерностей, по заданному классу гипотез Th = ([Tpj,...,Tpm},P„} на обучающем множестве В с А, случайно выбранном из генеральной совокупности объектов А. В данном разделе приводится общая формулировка метода предсказания, использующего множество обнаруженных закономерностей RegiTli).

Пусть P(Th) = {P,,...,P„} - множество всех атомарных формул, которые мы можем получить с помощью шаблонов предикатов {Tpt,...,Tpm}, входящих в класс гипотез Th. Пусть из генеральной совокупности объектов А случайно выбран некоторый новый объект Ъ. В задачах предсказания считается, что истинностные значения некоторой части атомарных формул Р" cz Р(ТІі) на объектах и Ь нам известны. Требуется, используя знания закономерностей из Reg(Tli), по известным значениям истинности атомарных формул Р"на объектах ШиЬ предсказать неизвестные значения истинности остальных атомарных формул Рп =Р(Щ\Р"на этих же объектах ШиЬ. Таким образом, задача предсказания состоит в том, чтобы по модели рг0 =(Ш),Р(ГА)}, на которой проводилось обучение, и модели рг" =(ш иЬ,Р") восстановить модель pr = (ju \jb,P(Th)), используя закономерности из Reg(T/i).

Обозначим через PS множество всех возможных моделей pr = (Bvb,P(Thj), являющихся восстановлениями моделей рг0, рг". Так как множество RegiTli) содержит статистические закономерности, то разные восстановления могут иметь разную вероятность.

Таким образом, метод предсказания должен состоять в том, чтобы по закономерностям Reg(T/i) и моделям рг0, рги вычислить для каждой модели pr zPS некоторую оценку её вероятности v(pr). Для некоторых моделей рг є PS оценка вероятности v(pr) может быть не определена, так как может, например, оказаться, что для неё нет применимых к ней закономерностей.

Определение 16. Методом предсказания будем называть алгоритм AP:(Reg(Th),pr0,pr"\- v, преобразующий тройки (Reg(TK),pr0,pr"} в частично определенное отображение v: PS -»[0,1].

Уточним, в чем состоит смысл распространения моделей рг0, рг" до моделей prePS. Если известны все вероятности, то для любой модели рг є PS можно подсчитать вероятность р(рг) того, что при случайном выборе объекта А из А мы в результате эксперимента над Ви А получим модель изоморфную рг. Поэтому для получения наиболее точного предсказания алгоритм АР должен стремиться получить оценки вероятности v(pr), наиболее близкие к вероятности р(рг). Для восстановления модели рг надо определить значения истинности всех атомарных формул из Р" на всех наборах объектов, включающих хотя бы одно вхождение объекта Ъ. Для этой цели могут быть использованы те закономерности из Reg(Th) в заключение которых стоит атомарная формула из Р". Разобьем это множество закономерностей Reg(Th) на три группы: Reg, - множество закономерностей, содержащих только одну индивидную постоянную. Reg2 - множество закономерностей, заключение которых содержит только одну индивидную постоянную, а посылка содержит, по крайней мере, две различные индивидные постоянные. Reg3 - множество закономерностей, у которых в заключении есть хотя бы две различные индивидные постоянные. Для произвольного правила ReReg(Tfi), Д = Р/ &...&Р/" - Р/ будем обозначать через D„ = Pf &...&Р/" конъюнкцию литер посылки, а через Dc — заключение правила Р/ . Будем также обозначать через z(D) множество индивидных констант, входящих в формулу D.

Для осуществления предсказания необходимо в первую очередь определить для каждой закономерности R є Reg множество моделей PS(R) cz PS, которое будет являться прогнозом для данной закономерности.

Если R = (Pn -+Dc)eRegj(Th), то проверим истинность формулы Dn при подстановке в нее объекта Ь. Если Dn истинна, то данная закономерность может быть использована для предсказания. Прогнозом закономерности R будет являться множество PS(R) = PS(DC) тех моделей, на которых формула Dc истинна.

Закономерности множеств Reg2, Reg3 принципиально отличаются от закономерностей Reg, тем, что в них есть несколько индивидных постоянных. Поэтому, подставляя объект Ь вместо одной индивидной постоянной, мы должны подставить некоторые объекты и вместо других индивидных постоянных. Закономерность в этом случае говорит об определенной связи объекта b с другими объектами. Поэтому закономерности множеств Reg2, Reg3 могут быть различным способом использованы для предсказания.

Если закономерность R = (Dn -»2 с) принадлежит Reg2(Th), то разобьем случайным образом обучающее множество В на / наборов объектов по к объектов в каждом, где /=—, т — количество элементов во множестве В, к - количество индивидных постоянных во множестве z(Dn)\z(Dc). Будем последовательно подставлять эти наборы вместо индивидных постоянных и определять значения истинности формулы Dn. Если формула D„ истинна хотя бы на одном наборе объектов, то данную закономерность можно использовать для предсказания. В противном случае по этой закономерности предсказание сделать нельзя. Прогнозом данной закономерности, как и в предыдущем случае, будет множество PS(R) = PS(DC).

Закономерности из Reg3 принципиально отличаются от закономерностей из Reg, и Reg2 тем, что в них предсказывается не истинность некоторого отношения, зависящего от одной индивидной постоянной, а предсказывается определенное отношение между одной индивидной постоянной и некоторыми другими индивидными постоянными.

Пусть R = (D„- Dc)eReg3. Обозначим через n = {z1,...,zp), ncz(Dc) множество индивидных постоянных из Dc, которые входят в 2 я, но не входят в атомарные формулы из Рп. Предсказываемый объект Ъ можно подставлять вместо любой индивидной постоянной из П.

Технология решения задач в системе «Discovery»

Программная система «Discovery» предназначена для 1) извлечения знаний из данных; 2) для получения непротиворечивых прогнозов и принятия решений на основе извлеченных знаний; 3) для проверки гипотез на данных. Программа разработана на языке C++ и работает в среде операционных систем MS Windows 95/98/2000/XP/NT.

Система обладает следующими функциональными возможностями: - ввод и редактирование данных; -ввод собственных закономерностей при помощи специального формульного редактора; -интерактивное задание классов обнаруживаемых закономерностей при помощи специального конструктора гипотез; - автоматический поиск закономерностей заданного класса при помощи семантического вероятностного вывода; - определение прогнозирующих систем на основе автоматически найденных и вручную введенных закономерностях; - осуществление прогноза; - тестирование прогнозирующих систем. Интерфейс программы построен по принципу наличия одного главного окна (рисунок 2), отображающего таблицу исходных данных, и множества подчиненных окон, несущих различные функциональные нагрузки. Подчиненные окна вызываются из главного окна при помощи команд меню или кнопок панели инструментов.

Каждый сеанс работы с системой проходит в рамках некоторого проекта. Проект объединяет в себе анализируемые данные, набор предикторов, сформулированные виды гипотез, обнаруженные закономерности, введенные Г ,—.r- — ,1

Главное окно программы пользователем правила, параметры вычислений, а также все прочие настройки системы. То есть решение любой задачи в системе «Discovery», по сути, представляет собой работу с некоторым проектом. Пользователь может в любой момент сохранить текущий проект, чтобы в дальнейшем продолжить с ним работу.

В архитектуре системы можно выделить шесть основных функциональных блоков, на которые ложится основная нагрузка при работе пользователя: таблица данных, редактор формул, редактор предикторов, конструктор видов гипотез, редактор прогноза системы и блок тестирования прогнозов. Кроме того, специально для решения финансовых задач, в системе предусмотрен блок тестирования торговых систем.

Таблица данных. Таблица данных (рисунок 2) служит для отображения и редактирования данных, с которыми работает программа. Строки таблицы соответствуют объектам, а колонки - признакам объектов. Таблица данных поддерживает несколько типов данных: «число», «текст», «дата» и «сигнал». Редактор формул Исходные данные для анализа могут быть загружены в таблицу данных из файла или введены вручную. Измененные в процессе работы данные могут быть в любой момент сохранены в виде файла.

Редактирование структуры таблицы данных осуществляется при помощи группы команд «Таблица данных» главного меню или нажатием соответствующих кнопок панели инструментов, кроме того, пользователь может воспользоваться всплывающим меню, которое появляется при щелчке правой кнопки мыши по таблице. Пользователь имеет возможность добавлять новые колонки и строки в таблицу данных, удалять выбранные колонки и строки из таблицы, изменять тип данных выбранной колонки.

Курсором в виде пунктирной рамки помечается выбранная в данный момент ячейка таблицы. Чтобы переместить курсор, достаточно щелкнуть левой кнопкой мыши на нужной ячейке таблицы. Двойной щелчок левой кнопкой мыши по ячейке таблицы переводит ее в режим редактирования. В режиме редактирования можно изменять содержимое ячейки, вводя нужное значение с клавиатуры. sbsl liyj

Над любой колонкой таблицы данных может быть выполнено преобразование, при котором колонка С будет заполнена новыми значениями по формуле C(i) = F(i), где C{i) - значение колонки в строке с номером і, F -преобразование. В качестве преобразования может выступать произвольная функция, сигналы от срабатывания правила или предиката, прогнозы системы, прогнозы предиктора и др. К примеру, если в качестве преобразования выбрана функция, то С(і) = /(і) = /(х,(і),...,хя(і)), где / - определенная пользователем функция. Если в качестве преобразования выбран прогноз системы, то С(/) = Прогнозні), где Прогнозі?) — прогноз системы для объекта с номером і.

Редактор формул. Редактор формул вызывается каждый раз, когда пользователю необходимо вручную ввести или отредактировать правило, предикат или функцию. Элементы интерфейса окна редактора формул разбиты на две группы: дерево формулы и панель свойств (рисунок 3).

Дерево формулы служит для визуального отображения формулы и навигации по ее элементам. Структура дерева полностью соответствует описанной выше иерархии элементов конструирования гипотез.

Панель свойств служит для отображения и редактирования параметров выбранного элемента формулы. Чтобы выбрать какой-либо элемент дерева достаточно щелкнуть по нему левой кнопкой мыши. При выборе элемента дерева на панели свойств будут отображены его параметры, которые могут быть отредактированы.

Редактор предикторов. Данный редактор позволяет пользователю вводить предикторы и настраивать их параметры. Предиктор объединяет в себе все правила, предсказывающие один вариант исхода (см. раздел 2.2.4). В главном окне редактора (рисунок 4) в виде списка отображены все введенные пользователем предикторы. С помощью кнопок панели инструментов и команд всплывающего меню пользователь может добавлять новые предикторы в список, удалять выбранные предикторы из списка, вызывать окно настроек параметров или список правил выбранного предиктора.

Двойной щелчок левой кнопкой мыши по предиктору в списке либо выбор команды «Редактировать» всплывающего меню или нажатие соответствующей кнопки на панели инструментов вызывает окно редактирования данного предиктора. Окно редактирования предиктора позволяет установить целевой предикат и определить параметры семантического вероятностного вывода.

Архитектура системы управления

Как видно из таблицы, повышение порога условной вероятности правил ведет к увеличению точности прогноза, однако при этом также увеличивается число отказов от принятия решения. При этом необходимо отметить, что отказ от принятия решения не является ошибкой системы, а говорит лишь о недостатке информации для выдачи диагноза с заданной степенью точности.

Мы провели сравнение точности прогнозов системы «Discovery» с прогнозами, полученными при помощи нейронной сети. Для сравнения использовалась многослойная нейронная сеть, обучавшаяся методом обратного распространения ошибки [57-58]. В качестве входных данных нейронной сети использовались цитологические признаки препаратов, которые кодировались булевыми значениями («0» - отсутствие признака, «1» - присутствие). Выходным значением являлся диагноз («1» - рак, «0» -аденома). Тестирование нейронной сети проводилось описанным выше методом скользящего контроля. По результатам тестирования, нейронная сеть показало точность, равную 91%.

Таким образом, проведенное сравнение показало, что система «Discovery» имеет более высокую точность прогнозов, чем нейронные сети. Кроме того, необходимо отметить, что система «Discovery» позволила получить интерпретируемые диагностические правила. Эти правила делают автоматизированный диагностический процесс принятия решения прозрачным и понятным для врача.

Ультразвуковое исследование (УЗИ) щитовидной железы обладает большой информативностью, так как дает возможность объективно оценить степень увеличения органа, количество и размер узлов, оценить в какой-то степени их структуру (однородность), отметить наличие капсулы, кальцина-тов, жидкостных образований [47]. Очень важно, что УЗИ дает возможность в динамике следить за теми изменениями, которые происходят в щитовидной железе с течением времени.

Как было показано во многих исследованиях, различные поражения щитовидной железы имеют характерные ультразвуковые особенности, которые позволяют достоверно диагностировать их с помощью УЗИ [47]. Характерные специфические признаки имеют такие доброкачественные поражения как аденома, зоб, тиреоидит и киста щитовидной железы. В ряде случаев может быть диагностировано злокачественное новообразование щитовидной железы [47].

Роль УЗИ в диагностике поражений щитовидной железы становится все более важной, поскольку различные поражения щитовидной железы в действительности имеют характерные, хотя и не специфические УЗ признаки. Солидные узлы могут быть гипер-, изо- и гипоэхогенными. Легче всего распознаются кисты, которые эхонегативны. Как правило, при анализе полученных данных с точки зрения УЗИ, злокачественное поражение имеет тенденцию быть гипоэхогенным, с неровным контуром, слабо очерченным, солидным, содержащим небольшое количество жидкостных включений и в ряде наблюдений распространяющимся на сосудисто-нервный пучок. Оно часто связано с увеличением региональных, особенно глубоких шейных лимфоузлов. Доброкачественное поражение обычно гиперэхогенно, хорошо ограничено, однородно, часто окружено полным или неполным ободком. Большая часть кистозных поражений является доброкачественными.

Однако диагностика фолликулярных опухолей при помопш УЗИ затруднительна: фолликулярный рак практически неотличим от фолликулярной аденомы [47]. При сравнении некоторых параметров, полученных при УЗИ доброкачественных и злокачественных фолликулярных опухолей, видно, что такие критерии, как наличие ровного или неровного контура, "гало", неоднородность структуры, гипо- и гетерогенность узловых образований может быть присуща как фолликулярному раку, так и аденоме. Эти же критерии отмечены и при фолликулярном варианте папиллярного рака. Хотя все перечисленные УЗ критерии характерны для злокачественных опухолей щитовидной железы, в значительной доле они могут встречаться и при доброкачественных процессах [47].

Безусловно, УЗИ щитовидной железы является ценным диагностическим методом, но, к сожалению, в настоящий момент оно не позволяет ответить на вопрос, является ли данный процесс в органе доброкачественным или имеет тенденции к малигнизации. При помощи системы «Discovery» мы попытались обнаружить диагностические правила, которые бы позволили использовать данные УЗИ обследования для постановки предварительного диагноза.

Для анализа нами использовались данные УЗИ обследований 170 больных, проходивших лечение в НУЗ Дорожная клиническая больница города Новосибирска в период с 1996 по 2003 год, с уже известными гистологическими диагнозами (70 раков и 100 аденом).

Результаты УЗИ обследования каждого больного были проанализированы по 9 признакам, которые включают общую эхогенность, однородность структуры, неровность и четкость контура, наличие кальцинатов, «гало», а также локализацию и данные о размерах узла. Результаты анализа были представлены в виде таблицы данных, которая использовалась системой «Discovery» для извлечения диагностических правил. Примеры распределения признаков у пациентов с аденомой и фолликулярным раком представ-ленны в таблице 4.

Всего системой было обнаружено 105 диагностических правил с условной вероятностью не меньшей чем 0.8, из них 53 - с условной вероятностью не меньше чем 0.9, и 28 - с условной вероятностью равной 1. Все найденные правила были статистически значимы при уровне критерия Фишера 0.001.

Похожие диссертации на Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления