Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Волкова Анна Юрьевна

Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез
<
Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Волкова Анна Юрьевна. Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез: диссертация ... кандидата технических наук: 05.13.17 / Волкова Анна Юрьевна;[Место защиты: Российский государственный гуманитарный университет - ГОУВПО].- Москва, 2014.- 307 с.

Содержание к диссертации

Введение

1 ДСМ-решатель для анализа данных различных предметных областей 22

1.1 Внутреннее представление данных 23

1.2 Общая структура ДСМ-решателя и реализация стратегий дсм-метода АПГ 28

1.2.1 Общая структура ДСМ-Решателя 28

1.2.2 ДСМ-рассуждения 31

1.2.2.1 Индуктивный вывод ДСМ-рассуждений 32

1.2.2.1.1 Базовые методы ДСМ-рассуждений 33

1.2.2.1.1.1 Простой метод сходства 34

1.2.2.1.1.2 Единственность причины (следствия) 49

1.2.2.1.1.3 Запрет на контрпримеры 51

1.2.2.1.2.1 Метод различия: миллевский вариант 53

1.2.2.1.2.2 Метод различия: упрощение метода сходства – различия 58

1.2.2.1.2 Метод соединенного сходства – различия 60

1.2.2.1.2.1 Метод соединенного сходства-различия с единственной причиной 61

1.2.2.1.2.2 Общий метод соединенного сходства-различия 64

1.2.1.1.3 Метод остатков 72

1.2.1.1.3.1 Общий метод остатков 72

1.2.2.1.3.2 Усеченный метод остатков 77

1.2.2.2 Правила правдоподобного вывода по аналогии 78

1.2.2.3 абдукция и степень абдуктивности 82

1.2.3 Вспомогательные процедуры 86

1.2.3.1 Фильтры 86

1.2.3.2 Доопределение по одному 89

1.2.3.3 «Дерево» гипотез 90

1.2.3.4 Проверка непротиворечивости гипотез 93

2 Визуальное представление данных 99

2.1 Представление данных в фармакологии 101

2.2 Представление данных в медицине 105

2.2.1 Представление в Microsoft Office Excel 105

2.2.2 Представление в Microsoft Office Access 109

2.3 Представление данных в социологии 120

3 Графический интерфейс ДСМ-решателя 125

4 Анализ фармакологических и медицинских данных: экспериментальная проверка 136

4.1 Стандартные стратегии ДСМ-метода АПГ 151

4.1.1 Простой метод сходства 151

4.1.2 Единственность (+)-причины 154

4.1.3 Запрет на контрпримеры 155

4.2 Метод различия 159

4.2.1 Метод различия: миллевский вариант 159

4.2.2 Метод различия: упрощение метода сходства – различия 162

4.3 Метод соединенного сходства – различия 170

4.4 Метод остатков 175

4.4.1 Общий метод остатков 175

4.4.2 Усеченный метод остатков 176

4.5 Проверка непротиворечивости гипотез 177

5 ДСМ-система JSM-SOCIO для анализа социологических данных 181

5.1 ДСМ-система JSM-Socio и современные программы для качественного анализа социологических данных 182

5.2 Описание возможностей ДСМ-системы JSM-Socio 191

5.3 Применение ДСМ-системы JSM-Socio на практике 198

5.4 Средства предсказания изучаемых эффектов ДСМ-системы JSM-Socio 201

Заключение 206

Список литературы 208

Введение к работе

Важную роль в развитии направления исследований «искусственный интеллект» играет интеллектуальный анализ данных (ИАД). Под ИАД мы понимаем извлечение нового знания на основе анализа данных посредством интеллектуальной системы (ИС).

Компьютерные интеллектуальные системы типа ДСМ (ДСМ-системы) являются примером ИС, которые реализуют ИАД средствами правдоподобных ДСМ-рассуждений типа «индукция + аналогия + абдукция» (с возможным применением дедукции). ДСМ-рассуждения можно эффективно использовать для имитации естественного познавательного цикла «анализ данных – порождение гипотез (предсказание) – объяснение». ДСМ-рассуждения реализуются в ИС и являются эффективным средством машинного (индуктивного) обучения для извлечения нового знания из баз фактов.

ДСМ-метод автоматического порождения гипотез (АПГ) является формализованной эвристикой, которая позволяет создавать компьютерные системы, решающие определенный круг задач для различных предметных областей. ДСМ-системы успешно применялись к таким предметным областям, как фармакология, медицинская и техническая диагностика, социология, криминалистика, робототехника.

Актуальность диссертационного исследования обусловлена необходимостью создания Решателя задач, применимого к сериям компьютерных ИС для различных предметных областей и обладающего эффективными средствами для извлечения знаний из баз фактов.

Предметом исследования диссертации являются методы анализа данных посредством правдоподобных рассуждений типа ДСМ и их применимость для задач фармакологии, медицинской диагностики и социологии.

Цель диссертационной работы – создание Решателя задач и компьютерной интеллектуальной системы, реализующих ДСМ-метод АПГ для различных предметных областей в науках о жизни и социальном поведении, а также обоснование того факта, что разработанная ИС может эффективно применяться в конкретной предметной области – социологии. В связи с этим необходимо было разработать не зависящие от предметной области алгоритмы и программы, реализующие ДСМ-рассуждения; создать компьютерную ДСМ-систему, допускающую широкий выбор возможных ДСМ-стратегий; провести эксперименты (с использованием реализованных программных средств) на данных различных предметных областей и сравнить полученные результаты; создать спецификацию ИС для качественного (нестатистического) анализа социологических данных.

Для достижения указанной цели были поставлены и решены следующие задачи:

разработана ДСМ-система с гибкой архитектурой, допускающая расширение ее функциональных возможностей, для анализа данных различных предметных областей;

реализованы различные версии ДСМ-метода АПГ (прямой / обратный ДСМ-метод, ситуационное расширение ДСМ-метода);

создана программная реализация различных методов ДСМ-рассуждений (в том числе четырех индуктивных методов Д.С. Милля [1]);

созданы различные дополнительные процедуры ДСМ-рассуждений (например, реализация фильтров для гипотез (специальные ограничения на структуру гипотез, требующие присутствие определенных признаков в «теле» гипотезы), процедура «доопределение по одному» (процедура, позволяющая охарактеризовать исходную базу фактов относительно выбранной стратегии), построение дерева гипотез, вычисление непротиворечивости массивов гипотез);

реализованы структуры данных для различных предметных областей и разработаны представления и форматы данных, обрабатываемых ДСМ-системой, для фармакологии, медицинской диагностики и социологии;

разработан базовый графический интерфейс пользователя для универсального ДСМ-Решателя с целью проведения экспериментов с данными указанных выше областей;

проведено сравнение результатов экспериментов, полученных разными стратегиями на фармакологических и медицинских данных;

создана независимая ДСМ-система JSM-Socio для качественного анализа социологических данных с удобным графическим интерфейсом и проведена апробация системы на практическом материале.

Для решения указанных задач использовались следующие методы: многозначная логика с целью представления знаний и формализации рассуждений, алгоритмы порождения сходств, технологии создания баз данных.

Информационной базой исследования стали многочисленные публикации по ДСМ-методу АПГ, приведенные в списке используемой литературы, а также знания, полученные в процессе тесного взаимодействия с экспертами в данной области.

Основные научные результаты, полученные в ходе исследования:

Созданы новые средства представления данных и знаний в ИС для наук о жизни и социальном поведении.

Разработаны алгоритмические и программные средства, реализующие правдоподобные ДСМ-рассуждения, которые осуществляют взаимодействие индукции, аналогии и абдукции, что соответствует анализу данных, предсказанию и объяснению полученных результатов ДСМ-метода АПГ.

Установлено, что разработанные алгоритмические и программные средства ИС применимы для различных предметных областей: фармакологии, медицины и социологии.

Разработан Решатель задач, содержащий новые методы машинного обучения: индуктивные методы различия, сходства-различия и остатков. Алгоритмическая и программная реализация этих методов осуществлена впервые.

Созданы программы для распознавания противоречивости (непротиворечивости) множеств порожденных гипотез для различных стратегий ДСМ-рассуждений и для последовательностей расширений баз фактов.

Осуществлено сравнение результатов различных индуктивных процедур ДСМ-рассуждений на примере анализа фармакологических и медицинских данных.

Впервые создана компьютерная ИС для качественного (нестатистического) анализа социологических данных (JSM-Socio), содержащая развитые средства представления данных (описание субъекта, его мнения, ситуации и эффекта поведения). Система имеет Решатель задач с новыми средствами анализа данных и машинного обучения.

Первая ДСМ-система для анализа данных медицинской диагностики была создана в ВИНИТИ РАН. ДСМ-метод применялся для прогнозирования и диагностики различных заболеваний. На текущий момент в ВИНИТИ РАН действующие системы для анализа медицинских данных программно реализованы Д.А. Добрыниным и О.П. Шестерниковой. Действующая система для анализа фармакологических данных программно реализована Д.А. Добрыниным. ДСМ-Решатель этих систем поддерживает прямой атомарный ДСМ-метод АПГ, включающий процедуры простого метода сходства и запрета на контрпримеры. Первая ДСМ-система для анализа социологических данных была разработана М.А. Михеенковой, а ее первое программное обеспечение было реализовано С.С. Московским. Позже разработкой программных средств в этой области занимались Д.В. Панкратов, Ж.И. Бурковская, Т.Л. Феофанова.

Научная новизна диссертационного исследования работы включает следующее:

Разработанный ДСМ-Решатель отличается от созданных ранее набором новых стратегий рассуждений и параметров для проведения экспериментов. Обычно все ДСМ-системы включали стандартные стратегии (простой метод сходства, запрет на контрпримеры, единственность причины/ следствия). Впервые была создана система, в которой реализовано сразу четыре индуктивных метода Д.С. Милля: простой метод сходства, метод различия, метод сходства-различия, метод остатков. Архитектура системы позволяет применять ее к различным предметным областям: фармакологии, медицинской диагностике и социологии. Исследователь может использовать различные стратегии и сравнивать полученные результаты. Созданный ДСМ-Решатель на текущий момент предоставляет наиболее богатый инструментарий для анализа данных посредством ДСМ-рассуждений и является новым средством машинного обучения.

Было экспериментально установлено, что миллевский метод различия непригоден для анализа данных: на медицинских данных не удалось получить ни одной гипотезы, на фармакологических данных были порождены гипотезы, которые характеризуют небольшое количество примеров, а значит, не поддаются интерпретации относительно всего массива. Метод различия Д.С. Милля не позволяет найти причинно-следственные зависимости, так как нарушает основной принцип индукции – «сходство фактов влечет наличие (отсутствие) эффекта и его повторяемость».

В результате анализа данных фармакологии и медицинской диагностики была определена наилучшая стратегия относительно рассмотренных массивов данных. Ею был признан упрощенный метод соединенного сходства-различия (метод различия) с запретом на контрпримеры в качестве (+)-предиката и простой метод сходства с запретом на контрпримеры в качестве (–)-предиката.

Использование упрощения метода сходства-различия (метода различия для ДСМ-рассуждений) и процедуры упрощения метода остатков в медицине подтвердило причинно-следственную связь между протеином S100 и продолжительностью жизни больных меланомой, впервые выявленную в ИС, применяемой в Российском Онкологическом Научном Центре РАМН имени Н.Н. Блохина.

Впервые было разработано представление медицинских данных, позволяющее применять неатомарный ДСМ-метод (исследуемый эффект может состоять из множества свойств).

Впервые были реализованы средства для распознавания непротиворечивости множеств порожденных гипотез.

Было разработано представление социологических данных, допускающее разбиение характеристик респондента на четыре компоненты (описание респондента, мнение по заданным вопросам, ситуация (контекст, внешние обстоятельства), исследуемый эффект(ы)) и удовлетворяющее условиям применимости ДСМ-метода. Представление используется для нестатистического анализа – для выявления детерминант поведения и мнений, а также для исходных массивов данных небольших размеров, что исключает возможность использования статистических средств.

Как было отмечено, впервые создан Решатель задач, реализующий ДСМ-рассуждения, которые используют четыре метода индукции: сходства, различия, сходства-различия, остатков с возможностью добавления условий запрета на контрпримеры и единственности причины/следствия (ранее методы различия, сходства-различия и остатков не были реализованы посредством программ). Этот Решатель задач является главным модулем впервые созданной компьютерной интеллектуальной системы типа ДСМ JSM-Socio для качественного анализа социологических данных. JSM-Socio позволяет использовать упомянутые методы, а также разработанное многокомпонентное представление знаний о субъекте поведения, включающее описание субъекта (социальный характер субъекта, индивидуальные черты личности биографические данные), его мнение (о ситуации, о возможном поведении), ситуацию (контекст поведения) и эффект поведения (действие или установка к действию). ИС JSM-Socio является эффективным практическим инструментом для социологических исследований. Она обладает важными функциональными возможностями, обеспечивающими комфортную работу для социолога-исследователя. Среди них следует отметить следующее: автоматический перевод файлов с данными из формата программы SPSS в формат, используемый системой (MS Excel); разделение вопросов анкеты на компоненты; автоматическое разделение респондентов на группы в соответствии с эффектом, выделенным для исследования; применение различных стратегий (прямой/ обратный, ситуационный ДСМ-метод); графический интерфейс, разработанный с учетом требований эксперта. С помощью JSM-Socio были исследованы данные с многокомпонентной структурой, сформированные на материале анкет работников промышленных предприятий, а также проведены эксперименты для сравнения стран по уровню одобрения населением протестного поведения.

Полученные результаты и программные средства могут служить базой для дальнейших научных исследований. Архитектура системы допускает расширение существующих модулей и добавление новых классов, а значит возможно ее применение и в других предметных областях.

Практическая значимость диссертационного исследования состоит в следующем:

Создана компьютерная интеллектуальная система типа ДСМ, которая позволяет исследователю проводить анализ данных различных предметных областей (фармакология, медицинская диагностика, социология) с помощью различных стратегий.

В разработанном Решателе реализованы методы ДСМ-рассуждений, в том числе методы, отсутствующие в других системах: метод различия, метод сходства-различия, метод остатков [1]. В системе доступны прямой и обратный тип ДСМ-рассуждений, а для анализа социологических данных реализовано ситуационное расширение ДСМ-метода.

Разработанные средства позволили сравнить новые стратегии на разных предметных областях. Кроме того, при исследовании медицинских данных посредством новых методов удалось подтвердить связь между протеином S100 и продолжительностью жизни больных меланомой.

Создана специализация разработанной ИС-ДСМ в виде отдельной компьютерной ДСМ-системы для качественного анализа социологических данных, которая обладает развитым предметно-ориентированным интерфейсом и используется экспертами для решения практических социологических задач.

Изучение данных с использованием различных стратегий может не только упростить процесс оценки экспертом полученных результатов ДСМ-системы (так как позволяет сократить количество найденных причинно-следственных зависимостей, выделив наиболее существенные), но и выявить зависимости, которые не могут быть получены с помощью базовых стратегий (эту возможность предоставляет метод остатков).

Апробация результатов диссертации. Основные положения диссертационной работы были изложены на российско-британской конференции “J. S. Mill's ideas on Induction and Logic of the Humanities in Cognitive Research and Artificial Intelligence Systems” (15 – 17 июля 2011 г., РГГУ). Во время выступления была представлена презентация «Интеллектуальная система, реализующая четыре индуктивных метода Д.С. Милля» и продемонстрирована ДСМ-система для анализа разных предметных областей: фармакологии и медицинской диагностики. Результаты, полученные в ходе работы с социологическими данными, были представлены на межвузовской конференции «20 лет научных исследований и образовательных программ отделения интеллектуальных систем в гуманитарной сфере» (14 декабря 2012 г., РГГУ). В рамках выступления «Интеллектуальные системы типа ДСМ и их приложения» было продемонстрировано приложение-интерфейс, созданное для просмотра социологических данных, обработанных с использованием реализованной ДСМ-системы.

Итогом работы над социологическими данными стала компьютерная интеллектуальная система для качественного анализа социологических данных (JSM-Socio), реализующая стратегии ДСМ-метода АПГ. Система была официально зарегистрирована Федеральной службой по интеллектуальной собственности (РОСПАТЕНТ) и внесена в Реестр программ для ЭВМ (№ 2013614978, от 24 мая 2013 года).

Система JSM-Socio была представлена на XVI-м Междисциплинарном ежегодном научном семинаре «Математическое моделирование и информатика социальных процессов» им. Героя Социалистического труда академика А.А. Самарского (21 ноября 2013 г., МГУ им. М.В.Ломоносова, факультет ВМиК) в рамках доклада «О подходах к формализации качественного анализа социологических данных». Кроме того, система была продемонстрирована на семинаре «Принципы, логические средства и опыт применения в социологии ДСМ-метода автоматического порождения гипотез» (6 декабря 2013 г., Институт социологии РАН, Центр теоретических и историко-социологических исследований).

Интеллектуальная система JSM-Socio используется в Институте социологии РАН для решения задач формализованного качественного анализа социологических данных: выявления детерминаций социального поведения и мнений, учёта влияния ситуационных параметров на социальное поведение, прогнозирования социального поведения и общественного мнения.

Публикации. По теме диссертации в настоящее время опубликовано 5 статей в сборниках Научно-техническая информация, Серия 2 (Информационные процессы и системы), рекомендованных ВАК. Три статьи были переведены на английский язык и опубликованы в журнале Automatic Documentation and Mathematical Linguistic.

Структура диссертационного исследования. Текст диссертации состоит из введения, пяти глав, заключения, списка литературы, списка иллюстраций (рисунков и таблиц) и трех приложений.

Общая структура ДСМ-решателя и реализация стратегий дсм-метода АПГ

Прежде чем перейти к детальному описанию процедур ДСМ-метода и их реализации, опишем структуру ДСМ-Решателя. Характеристиками ДСМ-Решателя являются: - независимость ДСМ-Решателя от предметной области; - поддержка атомарной/неатомарной версии ДСМ-метода; - поддержка прямой/обратной версии ДСМ-метода; - поддержка простой / ситуационной версии ДСМ-метода; - реализация 4-х индуктивных методов Д.С. Милля [13]: простой метод сходства, метод различия (миллевский метод различия и новый метод различия – упрощение метода сходства-различия), метод соединенного сходства-различия, метод остатков; - реализация процедуры, упрощающей метод остатков (неформально процедура называется «усеченный метод остатков»); - реализация ограничений на простой метод сходства: единственность причины/следствия, запрет на контрпримеры, установка значения на порог родителей гипотез; - реализация алгоритма определения (не)противоречивости гипотез (для двух и более массивов с полученными гипотезами); - реализация алгоритма восстановления связей между гипотезами (построение дерева гипотез); - поддержка конъюнктивных и дизъюнктивных (±) фильтров (выделение конъюнктивных признаков, обязательно присутствующих в гипотезе, и дизъюнктивных признаков, из которых присутствовать в гипотезе должен хотя бы один); - реализация процедуры аналогии (доопределение фактов, требующих прогнозирования); - реализация процедуры «доопределение по одному»; - реализация процедуры абдукции (объяснение исходного множества фактов порожденными гипотезами). Опишем классы модуля «ДСМ-Решатель». Полное объявление этих классов содержится в Приложении А. algorithmJSM – это базовый класс реализации ДСМ-метода, который содержит общие настройки и необходим для унифицированной работы с разными версиями ДСМ-метода.

Класс включает параметры эксперимента (выбранные стратегии, порог родителей для гипотез, массивы примеров, участвующих в эксперименте), вспомогательные массивы для хранения полученных пересечений, шаг итерации ДСМ-метода (индукция-аналогия), а также поля, в которых записываются итоговые результаты. Таким образом, после работы ДСМ-Решателя доступны массивы гипотез, результаты доопределения, массивы с идентификаторами дочерних гипотез для каждой гипотезы с целью их возможной последующей визуализации по "кустовому" принципу, номера необъясненных полученными гипотезами (+)-, (–)- и (0)-примеров.

Класс algorithmJSM содержит виртуальную функцию startJSM (начать алгоритм ДСМ-метода), а также функции, общие для классов-потомков. Среди общих функций есть процедуры, отвечающие за реализацию алгоритмов (например, алгоритм ДСМ-метода для процедуры «доопределение по одному», алгоритм проверки в гипотезах признаков, определенных в фильтры, алгоритм запрета на контрпримеры), а также вспомогательные функции (например, delete_hyps для удаления пересечений после окончания работы алгоритма и записи результата или fillArrayWithHypothesis для заполнения массива полученными гипотезами). algorithmJSM_atomicDirect – это подкласс algorithmJSM, который содержит процедуры атомарного прямого ДСМ-метода. algorithmJSM_nonAtomicDirect – это подкласс algorithmJSM, который включает процедуры неатомарного прямого ДСМ-метода. algorithmJSM_reverse – это подкласс algorithmJSM, который содержит процедуры обратного ДСМ-метода. Общая диаграмма классов представлена на рисунке 2. Рисунок 2 - Иерархия классов ДСМ-метода С помощью возможности языка C++ динамического приведения типов наследуемых классов к базовому такая иерархия классов позволяет одинаково заполнять и удалять необходимые параметры для всех версий ДСМ-метода, а также определить все общие алгоритмы в базовый класс. Так для режима работы с пользователем понадобилось написать одну общую функцию заполнения параметров ДСМ-метода, а при записи результатов, общих для всех предметных областей (например, общая информация об эксперименте, заполнение результатов доопределения и др.), был создан общий класс output. Кроме того, имеется общая функция для освобождения памяти – удаление пересечений. Вспомогательными классами для реализации всех необходимых процедур ДСМ-рассуждений являются: hypothesis (класс, представляющий гипотезу), truncResid (класс, который реализует усеченный метод остатков), filter (класс, который содержащит информацию о фильтрах, применяемых в эксперименте), ContradictionCalculation_Algorithm (алгоритм подсчета (не)противоречивости массивов гипотез), algorithm_HypothesesBush (алгоритм для восстановления данных о «дереве» гипотез). При реализации ДСМ-метода используется класс, представляющий абстрактный объект (класс objectX). Особенности класса objectX подробно описаны в разделе «Внутреннее представление данных».

В основе ДСМ-метода АПГ лежит синтез трех познавательных процедур «эмпирическая индукция – структурная аналогия – абдукция». Эти процедуры представляют собой реализацию когнитивных правдоподобных рассуждений. ДСМ-системы основаны на следующем принципе: «сходство фактов вызывает наличие эффекта и его повторяемость, а не наоборот». [7, 9, 13].

Данные предметной области должны быть хорошо структурированы, что предполагает представление их в виде отдельных объектов с описанием, допускающим определение операции сходства, вложения, объединения и разности на объектах-фактах. Среди признаков, описывающих факт, должно присутствовать некоторое множество свойств («эффект»), по которому мы можем разделить факты на положительные (+) и отрицательные (–) примеры (обладающие и не обладающие «эффектом»), а также, возможно, противоречивые примеры (0-примеры, то есть обладающие и не обладающие эффектом одновременно) и неопределенные ()-примеры (факты, требующие доопределения) [7, C. 399 – 400].

На шаге индукции мы находим сходства фактов (гипотезы), применяя различные процедуры ДСМ-метода и их комбинации – стратегии [13]. На шаге аналогии происходит попытка доопределить ()-примеры полученными гипотезами о причинах, то есть сделать прогноз, обладают ли эти факты исследуемым «эффектом». Наконец, абдукция предполагает проверку обоснованности полученных гипотез путём объяснения начальной базы фактов найденными гипотезами.

Представление данных в медицине

Отдельной задачей была реализация усеченного метода остатков [см. раздел «Усеченный метод остатков»]. Усеченный метод остатков – это процедура для упрощения метода остатков, которая применялась для анализа онкологических данных. Документ .xls, который участвует при проведении эксперимента, содержит дополнительный лист «Hypotheses_Export», куда переносятся гипотезы с листа «Hypotheses» с необходимым набором признаков. Кроме того, лист «Properties» имеет дополнительное поле «Export» со значением 1 напротив признака, участвующего в теле экспортируемых гипотез, и 0, иначе. ДСМ-Решатель считывает только те признаки, которые помечены 1, а затем считываются гипотезы с листа «Hypotheses_Export». Разность гипотез, полученных из двух документов .xls, оформленных описанным способом, записывается в третий файл, содержащий всего один лист «Hypotheses» (Рисунок 11). Каждая гипотеза в файле-результате имеет идентификатор, сорт («+» или «-»), тело гипотезы и два родителя: первый – идентификатор гипотезы из первого файла (гипотеза, из которой вычитали), второй - идентификатор гипотезы из второго файла (гипотеза, которую вычитали).

В ходе работы с медицинскими данными стало ясно, что схематичное представление данных в Microsoft Office Excel неудобно для пользователя. Хотелось бы знать, например, что входит в тот или иной признак и чему соответствует строка, состоящая из + , x и t . Для решения этой задачи мною было создано представление в Microsoft Office Access.

Сначала необходимо было разработать схему базы данных для считывания данных о признаках и пациентах и записи полученных результатов работы ДСМ-Решателя. На этом этапе решалась задача нормализации схемы базы данных.

Для ()-примеров при выборе записи пациента в нижней части вкладки отображается номер такта (применение индукции и аналогии) ДСМ-рассуждения, на котором была последняя попытка доопределения примера, результат доопределения, количество доопределивших пример гипотез и список номеров этих гипотез.

На вкладке есть возможность найти пациента по имени, а также выбрать не только всех пациентов, но и группу пациентов соответствующего типа: + , - , 0 или . Для этого необходимо выбрать из списка требуемый пункт и нажать кнопку ПРИМЕНИТЬ для подтверждения выбора (Рисунок 16).

На вкладке «Пациенты_2» (Рисунок 17) представлена следующая информация о пациентах: имя, тип пациента ( + , - , 0 или ), количество гипотез, родителем которых он является, список их номеров, а также подробно отображены включенные в эксперимент признаки, размеченные для каждого пациента. Данные выводятся только о пациентах, выбранных для эксперимента.

В отличие от вкладки «Пациенты_1» признаки представлены не схематично, а дано их словесное описание в виде дерева признаков. Признаки, помеченные схематично как + на вкладке «Пациенты_1», изображены на желтом фоне, а x – на фиолетовом фоне.

При нажатии кнопки «Сокращенный вид дерева» на ней появится надпись «Полный вид дерева» и те значения, которые схематично помечены как t , отображаться не будут: узлы дерева будут пусты (Рисунок 18). В том случае, если признак для данного больного полностью пуст, то узел с названием признака также не будет отображен. Если же теперь нажать на кнопку «Полный вид дерева», то будут отображаться все узлы дерева признаков.

На вкладке «Гипотезы_1» (Рисунок 19) представлена информация о гипотезах: номер, тип гипотезы ( + , - , 0 ), такт ДСМ-рассуждений, на котором гипотеза была получена или были внесены изменения в список родителей гипотезы, число родителей, а также схематично (в виде строк, состоящих из + , x и t ) отображены признаки, составляющие тело гипотезы. Заголовок столбца с признаком соответствует номеру признака в базе данных.

На вкладке «Гипотезы_2» (Рисунок 20) в отличие от вкладки «Гипотезы_1» признаки представлены не схематично, а дается их словесное описание в виде дерева признаков. Вкладки Гипотезы_1 и Гипотезы _2 синхронизированы: при переходе с одной вкладки на другую текущий выбор пользователя (выбранная гипотеза) сохраняется.

На вкладке «Общие» дается следующая информация: какие процедуры и стратегии ДСМ-метода АПГ были применены в эксперименте, использовались ли фильтры, количество примеров и полученных гипотез, количество необъясненных гипотезами примеров (Рисунок 21, Рисунок 22, Рисунок 23). Если в результате эксперимента были найдены необъясненные примеры (результат проверки аксиомы каузальной полноты), то в списке выводятся имена больных, необъясненных примеров, и их тип. В противном случае на месте списка появится надпись «Все примеры объяснены».

Если в ходе эксперимента была выполнена процедура «доопределение по одному», то на вкладке появится кнопка с надписью «Доопределение по одному». При нажатии этой кнопки общая информация об эксперименте исчезнет, а на ее месте появится таблица с результатами процедуры «доопределение по одному», примененной к исходным фактам: (+)-, (–)- и (0)-примеров. На кнопке же появится надпись «Общие», и теперь нажатие на нее вернет таблицу параметров эксперимента.

Структурированное представление индивидуумов в социологии (субъектов поведения) задаётся в соответствии с постулатом поведения. Социолог-эксперт проводит анкетирование респондентов. Множества «качественных» характеристик определяются вопросами анкеты и ответами респондентов. ИС-ДСМ является инструментом решения задач формализованного качественного анализа социологических данных, направленных на изучение поведения Y субъекта поведения Х, находящегося в ситуации S и обладающего мнением j [38]. Представление данных в системе предусматривает наличие всех рассмотренных параметров: описание субъекта (социальный характер субъекта, индивидуальные черты личности, нетривиальные биографические данные), мнение субъекта (о ситуации, о возможном поведении), ситуация (контекст поведения) и и эффект поведения (действие или установка к действию).

Визуальное представление социологических данных было разработано в приложении Microsoft Office Excel. Документ .xls состоит из пяти листов: «Questions», «Data», «Data_Values», «JSM_Params». Также при использовании «универсального» ДСМ-Решателя [см. раздел «Графический интерфейс ДСМ-Решателя»] допускается наличие вкладок «Total» и «Determine_ByOne».

На листе «Questions» представлена информация о вопросах анкеты. Вкладка «Data» содержит данные по ответам респондентов, а также поля для сохранения результатов доопределения ()-примеров. Соответствие между числовыми и текстовыми значениями ответов приведены на листе «Data_Values». Информация о структуре объекта и параметрах эксперимента содержится на листе «JSM_Params». Структура вкладок «Total» и «Determine_ByOne» такая же, как в файлах Excel для фармакологических и медицинских данных.

Гипотезы, полученные в результате эксперимента, выводятся в файл с расширением .txt. Вывод гипотез в обычный текстовый файл связан с тем, что на исследуемых данных количество полученных гипотез на некоторых наборах признаков достигало тысячи и более. Выбор текстового формата позволил сократить время загрузки файлов при дальнейшей работе с ними в специально созданной системе [см. главу «ДСМ-система JSM-Socio для анализа социологических данных»].

Графический интерфейс ДСМ-решателя

В первой главе была описана общая структура созданной ДСМ-системы. Один из модулей – это «Графический интерфейс пользователя», или интерфейс ДСМ-Решателя, который позволяет загрузить подготовленные данные в систему и провести эксперимент с выбранными настойками.

Интерфейс ДСМ-Решателя был создан на языке программирования C++ с использованием библиотеки классов MFC (Microsoft Foundation Classes), а также интерфейса для доступа и манипулирования внешними данными ADO и языка запросов SQL. За основу графического интерфейса было взято приложение, разработанное ранее в рамках дипломной работы [42].

Возможности 1-4 поддерживаются с помощью главного меню приложения (соответствующие подпункты опции «Файл»: «Алгоритм ДСМ-метода АПГ: атомарная правая часть»; «Алгоритм ДСМ-метода АПГ: неатомарная правая часть» «Прямой метод», «Обратный метод»; «Усеченный метод остатков»). Также для этих опций созданы кнопки на панели элементов управления. При наведении на какую-либо из кнопок появится всплывающая подсказка, а также подсказка в строке состояния окна приложения (Рисунки 24 - 29).

Следует отметить, что класс Dialog_LoadData содержит переменные для хранения информации о выбранном режиме ДСМ-метода и о выбранной предметной области. В заголовке блока диалога указывается режим открытия окна: атомарный или неатомарный (прямой/ обратный) ДСМ-метод. Настройка ДСМ-Решателя на эксперимент (опция 11) осуществляется посредством диалогового окна созданного класса Dialog_fullJSM. Допустимые параметры настройки решателя на эксперимент представлены на рисунках 33, 34. Вид диалогового окна зависит от выбранной версии ДСМ-метода. На иллюстрациях представлен диалог для неатомарного прямого ДСМ-метода.

Как для (+)-, так и для (–)-предиката пользователь может выбрать простой предикат сходства, миллевский метод различия, упрощение сходства-различия, метод сходства-различия. Как усиление предиката можно выбрать запрет на контрпример ( +, –, 0 ), единственность причины для прямого ДСМ-метода или единственность следствия для обратного ДСМ-метода, (+)-, (–)-фильтры.

В неатомарной версии ДСМ-метода доступен для выбора параметр «Метод остатков». При этом для (+)-предиката будет доступен список из двух опций: «+\+» (что означает, что гипотезы будут получены путем вычитания из (+)-примеров (+)-гипотез, полученных в результате Этапа I ДСМ-рассуждений [7]), «–\+» (что означает, что гипотезы будут получены путем вычитания из (–)-примеров (+)-гипотез). Аналогично для (–)-предиката будут доступны опции «–\–», «+\–».

В текстовых полях формы можно установить порог родителей для (+)-, (–)- и (0)-гипотез (по умолчанию он равен двум). А в качестве дополнительных процедур, которые будут запущены уже после окончания Этапа I ДСМ-рассуждений, когда гипотезы уже получены и выполнена проверка аксиом каузальной полноты [см. раздел «Абдукция и степень абдуктивности»], можно выбрать опции «Доопределение по одному» и «Сохранение данных для “куста” гипотез».

При создании класса Dialog_fullJSM в его конструктор в качестве параметра передается ссылка на диалоговое окно класса Dialog_LoadData. Это позволяет узнать, какой был выбран режим и какая при этом предметная область была указана. Так, например, для фармакологии на диалоговом окне не будут доступны флажки «Использовать (+)-фильтры» и «Использовать (–)-фильтры». Опция «Метод остатков» доступна только в режиме неатомарного ДСМ-метода.

В процессе работы алгоритма пользователю выдаются необходимые сообщения и динамически меняется заголовок диалогового окна: «Алгоритм выполняется...», «Запись результатов...».

Если была выбрана опция «Доопределение по одному», то в процессе работы соответствующей процедуры в заголовке окна будет отображено, какое количество примеров из общего количества фактов доопределено на текущий момент (например, «Доопределено 5 из 62»).

Этот блок диалога вынесен в отдельный пункт меню в связи с тем, что необходимо было решить задачу «Усеченный метод остатков» при исследовании данных больных меланомой [описание задачи приведено в разделе «Усеченный метод остатков»]. Для работы в режиме «вычисление противоречивости для двух массивов гипотез» создан класс Dialog_ContradictionCalculation. На рисунке 36 приведен пример диалогового окна с выбранной предметной областью «Фармакология» и полученными степенями противоречивости (для примера данные подобраны таким образом, чтобы стратегия оказалась противоречивой).

Порог непротиворечивости по умолчанию равен 0.2, но пользователь может ввести любое другое значение. Для выбора источника данных (кнопка «Обзор…») используется стандартный класс библиотеки MFC CFileDialog, для текстовых полей (порог непротиворечивости, пути к файлам с данными) – класс CEdit, для выбора предметной области – класс CComboBox, для вывода результата – класс CListBox.

Для работы в режиме «вычисление противоречивости для N массивов гипотез» создано несколько диалоговых классов. Дело в том, что для удобства было решено сделать диалог с двумя вкладками: «Выбор данных», «Результат», – но библиотека MFC не предоставляет готового решения для такой задачи.

Отдельно созданы класс диалога для вкладки «Выбор данных» Dialog_Data_contra и класс диалога для вкладки «Результат» Dialog_Result_contra. Класс Tab_Ctrl_Contra, наследующий библиотечный класс CTabCtrl, отвечает за переход между вкладками (хранит информацию о том, какие вкладки доступны, какая вкладка выбрана в данный момент, и обрабатывает изменение выбора по щелчку мыши). Класс Dialog_with_tabs_contra объединяет все созданные диалоговые классы: он инициализирует объект класса Tab_Ctrl_Contra и уничтожает его при закрытии окна.

Также для выбора нескольких файлов на вкладке «Выбор данных» реализован класс CCustomEditListBox, наследующий библиотечный класс CVSListBox. С помощью этого класса создается список с кнопками для добавления, удаления и перемещение файла в списке. CCustomEditListBox обрабатывает события нажатия кнопок. Для выбора источника данных (кнопка «Обзор…») используется класс CFileDialog, для поля «порог непротиворечивости» – класс CEdit, для выбора предметной области – класс CComboBox.

Аналогично диалоговому окну «вычисление противоречивости для двух массивов гипотез» порог непротиворечивости по умолчанию равен 0.2, но пользователь может ввести любое другое значение.

Для вывода результата создан специальный класс ColoredListCtrl, наследующий библиотечный класс CMFCListCtrl. Этот класс был необходим для реализации списка с несколькими столбцами. Кроме того, доступны такие «декоративные» возможности класса CMFCListCtrl, как программное изменение шрифта, цвета текста и цвета фона строки в списке. На рисунках 37, 38 приведен пример окончательного вида диалогового окна с выбранной предметной областью «Фармакология» и полученными степенями противоречивости (для примера данные подобраны таким образом, чтобы стратегия оказалась непротиворечивой).

Простой метод сходства

Для медицинской области было предложено два массива данных, сформированных для исследования следующих задач: диагностика двух заболеваний глаз: дегенеративного ретиношизиса и наследственных витреоретинальных дистрофий (Лаборатория клинической физиологии зрения МНИИ глазных болезней им. Гельмгольца) [25], прогнозирование продолжительности жизни больных меланомой и оценка прогностического биохимического маркера - протеина S100 (Российский Онкологический Научный Центр РАМН имени Н.Н. Блохина) [26]. В задачах медицинской диагностики данные – это массив описаний пациентов. Описание пациента – это множество признаков, каждый из которых имеет определенный тип данных [см. раздел «Внутреннее представление данных», а также главу «Визуальное представление данных»].

Признаки – это определенные характеристики такие, как пол, возраст, хронические болезни и проч. Одно из базовых требований применимости ДСМ-метода – это возможность определить операцию сходства исследуемых объектов [7, С.400]. Пусть даны признаки «Описание характера выполняемой работы», «Сколько линий химиотерапии было проведено?», «Общее количество циклов химиотерапии, которое проведено на настоящий момент», «Уровень инвазии по Кларку», «Клинический диагноз», «Количество отдаленных метастазов», «Фибриноген мг/л», «Растворимые комплексы фибриномера (РКМФ)» и «Уровень S100». На примере покажем, как получить сходство характеристик пациентов.

Уровень S100 single Предположим, что исследуемым эффектом является «Общая продолжительность жизни 5 лет», (+)-примеры – больные, у которых значение признака – «да», (–)-примеры – «нет», и рассмотрим случай представления (+)-примеров. В соответствии с типом (Type) признака и его длиной (Length) описание каждого пациента кодируется. На вкладке Patients описание пациентов представлено схематично (Таблица 14):

Полученная строка разбивается на 32 бита (4 байта), и каждое 32-битное значение преобразуется в целое число типа integer. Пересечение целых чисел – это операция побитового умножения & (операция поразрядного И, 0&0 = 0, 1&0 = 0, 0&1 = 0, 1&1 = 1). Таким образом, работа алгоритма Норриса (стадия нахождения пересечения описаний пациентов) заключается в пересечении чисел, представляющих признаки. Если мы преобразуем числа в двоичное представление, кандидаты в гипотезы выглядят следующим образом :

При доопределении ()-примеров операция вхождения причины в пример заключается в побитовом умножении целых чисел, представляющих ()-пример, и чисел, представляющих гипотезу. Если все числа, полученные в результате операции &, совпадают с числами, представляющими гипотезу, то причина вкладывается в пример. В случае неатомарной правой части для доопределения ()-примеров также применяется операция объединения. Она необходима для проверки того, что правые части вложенных гипотез при объединении дают (то есть покрывают) правую часть ()-примера. Операция объединения – это операция побитового сложения (операция поразрядного ИЛИ, 00 = 0, 10 = 1, 01 = 1, 11 = 1).

После проведения всех этапов ДСМ-рассуждений гипотезы декодируются и записываются в файл в виде кортежей (предположим, что представленные кандидаты в гипотезы подтвердились, Таблица 18):

Текстовое описание для первой гипотезы состоит из следующих пар «Признак» – «Значение»: «Описание характера выполняемой работы» – «Руководящий работник», «Сколько линий химиотерапии было проведено?» – «1», «Общее количество циклов химиотерапии, которое проведено на настоящий момент» – «1-2», «Уровень инвазии по Кларку» – «Уровень инвазии по Кларку 3», «Клинический диагноз» – «T4-b, M-1-b», «Количество отдаленных метастазов» – «1», «Фибриноген мг/л» – «Степень гиперкоагуляции норма 400», «Растворимые комплексы фибриномера (РКМФ)» – «Степень гиперкоагуляции норма - отрицательно», «Уровень S100» – «до 0,120 нг/мл».

Вторая гипотеза: «Сколько линий химиотерапии было проведено?» – «1», «Общее количество циклов химиотерапии, которое проведено на настоящий момент» – «1-2», «Уровень инвазии по Кларку» – «Уровень инвазии по Кларку 3», «Клинический диагноз» – «T», «Количество отдаленных метастазов» – «1», «Фибриноген мг/л» – «Степень гиперкоагуляции норма 400», «Уровень S100» – «до 0,120 нг/мл».

Пусть в массиве примеров представлен пациент, у которого значение исследуемого эффекта «Общая продолжительность жизни 5 лет» не определено (()-пример). Текстовое описание для примера состоит из следующих пар «Признак» – «Значение»: «Описание характера выполняемой работы» – «Работник умственного труда, Руководящий работник», «Сколько линий химиотерапии было проведено?» – «1», «Общее количество циклов химиотерапии, которое проведено на настоящий момент» – «1-2», «Уровень инвазии по Кларку» – «Уровень инвазии по Кларку 3», «Клинический диагноз» – «T», «Количество отдаленных метастазов» – «1», «Фибриноген мг/л» – «Степень гиперкоагуляции норма 400», «Уровень S100» – «до 0,120 нг/мл». «Тело» примера в программе также будет представлено в закодированном виде. В результате проверки операции вложения гипотез в пример будет установлено, что вторая гипотеза вкладывается в пример. При отсутствии (–)- и (0)-гипотез, которые вкладываются в этот ()-пример, он будет доопределен как «+», что прогнозирует значение эффекта «Общая продолжительность жизни 5 лет» равным «да».

Другая предметная область, к данным которой была применена созданная универсальная ДСМ-система, – это фармакология. ДСМ-метод эффективно используется для прогнозирования биологически активных химических соединений [7]. Факты формально представлены предикатом XЮ1Y, где значение Х – это описание структуры химических соединений, а значение Y – информация о биологической активности соединения Х. Посредством п.п.в.-1 (индукции) порождаются гипотезы типа «подструктура химического соединения является причиной наличия (отсутствия) биологической активности W». Гипотезы – фармакофоры, представляющие фрагменты химической структуры, наличие которых приводит к проявлению биологической активности. Гипотезы – антифармакофоры, представляющие фрагменты химической структуры, наличие которых приводит к отсутствию биологической активности у данного химического соединения. Посредством полученных гипотез предсказывается биологическая активность химических соединений, предложенных на прогноз [2].

Было разработано подходящее представление данных [см. раздел первой главы «Внутреннее представление данных»] и проведены эксперименты с использованием новых стратегий, включающих методы, разработанные впервые. Для изучения фармакологических данных был предоставлен небольшой тестовый массив из 123 химических соединений трифторзамещенных пиразоло(1,5-а)пиримидинов. Массив соединений был проанализирован экспертами ранее с использованием методов простого сходства и запрета на контрпримеры. (Массив соединений представляет собой серию гетероциклов, для которых была изучена цитотоксическая активность в Национальном раковом институте США в рамках совместной с РОНЦ РАМН программы поиска новых цитотоксических соединений в рядах органических соединений с неизученными цитотоксическими свойствами. [47])

Как отмечено в первой главе, структурные формулы химических соединений представлены в виде множеств – наборов дескрипторов ФКСП (Фрагментарный Код Суперпозиции Подструктур). Каждый дескриптор представляет собой семизначное число: два дескрипторных центра, расстояние между ними в числе атомов углерода и наличие (отсутствие) сопряжения между этими центрами в цепи [47]. В исследуемом массиве было представлено 195 дескриптора.

Используя представленные выше (–)-примеры, рассмотрим операцию получения сходства химических соединений. Чтобы получить сходство структур, необходимо найти минимальное количество вхождений соответствующих дескрипторов. Работа алгоритма Норриса заключается в нахождении наименьшего целого числа, представляющих количество вхождений соответствующего дескриптора в химическую формулу, по каждому дескриптору. Ноль означает, что соответствующий дескриптор в формуле не встречается. Очевидно, что если при пересечении двух структур по всем дескрипторам мы получили нули, такое пересечение является пустым и отбрасывается из дальнейшего рассмотрения.

При доопределении ()-примеров операция вхождения причины в пример заключается в проверке того, что количество вхождений i-го дескриптора в гипотезе меньше или равно количеству его вхождений в ()-пример. Если встретился дескриптор, для которого число его вхождений в гипотезу превосходит число его вхождений в ()-пример, то гипотеза не вкладывается.

Похожие диссертации на Разработка алгоритмических и программных средств для реализации стратегий ДСМ-метода автоматического порождения гипотез