Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений Бурляева Елена Валерьевна

Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений
<
Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бурляева Елена Валерьевна. Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений : Дис. ... д-ра техн. наук : 05.13.01 : Москва, 2004 182 c. РГБ ОД, 71:04-5/528

Содержание к диссертации

Введение

Глава 1. Особенности принятия решений при прогнозировании активности хонформацнонно-гибких органических соединений .. 9

1.1 Задача прогнозирования свойств органических соединений 9

1.2.Методы описания структуры органического соединения 10

1.3 Методы формирования гипотез о зависимости между структурой молекулы и ее свойствами 16

1.4 Принятие решений при прогнозировании активности конформационно-гибких соединений 21

Краткие выводы 25

Глава 2. Системный подход к поддержке принятия решений при прогнозировании активности хонформационно-гибких соединений 26

2.1 Основные принципы системного анализа 26

2.2 Описание процедуры прогнозирования активности с помощью методов структурного системного анализа 27

2.3 Учет информационной гибкости соединений при дальнейшей детализации диаграмм ; структурного системного анализа 34

2.4 Концептуальная модель данных 40

2.5 Эпистемологическая модель данных.. 42

Краткие выводы. 46

Глава 3. Метод комплексных интервальных моделей для прогнозирования активности конформационно-гибких соединений .. 47

3.1 Методы интервального анализа 47

3.2 Формальное определение значимости параметров49

3.3 Формальное построение гипотез 57

3.4. Формальное определение прогнозов активности конформационно-гибких соединени 59

3.5 Методика прогнозирования активности конформационно-гибких соединений с учетом

неоднозначности зависимости "структура— активность" 65

Краткие выводы— 71

Глава 4. Прототип системы поддержки принятия решений при прогнозировании активности конформационно-гибких соединений в виде системы ограничений 72

4.1 Методы программирования в ограничениях 72

4.2 Применение методов программирования в ограничениях для прогнозирования активности 74

4.3 Прогнозирование качественных значений активности 76

4.4 Прогнозирование численных значений активности 80

4.5 Совместное разрешение системы ограничений 83

Краткие выводы 85

Глава 5. Система поддержки принятия решений при прогнозировании активности конформационно-гибких соединений 86

5.1 Архитектура и особенности функционирования СППР. 86

5.2 Подсистема формирования описаний соединений 87

5.2.1 Генерация конформаций 89

5.2.2 Проверка полноты набора конформеров91

5.2.3 Отбор энергетически приемлемых конформеров 91

5.2.4 Расчет границ интервалов значений параметров. 93

5.2.5 Идентификация атомов в молекуле соединения... 95

5.2.6 Ввод значений активности 97

5.2.7 Подготовка к формированию гипотез 98

5.3 Подсистема распределенных вычислений при оптимизации структуры молекул. 102

5.4 Подсистема установления значимости параметров- 109

5.4.1 Формальная проверка значимости параметров для соединений, активность которых задана численно 109

5.4.2 Формальная проверка значимости параметров для соединений, активность которых задана качественно 111

5.4.3 Принятие решения о значимости параметра 112

5.4.4 Формирование гипотез 114

5.5 Прогнозирование активности соединений тестовой выборки... 116

5.5.1 Подготовка к прогнозированию активности 116

5.5.2 Прогнозирование численных значений активности 1 IT"

5.5.3 Прогнозирование качественных значений активности 119

Краткие выводы 121

Глава 6. Применение СППР для прогнозировании активности конформационно-гибких соединений ... 122

6.1 Прогнозирование ингибирующей активности ненуклеозидных ингибиторов обратной

транскриптазы 122

6.1.1 Общие положения 122

6.1.2 Прогнозирование 50% ингибирующей концентрации производных тетрагидроимидазобензодиазипенона 123

6.1.3 Уточнение гипотез на основе кристаллографических давных 132

6.1.4 Построение и оценка прогностической способности регрессионных моделей 135

6.1.5 Прогнозирование 50% ингибирующей концентрации производных фенилэтиларилтиомочевины 141

6.2 Прогнозирование противотуберкулезной активности производных дитиокарбаминовой кислоты 147

6.3 Прогнозирование свойств ряда производных хлорофилла 157

6.4 Прогнозирование сродства полихлоргидроксибифенилов к эстрогенному рецептору 165

Краткие выводы 168

Заключение :. 169

Литература 171

Введение к работе

Одной из важнейших задач компьютерной химии является предсказание физических, химических и биологических свойств химических соединений. Такое прогнозирование позволяет проводить дорогостоящие экспериментальные исследования более прицельно и оценивать возможность использования соединения в качестве основы для создания лекарственного препарата на ранних стадиях его изучения. В основе исследований лежит предположение о том, что структура соединения определяет свойства, проявляемые этим соединением. Гипотезы, о взаимосвязиl структуры молекулы соединения: и его свойствами могут быть предложены специалистами-химиками на основе выявления механизмов . взаимодействия химических соединений, связанных с проявлениями анализируемого свойства, однако этот путь, в свою очередь, требует долгих и дорогостоящих исследований. Альтернативный подход на протяжении ряда лет развивается на стыке исследований в области химической технологии и прикладной математики и связан с анализом сведений об уже синтезированных и исследованных молекулах соединений того же класса. Эту область исследований кратко называют изучением зависимостей «структура - активность» (structure-activity relationships, SAR).

В тех случаях, когда зависимость между параметрами, описывающими структурную формулу молекулы, и исследуемой активностью установить не удается, возникает необходимость исследования квантово-химических параметров, характеризующих трехмерную структуру молекулы. Молекула исследуемого соединения часто является конформационно гибкой - одной и той же структурной: формуле соответствует множество трехмерных структур - конформеров. В этом случае перед исследователем возникает проблема отбора конформеров, параметры которых будут учитываться при формировании зависимостей «структура - активность». Прежде всего, отобранные конформеры должны быть энергетически: устойчивыми,. т.е. -существовать при нормальных условиях. Сформировать критерии, позволяющие выбрать один из конформеров в качестве структурного представителя всего множества конформеров, как правило, не удается - для этого необходимы долгие и дорогостоящие исследования особенностей взаимодействия, в процессе которого молекула проявляет интересующую исследователя активность. Более того, когда взаимодействие многостадийно, на каждой стадии молекула может существовать в виде различных конформеров, поэтому возникает необходимость рассмотрения параметров нескольких различных конформеров. Зависимость «структура - активность» оказывается неоднозначной - одному соединению, характеризующемуся некоторым значением

5 активности, соответствует несколько различных значений одного и того же параметра,. полученных для различных конформеров этого соединения^

Таким образом, учет конформационной гибкости молекул приводит к неоднозначности зависимости между параметрами, описывающими пространственную структуру молекулы, и активностью. При этом; прогноз активности может быть представлен либо качественно (наличие/отсутствие активности), либо в виде интервала возможных значений активности. Возникает задача разработки математических методов, методик, моделей, данных и программных средств для прогнозирования активности конформационно-гибких соединений на основе неоднозначных зависимостей «структура - активность».

Целью работы является; разработка информационно-методологического обеспечения поддержки: принятия решений; при прогнозировании активности конформационно-гибких соединений на основе исследования системных связей между пространственной структурой молекул конформационно-гибких органических соединений и активностью этих соединений.

Для достижения этой цели необходимо последовательное решение следующих задач::

анализ,. структуризация и. формализация процедуры; принятия решений при прогнозировании активности конформационно-гибких соединений;

выявление и формализация иерархии- данных, используемых в процессе прогнозирования, а также особенностей накопления этих данных на различных этапах прогнозирования;:

разработка специализированных математических методов для выявления и анализа неоднозначных зависимостей «структура — активность»;

разработка методик формирования гипотез и построения прогнозов активности с учетом неоднозначности зависимостей «структура-активность»;

формальное декларативное описание процедуры поддержки принятия решений при прогнозировании активности конформационно-гибких соединений;

разработка структуры системы поддержки принятия решений (СППР);

реализация СППР в виде программного комплекса;

применение СППР для решения различных задач прогнозирования активности.

Научная новизна

с помощью методов структурного системного анализа впервые выполнено
построение формального иерархического структурированного описания процедуры
принятия решения при прогнозировании активности конформационно-гибких
соединений;:

! разработано информационное обеспечение системы поддержки принятия решений (СГТПР), включающее концептуальную, эпистемологическую и логическую модели данных; при разработке эпистемологической модели данных впервые описано изменение представлений исследователя- о решаемой проблеме В; процессе прогнозирования активности;

впервые разработан математический метод комплексных интервальных моделей для
выявления неоднозначных зависимостей «структура-свойство», представляющий собой;
расширение методов интервального анализа для решения задач индуктивного вывода и
распознавания образов;

- впервые разработаны: комплексные методики прогнозирования качественных и интервальных значений активности, поддерживающие все этапы процедуры принятия решений і с: учетом неоднозначности: причинно-следственных: зависимостей между квантово-химическими параметрами молекул и исследуемой активностью;

= построен прототип системы поддержки принятия решений при прогнозировании активности конформационно-гибких соединений в виде системы констрейнтов, представляющий собой формальное декларативное описание процедуры принятия решений при прогнозировании активности;

разработан метод распределения: вычислений квантово-химических параметров
молекул, обеспечивающий эффективное управление персональными компьютерами,
подключенными к сети Интернет.

Практическая значимость

Разработан и прошел расширенные практические испытания программный; комплекс, реализующий СППР, обеспечивающей значительное: повышение эффективности исследований на, ранних стадиях создания базовых структур для лекарственных препаратов. Принципиальными отличиями системы от отечественных и зарубежных аналогов являются использование оригинальной методики получения интервальных и качественных прогнозов активности, поддержка принятия решений на всех этапах прогнозирования: активности исследуемых соединений. Включенная в состав СППР распределенная информационная система расчетов квантово-химических параметров молекул обеспечивает ускорение вычислений в 3 раза и освобождение

7 исследователя от рутинных операций за счет эффективного управления персональными компьютерами, объединенными в сеть Интернет^ Расширенные- испытания . методики і прогнозирования активности и программного комплекса были проведены:

  1. В отделе медицинской химии Государственного научного центра по антибиотикам вьшолнялось прогнозирование противотуберкулезной активности производных дитиакарбаминовой кислоты.

  2. На кафедре Биотехнологии МИТХТ им.М.В. Ломоносова в рамках исследований по гранту РФФИ № 97-03-032897а вьшолнялось прогнозирование анти-ВИЧ активности производных тетрагидроимидазобензодиазипенона и фенилэтилтиазолилтиомочевины.

  3. На кафедре Химии и технологии биологически активных соединений МИТХТ им. М.В.Ломоносова в рамках исследований по грантам ИНТАС № 01-0461 и РФФИ № 01-03-032543 выполнено прогнозирование максимума поглощения производных хлорофилла.

Оценка результатов прогнозирования показала, что СППР позволяет сократить время, затрачиваемое на проведение экспериментальных исследований, в 1,5 - 3 раза, стоимость исследований - не менее чем в 3 раза.

СППР использована при преподавании дисциплины «Интеллектуальные системы в химической технологии и биотехнологии» в МИТХТ им. М.В. Ломоносова для магистров, обучающихся по программе «Информационные системы в химической технологии и биотехнологии».

Методы исследования

Структуризация и формализация процедуры принятия решения при прогнозировании активности конформационно-гибких соединений; выполнена; на основе методов структурного системного анализа. Для выявления и анализа неоднозначных зависимостей; использованы методы интервального анализа. Формальное декларативное описание процедуры прогнозирования активности конформационно-гибких соединений построено с помощью методов программирования в ограничениях.

Структура диссертации:

Диссертация состоит из введения, 6 глав и заключения.

В первой главе представлена постановка задачи поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений. Во второй главе выполнена структуризация и формализация процедуры принятия решения при прогнозировании активности конформационно-гибких соединений с помощью методов структурного системного анализа. В третьей главе описан метод

8 комплексных интервальных моделей для выявления неоднозначных зависимостей «структура-активность)). В четвертой главе построено формальное декларативное описание процедуры прогнозирования активности конформационно-гибких соединений с помощью методов программирования в ограничениях. В пятой главе описана реализация системы поддержки принятия решений в виде программного комплекса поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений. В шестой главе представлены результаты применения разработанных методов, методик и программ для прогнозирования активности различных групп соединений.

В заключении сформулированы основные результаты, полученные в диссертационной работе.

Методы формирования гипотез о зависимости между структурой молекулы и ее свойствами

Для формирования гипотез о зависимости «структура - свойство» используют корреляционные методы и методы классификации.

Корреляционные методы основаны на попытках построить функцию, связывающую значения каких-либо параметров со значением свойства. Для получения такой функции применяются различные методы статистической обработки данных,. такие как различные варианты. регрессионного анализа, дискриминантный анализ, метод главных компонент и метод "частичных наименьших квадратов". Наибольшее распространение получили регрессионные методы, однако при применении регрессионного анализа не всегда удается получить хорошую модель. Причин для этого может быть несколько, например, нелинейность исследуемой зависимости между структурой и свойством (активностью), или комбинаторные затруднения [36].

Помимо регрессионных, для прогнозирования активности органических соединений используются и другие статистические методы. К программным продуктам, основанным на статистических методах исследования зависимости «структура — активность», относится известный программный комплекс PASS (Prediction of Activity Spectra for Substances), разработанный в НИИ биомедицинской химии им. В.Н. Ореховича РАМН [37]. Его основной задачей является прогнозирование большого количества вероятных видов биологической активности,. включая, основные и побочные фармакологические, эффекты механизмы- действия мутагенность, кащерогенность, тератогенность и эмбриотоксичность. Молекула соединения описывается с помощью предложенного его разработчиками набора, параметров MNA (Mulilevel Neighbourhoods of Atoms), характеризующих наличие или отсутствие специфических фрагментов, в структурной: формуле соединения.. Биологическая активность определяется качественным образом (наличие/отсутствие). Обучающая выборка включает в себя более 45000 разнообразных биологически активных веществ, в том числе субстанции известных лекарственных препаратов и фармакологически активные соединения, и постоянно пополняется новой информацией о биологически активных веществах, отбираемой из публикаций в научно-технической литературе и из баз данных. Используемый в PASS алгоритм прогнозирования основан на статистических методах. Результаты прогноза выдаются пользователю в виде списка \ названий вероятных видов активности с расчетными оценками вероятностей наличия и отсутствия каждого вида активности, которые имеют значения от 0 до 1. Эти вероятности рассчитываются независимо по подвыборкам активных и неактивных соединений.

В методах классификации выполняется попытка выявить признаки, отличающие соединения с высокой активностью от соединений с низкой активностью. К этим методам можно отнести, например, CoMFA, метод "активного аналога", нейронные сети, эволюционное программирование, метод образов общей реакционной способности и т.д.

Метод CoMFA основан на предположении, что изменения в биологической активности связаны со стерическими и электростатическими полями вокруг молекулы лиганда и рецептора [38]. Для того чтобы получить численное представление этих полей, молекулы соединений с близкой активностью накладываются друг на друга путем совмещения одинаковых фрагментов в их структурах, полученный агломерат помещается в пространственную решетку, затем электростатические и стерические поля, вокруг наложенных друг на друга молекул оцифровываются. Оцифровка осуществляется путем помещения в каждый узел решетки так называемого пробного атома, обычно атома углерода - в каждом узле рассчитываются силы, действующие на пробный атом. Получается таблица, описывающая поля вокруг молекул. Эта таблица затем подвергается математической обработке с тем, чтобы выявить, какие особенности поля ответственны за проявление активности или ее отсутствие.

Метод CoMFA удобен для описания сложных с точки зрения механизма взаимодействий, например, ингибирование ферментов, взаимодействие рецепторов с их агонистами и антагонистами, противовирусную активность, онкогенные и токсикологические свойства соединений [39]. Недостатком метода CoMFA является тот факт, что выбор узлов решетки для наложения молекул каждый раз приходится осуществлять вручную и нет общей методики для их выбора [40].

Методы, основанные на нейронных сетях, позволяют установить количественные зависимости «структура-активность» в виде нелинейных функций. Задача обучения нейронной сети является задачей поиска минимума функции ошибки в пространстве состояний, для ее решения применяются стандартные методы теории оптимизации. На практике могут использоваться нейронные сети в состояниях с некоторым малым значением ошибки, не являющихся: в точности минимумами функции ошибки. Другими словами, в качестве: решения принимается L некоторое состояние из окрестности обученного состояния. При этом допустимый уровень ошибки определяется особенностями конкретной задачи, а также приемлемым для пользователя объемом затрат на обучение. Задачей эксперта при обучении нейронной сети является отбор характерных примеров.

Наиболее известным: российским программным продуктом, в котором для исследования зависимостей «структура - свойство» применяются искусственные: нейронные сети, является программный комплекс NASA WIN, разработанный на: химическом факультете Московского государственного университета им. М.В. Ломоносова [41]. Комплекс ориентирован на прогнозирование физических свойств органических соединений, таких как температура, кипения, энтальпия образования, поляризуемость и т.п., но используется и при прогнозировании биологической активности. При описании структурных формул соединений используются как широко известные, так и оригинальные фрагментарные и топологические параметры. Обучение сети выполняется при: помощи обратного распространения ошибок с сигмоидальной функцией активации нейронов в скрытом и выходном слоях.

Основной проблемой использования нейросетевых методов для прогнозирования активности является необходимость снижения размерности исходного набора параметров, поскольку в этих задачах количество исследуемых параметров молекулы, как правило, в несколько раз превышает объем выборки. При этом обычные методы обучения: сети не работают и возникает задача отбора параметров, существенно влияющих на величину активности. Как правило, рассчитанные параметры являются сильно коррелированными и, соответственно, несут избыточную информацию. Кроме коррелированных,- необходимо также, исключить, иа рассмотрения постоянные и маловариабельные параметры. Однако даже после исключения таких параметров количество исследуемых параметров обычно превышает размеры выборки. Для улучшения прогностических возможностей сети в этих случаях. используют регуляризационные алгоритмы, такие как алгоритм прореживания весов, алгоритм затухания весов, алгоритм, основанный на байесовских вероятностях и другие [42]..

Описание процедуры прогнозирования активности с помощью методов структурного системного анализа

В качестве инструмента последовательной детализации описаний процедуры поддержки принятия решений,- установления информационных связей между отдельными І этапами этой процедуры и указания управляющих воздействий исследователя; использовались методы структурного системного- анализа SADT; (Structured Analysis & Design Technique, в дословном переводе "технология структурного анализа и проектирования") [61, 62, 63]. Эти методы предназначены для формального описания функций сложных объектов как иерархических, многоуровневых модульных систем с помощью относительно небольшого набора типовых элементов. Описание предметной: области строится в виде иерархической структуры, которая отражает различные уровни абстракции с ограниченным числом компонентов на каждом из -уровней. Основным элементом является диаграмма, состоящая из функциональных блоков и соединяющих их дуг. Различают 4 роли дуг: интерфейс ввода/вывода, управляющее воздействие и механизм реализации функции. Роль дуги задается ее расположением относительно функционального блока: I (input) - обрабатываемая информация (исходные данные) - задается с помощью дуг, входящих в функциональный блок с левой стороны; - О (output) - результирующая информация - задается с помощью дуг, выходящих из блока справа; С (control) - управляющая информация - описывается с помощью дуги, входящей в блок сверху М (mechanism) - механизм выполнения функции - представляется дугой, входящей в блок снизу. Эта система ролей, получившая название ICOM по первым буквам английских названий дуг, оказалась очень удобной при описании структуры проблемной области.. При описании роли дуги в тексте будем использовать обозначение «роль: наименование дуги». Методы структурного системного анализа позволяют удобно описать иерархическую декомпозицию «этап-подэтап» сверху вниз, поскольку обеспечивают пошаговую детализацию диаграмм. Каждый компонент описания: может быть декомпозирован на другой диаграмме. В начале разработки вся проблемная область представляется в виде простейшего компонента - одного блока и дуг, изображающих интерфейсы с внешними объектами. Диаграмма, соответствующая процедуре прогнозирования активности, представлена на рис.2.1.

Исходными данными для; прогнозирования активности органических соединений являются описания структур их молекул, как правило, задаваемые в виде двумерной структурной формулы. Для формирования гипотез о зависимости между структурой и; свойствами соединений необходимы данные об уже исследованных соединениях, включающие в себя как структурные формулы, так и экспериментально измеренные значения активности этих соединений. Набор соединении, используемых для построения гипотез, обычно называют обучающей выборкой, набор соединений, для которых необходимо предсказать активность, - тестовой выборкой. Структурная диаграмма (рис.2.1) включает в І себя 3 дуги, описьшающие: исходные данные для прогнозирования: структурные формулы молекул соединений обучающей выборки, значения активности соединений обучающей выборки и структурные формулы молекул соединений тестовой выборки.

Основным результатом является набор прогнозов активности экспериментально не исследованных (возможно, даже еще не синтезированных) соединений тестовой выборки. Однако отдельную ценность для исследователя могут представлять гипотезы, описывающие причинно-следственные взаимосвязи между отдельными.параметрами структуры молекул исследуемых соединений и проявляемой этими соединениями активностью, поскольку на их основе исследователь может строить предположения о механизме проявления интересующей его активности. Поэтому на структурной диаграмме приведены 2 дуги, описывающие результаты прогнозирования.

Начиная с отбора исходных данных для прогнозирования и заканчивая анализом, семантики полученных прогнозов и; гипотез, весь процесс принятия решения управляется исследователем. На: структурной диаграмме (рис.2.1) с помощью дуги «управление: исследователь» описана ведущая; роль исследователя в: функционировании системы. В дальнейшем при описании структуры процедуры прогнозирования управляющие воздействия исследователя будут конкретизированы.

На следующем этапе системного анализа выполняется детализация исходного функционального блока на отдельной диаграмме. Выделяются отдельные этапы прогнозирования, каждому из которых ставится в соответствие функциональный блок, и с помощью дуг описываются информационные и управляющие связи между этапами. Каждый этап, в свою очередь, может быть декомпозирован на ряд подэтапов более низкого уровня абстракции. Более общая диаграмма (ее называют родительской) задает контекст детализации. Традиционно выделяют 3 этапа процедуры прогнозирования активности [64]: Описание структуры молекулы; Формирование гипотез о зависимостях между структурой соединения и его свойствами; Прогнозирование активности соединений. Каждому этапу процедуры прогнозирования активности, в соответствии с принципом единства функционально-целевых и причинно-следственных отношений, предложенным Л.А. Серафимовым [65], ставится в соответствие подсистема СППР [66]. На диаграмме, представляющей детализированное описание процедуры прогнозирования: активности (рис.2.2), выделено - 3 функциональных блока, соответствующих ее этапам [67]. От родительской диаграммы эта диаграмма наследует 5 дуг, описывающих исходные данные и результаты прогнозирования. Кроме них, детализированная диаграмма включает в себя дуги, описывающие взаимодействие отдельных этапов.

Формальное определение прогнозов активности конформационно-гибких соединени

При формировании гипотез используются результаты расчета квантово-химических параметров, молекул. и.= описания., активности, соответствующих, соединений Вначале, выполняется проверка значимости каждого параметра, затем для значимых параметров строится гипотеза. Прогностические возможности полученного набора гипотез проверяются для соединений обучающей выборки. В том случае, если набор гипотез не удовлетворяет исследователя, ему необходимо вернуться либо к этапу отбора значимых параметров, либо к этапу формирования описаний соединений.

При проверке значимости параметров формируются описания причинно-следственных взаимосвязей «структура - активность». Количественные характеристики этих взаимосвязей определяются на этапе формирования гипотез.

При прогнозировании активности используются описания соединений тестовой выборки и гипотезы, построенные по соединениям обучающей выборки. Если исследователя не удовлетворяют полученные прогнозы активности: соединений, он может либо вернуться к этапу формирования гипотез, либо к этапу построения описаний соединений.

Использование интервальных оценок значений квантово-хнмического параметра позволило учесть неопределенность, связанную с множественностью трехмерных структур молекул, соответствующих структурной формуле соединения. Применение методов интервального анализа позволило формализовать, понятия значимого параметра, гипотезы и прогноза активности с учетом неоднозначности зависимости между значениями квантово-химического параметра и значениями активности.

Методики прогнозирования активности конформационно-гибких соединений с использованием методов интервального анализа основаны на определениях 1.1-3.4.

В том случае, если активность задана качественно, задача прогнозирования активности сводится к задаче классификации. В этом случае: построение гипотез соответствует разбиению области значений квантово-химического параметра на классы в зависимости от активности соединений, а собственно прогнозирование - отнесению объекта к одному из имеющихся классов. Роль эксперта - исследователя сводится к уточнению описаний классов и проверке прогностических возможностей набора гипотез.

Методика формирования гипотез для соединений, активность которых задана качественно, приведена на рис.3.10. Отбор значимых параметров для таких соединений основан на сопоставлении взаимного положения интервалов, полученных отдельно для всех активных и для всех неактивных соединений. Процедура отбора значимых параметров может быть выполнена формально, на основе определения 1.1, однако исследователь может внести коррективы в полученный набор параметров. Так, часть формально значимых параметров может быть отброшена исследователем, в частности,-из-за малых изменений в значениях этого параметра (маловариабельности). Напротив, часть формально незначимых параметров может рассматриваться исследователем как возможно значимые.

Прогнозирование активности по отдельным параметрам состоит в сопоставлении взаимного положения интервала значений параметра, рассчитанного для: тестового соединения, и областей активных и неактивных соединений, образующих гипотезу. Сопоставление осуществляется по правилам, сформулированным в определении 3.1.. При построении итогового прогноза активности рассматривается взаимное положение интервалов1 активности, рассчитанных по всем значимым параметрам (определение 3.3). Исследователь анализирует результаты прогнозирования и, при необходимости, может изменить набор значимых параметров.

В том случае, если активность задана численно, вместо функциональной зависимости между параметром и активностью рассматривается интервальная: зависимость, позволяющая получить прогноз активности в виде интервала возможных значений.

Методика формирования гипотез для соединений с количественно заданной активностью приведена на рис.3.11... Отбор значимых параметров для; соединений, активность которых задана численно, основан на отделении максимальных значений параметров: от минимальных с помощью монотонной кривой. Процедура отбора значимых параметров может быть выполнена формально, на основе определения 1.2, однако исследователь может внести коррективы в полученный набор параметров. В частности, исследователь. может отбросить формально значимый параметр в том случае, если значения, рассчитанные для соединений с минимальной и максимальной: активностью, различаются незначительно. Если на основании значений параметра обучающую выборку можно разделить на несколько групп, (например, значения: параметра, рассчитанные для одного из соединений, резко отличаются от значений, рассчитанных для всех остальных соединений, рис.3.12), исследователю необходимо принять решение о том, не следует ли изменить состав обучающей выборки.

Построение гипотез выполняется: в. виде интервальной; линейной функции (определение 2.2) по отобранным исследователем параметрам. Построение интервальной линейной функции возможно всегда. Для анализа прогностических возможностей полученного набора гипотез выполняется прогнозирование активности соединений обучающей выборки и рассчитывается длина интервала прогноза. По результатам: проверки исследователь принимает окончательное решение о составе набора гипотез.

Прогнозирование качественных значений активности

Количество конформеров, полученное после оптимизации структуры молекул по энергетическому критерию, колебалось от 27 до 243. В качестве энергетического порога использовалась величина 10 ккал/моль. В результате отбора энергетически приемлемых конформеров количество конформеров уменьшилось незначительно (были отброшены по 1 структуре для феофорбида и пурпурина 18).

Поскольку структура исследуемых соединений очень сложна, количество параметров, характеризующих отдельные атомы, очень велико. Поэтому анализ вариабельности параметров для этих соединений выполнялся до отбора значимых параметров. При анализе вариабельности использовались следующие эмпирические правила: 1. Для соединений с близкими значениями максимума поглощения (циклоимиды 1 и 2) интервалы значений параметров должны иметь незначительные отличия — отклонения значений максимумов и минимумов не более 10%; 2. Для соединений с наиболее сильно отличающимися значениями максимумов поглощения (пурпурин 18 и циклоимид 3) интервалы значений индексов должны иметь существенные отличия — отклонения значений максимумов и минимумов более 10%. 3. Максимумы и минимумы должны изменяться в достаточно широких пределах (более 15%). В результате было отброшено 112 параметров из 225. Поскольку количество исследуемых соединений очень мало, и в зависимости от значений максимумов поглощения их легко разбить на 2 группы, совместно с экспертами бьшо принято решение ограничиться качественным анализом зависимости «структура - активность», К соединениям с низким максимумом поглощения были-отнесены 13,15-дегидрокси-13,15-дикарбокси хлорин рв и феофорбид. В результате оказалось, что максимум поглощения зависит от разности между энергиями высшей занятой и низшей свободной молекулярной орбиталей; (РЭВЗНСМО), а также донорно-акцепторными свойствами 13 и 15 атомов. Гипотезы о взаимосвязи между этими параметрами и максимумом поглощения приведены. в таблицах 6.36-6.38, Вторая часть исследований была связана со сравнением теплоты образования нескольких структурно схожих соединений. Предполагалось, что- образование-соединений с меньшей теплотой образования более вероятно.

Результаты прогнозирования теплот образования производных хлорофилла, содержащих два атома азота в пиррольном кольце (соединения I, II, Ш, IV на рис.6.6), приведены в таблице 6.40 Из этой таблицы видно, что теплоты образований соединений I и ПГ меньше, чем соединений II и IV, соответственно. Это, вероятно, связано с тем, что у N-аминоциклоимидов в кольце сохраняется сопряжение (заряд у азота в аминогруппе приблизительно равен нулю). У циклических гидразидов II и IV два находящихся рядом атома азота имеют достаточно сильный отрицательный заряд {приблизительно —0,25, см. рис.6.7).. В результате этого происходит увеличение теплоты образования. В связи с этим образование хлоринов с 7-членным циклом менее вероятно. Полученные результаты впоследствии подтвердились [145].

При прогнозировании теплот образования соединений V, VI и VII наиболее предпочтительными оказались соединения VI и VII, что, видимо, связано с отсутствием напряжения в экзоциклах. И напротив, соседство двух положительных зарядов в 5-членном цикле соединения V (см.. рис. 6.8) приводит к увеличению теплоты образования.

Сравнение соединений Vm и IX показало, что предпочтительным по теплоте образования является IX соединение. Вероятно, это связано с тем, что 5-ти валентный фосфор в соединении IX имеет больший положительный заряд, чем атом фосфора в соединении VIII, Низкая теплота образования соединений с фосфором связана с его высокой реакционной способностью.

При сравнении соединений с атомом серы (X, XI, XII) предпочтительным по теплоте образования оказалось соединение XII, Вероятно, это связано с тем, что 6-ти валентная сера имеет больший положительный заряд.

Таким образом, выполнено прогнозирование теплоты образования ряда производных хлорофилла позволило выявить наиболее энергетически устойчивые соединения и сократить время, затрачиваемое на проведение экспериментальных исследований, не менее чем в 1,5 раза, стоимость исследований — не менее, чем в 3 раза.

Похожие диссертации на Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений