Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Захаров Алексей Владимирович

Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей
<
Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Захаров Алексей Владимирович. Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей : диссертация ... кандидата биологических наук : 03.00.28 / Захаров Алексей Владимирович; [Место защиты: Науч.-исслед. ин-т биомед. химии им. В.Н. Ореховича РАМН].- Москва, 2008.- 120 с.: ил. РГБ ОД, 61 08-3/796

Содержание к диссертации

Введение

ГЛАВА 1. Обзор литературы s

1.1. Методы построения QSAR-моделей

1.1.1. Множественная линейная регрессия 9

Ї.І.2. Проекции на скрытые переменные 1\

1.13. Генешческие алгоритмы 12

1.1.4. Самосогласованная реірессия 14

1.2. Критерии качества зависимостей 16

1.3. Методы формирования обучающей и контрольной выборок 2U

1.4. Область применимости QSAR.-MOfle:icJt 23

1.5. Основные тины дескрипторов, используемые в QSAR-моделировании 25

1.5.1. 2D дескрипторы 26

1.5.2. 3D дескрипторы 35

ГЛАВА 2. Объекты и методы исследования 43

2.1. Объекты 41

2.2. Методы 46

2.2.1. Дескрипторы атомных окрестностей 46

2.2Л.1. Многоуровневые атомные окрестности 46

2.2.1.2. Количественные атомные окрестности 47

2.2.2. Дескрипторы "объема" и "длины" молекулы 51

2.2.3. Методы преобразования дескрішторов атомных окрестностей 52

2.23.1. Метод нечетких градаций 52

2.23.2, Преобразование с помощью квантилей 53

2.233. Преобразование с помощью полиномов Чебыщева 54

2.2.4. Методы QSAR-модслирования, основанные на дескрипторах атомных 55

окрестностей

2.2.5. Метод оценки области применимости QSAR-модсли 55

ГЛАВА 3. Результаты и обсуждение 57

3.1. Прогноз количественных свойств органических соединений 57

3 Л Л. Ингибиторы пиклин-зависимой киназы 2 57

3,1.2. Ингибиторы дигидрофолат редуктазы 60,

ЗЛЗ, Ингибиторы апгиотензин-нревращающего фермента 64

ЗЛ.4. Ингибиторы цитохрома Р450 2А5 66

3.1.5. Ингибиторы цитохромаР450 2Аб б?

3-1.6. Соединения, действующие наальфа-2 адренорецепторы 71

3.1.7. Соединения, действующие на эстрогеновые рецепторы 73

ЗЛ.8. Соединения, проявляющие острую токсичность дія Chlorella vulgaris 76

3-1,9. Соединения, проявляющие острую токсичность для Vibrio fischeri 78

3.1.10. Соединения, проявляющие острую токсичность для Tetrahymena pyriformis

3.2. Статистическое сравнение методой QSAR 84

3.3. Программа GUSAR 86 ЗА Проверка устойчивости прогноза количественных свойств органических 92

соединений

3,5. Сравнение методов оценки области применимости QSAR-модели 94

ГЛАВА 4. Заключение 99

Выводы 101

Список опубликованных работ 102

Список литературы

Введение к работе

Проблема поиска химических веществ с определенной биологической активностью и лругиміт заданными свойствами - одна из важнейших в био- и хемоинформатике. В современной химической науке уделяется значительное внимание разработке методов, позволяющих осуществлять априорную оценку свойств химических соелипений исходя из структурной формулы, еще до их синтеза. Многие физико-химические свойства веществ удается рассчитать, используя как классические, так и квантовохимические подходы. Однако, существует целый ряд трудно формализуемых свойств, и прежде всего биологическая активность, вообще не поддающихся таким расчетам.

Методы анализа количественных взаимосвязей структура-активность (QSAR) широко применяются для поиска и конструирования лекарств, а также для оценки безопасности химических веществ. В основе QSAR лежит предположение, что свойства химического соединения определяются его структурой. Для описания структуры химического соединения в QSAR используют так называемые дескрипторы -разнообразные характеристики молекул вещества. Известно более 3000 дескрипторов, которые применяются для построения QSAR моделей [1, 2]. Одной из проблем, активно исследуемых в данной области, является поиск оптимального набора дескрипторов, которые смогли бы описать взаимосвязь структура-активность для разнообразных видов биологической активности и других свойств органических соединений [1, 3]. Использование разных дескрипторов, приводящих к различным моделям для одних и тех же веществ, порождает проблему выбора лучшей модели, что часто приводит к ее переобучению [4, 5].

Наряду с методами QSAR, основанными на структурных формулах химических j3^Hiu?iim\QT>.lSAt) ^а^ін^.гріигеняьтгаадлр.дяия^.нлш^ молекул методы, использующие пространственное описание химических структур (3D QSAH) [6-8]. Для этих методов необходимы данные о пространственной структуре лигандов, и их отличительной особенностью является то, что они учитывают стереоспсдифичность лигаид-белкового взаимодействия. В то же время, для построения предсказательных моделей необходимо пространственное выравнивание молекул, которое часто бывает неоднозначным, а если сами лиганды гибкие, то необходимо проводить поиск наилучших копформаций молекул, что приводит к увеличению сложности вычислений, и результат также может быть неоднозначным [9, 10].

Алгоритм построения модели является одним из важнейших компонентов QSAR-йзначально в QSAR доминирующим методом была обычная множественная линейная регрессия. С ростом количества дескрипторов и с появлением проблемы их выбора стали использовать другие методы: проекция на скрытые переменные, искусственные нейронные сети, метод опорных векторов и пр. [11]. Эти методы имеют как преимущества, так и недостатки, например, для искусственных нейронных сетей хорошо известна проблема оптимальной остановки обучения, дня метода опорных векторов необходим поиск оптимальных параметров [12], для других методов существует проблема выбора наилучшей модели [13].

Наряду с QSAR-модедироваиием отдельных свойств химических соединений, все актуальней становится проблема одновременной оценки множества разнообразных свойств для больших массивов химических структур: проблема оценки ADME/T (абсорбция, распределение, метаболизм, выведение н токсичность) [14, 15], компьютерное предсказание действия лигандов па множество мишеней одновременно [16], предсказание побочных эффектов лекарств [17. 18], В то время, как качественное предсказание спектра биологической активности уже известно, и широко применяется [19], множественное количествепное предсказание биологических активностей, фармакологических свойств и токсичности вывело бы на новый уровень количественный анализ взаимосвязей структура-активность органических соединений. Эффективная реализация множественного прогноза требует использования универсальных дескрипторов единого

7 типа, примером которых могут служить дескрипторы многоуровневых атомных окрестностей [20, 21].

Цель и задачи исследования

Цель диссертационной работы - разработка и валидация метода количественного прогноза биологической активности органических соединений на основе дескрипторов атомных окрестностей.

Для достижения этой цели были поставлены следующие задачи:

Исследовать применимость дескрипторов атомных окрестностей для описания органических соединений в задачах количественного анализа взаимосвязей структура-активность,

Разработать эффективный алгоритм количественного прогноза биологической активности органических соединении на основе дескрипторов атомных окрестностей и реализовать его в виде компьютерной программы.

Сравнить точность и прогностическую способность предложенного алгоритма с другими методами количественного анализа взаимосвязей структура-активность для разных видов биологической активности.

Множественная линейная регрессия

Множественная линейная регрессии Множественная линейная реірессия является одним из наиболее распространенных математических методов построения зависимостей структура-активность, В QSAR множественную регрессию используют для анализа связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной [22, 35]. Множсстаеппая линейная регрессия связывает значения измеренной биологической активности — у? со значениями одной или нескольких структурных индикаторных переменных (дескрипторов) - х, с помощью линейной модели: где и - коэффициенты регрессии, є - ненаблюдаемые остатки (ошибки), ш или в векторной форме: у Хд + , (1) где у - вектор-столбец из п зпачсіпій отклика; X - (1, х},..., sm) - регрессионная матрица, состоящая из единичного столбца 1 и m столбцов регрессоров хк; а — вектор-столбец неизвестных коэффициентов регрессии, которые надо опрелелить; є - вектор ненаблюдаемых осгаїков (ошибок). При этом нахождение коэффициентов регрессии решается следующим образом: а = ArgMin (у, - ZkXikflkf] (2)

Остатки обычно предполагаю гея случайными, независимыми, одинаково распределёнными с пулевым средним и ковариациоппой матрицей сгі,,, где о — неизвестная дисперсия остатков и 1п — единичная матрица [36]. Линейность регрессии состоит только в сиоеобе вхождения коэффициентов реїрессии и в зависимость (1), а сами регрессоры могут быть любыми функциями регрессоров и их комбинаций.

Множественная линейная регрессия имеет ряд ограничений. Главным ее недостатком является то, что число точек наблюдения отклика п должно значительно превышать число регрессоров т. Также необходимо использовать только слабо коррелированные реіреесорьг [22, 35].

Для преодоления этих ограігичепий используют множество методов, включающее пошаговую регрессию [37], метол проекций на скрытые переменные [29], эволюционные («генетические») алгоритмы [38], метод опорных векторов [39], искуесгвенные нейронные сети [40], и другие.

Пошаговая регрессия является одним из методов определения наилучшего подмножества регрессоров для объяснении зависимой переменной. Реализуется пошаговая регрессия е помощью последовательного включения, либо исключении, переменных в уравнении регрессии [41]. При первом варианте - последовательном шепочений, переменные по одной добавляться в модель и остаются в ней при условии того, что вклад данной переменной статистически значим [42]. При втором варианте, в начальной модели используются сразу все переменные, а в результате отбора последовательно выкидываются менее значимые переменные. Существует также смешанный тип - сочетание перлого к второго подхода.

Для оценки вклада переменных используют различные параметры: коэффициент детерминации, F-тест, t-тест и другие [43], Однако существенный недостаток при использовании F-теста и t-геста является то, чго они применяются на тех же самых данных, по которым ищутся значимые переменные, что, порождает проблему .множественного сравнения. При зюм, псрсмсішьіс могут вообще не иметь распределения требуемого для F-теста и t-теста [44], В свою очередь, использояан не коэффициента детерминации в качестве параметра отбора переменных так же порождает проблему обусловленности роста его величины [37]. Помимо этого существенной проблемой при использовании пошаговой регрессии является то, что ее примспенпс не гарантирует поиска л учшей модели,

Проекции на скрытые персмепные

Метод проекций на скрытые переменные — PLS (Projection on Latent Structures) янляетсн проекционным методом и использует особенности анализа главных компонент (РСА) и множественной линейной регрессии (МЛР). Данный метод часто применяется, когда необходимо построить уравнение при большом количестве независимых переменных (маїрицаХ) для одеJой или нескольких зависимых переменных (матрица V).

В основе проекционное метода лежит предположение о том, что большое количество независимых переменных можно представить а виде комбинаций нескольких скрытых переменных- Лриледем простую аналогию, примером скрыгых переменных могут быть концентрации компонент в смеси, котрую использую і для спектрального анализа. При этом спектры являются независимыми переменными, концентрации компонентов смеси — зависимыми переменными, а сами компоненты скрытыми переменными.

Суть проекционного подхода состоит в существенном понижении размерности исходных массиноы, как блока X - матрицы независимых персмсішьіх (дескрипторов), так н блока У (значений биологической активности):

Х=ТР1 з & У=и&+8у; r=XW(S Wyl где Т — матрица счетов, в которой каждая колонка содержит значения Х-счетоа ((„). U — матрица счетов, в которой каждая колонка содержит значения Г-счстов (иы). Р - матрица нагрузок, IV - матрица лесов [45]. Проекция строи гея согласованно - так, чтобы максимизировать корреляцию между соотпетствугопртми векторами Х-счетов 1 и У-счетов В результате получается набор скрытых переменных (матрицу счетов Г); маїрица нагрузок Р, и W — матрица весов.

Необходимо отмстить, что метод PLS успешно применяется в QSAR анализе. Главными примерами его использования является методы CoMFA. CoMSIA, HQSAR и др. [46-48]. Его успешное применение в чтих методах объясняется использованием этими методами молекулярных дескрипторов одной природы (аналогии компонент смеси -спектр), К сожалению.. в настоящие время все больше становится QSAR методов, использующих дескрипторы, имеющие разную природу [49-51]. В данных работах авторы используют большое количество различных типов дескрипторов: конституционных, физико-химических, топологических и др. Что изначально ставит под сомнение нахождение полезных екрьпых переменных.

Многоуровневые атомные окрестности

В качестве описания структуры химического соединения в данной работе использовались дескрипторы многоуровневых атомных окрестностей (MNA - Multilevel Neighborhoods of Atoms) и количественных атомных окрестностей (QNA - Quantitative Neighborhoods of Atoms).

Описание структуры химического соединения в виде множества MNA-дескрипторов {Dtt ..., D,,,} было разработано Д.А. Филимоновым (ГУ НИИ ЕМХ им. ВЛ-L Орехови щ РАМН). MNA-дсскрипюрьт [20] основаны па представлении сіруктурной формулы молекул вещества, в которой, согласно валентностям и зарядам атомов, явно указаны нее водороды, и не учитываются типы связей.

МЭДА-деикрииторы для каждого гнома молекулы строятся рекурсивно следующим образом: MN А-дескриптор 0-го уровня - меткаЛ атомам MN А- дескриптор любого следующего уровня - условное обозначение структурного Методы преобразования дескрипторов атомных окрестностей Количество дескрипторов атомных окрестностей (MNA и QNA), рассчитанных дли одной молекулы, как отмечалось выше, зависят от количества атомов в этой молекуле, Это порождает проблему использования дескрипторов атомных окрестностей при регрессионном анализе взаимосвязей структура-активность, из-за не обходимое ги иметь одинаковое количество переменных для всех анализируемых структур. Для преодоления зюй проблемы были использованы специальные методы преобразования дескрипторов томных окрестностей. Для преобразования MNA дескрипторов был использован мегод нечетких градаций, а для QNA дескрипторов использовались преобразования с помощью квантилей и полиномов Чебьгшева, ( Метод нечетких градации

Метод формирует нечеткие классы веществ с функциями принадлежности к ним соединений обучающей выборки [151]. В основе данного метода лежат следующие теоретические построении,

Для количественного прогноза евобегиа X предполагается наличие обучающей выборки со следующими данными: Xk - величина свойства Хдлн соединения к; g& - вес дескриптора D, в описании структуры соединения к.

Веса дескрипторов & принимают значеним 0 или \1ть, т - количество MNA дескрипторов в описании структуры соединен mK L g,k- 1 Формируются нечеікие классы веществ с функциями принадлежности к ним соединений обучающей выборки: Wf(x) = 1 - (Ufa - Ц/)2, ПрИ IV/ О, где tuf определяет ширину градации и р/ среднее зпачение свойства X при услонин принадлежности даипому классу /. Вычисляются оценки вероятностей P(Af) и P{Af\Di): Р(Ад = lAwfayn, P(AADi) = IdWfaktgafZkgfo где P(Ai\D,) — вероятность активности А; при условии, что химическое соединения имеет дескриптор Д, P(Ai) - априорная вероятность активности А:, х - неличина свойства Хдля соединения к, g,k - вес дескриптора Д в описании структуры соединения к, и - количество соединений в обучающей выборке.

Преобразование с помощью квантилей

Для получения фиксиронанного числа дескрипторов на каждую молекулу были использованы квантили QKA дескрипторов [150J, которые рассчитывались следующим образом: где Р'ьи Q\ являются неличинами Pi та Q,r рассчитанными согласно формулам (1) и (2) ия раздела 3.2.і.2 для молекулы, имеющей п гномон, упорядоченными по возрастанию,

При этом» выбирая нужное число значений І-], получается соответствующее количество дескриптором на каждую молекулу. Таким образом, структура молекулы, описанная квантилями QNA дескрипторов (qQNA), представляется как вектор значений: при этом было выбрано і = 1. ..., 12 и/^ = //13,

Преобразив а пне с помощью полиномов Чебышова Такое преобразование - конкретный частный случай преобразования, при котором для каждою ашмії молекулы вычисляются значении g.(P,Q) функций величин Р и Q для этого атома, и структура молекулы описывается дескрипторами, значения которьтх равны среднему по атомам молекулы значению gr(A{?) : где m - количество атомов, по которым выполняется усреднение, к - номер атома молекулы. Ріс и Qk QNA дескрипторы для атома к.

В диссеріационной работе в качестве ссмейстна функций ,(Л?) использованы полиномы Чебышева, средние значения которых вычислялись по атомам молекулы, имеющих два или более соседей. Оргопормальные значения U и V были дополнительно преобразованы с помощью гиперболического іангенса, так что нормированные QNA варьируют or -1 до 1, и значения полиномов Чебі>ішева рассчитываются по формуле: ^ХЛй) = ГнДле) = Сов{и*АгсСоз{ТадН(и)))*Сов{у*ЛгсСоя(ТапН(к})) где целые числа и, v -" 0, 1, 2, ... определяют степень двумерного полинома Чебышсва. Для большей эффективности и отсутствия эффекта переобучения, число полиномов Чебышева па каждую выборку бралось меньше, чем количество соединений в данной выборке.

Ингибиторы пиклин-зависимой киназы

Однако значения Q (0,56) у CoMFA модели существенно ниже, чем у остальных моделей. При ним предсказательная способность у моделей, полученных методами MNA_SCR и qQNASCR (0,724 и 0,487 соответственно), оказалась гораздо меньше, чем у CoMFA модели (0,856). По наилучший результат по предсказанию тестовой выборки показал метод QNA_Cheb_SCR. Таким образом, метод QNA_Cheb_SCR показал лучшую точность предсказания по сравнению с методами CoMFA, MNA_SCR и qQNA_SCR на выборке ингибиторов циклин-зависимой кштазы 2.

Ингибиторы дигидрофолат редуктазы QSAR-модслирование ипгибировапия дигидрофолат редуктазы было выполнено на основе обучающей выборки DHFRoeyi, а иадидацим полученных моделей бьтла проведена на основе тестовой выборки DHFRn;n. Полученные статистические характеристики моделей представлены в таблице 3.2.1.

Как видно из таблицы 3,2.1,, наивысшим значением R обладает модель, полученная при помощи метода MNA_SCR. При этом остальные характеристики лучше у модели, полученной при помощи метода QNA_Cheb_HCR. Различие в неличинах Q2 у методов MNA_SCR и qQNA_SCR несущее гне ино. При этом у методов MNA_SCR и QNA_Cheb_SCR. различие в вели шнах Q существенное3 однако, прогностическая способность незначительно выше у метода QNACbebSCR. Таким образом, можно сделать вывод, что для выборки ингибигоров дигидрофолат редуктазы лучшим из трех QSAR методов является QNA_Cheb__SCR,

Методом QNACheb SCR для выборки DHFR H было получено следующее регрессионное уравнение: р1С5(І=+4,ЗЗіТо,б-5,41 Т2.а-7Л Т -ь05054 У-4Л4 Т3,о 2Tl TnJ3 -219 Tlu-3,48 T7i6-5i41 T7j + 3114 TM-3172 Tij-4,R8 Tiy - 3,56 T7,4 - 5,94 T,,c, - 3,09 ТЙ.7 - 2,61 T0pS -l,3S T,?,n + 2,65 T4,7 + 3,03 T5,3-2.76 4S7- 1,48 То,ц г 2ДЗ Т4ів + 3508 Т2,3 + 1,48 Г«,« - 0,853 Пад + l№ 1 w + l,68 Tw + 3f55 Данное уравнение содержит 27 переменных, включающих дескрипторы: / Q я объем молекулы. Выборка DHFRo6 4 содержит 237 соединений и большое количество переменных, полученных в модели для данных структур, может говорить о сложной взаимосвязи мекду структурами и активностью. На рис 3,2.1. представлена зависимость между эксперимента:!ьными и вычисленными значениями рІСад для выборки DHFR,. .

Выборка ингибиторов дигидрофолаг редуктазы была использована Джефреем и соавторами [66J дли QSAR моделирования, которое выполнялось при помощи PLS с использованием различных дескрипторов, реализованных в методах CoMFA, CoMSIAbasic. CoMSlAextra HQSAR, EVA, и Сегіия2. 2D дескрипторы были сгенерированы при помоида модуля "Combichem"\ реализованною в проіраммє Cerius2. Кроме этого, для 2D моделирования также использовались E-state индексы (суммы индексов и их количество для каждого типа атомов}. Дополнительно были рассчитаны 3D дескрипторы, такие, как молекулярный объем и парциальные заряды поверхности, используя заряды Гастайгера-Марсили, реализованные в программе Cerius2 (модуль "Polygraph set"). При этом трехмерные структуры генерировались из SMILES с помощью программы CORINA, В таблице 3.2,2. представлены характеристики моделей, полученных Джефреем, и при помощи методов, предложенных в диссертационной работе.

Модели, полученные с помощью CoMFA, EVA и HQSAR имеют значение R2 немного выше (0,79, 0,81 и 0.8!, соответственно), чем у QNAChebSCR модели. При эгом MNA SCR модель имесг самый высокий показатель Rz (0,86). Однако, наилучший результат по процедуре скользящего контроля с исключением по одному, по сравнению со всеми методами, был получен у QNA_Cheb_SCR модели. Что говорит о большей перспективности данной модели. Модели, полученные CoMSJAbasic и CoMSIAextra, Q2 (0,63, 0,65, соответственно) сопоставимы с моделями MNA_SCR и qQNA_SCR по величине. Самые худшие ізсзультатьт по Q были получены с помощью 2D и 3D дескрипторов Cerius2 (0,5] и 0.53). Из трех моделей, основанных на дескрипторах атомных окрестностей, лучшую прогностическую точность показала модель, полученная методом QNAChebSCR - RЮТ" 0.61. Эта оценка, полученная иа гетерогенной выборке ингибіпоров дигидрофопагредуктазы, сопоставима с результатами моделей CoMSIAbasic, CoMSIAextra, EVA, CoMFA, незначительно меньше, чем результат, получешіьш HQSAR, и существенно лучше, чем значения, полученные с помощью метода PLS в сочетании с дескрипторами 2D/3D профаммы Ccrius2 и модели qQNA_SCR.

Ингибиторы аигиотепзпн-преврящатощего фермента QSAR-моделировапис ипгибировапия ангиотспзип-прсвращающсц] фермента было выполнено на оепово обучающей выборки АСЕуйу,,, а валидация полученных моделей проведена на тестовой выборке АСБгкт- Полученные статистические характеристики моделей представлены в таблице 3.3.1.

Как видно из таблицы 3,3.1., паиішсінимм значеннями R , Q и R 1Ccr обладает модель, полученная при помощи метода QNA_Cheb_SCRr Различие в величинах Q у методов QNACliebSCR и qQNA_SCR несущественно. При этом у метода MNASCR самый низкий показатель Q2, однако, прогностическая способное іь MNA_SCR значительно выше у метода qQNASCR. Таким образом, можно сделать вывод, что для QSAR моделирования ингибированяя ангиотензин-превращающего фермента лучшим методом из трех является QNA_Cheb_SCR При помоши метода QNAChebSCR для выборки АСЕ0руч было полнено елсдугощее регрессионное уравнение: р1С50 = 0.128ч,\т + 5,74 Т4,з + 5,32 І Ті,о + 6,29Тз,і-4Л7 Ті,4 + 2TSrT5,o-4f49E-06 ; V-,-l,86 rT4,0-2,25 T2,5 + l,5 T!;,&-0,357 T0i&+I,06 Данное уравнение содержит 31 пере.меппых, включающие дескрипторы: Pf О и объем молекулы, максимальная степень полинома Чебышева - 8. На рис. 3.3.L

Соединения, проявляющие острую токсичность для Tetrahymena pyriformis

Для проверки устойчивости метода QNA__Cheb_SCR реалт о ванного в программе GUSAR, была выполнена процедура двдгщатикратного разбиения каждой исследуемой выборки на обучающие и тестовые. Разбиение выполнялось случайным образом. При у і ом 20% соединений из начальной выборки относились к тестовой, а 80% соединений - к обучающей выборке. Затем по полученной обучающей выборке строилась модель и предсказывалась тестовая выборка. Процедуры обучения и предсказания вьшолнялись для каждого разбиения,

Перед началом проверки устойчивости метода пять исследуемых обучающих выборок (СВКгобуч, DIIFR yM, АСЕобу,, CYP2A5jJ0yif и CYP2A6ofi 4) были объединены с тестовыми выборками (СОКг DHFIWi, АСЕ CY IAS и CYP2A6reci), После этого было выполнено двадцагикратное разбиение случайным образом каждой из десяти выборок с процедурами обучения и предсказания для каждого разбиения. Результаты представлены в таблице 3.11.1.

Таблица 3.11,1, отображает следующие: минимальные, максимальные и средние значения R тссТ, полученные при двадцатикратном разбиении, значения Q , полученные на всей выборке до разбиения. Результаты, представленііьіе в таблице З.П.1., говорят о высокой устойчивости и предсказательной способности метода QNAChebSCR, так как разница между средними значениями R. „t, (0,77) и Q (0,80) по всем десяти выборкам всего 0,03.

Как было написано в разделе 2.2.5. для оценки области применимости модели в данной диссертационной работе используется модифицированная оценка.

Для сравнения, данного метопа с наиболее популярными методами оценки области применимости модели - классическая оценка и методом ближайшего соседа, была использована выборка ингибиторов дигидрофалат редуктазы (DIIFRoGyq и DHFRTCI7t), так как она содержит наибольшее количество соединений (237 в обучающей и 124 в тестовой выборках). Для сопоставления методов использовался график зависимости ошибки предсказания соединений тестовой выборки от величины оценки области применимости модели для данных соидинении.

Оценка обласш применимости модели методом ближайшего соседа осуіцествпялась следующем образом. Для каждого тестового соединения в обучающей выборке находился ближайший сосед. Ближайшим соседом считалось то соединение, евклидово расстояние до которого в пространстве дескрипторов было минимальным. Расстояние рассчитывалось по следующей формуле: где х и у — значения дескрипторов для соединений, между которыми рассчи гывается расстояние, т - количество дескрипторов, которыми описываются данные соединения, В качестве оценки применимости модели к тестовому соединению использовалось рассчитанное минимальное расстояние до ближайшего соседа.

Поскольку модифицированная и классическая оценки являются безразмерными величинами, а оценка, получаемая методом ближайшего соседа, является размерной величиной, то для сопоставления этик методов, QNA дескрипторы ортономировались (раздел 2.2.1.2.). После орюнормировки оценка области применимости модели производимая метод ближайшего соседа, также стала безразмерной. Ошибка предсказании соединений тестовой выборки оценивалась с помощью RMSE,

С помощью трех методов (модифицированная оценка, классический оценка и метод ближайшего соседа) была проведена огіенка области применимости модели для каждого соединения выборки DHFR-ют- Полученные результаты представлены на графиках зависимостей ошибок предсказания соединений тестовой выборки от величин оценок области применимости модели для данных соединений (рис. 3.16.1., 3,16.2. и 3.16.3.).

Похожие диссертации на Прогноз количественных свойств органических соединений на основе дескрипторов атомных окрестностей