Содержание к диссертации
Введение
ГЛАВА 1. Литературный обзор 7
1.1. Статистические методы построения QSAR/QSPR-моделей 7
1.1.2 Линейно-регрессионный анализ 7
1.1.3 Искусственные нейронные сети 10
1.2 Основные типы дескрипторов, используемых в QSPR-
моделировании 13
1.2.1 Общая классификация дескрипторов 13
1.2.2 Топологические индексы 14
1.2.3 Фрагментные дескрипторы 21
1.2.4 Квантово-химические дескрипторы 2 4
1.3 QSPR-моделирование различных свойств органических соединений. 2 7
1.3.1 QSPR-моделирование температуры кипения для разнородных выборок соединений 2 8
1.3.2 QSPR-моделирование теплоемкости, констант ионизации, энтальпии и энтропии фазового перехода из твердого состояния в жидкое для разнородных выборок органических соединений 3 1
ГЛАВА 2. Исследование возможности построения модели «структура-свойство» для разнородной выборки органических соединений на примере температуры кипения алканов и карбоновых кислот 3 5
ГЛАВА 3. Построение количественных моделей «структура - температура кипения» для разнородной выборки органических соединений 4 О
3.1 Формирование баз данных по температуре кипения 4 О
3.2 Построение количественных моделей "структура - температура кипения" 4 2
3.2.1 QSPR-моделирование температуры кипения отдельных классов органических соединений 4 2
3.2.2 Построение моделей "структура - температура кипения" для групп соединений, относящихся к структурно подобным классам л д
3.2.3 Общая линейно-регрессионная QSPR-модель для температуры кипения органических соединений
3.2.4 Построение общей QSPR-модели для значений температуры кипения с помощью метода искусственных нейронных сетей с і
ГЛАВА 4. Построение моделей «структура-свойство» для удельной теплоемкости органических соединений 65
4.1 Создание баз данных по значениям удельной теплоемкости органических соединений 6 5
4.2 Построение количественных зависимостей "структура - удельная теплоемкость" 6 7
4.2.1 QSPR-моделирование удельной теплоемкости для отдельных групп соединений 6 7
4.2.2 Общая линейно-регрессионная QSPR-модель для удельной теплоемкости органических соединений 7 5
4.2.3 Построение общей QSPR-модели для значений удельной теплоемкости с помощью метода искусственных нейронных сетей у о
ГЛАВА 5. Построение qspr-моделей вида «структура-условие-свойство» для энтальпии и энтропии фазового перехода из твердого состояния в жидкое Различных органических соединений
5.1 Создание баз данных по значениям энтальпии и энтропии фазового перехода из твердого состояния в жидкое 8 2
5.2 Построение моделей "структура - температура "структура - температура - Дгтж" для отдельных групп соединений 8 3
5.3 Построение QSPR-модели для значений АТНТ,К общей выборки соединений 9 6
5.3.1 Линейно-регрессионная QSPR-модель 96
5.3.2 Нейросетевая QSPR-модель для значений ЛГЯ общей выборки соединений 102
5.4 QSPR-моделирование значений Ar5T>K общей выборки соединений 10 5
5.4.1 Линейно-регрессионная QSPR-модель 105
5.4.2 Построение QSPR-модели для значений Дгтж общей выборки соединений методом искусственных нейронных сетей 111
ГЛАВА 6. Построение моделей «структура-свойство» для значений констант ионизации органических соединений 11 5
6.1 Создание баз данных 115
6.2 Построение моделей "структура - рКа" для групп родственных соединений 116
6.3 Линейно-регрессионная QSPR-модель для значений рКа общей выборки соединений 126
6.4 Нейросетевая QSPR-модели для значений рКа общей выборки соединений 13 5
Заключение 13 9
Выводы 140
Список литературы
- Линейно-регрессионный анализ
- QSPR-моделирование температуры кипения отдельных классов органических соединений
- Построение количественных зависимостей "структура - удельная теплоемкость"
- Построение моделей "структура - температура "структура - температура - Дгтж" для отдельных групп соединений
Введение к работе
Поиск закономерностей в характере изменения различных свойств молекул в зависимости от их строения относится к проблеме связи "структура-свойство". Решение этой задачи, даже для отдельного, достаточно узкого класса соединений, представляется весьма важным. В частности, найденные закономерности можно использовать для прогнозирования свойств еще не синтезированных соединений, поиска новых соединений с заданным набором свойств, а также для систематизации молекул определенного класса.
Количественные соотношения между структурой химических соединений и их свойствами (Quantitative structure-property relationships, QSPR) могут быть выявлены с помощью различных методов математического моделирования. Выбор метода определяется как типом химических соединений, их агрегатным состоянием и анализируемым свойством, так и требуемой точностью расчетов, допустимыми временными затратами и доступными аппаратными и программными средствами. К наиболее распространенным методам относятся линейно-регрессионный анализ и метод искусственных нейронных сетей.
На сегодняшний день предложено достаточно большое число различных QSPR-зависимостей, как линейно-регрессионных, так и нейросетевых, для самых разнообразных свойств органических соединений. При этом, в подавляющем большинстве случаев, QSPR-модели были построены для узких гомогенных выборок соединений, часто принадлежащих к одному классу. В то же время, создание надежной QSPR-модели для разнородной выборки соединений позволит, используя лишь одно корреляционное уравнение, предсказывать свойства любых соединений, принадлежащих к разным классам. Однако, несмотря на наличие современных мощных ЭВМ и обширных данных по строению и свойствам огромного числа соединений, проблема построения количественных моделей "структура-свойство", описывающих свойства не
гомологичной, а заведомо разнородной выборки органических веществ, по-прежнему представляется нерешенной.
Кроме того, до сих пор в явном виде не сформулированы четкие методологические правила построения подобных моделей. При этом, в большинстве опубликованных работ используются либо заранее выбранные авторами дескрипторы, (например, дескрипторы, предлагаемые авторами работы) либо напротив, проводится автоматический отбор дескрипторов из достаточно большого их числа (как правило, из всех дескрипторов, реализованных в используемой программе). Также часто используются дескрипторы, требующие достаточно сложных вычислений, но не дающие значительного улучшения статистических параметров модели, по сравнению с более простыми дескрипторами.
Данная работа посвящена изучению возможности построения количественных моделей связи "структура-свойство" для разнородных выборок органических соединений и разработке методологии последовательного построения подобных моделей. Особое внимание в работе уделено определению типов дескрипторов, наиболее применимых для построения QSPR-моделей, описывающих физико-химические свойства соединений, и изучению различных возможных путей поиска наиболее значимых дескрипторов. В работе рассмотрены такие важнейшие свойства органических соединений, как температура кипения, удельная теплоемкость, константа ионизации, энтальпия и энтропия фазового перехода из твердого состояния в жидкое.
Линейно-регрессионный анализ
В настоящее время предложено, и с успехом применяется, огромное количество различных подходов к поиску количественных зависимостей между структурой вещества и проявляемой им биологической активностью (Quantitative structure-activity relationships, QSAR) или другими свойствами (Quantitative structure-property relationships, QSPR). Эти подходы различаются по способу представления структуры (топологическое или трехмерное), по учитываемым при расчетах структурным параметрам (типы связей и атомов, атомные заряды, расстояния между атомами в пространстве) и, следовательно, по точности и сложности вычислений, по типу используемых параметров и т.д. Однако, при всем разнообразии способов построения QSAR/QSPR-моделей, практически все они основаны либо на линейно-регрессионном анализе, либо на методе регрессии частичных наименьших квадратов (PLS), как, например, метод сравнительного анализа молекулярного поля (CoMFA), либо на использовании искусственных нейронных сетей [1, 2]. При этом, для решения задач QSPR-моделирования наиболее часто применяются именно линейно-регрессионные и нейросетевые модели.
Одним из наиболее широко используемых способов построения количественных моделей "структура-свойство" является линейно-регрессионный анализ [3, 4]. Очевидно, что в данном случае QSAR/QSPR-зависимости имеют линейный характер. В простейшем случае некоторое исследуемое свойство Y, например, температура кипения, может быть представлено в виде уравнения прямой Y = /Зх + /?0, где / - свободный член в уравнении, а /? - коэффициент при некоторой независимой переменной х. Переменная х представляет собой дескриптор, с помощыо которого строится QSAR/QSPR-модель. Классификация и различные примеры дескрипторов, используемых в QSAR/QSPR, рассмотрены ниже в данной главе. Несмотря на наличие в литературе примеров однопараметровых QSAR/QSPR-моделей [5, 6], чаще всего такие модели содержат два и более дескриптора. В этом случае QSAR-уравнение принимает вид Y = fix] + р2х2 +...+ Дх, + р0, где независимые переменные X/ являются набором используемых дескрипторов. Если имеется выборка из п соединений, то значение рассматриваемого свойства каждого отдельного соединения из данной выборки, Yj , будет описываться соответствующим уравнением Yj = р] ; + Pj2Xj2 +...+ PJJXJP + fiq, где/ может принимать значения от 1 до п, XJJ - значение дескриптора xt дляу -го соединения, р - количество дескрипторов. Для выборки, состоящей из п соединений, будет получено п уравнений для Yj, которые могут быть представлены в матричном виде: Y = рх, где хю = х20 = ... = х„о = 1, X - регрессионная матрица, содержащая значения дескрипторов (рис. 1.1).
Поскольку коэффициенты Р как правило, неизвестны, используются их приближенные значения Ъ. При этом вектору /? будет соответствовать вектор Ъ = (X Xj X Y, щ&Х - транспонированная матрицах (рис. 1.1). рассчитанное значение для У., 7 - единичный пх\ вектор. В свою очередь, данные суммы квадратов позволяют определить важнейший показатель регрессионного анализа - множественный коэффициент корреляции: SSR SSF R2 = = 1 , характеризующий пропорциональные изменения SSTO SSTO зависимой переменной (Y), связанные с изменениями в наборе независимых переменных (X). Очевидно, что R может принимать значения от 0 до 1. R равен единице тогда, когда предсказанные значения Yj равны соответствующим экспериментальным значениям YJ} то есть при SSE = 0. Отметим, что поскольку значение SSE не увеличивается при добавлении дополнительных независимых переменных (дескрипторов), значение коэффициента корреляции может только расти с ростом числа дескрипторов в уравнении. Однако, высокие значения R не всегда соответствуют высокой корреляции между Y и X. Такие случаи возникают, например, при наличии двух отдельно лежащих групп точек или плотной группы точек и отдельной "выпадающей" точки на графике. Поэтому, кроме коэффициента корреляции R , для оценки качества регрессионной модели часто используется критерий Фишера F, равный F = — — и показывающий статистическую значимость модели. Чем больше значение F, тем большей статистической значимостью обладает модель и тем больше ее предсказательная способность.
QSPR-моделирование температуры кипения отдельных классов органических соединений
Как было отмечено в главе 2, при использовании предлагаемого в данной работе подхода к построению модели "структура-свойство" для разнородной выборки соединений, первым этапом является выявление ведущего дескриптора, дающего удовлетворительную корреляцию с рассматриваемым свойством для отдельных гомологичных выборок, составляющих общую БД. В связи с этим было проведено построение частных QSPR-моделей для отдельных классов соединений с использованием различных топологических дескрипторов, реализованных в программном комплексе NASAWIN. В частности, были использованы индекс Балабана (J), индекс Винера (W), величина молекулярной массы (MW), дескриптор меры молекулярного объема (Vx) и индексы связности: индекс Рандича ( /), сольватациоиный индекс ( tf), валентный индекс связности Сх ). Статистические параметры полученных моделей "структура-свойство" представлены в таблице 3.1.
Полученные результаты показали, что индекс Балабана J в большинстве случаев дает наиболее низкую {R 0,1) корреляцию с температурой кипения. Так, например, среди всех моделей, представленных в таблице 3.1, самый низкий коэффициент корреляции (R = 0,0005, s = 32,4 С) был получен при использовании индекса J для сульфидов.
Наиболее высокое значение коэффициента корреляции при использовании данного индекса было найдено для тиофенов, но оно составило всего R2= 0,6015. Также было найдено, что Ткт большинства рассматриваемых классов соединений хорошо коррелируют с молекулярной массой (MW) и индексом Vx. С другой стороны, QSPR-модели, построенные на основе данных дескрипторов, не обладают наилучшими статистическими параметрами. Кроме того, в случае тиофенов, диолов и галогензамещенных спиртов и ароматических соединений наблюдается достаточно низкая корреляциия между Ткип и величиной молекулярной массы (R тиофены = 0,0307, R диолы = 0,2371).
Из таблицы 3.1 видно, что использование валентного индекса % оказалось эффективным при построении моделей для алкенов, диенов, карбоновых кислот и аминов. Также, для многих классов соединений, наилучшие модели были получены на основе индекса связности % и сольватационного индекса 1/. Как было отмечено в литературном обзоре, в некоторых случаях индекс х% равен сольватационному индексу j\ Среди классов соединений, рассматриваемых в данной работе, индексы х и / будут совпадать для алканов, алкенов, диенов, алкипов, циклоалкенов, циклоалкапов, незамещенных диолов, спиртов, сложных эфиров, карбоновых кислот, предельных и непредельных карбонильных соединений, аминов, пиридинов. Напротив, для галогеналканов и алкенов, ароматических соединений с различными заместителями, сульфидов, тиофенов, хлор-, бром-, и иодзамещенных спиртов, индекс xtf вносит значительную поправку. Например, для сульфидов QSPR-модель, построенная с использованием индекса , имеет коэффициент корреляции R = 0,9736 и стандартное отклонение s = 5,3 С, а для модели, построенной с использованием индекса 1/, - R2 = 0,9845, s = 4,0 С. Также улучшение статистических характеристик моделей связано с тем, что индекс f, в отличие от %, учитывает, хотя и в определенном приближении, размеры атомов.
Таким образом, использование индекса [% в некоторых случаях позволяет заметно улучшить статистические параметры при моделировании Ткип соединений, содержащих гетероатомы.
Анализируя QSPR-модели, построенные на основе индекса / , (таблица 3.1) можно сделать вывод, что наилучшие корреляции были получены для циклоалканов (R2 = 0,9910, s = 4,7 С), циклоалкенов (R2 = 0,9849, s = 4,9 С), сульфидов (R2 = 0,9845, s = 4,0 С), сложных эфиров (R2 = 0,9812, s = 4,8 С). Некоторое ухудшение корреляции (R = 0,9768, s = 7,6 С) в модели, построенной для алканов, возникает вследствие того, что низкокипящие алканы "выпадают" при построении линейно-регрессионной зависимости. Это можно объяснить тем, что зависимость температуры кипения алканов от числа атомов углерода является нелинейной. Эта функция имеет близкий к линейному характер для большинства алканов, а в случае низко- и высококипящих веществ, ветви функции достаточно круто изгибаются, что приводит к значительному отклонению от линейной зависимости.
Построение количественных зависимостей "структура - удельная теплоемкость"
После разбиения общей разнородной БД на более мелкие и гомогенные выборки было осуществлено построение частных регрессионных моделей "структура-свойство" для полученных баз данных. Для этого, с помощью программы NASA WIN, как и в случае температуры кипения (глава 3), был проведен поиск наилучшей однопараметровой зависимости для каждой группы соединений с использованием наиболее "простых" топологических дескрипторов: индекса Балабана (J), индекса Винера (W), дескриптора меры молекулярного объема (Vx), индексов связности: индекса Рандича (У, сольватадионного индекса (У) и валентного индекса (У), а также дескриптора молекулярной массы {MW) (таблица 4.1).
Из таблицы 4.1 видно, что индексы W, х и величина молекулярной массы, то есть дескрипторы, не учитывающие в явном виде типы атомов, входящих в молекулу, достаточно хорошо коррелируют со значениями удельной теплоемкости. Однако, для четырех из шести групп соединений наилучший коэффициент корреляции был получен при использовании индекса Vx. Поэтому именно Vx был выбран в качестве ведущего дескриптора. Данный индекс был также использован для построения однопараметрового корреляционного уравнения для общей БД (рис. 4.1). Полученная QSPR-модель
Необходимо отметить, что, как и ожидалось, при построении общей модели с использованием дескриптора молекулярной массы (Т?2 = 0,6839, s = 60,6 Дж-моль К"1) индекса Винера W (Д2 = 0,7914, s = 49,2 Дж-моль -К"1), индекса Рандича 1% (К2 = 0,8972, s = 34,6 Дж-моль -К"1) и индексов У (Т?2 = 0,8787, s = 37,5 Дж-моль- -КГ1) и У (Я2 = 0,9017, s = 33,8 Дж-моль- -К 1), был получен более низкий результат.
Таким образом был найден дескриптор, позволяющий построить однопараметровое QSPR-уравнение с достаточно высокими статистическими параметрами для значений теплоемкости разнородной выборки соединений.
Как показано в главе 3, корреляция, полученная для разнородной выборки с использованием одного ведущего дескриптора, может быть улучшена путем добавления специфических структурных корректирующих дескрипторов. Поэтому, с целью дальнейшего улучшения корреляции с помощью корректирующих дескрипторов, для каждой отдельной группы соединений был осуществлен поиск наиболее значимых фрагмеитных дескрипторов. С этой целью для каждой рассматриваемой группы были построены двухпараметровые QSPR-модели с использованием индекса Vx и одного фрагментного дескриптора. При этом, с помощью программы NASAWIN осуществлялся перебор возможных фрагмеитных дескрипторов, включая линейные, разветвленные и циклические фрагменты с количеством атомов от одного до шести. Наилучшие из полученных моделей представлены в таблице 4.2.
Как следует из данных, представленных в таблице 4.2, использование фрагмеитных дескрипторов привело к улучшению статистических параметров моделей, построенных для каждой группы соединений, по сравнению с QSPR-моделями, содержащими только индекс Vx (таблица 4.1). При этом, фрагментные дескрипторы оказались наиболее важными именно для тех групп, для которых при использовании индекса Vx были получены наиболее низкие коэффициенты корреляции, а именно для галогенсодержащих соединений и соединений с несколькими гетероатомами. Следует также отметить, что вместе с улучшением коэффициентов корреляции для каждой группы соединений также значительно снизились значения стандартного отклонения. Например, для галогенсодержащих соединений, при использовании одного индекса Vx был получен коэффициент корреляции R = 0,4984 и стандартное отклонение s = 24,4 Дж-моль -K 1, тогда как использование дополнительного фрагментного дескриптора позволило получить R2 = 0,7529 и s = 15,9 Дж-моль -K"1 (рис 4.2).
Для соединений с несколькими гетероатомами, коэффициент корреляции увеличился от R = 0,5329 до R = 0,6975, а значение стандартного отклонения снизилась от s = 36,3 до s = 23,4. На графике, полученном для данной группы соединений, (рис. 4.2) видно, что одно из соединений (а именно, триэтаполамин) расположено достаточно далеко от основной группы точек. Данное соединение при моделировании входило в состав контрольной выборки и значение его теплоемкости не учитывалось при расчете коэффициента корреляции.
Построение моделей "структура - температура - АГЯТЖ" и "структура - температура " для отдельных групп соединений
Базы данных (БД) по значениям энтальпии (А7IIтж) и энтропии (A7STX) фазового перехода из твердого состояния в жидкое при различной температуре для ряда органических соединений были сформированы по литературным источникам [168] с помощью программы MEOW. В БД были включены алифатические и ароматические соединения с числом атомов от двух до сорока (без учета атомов водорода), а именно предельные и непредельные углеводороды, галогензамещенные углеводороды, кислородсодержащие соединения и соединения, содержащие атом азота. Однако, в отличие от выборок, сформированных для других рассматриваемых в работе свойств, в данных БД, как правило, одному соединению соответствовало несколько значений энтальпии и энтропии, измеренных при разной температуре. Общий объем БД для энтальпии составил 1315, а для энтропии 1314 записей.
Каждая из двух созданных БД была разделена на четыре отдельные выборки соединений, а именно углеводороды (332 записи для Л Я и Д!ST/K), галогензамещенные углеводороды (215 записей для А ЯТЖ, 217 записей для А б тж), кислородсодержащие соединения (637 записей дляА Ятж, 634 записей для A!SjyK), азотсодержащие соединения (131 запись для А;ЯТЖ и /s!ST.x). Отметим, что кислород и азотсодержащие соединения, вошедшие в БД, содержат только один гетероатом - атом кислорода или азота, соответственно.
Следуя принятому в работе общему методу построения QSPR-моделей, на первом этапе моделирования значений А ЯТЖ и A!SryK был осуществлен поиск ведущего дескриптора, наиболее значимого для отдельных групп соединений. Для этого каждая БД была случайным образом разделена на обучающую (90% соединений) и контрольную (10% соединений) выборки. Как было отмечено выше, большинству соединений соответствует несколько значений энтальпии и энтропии, измеренных при разных температурах. В связи с этим, представляется целесообразным использование значения температуры в качестве отдельного дескриптора. Такой подход направлен в первую очередь на расширение области применения получаемой QSPR-модели, давая возможность предсказывать значение интересующего свойства при разных температурных условиях. Поэтому во все модели "структура - А Ятж" и "структура - A STK" в качестве независимой переменной было включено значение температуры.
Далее был осуществлен поиск ведущего дескриптора, дающего вместе с дескриптором температуры наилучшую корреляцию со значениями энтальпии и энтропии для каждой из рассматриваемых групп соединений. При этом были опробованы различные топологические индексы, а именно индексы Кира, к, индекс Рандича ]%, сольватационпый индекс ]/, индекс Винера, W, индекс Балабана J, индекс Vx, а также величина молекулярной массы, MW. Полученные результаты представлены в таблице 5.1.
Из таблицы 5.1 следует, что наилучшие QSPR-модели как для энтропии, так и для энтальпии фазового перехода были построены с использованием значения температуры и индекса Кира2ка, характеризующего форму молекулы. При этом, наиболее высокие коэффициенты корреляции были получены для значений А7ЯТЖ и A! ST}K группы углеводородов: R2 = 0,8857 и R2 = 0,8840, соответственно. Кроме того, полученные результаты показали, что в большинстве случаев все использованные индексы дают более высокую корреляцию со значениями А! Н тж и А75тж углеводородов и азотсодержащих соединений, чем со значениями А7ЯТЖ и A! STM кислород- и галогенсодержащих соединений. Отметим, что для каждой группы соединений модели, построенные для значений энтальпии, обладают более высокими статистическими характеристиками, чем аналогичные модели, построенные для значений энтропии.
Поскольку индекс 2ка позволил получить достаточно высокие коэффициенты корреляции для каждой отдельной группы соединений, была проанализирована возможность построения общей QSPR-модели для всей БД
Кислородсодержащие соединения А Галогенсодержащие соединения Азотсодержащие соединения о Углеводороды использованием одного индекса ка и значения температуры (рис. 5.1). При этом были получены следующие QSPR-уравнения: АгЯта = -6,38 + 0,05Г + 2,582ка, Я2 0,8091, s = 6,7 кДж-моль"1, F = 2500 и Дг5та = 31,66 - 0,027+ 8,09 , Р? = 0,8020,5 = 18,3 Дж-моль -К 1, F=2388. a)
Как следует из представленных данных, в обоих случаях были получены достаточно высокие значения коэффициентов корреляции. С другой стороны, анализ полученных зависимостей (рис. 5.1) показал, что для обоих моделей, достаточно большое количество точек на графике значительно удалено от линии тренда. Например, несколько точек на графиках формируют отдельную ветвь, значительно отклоняющуюся вверх от основной группы точек. Данным точкам соответствует семь сложных эфиров с общей формулой C2H5OC(=0)R, где R - линейная алкильная цепь, содержащая 11, 15, 19, 21, 23, 25 и 29 углеродных атомов. Три точки в нижней части графика, соответствующие значениям А ЯТЖ и A Sm гекса-1,2,3,4,5,6-гексонола при трех различных значениях температуры, также достаточно сильно удалены от трендовой линии, особенно в модели, построенной для А7ЯТЖ. Кроме того, на графиках видно, что от линии тренда заметно отклоняются соединения со значениями энтальпии более 70 кДж-моль"1 и энтропии более 200 Дж-молі/ -К" . В связи с этим, на следующем этапе работы была предпринята попытка дальнейшего улучшения QSPR-моделей путем добавления дополнительных корректирующих фрагментных дескрипторов.
С этой целью были построены QSPR-модели для групп соединений с использованием индекса 2ка, температуры и различных фрагментных дескрипторов. Поиск наиболее значимых фрагментных дескрипторов для каждой группы соединений осуществлялся с помощью метода пошаговой линейной регрессии (ПЛР), реализованного в программном комплексе NASAWIN. При этом, были использованы все типы фрагментных дескрипторов дескрипторного блока FRAGMENT комплекса NASAWIN с длиной фрагмента не более шести. Полученные корреляционные уравнения представлены в таблице 5.2.