Введение к работе
- з -АКТУАЛЬНОСТЬ РАБОТЫ. Центральной проблемой теоретической химии является нахождение зависимостей между структурой органических соединений и проявляемыми ими свойствами. В попыпсах ее решения широко используется вычислительная техника, оснащенная программным обеспечением, позволяющим находить количественные корреляции "структура-свойство" (ККСС). Для построения в ЭВМ KKGC-моделей используют различные методы описания молекул. Эти методы віслючают в себя вычисление топологических индексов, теоретико-информационных индексов, наборов струїстуріш фрагментов различных типов и т. п. Важны).! аспектом создаваемых ККСС-моделей является задача выбора оптимального набора признаков (дескрипторов) молекул для расчета данного свойства, а также задача содержательной интерпретации параметров получаемых ККСС-моделей.
В настоящее время при описании структур молекул принято использовать наборы заранее заданных дескрипторов, индексов, структурных фрагментов, формакофоров, дескрипторных центров и т.п. Наборы признаков могут дополняться, если в ходе решения ККСС-задачи выясняется, что реализованный в программе набор признаков неадекватно описывает исследуемое свойство.
Как правило, набор признаков молекул, используемый для эасчета одного свойства, например, ' температуры кипения, су-цественно отличается от набора, по которому проводят вычисления другого свойства, например, липофилыюсти веществ. Выбор іризнаков, адекватных данному свойству, является одной из вая-1ых проблем, возникающих при решении ККСС-задач. ' Для этого, іапример, в программе можно иметь большой и постоянно расширяемый список параметров молекул и использовать их для решения СКСС-задач.
В настоящей работе предлагается новый подход к решению іроблемьі адекватного выбора признаков для расчета конкретного івойства молекул; При этом не используются заранее предопреде-іенньїе списки признаков: дескрипторы молекул формируется авто-іатически по структурам веществ обучающей выборки.
ЦЕЛЬЮ РАБОТЫ является создание метода автоматического ормирования дескрипторов структур органических соединений, азработка соответствующих алгоритмов и программ и включение х в инструментальную программную систему для практического остроения зависимостей "структура-свойство".
В соответствии с целью были поставлены следующие ЗАДАЧИ:
1. Провести исследование различных вариантов автомати- _. еского и исчерпывающего формирования.подструктурных фрагмен-
- 4 -тов заданных типов и обосновать методику выбора оптимального описания структур молекул для расчета данного физико-химического свойства
-
Разработать алгоритмы и программы, реализующие предложенную методику и обеспечивающие автоматический отбор параметров, адекватных для расчета данного свойства.
-
Провести практическую проверку разработанных программ для построения ККСС-эависимостей различных свойств веществ: лилофильность, температура кипения, энтальпия образования, хроматографическая подвижность, поляризуемость и другие свойства на обучающих выборках органических соединений ' разных классов.
-
Предложена и программно реализована новая методика автоматического описания структур молекул на основе исчерпывающего перечисления всех неэквивалентных фрагментов заданного типа. С их помощью учитываются топологические, химические и иные особенности строения молекул.*
-
Показано, что с целью получения адекватного описания молекул следует вводить маркеры атомов для учета их специфических особенностей (например, варяда, электрофильности, нук-леофильности, относительного пространственного положения и т.п.) и проводить проверку значимости получаемых признаков по предлагаемой в работе методике. .
-
Предложен и программно реализован метод отбора значимых признаков (из большого числа всевозможных структурных фрагментов) для расчета данного физико-химического свойства
-
Проведено исследование влияния различных маркеров атомов и различных длин цепочек маркированных атомов на качество линейных ККСС-моделей. Построены линейные модели "структура-свойство" для различных физико-химических свойств органических соединений. Показана их пригодность для прогноза свойств новых соединений.
ПРАКТИЧЕСКАЯ ЦЕННОСТЬ работы состоит в том, что
-
Разработаны оригинальные алгоритмы и программы, предназначенные для перечисления и кодирования всех структурных фрагментов молекул - цепочек маркированных атомов заданной длины. Программы составляют ядро системы "БИБИГОН" и служат для построения и верификации линейных ККСС-моделей. Система проходит опытную эксплуатацию в ряде организаций, включая ИОХ РАН, ИФАВ-РАН,. Химфак МГУ.
-
На основе предложенного подхода построены линейные
RKCC-модели для расчета таких раэличньн свойств органических
соединений как липофильность, температура кипения , хроматог-рафическая подвижность, энтальпия образования, поляризуемость^ антивирусная активность на обучающих выборках органических соединений различных химических классов.
Результаты работы содержатся в 13 публикациях. Результаты докладывались на Межвузовской конференции "Молекулярные графы в химических исследованиях" (Калинин, 1990), на Первой Всесоюзной конференции по теоретической органической химии (ВАТОХ,' Волгоград, 1991), на Всесоюзной школе-семинаре "Статистический и дискретный анализ данных и экспертные оценки" (Одесса, 1991), на 9-ой Всесоюзной конференции "Химичекая ин-іїорматшеа", (Черноголовка, 1992).
Работа состоит из введения, четырех глав, заключения, списка литературы и двух приложений.