Содержание к диссертации
Введение 5
Глава 1 Методы и средства моделирования зависимости «структура- 11 свойство», «структура-активность» (Аналитический обзор)..
1.1 Методы и алгоритмы прогнозирования свойств 11
органических соединений на основе химической структуры
1.1.1 Моделирование зависимости «структура-свойство 11
(активность)» методами QSPR / QSAR
Методологические аспекты прогнозирования свойств 12 (активности) методами QSPR /QSAR
Количественное описание молекулярной структуры 16
химических соединений
1.1.1.3 Возможности и ограничения применения методов 29
QSPR (QSAR) для моделирования зависимости
«структура-свойство (активность)»
1.1.2 Моделирование зависимости «структура -свойство 32
(активность)» методами ТРО
Принципы распознавания образов 32
Методологические аспекты прогнозирования свойств 36 (активности) методами распознавания образов
1.1.3 Программные комплексы для моделирования зависимости 45
«структура -свойство»
1.2 Динамика информационных потоков в области 51
моделирования зависимости "структура-свойства", "структура
-активность" и конструирования соединений с заданными
свойствами
Заключение 57
Глава 2 Подготовка исходной информации об ингредиентах 59 полимерных композиций (на примере полипропиленовых
композиций)
2.1 Ингредиенты композиций на основе полипропилена 59
Полипропилен: свойства и применение 59
Проблемы переработки и эксплуатации полипропилена и 63 пути их устранения
Введение функциональных добавок и создание 65 многокомпонентных композиций на основе полипропилена
Моделирование зависимости «структура - свойство 69 (активность)» как подход к целенаправленному отбору и/или синтезу эффективных ингредиентов полимерных
композиций
2.2 Систематизация информации об ингредиентах полимерных 71
композиций (на примере полипропилена) и формирование
репрезентативной выборки
Сбор и верификация информации об органических 72 добавках
Оценка эффективности ингредиентов. Обобщенный 73 критерий эффективности
2.3 Разработка организационной структуры базы данных и ее 83
наполнение
Структура базы данных 83
Возможности использования базы данных 86
Состав обучающей и тестовой выборок 88
Глава 3 Формализованное описание молекулярной структуры 89
соединений
Дескрипторы электронного уровня 91
Дескрипторы структурной формулы 93
Топологические индексы 93
Структурные фрагменты в качестве дескрипторов 97
Дескрипторы электронной структуры 99
Дескрипторы межмолекулярных взаимодействий 102
3.5 Расчет и хранение дескрипторов 103
Глава 4 Моделирование зависимости «структура -активность» 107 органических соединений -ингредиентов полипропиленовых
композиций
4Л Регрессионные модели зависимости С-С(А) на примере 109
ингредиентов полипропиленовых композиций
4.2 Применение логико-комбинаторного подхода для 112
моделирования зависимости «структура -активность»
органических соединений -ингредиентов полипропиленовых
композиций .
4.3 Моделирование зависимости «структура -активность» 114
органических соединений -ингредиентов полипропиленовых
композиций методом k-ближайших соседей
Глава 5 Тестирование соединений в качестве ингредиентов 117
полипропиленовых композиций
Выводы . 126
Список использованных источников 130
Приложение 1 151
Приложение 2 152
Приложение 3 153
Приложение 4 154
Введение к работе
В настоящее время бурно развивается научное направление, разрабатывающее методы и специальные программно -технические средства поиска решений математически неформализованных задач (НФЗ) [1]. К классу НФЗ в области химии относятся, в частности, следующие задачи:
Прогнозирование реакционной способности и физических свойств новых веществ (прямая задача);
Разработка новых материалов с заданными свойствами (обратная задача).
Указанные задачи являются практическими приложениями фундаментальной задачи современной химической науки .- исследования зависимости «структура -свойство» (« структура -активность») (рис.1).
Несмотря на успехи квантовой механики, несмотря на успехи в смежных физических дисциплинах, структурная теория органической химии остается базовой теорией органической химии. С точки зрения структурной теории перед химиками встают две фундаментальные проблемы [2]. Первая - это осуществление структурных трансформаций, то есть проблема перехода от одной структуры к другой. Вторая проблема - соотнесение структуры и свойства вещества, в пользу которой и происходит перераспределение усилий в настоящее время.
В основу концепции, взаимосвязи структуры и свойств легли эмпирические закономерности изменения свойств веществ с изменением их структуры, установленные к середине XIX века. Открытый Д.И. Менделеевым Периодический закон можно рассматривать в качестве научной основы концепции строение - свойство, а предсказание физических свойств и существования неоткрытых новых элементов является примером устойчивой предсказательной модели этой взаимосвязи [3].
Разработка методов, позволяющих надежно предсказывать физико -химические свойства и биологическую активность новых, еще
6 несиитезированных, соединений и направленно конструировать вещества с заданными свойствами, т.е. решать указанные НФЗ, является принципиальной задачей современной химической науки [4].
Базовая концепция органической химии
Структурная теория
Фундаментальные проблемы
._ 4„.._ ,4. ..,
Осуществление
структурных трансформаций
Соответствие
структуры и свойств
вещества
ПРЯМАЯ ЗАДАЧА
ОБРАТНАЯ ЗАДАЧА
Прикладные задачи
Прогнозирование свойств соединений
Дизайн соединений с заданными свойствами
Подходы
к решению
Использование моделей и
алгоритмов распознавания
образов
Скрининг молекул в базах данных
Использование моделей QSAR (QSPR)
Комбинаторный синтез
Генерация структур
на основе моделей
QSAR (QSPR)
Рисунок 1— Задачи и подходы к решению в проблеме установления
взаимосвязи С-С, С-А
Поиск решений прямой задачи ведется в двух направлениях - с использованием методологии QSPR (QSAR) и с использованием методов теории распознавания образов (ТРО). Важную роль в методологии играет
гипотеза о том, что общие. свойства соединений некоторого семейства обусловлены наличием в нем общего структурного фрагмента.
Процесс установления зависимости «структура -свойство (активность)» можно представить в виде последовательных стадий:
Подготовка и анализ химической информации о соединениях с учетом поставленной задачи и формирование обучающей выборки соединений с заданным свойством (активностью) или набором свойств;
Формализованное описание молекулярной структуры соединений обучающей выборки;
Математическое описание зависимости «структура - свойство (активность)» и создание устойчивых прогностических моделей для предсказания свойств новых соединений.
Практическая реализация второй стадии процесса осложнена требованием сохранения максимальной информативности о молекулярной структуре. Одним из современных подходов к количественному описанию структуры химических соединений является дескрипторный подход: описание осуществляется с помощью независимых переменных, характеризующих структурные особенности соединений или их частей -заместителей или фрагментов.
Реализация третьей стадии процесса существенно упростилась в связи с прогрессом вычислительной техники. Построенные статистические модели проходят процедуру оптимизации с последующей генерацией химических структур, имеющих в определенном смысле оптимальные значения дескрипторов.
Процесс разработки веществ (материалов) с заданными свойствами (например, соединения - эффективного ингредиента полимерной композиции) с учетом специфики решаемой задачи можно условно разбить на три стадии: 1. Поиск в базе данных или конструирование соединений -претендентов (например, на роль эффективных добавок к полимерной композиции);
Тестирование соединений -претендентов с помощью прогностической модели (на степень проявления определенного свойства). Следует отметить, что тестировать необходимо и на проявление нежелательных свойств (например, на токсичность);
Синтез соединений, для которых прогнозируется желаемое значение свойства и/или получение полимерных композиций с соединениями -лидерами в качестве ингредиентов и экспериментальное подтверждение свойств.
Тестирование соединения-претендента проводится на математических моделях, устанавливающих взаимосвязь между структурой и свойствами. В рамках многомерных методов анализа данных для установления зависимости «структура -свойство (активность)» используются модели классификационного типа - прогноз эффективности соединения осуществляется по дискретной шкале (эффективен в соответствующем качестве -неэффективен и т. д.) и регрессионного типа - предсказание осуществляется по континуальной шкале (количественная оценка).
Построению моделей структура-свойство (активность) для органических соединений, являющихся ингредиентами полимерных композиций, уделяется мало внимания исследователей, в то время как их синтез, отбор и тестирование, ломимо высоких затрат интеллектуальных и денежных ресурсов, сопряжены с высокими затратами времени, что мало совместимо с современными темпами развития науки и техники.
В этом контексте представляется привлекательным любое нововведение, которое сокращает время разработки ингредиентов и композиции в целом, например, использование инструмента, осуществляющего выбор из предложенной совокупности органических структур таких, в отношении которых прогнозируется с определенной вероятностью проявление необходимого свойства. Отобранные структуры предлагаются для синтеза и апробации. Такой подход сокращает издержки и период разработки новых
добавок. Таким образом, работа, посвященная разработке методики решения такой неформализованной задачи, как задача прогнозирования технологических свойств органических соединений (на примере стабилизирующих добавок к полипропилену) с использованием зависимости «структура-свойство» и в более частном случае - «структура -активность», является актуальной.
Цель работы заключается в разработке методики прогнозирования
свойств органических веществ на основе анализа информации об их структуре
(на примере добавок к полипропилену) как теоретической базы для
целенаправленного синтеза активных ингредиентов полимерных композиций.
В соответствии с целью поставлены следующие задачи:
1.Создание базы данных органических соединений (на примере добавок к
полипропилену); 2.Формализованное описание исследуемых объектов и формирование набора
признаков; 3.Разработка и апробация математических моделей прогнозирования
технологической активности; 4.Исследования влияния структурных фрагментов на проявление активности; 5.Апробация методики при поиске перспективных активных соединений -добавок полипропилену Научная новизна. Выявлены новые закономерности, связывающие структуру и стабилизирующую активность; на примере стабилизаторов полипропилена разработана база данных по добавкам к полипропилену; предложены оптимальные наборы признаков для описания органических соединений; предложены алгоритмы решения задачи распознавания образов при классификации веществ; даны количественные оценки влияния функциональных групп и их сочетаний на стабилизирующую активность.
Основные методы и средства исследования, В диссертационной работе использованы методы системного анализа и обработки информации,
теоретические приемы органической химии и химической технологии высокомолекулярных соединений, методы регрессионного и корреляционного анализа, методы и алгоритмы теории распознавания образов. В качестве инструментов использованы программа Internet Explorer (Корпорация Майкрософт, лицензия № 6.00.2600.0000) для работы в сети Интернет; MS Word, MS Excel (разработчик компания Microsoft, пакет Office ХР, техническая подборка и программная оболочка Alex Soft, лицензия № 10.0.2701) и другие современные средства обработки и исследования информации.
Практическая значимость работы состоит в том, что созданная база знаний, содержащая базу данных, комплексы моделей «структура -активность» и алгоритмы прогнозирования, может использоваться:
І.Для анализа наборов органических структур с целью отбора перспективных
структур для технологической реализации; 2.В научной работе при исследовании зависимости «структура -активность»; З.В образовательном процессе на кафедрах ВТПЭ ВПИ (ф-л) ВолгГТУ, ХТПЭ и ТВВМ ВолгГТУ
Апробация работы. Основные положения и результаты работы
докладывались и обсуждались на следующих конференциях:
Международной конференции молодых ученых по химии и химической технологии ( 13-15 декабря 2000 г, на базе РХТУ им. Д.И.Менделеева, г. Москва) -отмечена дипломом; Волжской межвузовской научно -практической конференции молодых ученых и студентов (24-26 мая 2001 г. ., Волжский ф-л Московского энергетического института, г. Волжский); 2-й Всероссийской научно -теоретической конференции "ЭВТ в обучении и моделировании" (9-10 июня 2001 г., Бирский государственный педагогический университет, г.Бирск)
Публикации. По материалам диссертации опубликовано статей - 4, в т.ч. депонированных -1, докладов -3, тезисов докладов -6.
II Глава 1. МЕТОДЫ И СРЕДСТВА МОДЕЛИРОВАНИЯ ЗАВИСИМОСТИ «СТРУКТУРА -СВОЙСТВО», «СТРУКТУРА -АКТИВНОСТЬ» (Аналитический обзор)
В настоящее время принято считать, что химическая формула соединения содержит всю информацию о любых его свойствах -физических, химических, биологических. Но сделать эту информацию доступной можно лишь после установления взаимосвязи структура -свойстг.?,1 (активность). Именно эта взаимосвязь открывает путь.для решения одной из важнейших проблем химии, биологии и медицины -поиска соединений с заданными свойствами.
Соотношения структура -свойство и структура -активность являются объектом значительного теоретического интереса в химии. Основная цель исследований в этой области - разработка алгоритмов прогнозирования различных физико -химических свойств или различных видов биологической активности по данным о строении молекул.
Интенсивное развитие и внедрение в практику научных исследований вычислительной техники способствовало формированию междисциплинарного научного направления -компьютерного анализа и синтеза химических структур для создания соединений с заданными свойствами.
1.1 Методы и алгоритмы прогнозирования свойств органических соединений на основе химической структуры
1.1.1 Моделирование зависимости «структура-свойство (активность)»
методами QSPR / QSAR
Аббревиатура QSAR (QSPR) происходит от английского Quantitative Structure Activity (Property) Relationships, что в переводе на русский язык обозначает Количественные Соотношения «Структура -Активность
(Свойство)». Иногда в русскоязычной литературе используют сокращение КССА (КССП).
Исторически всё началось с попыток учёных найти количественную связь
между структурами веществ и их свойствами и выразить эту связь в
количественном виде (в виде уравнения) [5]. Систематические исследования
взаимосвязи структуры органических соединении и такого их свойства, как
биологическая активность, начались в конце прошлого века. Признанным
основоположником направления QSAR является К.Гашп, опубликовавший
вместе в Т. Фужитой в 1964 г. соотношение, нашедшее наиболее широкое
применение в исследованиях зависимости между структурой и
биологической активностью. Впрочем, имелись и предшественники -уже в 1944 г. Н.В. Лазарев предложил использовать коэффициент распределения химических соединений в системе масло -вода для установления количественных взаимоотношений "структура-активность" [6].
1.1.1.1 Методологические аспекты прогнозирования свойств (активности) методами QSPR / QSAR
Уравнение QSAR (QSPR) должно отражать зависимость одного набора цифр (свойств) от другого набора цифр (структур). Однако при этом возникает трудность. Выразить числом свойство достаточно просто - например, физиологическую активность серии веществ можно измерять количественно. Проблемы в выражении числом структуры химического соединения. Для такого выражения в настоящее время в QSAR используются так называемые дескрипторы химической структуры.
Дескриптор - параметр, характеризующий структуру органического соединения, причём таким образом, чтобы учитывались определенные особенности этой структуры. Вообще дескриптором может являться любое число, которое можно рассчитать из структурной формулы - молекулярный вес, число определённых атомов, связей или групп, молекулярный объём,
"/
частичные заряды на атомах. Подробно различные классы дескрипторов, методы их расчета и области применения рассмотрены в п. 1.1.1.2.
Таким образом, задача поиска зависимости "структура -свойство" заменяется задачей анализа взаимосвязи "дескрипторы-свойство" (рис. 1.1).
Рисунок 1.1 — Этапы построения модели QSPR
Методология QSAR работает следующим образом. Сначала группу соединений с известной структурой и известными значениями физиологической активности (полученными из эксперимента) разбивают на две части: обучающий и тестовый набор. В этих наборах числа, характеризующие активность, уже соотнесены с конкретной структурой. Далее выбираются классы и типы дескрипторов (существуют разные подходы к выбору наиболее оптимальных дескрипторов) и производится их расчет. На следующем этапе осуществляется построение математической зависимости (математического уравнения) активности как функции выбранных дескрипторов для соединений из обучающего набора и в итоге получают так называемое QSAR-уравнеиие.
Построение же модели "свойство = f (дескриптор)" осуществляется методами корреляционного, регрессионного анализа, с помощью искусственных нейронных сетей. В результате получаются зависимости типа (1.1), с помощью которых можно описать как активность (частный случай), так и вообще любое свойство, и в этом случае правильнее говорить о QSPR-количественном соотношении между структурой и свойством.
Y = kQ +А, -Dx+k2 -D2 +К +ка Д, - (1-1)
r;s Dj -значения дескрипторов молекулярной структуры, і-1-ні; kj-коэффициенты, найденные статистическими методами, j=0-hq; Y -значение свойства
Фактически задача сводится к нахождению коэффициентов к0, кь...кп в уравнении зависимости свойства (Y) от набора дескрипторов {Db D2, ...Dn}, описывающих молекулярную систему. Для определения оценок коэффициентов применяют специальной методы статистической обработки: метод наименьших квадратов (МНК), метод максимума правдоподобия (ММП), метод минимального поиска (ММНП) и др.
По МНК нахождение коэффициентов kj сводится к минимизации суммы квадратов отклонений расчетных значений Y от экспериментальных:
Ф = Е(^-/(Д»А"Д))2 ->Л^ (1.2)
Необходимым условием минимума 1.2 является выполнение равенств (1.3)
^ = 0; *»=0; К ^ = 0 0-3)
дкц дк] дкп
Качество аппроксимации может быть оценено при помощи дисперсии адекватности:
v2=Tr~tW-Yi,~.) (1-4)
N-П Та
и коэффициента корреляции между У і и Yj расч (выражает зависимость экспериментальных данных и их аппроксимацию методом МНК):
/ =
Y(Y.-Y)-(Y -Y. )
/_І \-* і -* 11 V-* і расч і расч J
(=1
(1.5)
|Zj' ' і' ' Zj' і расч * і расч)
і=1
(=1
где N-число молекул в обучающей выборке, п -число коэффициентов регрессии
Y и Ур1Ю1 -средние значения (относительно обучающей выборки) свойства по результатам эксперимента и по построенной модели.
Возможность использования построенного уравнения QSAR проверяют на тестовом наборе структур. Сначала вычисляют дескрипторы для каждой
структуры из набора тестовой выборки, затем подставляют их в QSAR-
-> уравнение, рассчитывают значения активности и сравнивают их с уже
известными экспериментальными значениями. Если для тестового набора
наблюдается хорошее совпадение расчётных и экспериментальных значений, то
данное QSAR-уравнение можно применить для предсказания свойств новых,
ещё не синтезированных структур (рис. 1.2).
]емерация
новых ., структур
Модель
структура -свойство"
Прогнозирование
свойств структуры
Отбор
перспс.стивных структур
Синтез и испытания
Рисунок 1.2 —Процесс тестирования новых соединений на основе моделей "структура-свойство"
Особенность проблематики QSPR заключается в том, что заранее неизвестно, сколько и какие именно дескрипторы необходимы для описания заданного свойства. Выбор широкого набора параметров зачастую приводит к возникновению случайных корреляций. Эта ситуация существенна и тогда, когда число объектов (молекул) сравнительно мало по сравнению с числом дескрипторов. Одним из распространенных подходов в таких ситуациях является метод анализа главных компонент ['principal components analysis, РСА).
16 В этом методе анализируется структура матрицы корреляции между всеми параметрами задачи с целью идентификации новых переменных, которые суммируют информационное содержание широкого . первичного дескрипторного набора [7].
Следующая стадия исследования заключается в генерации и конструировании новых структур с заданным набором свойств на базе построенных моделей "структура-свойство".
Генерация новых структур, обладающих желаемыми свойствами
(физико -химическими или биологическими), представляет обратную задачу:
необходимо по построенной модели Y -1 f (DbD2...D„) отыскать
оптимальное сочетание значений дескрипторов D],D2...Dn , обеспечивающее
искомое значение свойства Y. Принципиальным ограничением
применимости этого подхода является отсутствие взаимно однозначного соответствия между молекулярными графами (МГ) и их инвариантами [8], поэтому для решения часто требуются дополнительные предположения о типе МГ.
Процесс разработки веществ с заданными свойствами носит обычно итерационный характер -после синтеза и экспериментального определения свойств первых соединений проводится компьютерное моделирование, конструирование новых структур, их синтез, испытания и повторное моделирование с учетом новых данных.
1.1.1.2 Количественное описание молекулярной структуры
J химических соединений
В п. 1.1.1.1 показано, что на начальном этапе выявления зависимости "структура -свойство" происходит описание химической структуры с помощью независимых переменных, отражающих топологические, электронные и др. особенности соединений, что связано с необходимостью представления молекулярной структуры числовыми характеристиками.
Еще в 1866 г. Броди предложил представлять химическую структуру с помощью математических инвариантов. В течение последующего столетия предпринимались попытки охарактеризовать соединение с помощью алгебраических символов, математических символов и химических графов.
К настоящему времени описано множество дескрипторов. Углубление представлений о молекулярной структуре побуждает к созданию новых моделей и новых дескрипторов, отражающих эти представления.
В работе [3] приведены особенности дескрипторов в порядке возрастания содержания в них информации о молекулярной структуре (рис. 1.3).
^s^ Дескрипторы меж молекулярных взаимодействий ^""--^
"/ ^^ Дескрипторы молекулярной формы ^~\. " \
і / /^Дескрипторы электронной структуры ^v \
\ V / /Г Дескрипторы ^\ \ J /
\. \ \ / структурной формулы \ J / /
^^-0\^\> \ ґ^^ Дескрипторы ^""\ / У ^у\у^
^i^VI, элементного уровня )^^У\^^^^^
Рисунок 1.3—Информационное содержание дескрипторов молекулярной структуры
При таком представлении предполагается, что дескрипторы структурной формулы несут всю информацию, содержащуюся в дескрипторах элементного уровня; дескрипторы электронной структуры включают всю информацию, содержащуюся в дескрипторах структурной формулы и т.д. Иногда дескрипторы могут и не содержать информацию предыдущего уровня (например, такие дескрипторы межмолекулярных взаимодействий, как поляризуемость, гидрофобность, часто рассчитываются без учета трехмерной структуры), однако в целом указанный подход к
классификации дескрипторов является наглядным, отражает степень их сложности и , следовательно, удобен при анализе.
Дескрипторы элементного уровня В качестве дескрипторов этого уровня иногда берут числа атомов какого "--либо сорта [9]. Так, соотношение 1.6 отражает взаимосвязь растворимости газов в воде lg L w и дескрипторов, в том числе дескриптора элементного уровня [2n(N)+m(0)].
lglw = 42,37(+1,1 l)HDCA(2) + 0,65(±0,02)[2и(ЛГ) + m(0)] - 0Д6(+0Л2)Л
F (1-6)
+ 0,12(±0,01)?С№Т + 0,82(±0,01)JV . +2,65(+0,22)
ring
где HDCA(2) -дескриптор водородной связи; [2n(N)H-m(0)] -дескриптор,
характеризующий число атомов азота и кислорода в молекулах изученных соединений; АЕ =F'Lumo -Ецомо; PCWT -электронный топологический индекс; Н-]„ -число ароматических колец
В целом дескрипторы элементного уровня содержат слишком мало информации о молекулярной структуре и поэтому не могут самостоятельно использоваться для выявления реальных взаимосвязей структура-свойство.
Дескрипторы структурном формулы
Структурная формула является наиболее распространенным способом
описания химического соединения. Она служит основой для
конструирования многих видов дескрипторов, прежде всего топологических.
Топологические дескрипторы
За последние три десятилетия теоретико -графовые и топологические представления приобретают все возрастающую роль в разнообразных областях химических и биохимических исследований. Топологические методы нашли применение [9]: в химической документации; при различении изомеров и описании разветвленное молекул; при перечислении изомеров, соответствующих определенной эмпирической формуле; при определении структурного сходства и различия однотипных соединений;
при описании перегруппировок в полиэдрических координационных соединениях; при расчете квантово -химических параметрах; при исследованиях корреляций структура-свойство, структура-активность.
В настоящее время известно более двадцати различных топологических индексов, которые хорошо коррелируют с широким набором физико -химических параметров.
Первый математический индекс, отражающий топологическую структуру химического графа, был предложен Винером [10] в 1947 г. Этим индексом явилось число путей W(G) для графа G, и он определялся как число связей, существующих между всеми парами углеродных атомов в молекулярном графе молекулы насыщенного углеводорода (символ N] представляет собой число пар вершин, расстояние между которыми равно і, и все такие расстояния суммируются по всем к расстояниям). Винер также разработал весьма родственный индекс, который назвал числом полярности. Этот индекс определен как число пар вершин, разделенных тремя ребрам^ Он был использован Винером и Платтом для установления корреляций с температурами кипения, теплотами образования и парообразования, молярным объемом и молекулярной рефракцией алканов. В случае н -алканов индекс определялся выражением
W(G) = (n3-n)/6 (1.7)
где п -число вершин в графе со "стертыми" водородными атомами
В течение последних двух десятилетий описано более ста [11] структурных, в том числе топологических индексов, коррелирующих с различными физико -химическими свойствами и биологической активностью. Краткое описание существенных топологических индексов, рассчитываемых на основе матрицы расстояний и матрицы смежности, приведены в табл.1.1, 1.2.
Способ преобразования химического графа в число изменяется от индекса к индексу. Процедура преобразования показана на рис. 1.4.
Ф———Ф
Молекулярный граф
Матрица расстояний
43^
W(G)=10
Суммирование
Топологический индекс
Рисунок 1.4— Схема получения топологического индекса для молекулы /-/-бутана
Таблица 1.1 Топологические индексы на основе матрицы расстояний
Продолжение табл. 1.1
Таблица 1.2 Топологические индексы на основе матрицы смежности
Продолжение табл. 1.2
На основе совместного рассмотрения матрицы смежности и матрицы расстояний построен молекулярно-топологический индекс Шульца
ІІ-1 п
АЯ7 = 1]+ 4,)
ї=і ,/=;+]
(1.8)
где Vj-степень вершины j, вычисляемой по A(G) как К = у а..
В работе [12] изучались корреляции индексов, вычисляемых по
матрице максимальных расстояний, с температурами кипения
алкилбензолов. Лучшие корреляции были реализованы в виде
(1.9)
Ткт(С) = 60,28 +19,54# * -0,5084М77
f (С) = 46,21 + 19,08tf * -0,463 IMTI + 0,3 752AMTI
где Н* -индекс Х.арари, рассчитанный по матрице максимальных расстояний; МТ1-молекулярно —топологический индекс Шульца; ДМТЇ —индекс, рассчитываемый как
В работе [13] исследовалась корреляция между трехмерными и двумерными индексами Шульца и энтальпией образования AfH0, молярным объемом VM, теплотой испарения (при нормальной температуре кипения) ^нтк, нормальной температурой кипения алканов tKHn. В результате получены
уравнения 1.10-1.13, обеспечивающие тесную корреляционную. связь между исследуемыми входными и выходными параметрами
- Af№ = -0,0011(зоМШ)2 + 0,1562ОМТИ + 86,376 (1ло)
7М=38,658(2ЛМГ#)'257У (1Л1)
ЛЯЖ=12,825(30МГЯ)'2Ш <1Л2)
tKttn = -0,00 Ы(30 МТИ)2 +1,00253 МТИ + 65,767 (из)
Индексы Кира и Холла достаточно широко используются при поиске
количественных взаимосвязей "структура -"Свойство". Так, ниже приведены
примерк прогноза липофильности органических соединений (формула 1.14)
и Р-блокаторной активности лекарств (формула 1.15) на основе
рассмотренных индексов . Их популярность можно объяснить простотой
расчета и наглядным представлением структурных формул рассматриваемых
соединений.
IgP = 0Д9і^о -1,46/С0+1,09С7С2 -0,77C7C3 -1,36
+ 5,34^Г-3,41^Г + 0,55'ІГ--0,41^/+1,10;!С-0,17Ж-5,6 *
pLDS0 =1,79]Х-Ш*Хг+0,362Х + 2,3?Х*р-2,76*Хр + 1,56 (1.15)
Кодирование структурных формул с помощью линейных
номенклатур
Необходимость автоматизации обработки информации о структурах химических соединений обусловила создание таких методов представления структурных формул химических соединений, как различные линейные номенклатуры. В них структурная формула кодируется строкой символов, которые в свою очередь кодируют определенные фрагменты структуры. При этом в каждой номенклатуре существует свой строгий порядок следования символов.
Начальную стадию развития этого метода связывают с именем Висвессера [9]. Примеры кодирования структур кодами Висвессера
приведены в табл. 1.3. Аналогичный подход выражен с помощью языка ФКСП (фрагментальный код суперпозиции подструктур). В настоящее время наиболее распространенная номенклатура для представления структурных формул органических соединений содержится в системе SMILES, которая, в частности, используется для поиска структурного сходства соединений (рис.1.5).
Таблица 1.3 Примеры кодирования с помощью номенклатуры Висвессера
OC1=C(C(C)(C)C)C-C(C)C=C1SC2-C(0)C(C(C)(C)C)=CC(C)=C2 Рисунок 1.5-Пример кодирования с помощью номенклатуры SMILES
Структурные фрагменты в качестве дескрипторов
Решающую роль во взаимодействии соединений с другими химическими и биологическими объектами играют только отдельные фрагменты молекул, описание структур соединений рассматриваемого ряда при выявлении взаимосвязей структура -свойство или "структура -биологическая активность" часто производится пофрагментно. В качестве фрагмента может выступить отдельный атом, заместитель, функциональная группа,конкретное сочетание атомов (с указанием их типов гибридизации). Каждый такой структурный фрагмент может использоваться в качестве самостоятельного дескриптора. Возможна дальнейшая детализация
структурного фрагмента за счет указания локальных характеристик атомов, входящих во фрагменты.
Дескрипторы электронной структуры молекул
В квантово -химических расчетах сложных молекул используются атомные и молекулярные квантово -химические дескрипторы. Особый интерес? представляют дескрипторы, описывающие внутримолекулярные электронные свойства.
Заряды на атомах в качестве дескрипторов
Заряды на атомах -наиболее часто используемые квантово -химические дескрипторы для нахождения взаимосвязей структура -свойство. Так, в работе [14] осуществляли построение и оценку QSPR для бинарных систем полимер -растворитель на основе молекулярного графа, включающего вершины, представляющие собой атомы водорода и неподеленные электронные пары (на рис. 1.6 последние обозначены ее).
1-І Н ее
н — с — С — О "С k U чо
Н Н ее
Рисунок 1.6 — Молекулярный граф этанола с учетом неподеленных
электронных пар
Энергии высшей занятой и низшей незанятой молекулярных орбиталей в качестве дескрипторов
Энергии высшей занятой (Ецомо) и низшей незанятой (Ешмо) молекулярных орбиталей - дескрипторы, часто используемые в расчетах электронной структуры.
Дипольный момент и родственные ему дескрипторы
Полярность молекулы описывается ее дипольным моментом (jLl), значение которого может быть определено экспериментально или рассчитано с использованием какого -либо квантово -химического метода.
Наряду с ц, иногда в качестве дескрипторов используют значения наибольшей разности зарядов между атомами, локальный дипольный индекс и др. Подобные дескрипторы использовались при построении моделей 1.16-1.18 [3].
Токсичность по отношению к Daphnia magna, EC5q
С50=-3,63^-45,8;г + 3,71?_-2,09++11,4 (U6)
где V111(] -молекулярный объем, ті -индекс поляризуемости, q. -
электростатическая основность, q+ -электростатическая кислотность
Фунгицидная активность фосфонатов, рЕС5о
рВСя = 0,296(+0,124)к - 0,047(+0,012)МЩ2) + (1.17)
+ 0,543(+0,331)J>' + 3;556(±0,215)
где п -константа гидрофобности, MR(R2) -молярная рефракция второго заместителя, F1 -электронный параметр Свейна-Лаптопа
Связывание папаиновых лигандовЫ-мезилглицикфениловымиэфирами и N-
бензоилглицинфениловыми эфирами
lg-L = 0,771(+G,67)ikffi + 0,728(+0,37)ст + 3,623(+0,34) (1Л8)
где а -электронная константа
Дескрипторы молекулярной формы
В* настоящее время необходимость учета особенностей пространственной структуры при выявлении взаимосвязей структура -свойства очевидна. Практически все современные автоматизированные системы поиска новых соединений с заданными свойствами содержат в качестве обязательных элементов различные процедуры сравнения пространственных структур молекул.
Описание трехмерной структуры молекул каким-либо одним количественным дескриптором (или их набором) -достаточно сложная задача. Обсудим простейшую ситуацию, когда рассматриваемые соединения имеют общий каркас и различные заместители в одном и том же положении. В 1976 г. Верлуп с соавторами предложил набор из пяти стерических констант (параметры STERJMOL) для 243 различных заместителей; они рассчитывались, исходя из стандартных длин связей и валентных углов. Впоследствии широко использовались в исследованиях структура -свойство, например, для прогнозирования сладкости производных анилина
lgflS^ 0,521-1,37ЙП +3/71
(1.19)
где L и W1- параметры STERIMOL
Количественное сопоставление проекций структуры молекул на три ортогональных плоскости впервые было проведено Эймуром при изучении взаимосвязи структуры химических соединений с их запахом.
В настоящее время существует ряд методов оценки подобия пространственных форм молекул, в т.ч. с использованием расчетных дескрипторов: метод дистанционной геометрии, модели связывающей стороны, анализа молекулярной формы, гипотетическая решетка активной стороньї, оценки молекулярных позиций
Дескрипторы межмолекулярных взаимодействий Данный класс дескрипторов можно представить в виде отдельных групп дескрипторов, отражающих те или иные особенности межмолекулярных взаимодействий. Так, в качестве дескрипторов одной группы можно рассматривать значения разности свободной энергии, энтальпии, энтропии, константы равновесия. Отдельную группу составляют дескрипторы реакционной способности; самая распространенная группа дескрипторов межмолекулярных взаимодействий связана с понятием липофильности, характеризующей транспортные свойства соединений в биологических
объектах. Значительная группа дескрипторов межмолекулярных
взаимодействий, оцениваемая из экспериментальных данных по
реакционной способности, состоит из различных констант, описывающих электронное влияние заместителей на реакционную способность химических соединений. Основы этого напраьления были заложены Гамметом, установившем значения параметра а (константа Гаммета) на основе соотношения Ox=lg Кх -lg Кн, где Кх -соответствующая константа для мета-(ат) или пара-замещенной (ар) бензойной кислоты, Кн -константа ионизации для бензойной кислоты в воде при 25С. К настоящему времени предложено множество констант, описывающее электронное влияние заместителей. Например, широко используются в качестве дескрипторов внутри- и межмолекулярных взаимодействий индукционная (с,) и резонансные (сг, а^, а.) константы, индукционная константа Тафта (а*), константа Свена и Лаптона (F).
Самая распространенная группа дескрипторов межмолекулярных взаимодействий для анализа связи "структура -активность" связана с понятием липофильности, для количественного описания которой в большинстве случаев используется распределение (Р) соединений в модельной системе октанол -вода. В качестве дескриптора этой системы используется значение lg Р для нейтральной формы соединения. Параметры липофильности успешно применяются в качестве дескрипторов межмолекулярного взаимодействия для установления корреляций "структура -свойство (активность)". Так, с помощью модели 1.20 можно оценить эффект протеинового связывания lg HSAI, с помощью модели 1.21-то1хичность соединения по отношению к Daphnia lg(l/IC5o),
IgHSAI = 0,59(±0.03)lgP + 0.27(±0.08) (1.20)
le—= 0,809 WP + 0,64 (L21)
1.1.1.3 Возможности и ограничения применения методов QSPR (QSAR) для моделирования зависимости «структура-свойство
4 (активность)»
Рассмотренная в п. 1.1.1.1 методика в полной мере относится к прогнозированию различных физико-химических свойств органических соединений - температурві самовозгорания [15], температуры кипения [16-25], теплоты образования [19, 26], теплот испарения [16, 27, 19 , 28], вязкости [17], плотности [17, 21], поляризуемости [17], октановых чисел [29,28 30] и других свойств [31, 32, 33], а также свойств композиционных материалов -достигнута высокая точность и надежность прогноза таких характеристик, как стойкость резиновых смесей к преждевременной вулканизации, константа скорости вулканизации смеси в главном периоде, максимальное приращение вулканизующего момента в резиновой смеси в условиях вулканизации в зависимости от структуры низкомолекулярных добавок -ускорителей вулканизации [6].
Методология QSAR широко применяется для прогнозирования
биологической активности соединений-это важно как при создании новых
биологически активных соединений, так и при оценке возможных
негативных свойств промышленно важных соединений. Наиболее важными
свойствами, определяющими активность лекарственных препаратов,
являются три физико -химических свойства -липо фил ьность,
характеризующая проникновение органических веществ через биомембраны,
электродное распределение и форма молекул. Эти свойства были изучены с
помощью соотношений линейности свободных энергий и QSAR. К
негативным свойствам, например, может быть отнесена мутагенность,
которая также хорошо прогнозируется QSAR с применением квантово-
химических дескрипторов. В работе [34] выполнен прогноз спектра
биологической (противоопухолевой, противовирусной и
противовоспалительной) активности 200 структур пролекарств и оказалось, что в 78% случаев прогнозы совпадают. Выявлены соотношения QSAR для
зо прогнозирования канцерогенной активности нитрозосоединений [35], противотуберкулезной активности [36], токсичности [37, 38], эмбриотоксичности [39], антиастматической активности [40], гастро-цитозащитной активности [41], противоаллергической активности [42], психотропной активности [43], инсектицидной активности [44, 45], фунгицидной активности [46], гербицидной активности [47], рострегулирующей активности [48] и других типов активности. В большинстве
перечисленных работ определяются критерии и (или) дескрипторы, определяющие соответствующий вид биологической активности, которые могут быть использованы для ее предсказания.
Важным направлением является применение методологии искусственных нейронных сетей (ИНС), представляющих собой компьютерную систему, способную обучаться прогнозированию требуемых свойств,, как по значению дескрипторов, так и непосредственно по структурным формулам органических соединений [15, 44, 45, 49-54].
Понятию QSAR близко понятие Компьютерное Моделирование Лекарственных Препаратов (или Компьютерный Дизайн Лекарств); в англоязычной литературе термин более устоялся - Computer Aided Drug Design (сокращенно CADD - совокупность вычислительных методов, в том числе и методов QSAR, и программных средств, используемых для направленного молекулярного дизайна лекарств. Однако многие свойства потенциальных лекарств в настоящее время можно определить исключительно экспериментальным путем (вычислительные же оценки носят качественный характер).
CADD (компьютерный дизайн лекарств) можно рассматривать частным
(хотя и наиболее изучаемым) направлением CAMD (Computer Aided Molecular
Design), компьютерного молекулярного дизайна. Фактически
экспоненциальное развитие вычислительных методов в последнее десятилетие связано главным образом с ростом мощностей вычислительных ресурсов и, кроме того, с развитием разных методов и подходов.
В развитых странах работы в области QSPR (QSAR) ведутся постоянно возрастающими темпами, поскольку применение методов QSPR (QSAR) при создании новых соединений с заданными свойствами позволяет значительно сократить скрининг и осуществлять более целенаправленный синтез соединений, обладающие необходимым заданных комплексом свойств.
Однако модели регрессионного типа, в которых предсказание осуществляется по континуальной шкале (например, оценка величины LDjo -концентрация вещества, приводящая к летальному исходу 50% тестируемых организмов), имеют ряд существенных ограничений. Основная проблема -оптимизация набора дескрипторов, поскольку, с одной стороны, соизмеримость пространства признаков и объема выборки отрицательно сказывается на модели;' с другой стороны, нет дескриптора, однозначно описывающего структуру, Кроме того, часто для выходного параметра целесообразнее использовать не конкретные, а интервальные оценки (как для рассмотренной выше LD50). Такие модели эффективны при исследовании не слишком длинных гомологических рядов.
На практике часто требуется установить корреляции между структурой и свойством больших групп соединений, структуры которых сильно различаются. Для соединений, принадлежащих к разным структурным типам, не выполняются условия, необходимые для применения регрессионного анализа, т.е. те условия, которые соблюдаются в случае гомологических рядов.
Поэтому в ряде случаев для решения задачи прогнозирования свойств целесообразнее использовать модели классификационного типа -предсказание свойства (в частном случае -активности) по дискретной шкале (канцероген - неканцероген, токсичен - не токсичен и т. д., эффективен -не эффективен). Для этого необходимо обратиться к методам ТРО.
1.1.2 Моделирование зависимости «структура -свойство
(активность)» методами ТРО
Применение методов распознавания образов (РО) к химическим задачам началось в середине 1960-х годов [9] в связи с масс-спектральными исследованиями. После этого аналогичные работы стали проводиться во многих других областях химии, в частности, для поиска подходящих химических структур среди молекул, зарегистрированных в обширных базах данных, - так называемый скрининг. Поиск осуществляется как по топологическим, так и по электронным и трехмерным признакам и производится с целью отбора наиболее перспективных в плане их активности для дальнейшего исследования и применения. Это, в свою очередь, привело к использованию вероятностных методов классификации структур[7].
1.1.2.1 Принципы распознавания образов
Т^етоды РО хорошо приспособлены [9] для проведения самых разнообразных исследований, так как они обладают некоторыми важными свойствами. Во-первых, анализ экспериментальных данных не требует никакой функциональной формы. Во-вторых, устанавливаются соотношения, позволяющие выявить сходство между разнородными группами данных. В сущности метод РО и представляет собой тот инструмент, который дает возможность определить, какие из свойств исследуемых объектов являются общими. После того, как установлены указанные соотношения, с их помощью можно предсказывать свойства объектов, не входивших в исходную группу данных.
Образ -это множество объектов (или явлений), обладающих общими свойствами (признаками). При этом принимают во внимание только существенные признаки, которые присущи объектам одного образа и не встречаются у объектов других образов. Распознаванием называют процесс обработки информации об объекте, в результате которого последний
%. 33
относится к тому или иному образу. Таким образом, распознавание является разновидностью процессов классификации. Процессу распознавания всегда предшествует процесс обучения.
Программы распознавания не всегда могут гарантировать безошибочную классификацию, поскольку химические образы имеют нечеткие границы. Основная задача теории распознавания образов состоит в вырабо'Гке решающих правил, позволяющих относить опознаваемые объекты к тому или иному образу (классу). Исходной информацией для построения решающего правила является обучающая выборка, которая содержит представительный набор объектов разных классов. Априорная информация об объектах в задаче распознавания часто задается в виде таблицы обучения [55].
Таблица 1А - Представление информации об объектах в задаче распознавания
Обучающая выборка содержит множество М объектов щ; на этом множестве имеется разбиение на конечное число подмножеств (классов) \ k=l...m
Объекты задаются значениями некоторых признаков Xj, j=l...N (этот набор всегда один и тот же для всех объектов, рассматриваемых при решении задачи), Совокупность значений признаков Xj определяет описание объекта
/(u))-{i„x2v,„is}.
Задача распознавания состоит в том, чтобы для данного объекта со и набораsклассов \ k=l...m по обучающей информации и описанию 1{ш) = {xt,x2,...,xN} определить принадлежность объекта к определенному классу. Методика отнесения объекта к какому-либо классу называется решающим правилом. Качество распознавания оценивается посредством подсчета частоты ошибок, допущенных при распознавании принадлежности к классу объектов, не использованных при обучении.
Хорошо показывает принцип работы распознавания образов элементарный алгоритм на основе метода множества эталонов. С помощью метрики (способа определения расстояния между элементами множества) вычисляем расстояние от тестируемого объекта до элемента обучающей выборки и находим условное расстояние как расстояние от тестируемого объекта до ближайшего элемента из каждого класса. Тестируемый объект относится к образу, который окажется ближе всех.
На рис.1.7 приведена геометрическая интерпретация указанного метода. Объекты заданы значениями координат 1(g)) = {х, у]; в качестве метрики выбрано расстояние по теореме Пифагора.
При формировании модели используется дихотомическая процедура (разбиения на два альтернативных по активности класса). Формирование моделей происходит в ходе ассоциативного обучения по известным алгоритмам (основанные на принципе разделения, на использовании
статистической теории принятия решений, на использовании метода
-if
потенциальных функций, на исчислении высказываний, на вычислении оценок близости).
У2
Рисунок 1.7 — Геометрическая интерпретация метода множества
эталонов
Принадлежность соединения тестируемой выборки к классу определяется с помощью решающего правила. На рис. 1.8 приведена общая структура системы распознавания.
И шіюрмацияо L среде объекта
Рисунок 1.8 — Структура системы распознавания
Если для каждого объекта дается информация о его принадлежности к определенному классу, возникает задача обучения распознаванию образов. При отсутствии указаний о принадлежности объектов к тем или иным классам возникает более сложная задача -самообучения.
Широко используются для решения задач распознавания химических образов нейронные сети [17, 33, ,56]. Так, в работе [57] сообщается о разработке структуры нейросети с активными нейронами, решающую задачу прогноза активности химических соединений. Нейросеть использует алгоритм МГУА комплексироваиия аналогов и осуществляет оптимальный выбор множества признаков.
1.1.1.2 Методологические аспекты прогнозирования свойств
t (активности) методами РО
Основой для применения методов РО для прогнозирования свойств (активности) соединений является постулат "близкие структуры имеют близкие свойства". Предполагается наличие определенной обучающей выборки, с помощью которой проводится «настройка» математической модели с целью явного или неявного выявления структурных параметров (или их совокупности), важных в контексте заданного типа активности.
Предложены различные меры подобия, в том числе и адаптируемые
под конкретные свойства и классы соединений [6, 58-62, 63]. Так, например,
осуществлен прогноз свойств химических соединений по общим
фрагментам их молекулярных графов [64]. Алгоритм прогноза основан на
определении меры структурной близости (расстояния) между
молекулярными графами, зависящей от величины их общего фрагмента. Методика прогнозирования заключается в следующем. Классы свойств соединений обучающей выборки разбиваются на подклассы структурно близких соединений. В каждом подклассе отыскиваются структурно типичные соединения и их фрагменты. Контрольные соединения классифицируются по их расстояниям от соединений или фрагментов классов обучающей выборки. Формируется множество существенных
фрагментов выборки, потенциально ответственных за проявление свойство. При рассмотрении контрольной структуры как комплекса фрагментов прогнозируется степень проявления ею желаемого свойства.
Меры молекулярного подобия и разнообразия широко применяются в тех случаях, когда для испытаний необходимо выбрать максимально различающиеся соединения с целью найти новые классы структур с требуемыми свойствами, а затем внутри этих классов провести оптимизацию соединений-лидеров [65-67].
Таким образом, подход к решению обратной задачи о взаимосвязи "структура -свойство" заключается на оптимальном построении новых молекул из фрагментов, первоначально содержавшихся в известных соединениях с заданным свойством [8]. Допуская, что мерой "похожести" фрагментов являются характеристики, близкие между собой для химически разнородных структур и важные с точки зрения молекулярного распознавания (например, липофильность и молярный объем), и имея достаточно широкий набор фрагментов, можно сконструировать соединения, схожие по этим характеристикам, но разнообразные по химической природе, В целевых молекулах окружение каждого фрагмента должно быть близко к таковому в известных веществах, т.е. оптимизацию структуры следует проводить на локальном уровне [68].
При направленном конструировании новых веществ наибольший интерес представляют разнородные соединения, заметно отличающиеся по строению от известных веществ, обладающих заданным свойством. С другой стороны, молекулы, близкие по свойствам, часто содержат одинаковые структурные фрагменты. Таким образом, создаваемые алгоритмы должны обеспечивать компромисс между подобием и разнообразием химических структур внутри сконструированного набора соединений. В работе [69] описано программное обеспечение, которое предназначено для работы с большими объемами данных, создаваемыми химическими и биологическими научно- исследовательскими программами.
Рассмотрены методы представления структурных компонент
комбинаторных библиотек (КБ), перечисления структур, структурного поиска и сравнений внутри комбинаторных библиотек.
В рамках методов ТРО определенный интерес представляет так называемый логико-комбинаторный подход [70], базирующийся на результатах формальной логики и статистики. Ключевыми являются понятия сходства и различия.
Сходство: если два и более исследуемых случая имеют общим одно обстоятельство, то это обстоятельство, с которым согласуются все явления, есть причина данного феномена. Схематически можно выразить следующим образом. Структура имеет компоненты ABCD и обладает свойством X. Другая структура имеет компоненты AKLM и обладает тем же свойством X. Отсюда следует^ что данное свойство связано с А.
Различие: если случай, при котором данный феномен проявляется, и
случай, когда он не проявляется, схожи во всех обстоятельствах, кроме одного,
появляющегося только в первом случае, то это обстоятельство и есть причина
феномена.
ABCD-+X ABCD^X
AKLM^X BCD^Y
А^Х A^Y
Признаки активности или неактивности определяются как фрагменты структуры, выраженные с помощью вектора-описателя, присутствие которых в молекуле с высокой вероятностью указывает на то, что соединение проявляет {или не проявляет) данную активность. Путем сравнения фрагмента с вектором описания соединения определяется его наличие или отсутствие в молекуле.
Подсчитывается число проявлений этого фрагмента в каждом из классов LAj и LNj, а также суммарное количество проявлений этого фрагмента во всех классах. Для оценки вероятности того, что соединение, содержащее данный фрагмент, относится к определенному классу, применяется формула Байеса:
(і|Л)"(Х„+А,) + 2
Сами авторы объясняют отличие своего подхода от традиционных методов ТРО следующими словами: «При исследовании проблемы связи структура - активность методы распознавания образов представляются нам недостаточными потому, что основная их цель - найти решающее правило классификации объектов. Для нас же не только важно найти решающее правило, с помощью которого можно было отнести данное соединение к определенному виду (или нескольким видам) активности, но не менее важно на основе обучающей последовательности выявить структурные признаки, руководствуясь которыми химик мог бы синтезировать новые соединения с наперед заданной активностью. Разумеется, важно иметь оценку достоверности признака».
Очевидно, при таком подходе сохраняется и необходимость создания специального языка для описания химической структуры соединений, и использование некоторой классификации типов их биологической активности с учетом того обстоятельства, что возможна принадлежность соединения к двум или нескольким классам сразу, то есть допускается наличие у него нескольких типов биологической активности. Наконец, необходима разработка соответствующим образом организованных банков данных.
При моделировании биоактивности широко используются и другие подходы, основанные на моделировании трехмерной структуры молекул. В настоящее время для этих целей имеется огромный арсенал компьютерных программ. В случаях, когда известна структура биомишени (например, рецептора, являющегося частью сложной белковой молекулы), используются алгоритмы, осуществляющие подбор малых органических молекул -лигандов, оптимальным образом связывающихся с такой биомишенью [71], При неизвестной биомишени из анализа структур лигандов с той или иной степенью точности может быть получен ее "слепок", который, в
свою очередь, может использоваться для дизайна новых активных структур (так называемый De novo дизайн -построение молекулы из отдельных атомов или фрагментов с использованием трехмерной модели рецептора в качестве шаблона). Существуют алгоритмы для выявления трехмерных фармакофоров (определенным образом расположенных в пространстве групп атомов, присутствующих во всех активных структурах и обеспечивающих связывание с рецептором) для построения моделей, основанных на трехмерном совмещении структур и сравнительном анализе молекулярного поля и др.
Все перечисленные алгоритмы трехмерного моделирования в первую очередь применяются при разработке новых лекарств и других биологически активных веществ. Однако в настоящее время известна пространственная структура лишь отдельных биологических мишеней, что затрудняет широкое применение этого подхода.
В процессе формирования моделей «структура -свойство (активность)» применяются дискриминационный и кластерный анализы -методы, ориентированные на многомерное исследование заданного набора структур.
Кластерный анализ зависимости «структура -свойство», «структура -активность» основывается на геометрическом представлении молекул в многомерном пространстве дескрипторов. Иными словами, набор из п дескрипторов (Dj,i = 1v"A)> которые однозначно характеризуют молекулу, можно интерпретировать как совокупность координат некой условной точки. Таким образом, молекула - это точка в пространстве п измерений. В качестве меры сходства (или близости) между разными молекулами можно принять расстояние R между соответствующими точками» Однако, поскольку это пространство не является реальным, физическим, то таковой метрикой могут служить самые разные функции, удовлетворяющие аксиомам расстояния.
Эти аксиомы для любых трех объектов (молекул) Xj, Xj , Xk формулируются следующим образом:
росстсхьч
1. R(Xt ,Xj)>0 для всех X., Xj из данного набора
2. „Jl(XnXj) = 0 тогда и только тогда, когда X і -X ,т.е. речь идет об одной и
той же молекуле
R(Xf ,Xj) = R(Xj, X,) симметрия
R{X,, Xs) < i?(X, ,Xt) + R(Xk, X ) неравенство треугольника
Несколько наиболее популярных типов расстояний приведены в табл. 1.5.
Таблица 1.5 — Метрические характеристики близости объектов
(расстояния)
Естественно предположить, что ряд молекул-точек, обладающих близкими характеристиками (например, активные в отношении данного свойства) будут находится на достаточно близком друг от друга расстоянии. Неактивные же молекулы будут образовывать отдельную группу. Такие группы принято называть кластерами, а соответствующий анализ данных, позволяющий разбивать совокупность объектов на отдельные кластеры, кластерным анализом. Таким образом, главная тдель кластерного анализа -нахождение групп (кластеров) схожих объектов. Распространенным способом
ї 42
представления результатов кластерных методов является дендрограмма (древовидная диаграмма), которая графически изображает иерархическую структуру, порожденную объединением объектов в кластеры.
В работах [72, 73, 74] предложен новый подход к кластерному анализу химических объектов, основанный на генетическом алгоритме, в работе [75] -модификация алгоритма нечеткой классификации элементов множества (в качестве которых выступают лекарственных растения). Отмечается, что этот подход особенно эффективен в случаях, когда число характеристик каждого элемента велико, при этом одновременно происходит нечеткое разбиение как множества характеристик, так и множества самих объектов. Работа [76] посвящена анализу различных методов кластеризации молекул в БД, основанных на использовании различных способов описания структуры молекул и различных дескрипторов. Отмечается, что двухмерные дескрипторы и методы иерархической кластеризации являются более предпочтительными при разбиении множества биологических молекул на активные и неактивные. В работе [77] приводятся результаты компьютерного скрининга нескольких коммерческих БД на основе их кластеризации. Степень подобия молекул определена в терминах последовательностей. Элементам этих последовательностей сопоставляются малые топологические фрагменты молекул, В работе [78] предлагается определять кластеры химических соединений на основе эволюционного алгоритма.
Целью линейного дискриминационного анализа является вычисление функции, позволяющей классифицировать системы по заранее заданным группам [79]. Чаще всего встречается необходимость классификации молекул на две группы (активные - неактивные). При этом функция F выбирается так, чтобы ее значения максимально различались для типичных представителей разных ^групп (активных - неактивных молекул). Наиболее распространенный, линейный вариант дискриминационной функции, строится как суперпозиция молекулярных дескрипторов (dj, d2 , d3,...), и значение F-функции для і-той молекулы выглядит следующим образом:
F^k0+Dirkl+D2ik2+K+Dm-kn (1.23)
Искомые коэффициенты разложения F: k0, kb k2,... (не следует путать их с коэффициентами линейного регрессионного анализа) можно вычислить, максимизировав отношение:
Svv*, (L24)
К) где числитель характеризует межгрупповой разброс молекулярных параметров (дескрипторов), а знаменатель - разброс параметров внутри групп. Эти величины построены с помощью ковариационных матриц (Т и W), описывающих соответствующие дисперсии:
2 "„
(1.25)
у и У
c,^X(aOT(-a)(d;№-z).)
При этом матрица С отвечает общей дисперсии дескрипторов. В этих выражениях предполагается, что Di - усредненная по всем (двум) группам
величина дескриптора Db Dja - средняя величина дескриптора Dj по группе а.
Величина Diam - i-тый дескриптор молекулы т, которая относится к группе а,
а па - ^количество молекул в группе а. Таким образом, основная задача дискриминационного анализа состоит в нахождении наилучшего разделения молекул на группы в том смысле, что межгрупповая дисперсия должна быть максимальной, а внутригрупповая - минималы-юй.
С геометрической точки зрения дискриминационный метод близок к основам кластерного анализа. Каждая молекула представляется в виде точки в
условном пространстве дескрипторов D. Тогда, при удачном выборе дескрипторного набора, молекулы, относящиеся к данной группе активности, будут находится достаточно "близко" друг к другу (кластеризоваться). Вычислив значение F-функции для молекулы с неизвестной активностью (х), можно выяснить, к какому кластеру она относится и, следовательно, оценить ее активность. Схематически группы активных и неактивных молекул можно представить в виде рисунка (рис. 1.9).
Линия, разделяющая кластеры, соответствует значению функции F = 0. Из риЫ.9 следует, что молекула, помеченная крестиком, ближе к группе активных.
Важным понятием дискриминационного анализа является понятие центроида [80]. Под центроидом понимают систему, имеющую значения дескрипторов, которые вычисляются как средние по группе. Таким образом, центроид можно воспринимать как наиболее типичную (чаще всего гипотетическую) молекулу из заданной группы молекул. Значение дискриминационной функции для центроида, в свою очередь, может служить опорным при интерпретации расчетов F-функций реальных систем. На рис. 1.9 центроид схематически показан в виде жирной точки.
D
неактивные
Рисунок 1.9 — Разделение молекул на активные и неактивные в пространстве дескрипторов (D); светлой точкой помечена молекула с неизвестной активностью, жирная точка-центроид.
Качество дискриминации по группе а обычно оценивается по отношению
^=^ (1.28)
где п - число молекул, верно отнесенных с помощью F-функции к заданной группе активности.
1.1.3. Программные комплексы для моделирования зависимости «структура -свойство»
Количество программньгх комплексов, предназначенных для решения химических задач, в том числе и для моделирования зависимости «структура -свойство», «структура - активность», растет все возрастающими темпами.
Так, в Интернет [5] имеется доступ к программным комплексам:
Cerius [81] -программный комплекс, предназначенный для химических молекулярных расчетов и состоящему из большого количества модулей, среди которых и модуль QSAR для построения моделей зависимости между структурой и свойством;
Sybyl [82] -программный комплекс, позволяющий осуществлять расчеты по методологии QSAR (имеет мощный графический интерфейс для проведения молекулярного моделирования биологических макромолекул и их лигандов -de novo-дизайн, изучения межмолекулярных взаимодействий, работы с БД, генерации 3D представлений молекул на основании 20-представлений);
Tsar [83]-программный комплекс для вычислений QSAR, дизайна библиотек соединений и оптимизации соединений -лидеров;
Molecular Analysis Pro [84] -программный комплекс для анализа молекулярных свойств и корреляции их с молекулярной структурой;
Hint (Hydropathic INTeractions) [85]-система молекулярного моделирования для de novo -дизайна лигандов;
APEX-3D[86] -экспертная система для драг-дизайна;
AutoDock [87]-программа для автоматического гибкого докинга молекул низкомолекулярных лигандов в соответствующие макромолекулы (FTDock -Fourier Transform Dock - молекулярный докинг двух биомолекул для предсказания их правильной геометрии связывания; RPScore - Residue level Pair potential Score - анализ результатов FTDock; MultiDock - Multiple copy side-chain refinement Dock);
Almond [88]- программа генерации и оперирования дескрипторами;
CASE (Computer Automated Structure Evaluation) и MULTICASE [89-91] -экспертные системы моделирования зависимости «структура -мутагенная/канцерогенная активность» на основе биномиального и других статистических методов (отбирает наиболее значимые фрагменты как биофоры и идентифицирует внутри тестируемой выборки молекул, содержащих биофоры, фрагменты и свойства, играющие роль в модуляции активности биофоров;
МЕТА [92] -экспертная система, предназначенная для решения проблемы метаболической трансформации ксенобиотиков (использует предварительно установленные правила в идентификации структурных мишеней для некоторых ферментов и преобразует эти мишени, имитируя метаболическую трансформацию);
Insight И [93]-программный комплекс с мощным графическим интерфейсом для проведения молекулярного моделирования биологических макромолекул и их лигандов;
FILTER [94]- программа для скрининга на наличие свойств, присущих лекарствам.
COMPACT (Computer -Optimized Molecular Parametric Analysis of Chemical Toxicity) -компьютерный параметрический анализ химической токсичности на основе молекулярных параметров [95]. Обеспечивает на основании структурных данных предсказание потенциальной токсичности и метаболизма молекул под действием изозимов Р450. Особое значение имеет медиируемая потенциальная токсичность -канцерогенность.
COMPACT -анализ позволяет увеличить точность количественного анализа взаимосвязи С-А и улучшить технику биомолекулярного моделирования для построения 3-мерных моделей ферментов и рецепторов, включая данные, ведущие к канцер огенности. Выявляет структурные фрагменты в химических соединениях, обеспечивающие их биологическое действие.
Имеются и соответствующие отечественные разработки.
Компьютерная система PASS (Prediction of Activity Spectra for Substances)
[34, 96, 97, 98] базируется на концепции спектра биологической активности,
который представляет собой всех присущих веществу фармакологических
эффектов, биохимических механизмов действия, а также таких видов
специфической токсичности, как мутагенность, канцерогенность,
тератогеыность и эмбриотоксичность. Биологическая активность
рассматривается в дайной концепции как внутреннее свойство вещества,
зависящее только от его структуры. Система прогнозирует свыше 700 эффектов
и механизмов действия с точностью -85% при скользящем контроле с
исключением по одному. Прогноз выполняется на основе анализа взаимосвязей
"структура-активность", проведенного для более чем 60000 веществ обучающей
выборки с известной биологической активностыо (иа рис. 1.10 приведен пример
предсказания канцерогенности и биологической активности соединения в
качестве регулятора липидного метаболизма).
(:- '~~" "v"" ------ ~-~ - - -—- - — -- - -— --- -~ ---
.Пример, Отбор регулятора липидного метаболизма, ;не обладающего канцерогенноетью.
Соединение I, согласно прогнозу: регулятор липидного і ;метаболизма (Ра = 0.567); канцероген (Ра = 0.581).
Соединение II - регулятор липидного метаболизма |(Ра = 0.567); канцерогенность не прогнозируется.
[Pa - вероятность наличия активности I
Рисунок 1.10 — Пример прогнозирования активности системой PASS
Первоначально в системе использовался язык описания структур, который еще в 1972 году предложил советский ученый В.Авидон [99]. Ныне химическая структура описывается в виде многоуровневых атомных окрестностей (MNA), которые генерируются автоматически на основе MOL или SPJ7 файлов (MDL Information Systems, Inc.), являющихся в настоящее время de facto стандартом для компьютерного представления структурных формул химических веществ. MOL и SDF файлы экспортируются программами ISIS/Draw и ISIS/Base (MDL Information Systems, Inc.), которые представляют собой химический редактор и систему управления химическими базами данных, широко используемые в настоящее время академическими учреждениями и химико-фармацевтическими фирмами [100].
GKAC- SARD- автоматизированная система направленного конструирования соединений с заданными свойствами [37,39,48], достоинствами которой являются возможность анализа биологической активности и токсических свойств новых соединений на всех этапах разработки новых биологически активных веществ, в т.ч. на стадии планирования синтеза. Разработанный комплекс моделей позволяет удовлетворительно прогнозировать класс опасности соединений, используя информацию об их структуре.
Компьютерная информационно-прогнозирующая система Saret [101] предназначена для анализа связей "структура-свойство", "структура-активность", "свойство-свойство" и оценки токсикометрических и экотоксикологических характеристик веществ. Saret включает банк данных о важнейших характеристиках токсичных химических веществ (Saretbase), расчетнр-прогнозирующий модуль (Saretsc), комплекс программ для формирования специализированных (локальных) баз данных.
Saretbase содержит сведения о более чем 249 характеристиках (химическая структура, важнейшие физико-химические свойства, параметры токсичности при разных путях и продолжительности воздействия, пороги рефлекторного действия на человека, специфические эффекты, российские и
}
американские гигиенические нормативы, в том числе концентрации, непосредственно опасные для жизни и здоровья) для 8500 химических соединений. Программное обеспечение реализует все основные функции химических банков данных: ввод химической структурной формулы, числовой и текстовой информации, редактирование, поиск, обработку данных, подготовку отчетов, экспорт информации в различных форматах и др. Поиск информации может осуществляться по различным сложным запросам.
Расчетно-прогнозирующий модуль Saretsc позволяет проводить статистическую обработку данных, устанавливать математические зависимости между переменными, сохранять полученные расчетные модели и осуществлять автоматизированный расчет неизвестных характеристик.
Система генерирования специализированных (локальных) баз данных обеспечивает возможность быстрого создания любых узкоспециализированных баз (о симптомах отравлений, средствах первой медицинской помощи и т.д.). Создаваемые локалвные базы связаны с Saretbase, что обеспечивает доступ ко всему массиву содержащихся в системе данных о конкретном химическом веществе.
Компьютерная система MP (Make Prognosis) позволяет строить математические модели прогноза биологической активности и предусматривает реализацию следующих основных этапов моделирования [102]: выявление дескрипторов структуры, описывающих существенные для проявляемой биологической активности особенности строения соединений обучающей выборку; формирование модели описания молекулярной структуры и построение на ее основе математической модели предсказания биологической активности химических веществ; проверка модели на адекватность физико-химическим и биологическим данным.
Компьютерная система MP предусматривает объединение алгоритмов теории статистических решений, распознавания образов и расчетных методов моделирования связи химическая структура - молекулярные свойства -
биологическая активность на основе стратегии формирования баз данных и знаний из имеющихся примеров.
Программа SMOG [103] предназначена для исчерпывающей и безповторной генерации химических структур по заданной молекулярной формуле. Программа основана на модификации теоретике -графового алгоритма Фараджева генерации графов с заданным распределением степеней вершин. Модифицированный алгоритм позволяет, в частности, учитывать при генерации МГ так называемые запрещенные и обязательные фрагменты. Построенные химические структуры выводятся на экран в виде 2Б-графов.
NASA WIN -компьютерная программа [104], разработанная для исследования зависимости С-А в рамках методологии искусственных нейронных сетей. Данная программа состоит из следующих блоков: эмулятора нейронных сетей; вычислительной среды для расчета молекулярных дескрипторов; блока статистической обработки результатов; блока прогноза. Программа позволяет пользователю непосредственно влиять на любой параметр, входящий в нейро сетевую модель: выбирать дескрипторы, свойства, соединения, а также упрощать архитектуру сети в автоматическом режиме.
В настоящее время тематику прогнозирования свойств соединений на основе? моделей зависимости «структура -свойство (активность) и конструирования на этой основе соединений с заданными свойствами в той или иной степени затрагивают научно-исследовательские группы, работающие в разных учебных заведениях и научных центрах СНГ:
1. Научно-исследовательская группа под руководством академика РАН Н.С. Зефирова (Лаборатория органического синтеза МГУ им М.В.Ломоносова) проводит исследования в области моделирования зависимости «структура -биологическая активность»[6, 34, 49, 50, 105 , 106 , 107] и «структура -свойство» [108], в том числе с помощью оригинальных программных средств - COMPASS, ICAR [109], EMMA (Effective Modeling of
Molecular Activity- позволяет осуществить множественный линейный регрессионный анализ) [2, ПО ,111, 112], SMOG [103],NASAWIN [35];
2, Институт химии и физики полимеров АН Республики Узбекистан
(А.А. Торопов, А.П. Торопова, Н.Л. Воропаева, И.Н Рубан, С.Ш. Рашидова и
др.) проводит исследования в области моделирования зависимости «структура-
свойство» [11 - 12,14, 113-114] с использованием методов корреляционного и
регрессионного анализа;
3. Научно-исследовательская группа под руководством Папулова
Ю.Г. проводит исследования в области моделирования зависимости
«структура-свойство» [13,16, 115] с использованием теории графов;
4\ Научно-исследовательская группа НИИ биомедицинской химии РАМН под руководством В.В.Пороикова проводит исследования в области моделирования зависимости «структура -биологическая активность» методами РО [96,100, 116 - 117], в том числе с помощью оригинальных программных средств PASS, IBIAC [43], Saret [101];
5. Научно-исследовательская группа Новосибирского
государственного университета под руководством А.Л.Осипова [118-120] проводит исследования в области моделирования зависимости «структура -биологическая активность» методами РО, в том числе с помощью оригинальной компьютерной системы MP (Make Prognosis) [102].
1.2 Динамика информационных потоков в области компьютерного прогноза свойств / активности соединений и дизайна соединений с заданными свойствами
Для анализа сложившихся тенденций в области моделирования зависимости «структура -свойства», «структура -активность» применен метод научно -технического прогнозирования на базе исследования информационного массива, позволяющий выявить, какие направления и идеи в данной области являются прогрессивными и какие изживают себя. Подразумевается, что суммарное число публикаций по какому - либо
'ч
научному направлению эквивалентно (или может быть принято как показатель) сумме знаний, накопленных в этой области. Поскольку число публикаций статистически отражает количество научных работников, занятых в данной научной проблеме, скорость роста числа публикаций по конкретному направлению может служить косвенной (информационной) мерой актуальности соответствующего направления. Конечно, факт появления каждой конкретной публикации в конкретный момент времени есть, конечно, явление случайное, но возникновение совокупности таких публикаций, относящихся к какому- либо направлению, представляет собой проявление определенной закономерности развития, и каждая публикация, относящаяся к этой совокупности, вносит в эту закономерность свою лепту. Таким образом, информация, содержащаяся в каждом отдельном патенте, имеет как случайные, так и закономерные составляющие, которые и выявляются при статистическом анализе.
Бг настоящей работе с помощью качественного анализа информационного массива выявлены основные направления приложения творческих сил в области моделирования зависимости «структура -свойство», «структура -активность». Количественный анализ на основе дифференцирования информационных потоков показал, на какой стадии развития находится данная проблема.
В качестве информационного массива для исследования выбраны наиболее доступные и одновременно обладающие высоким прогнозным потенциалом патентная информация и периодические публикации, сконцентрированные в источнике вторичной информации РЖ ВИНИТИ. Проанализировано 1387 публикаций за период 1997-2006 гг. Этапу построения кривых, отображающих динамику нарастания количества информационных сообщений, предшествовал этап систематизации проблем, связангшх с исследованиями и разработками в области моделирования взаимосвязи С-С, С-А.
В соответствии с выявленными проблемами производилась
сортировка информационного массива. Схема сортировки изображена на рис.1.11.
Информационный поток по каждой из указанных проблем, в свою
очередь, дробился на группы публикаций в соответствии со способом
решения проблемы, классом соединений, для которых адаптирован этот
способ, Ф-Х свойством соединения (или типом активности), интересующим
автора публикации, инструментарием решения задачи (методами,
программными средствами).
На основании проведенной сортировки информационного массива построены графики и гистограммы, наглядно иллюстрирующие динамику изменения количества публикаций по определенной проблеме за исследуемый период и доли каждой группы публикаций внутри информационного потока. Использование метода экстраполяции позволило предположить, какое направление будет развиваться в дальнейшем и какие идеи исчерпали свой потенциал.
Применение теории графов
Обсуждение вопросов
методологии и перспектив
моделирования зависимости
«структура -свойство
(активность)»
Построение
количественных
параметрических моделей
Описание молекулярной структуры соединений
Информационный массив
Разработка моделей
зависимости «структура -свойство (активность)»
Анализ и оценка подобия молекул
Применение теории распознавания образов
Конструирование
соединений с заданными
свойствами
Применение
моделей «структура -
свойство
(активное п.)»
для решения
прикладных
задач
Использование моделей для
прогнозирования свойств
соединений
Рисунок 1.11 — Схема сортировки информационного массива
» 54
На рис.1.12 показана динамика изменения количества публикаций по проблемам. Поведение кривых, отражающих динамику публикаций по проблемам «Построение регрессионных моделей С-С (С-А)», «Разработка других дескрипторов для описания структуры соединений» указывает на стабильный интерес исследователей к этим проблемам.
160 ф
Dacdaai дёаЫПё!ёё*ёпёёб eiaaefiiааєуіїела/ ёу fid обед бди fitaaeiаіеё
mmomBa
—Г І fid 6І аі ей даадапШ і і Обі і ёШё Л-Д Й-Я
ЇІЛЬаММГбуї идєіддЩоее "N-N", "N~A"i адїааі є №
Ш і по дбеді Іаі ёа пїіаеІііее п даааіійі ё fiaiendaai ё
Рисунок 1.12 — Динамика роста и падения количества публикаций по
f отдельным проблемам за период 1997-2002 гг.
Качественный анализ информационного потока по направлению «Описание молекулярной структуры соединений» показал, что количественное описание структуры химических соединений осуществляется с помощью независимых переменных, характеризующих структурные особенности соединений или их частей -заместителей или фрагментов, так называемых дескрипторов. Пик исследовательской активности ло проблеме «Разработка топологических индексов для описания структуры соединений» приходится на начало исследуемого периода; в настоящее время наблюдается смещение интереса в сторону электронных и электронно-тоггологических
Кроме топологических
индексов, а также комбинаций дескрипторов всех уровней, что, очевидно, вызвано требованием сохранения максимальной информативности о молекулярной структуре. Данная проблема интересует прежде всего
г-
зарубежных исследователей (96% публикаций данного направления).
Наблюдается возрастание числа публикаций по проблеме «Конструирование соединение с заданными свойствами», причем значительная часть сообщений о таких разработках принадлежит отечественным ученым (в среднем за период 15%). Предложения, содержащиеся в этих публикациях, можно объединить в три основные группы; структура информационного потока и динамика ее изменения показана на рис. 1.13
Рисунок 1.13 Структура информационного потока по проблеме «Конструирование соединений с заданными свойствами » (конструирование структуры: А- из фрагментов, потенциально ответственных за проявление необходимого свойства; Б - путем оптимизации набора дескрипторов в модели QSPR (QSAR) ; В - путем поиска подходящих структур среди молекул, зарегистрированных в специализированных базах данных)
Диаграмма наглядно свидетельствует о смещении интереса исследфателей в рамках этой проблемы к построению структуры из
фрагментов, потенциально ответственных за проявление необходимого свойства.
Всплеск числа публикаций по проблеме «Разработка моделей зависимости «структура -свойство (активность)» в последние годы обусловлен интенсивным применением нейронных сетей для построения прямых корреляций С-С (С-А).
К настоящему времени массовый характер приобрели исследования
зависимости структуры органических соединений и биологической
активности - им посвящены 70% публикаций данного информационного
потока. Построение искомых зависимостей осуществляется посредством
линейного регрессионного или корреляционного анализа, посредством
распознавания образов, в том числе с использованием нейронных сетей.
Следует отметить, что большинство предлагаемых моделей является
регрессионными; в качестве соединений, на которых апробированы методы
построения моделей С-С, чаще всего (67,5 % общего числа публикаций
данного направления) упоминаются алканы (очевидно, вследствие
относительной простоты структуры их молекул), реже -спирты и
непредельные углеводороды, причем исследователей интересуют прежде
всего температура кипения, энтальпия образования, плотность (см. п.1.1.1.3).
При построении моделей С-А исследуется зависимость от структуры
разнообразных типов активности: инсектицидной, психотропной,
анальгетической и др.
Анализируя информационный поток по данной проблеме и диаграммы, отражающие динамику изменения потока, можно отметить:
Практически отсутствуют публикации, посвященные построению моделей С-С (С-А) для органических соединений, являющихся ингредиентами полимерных композиций,
Построению моделей, устанавливающих связь С-С (С-А) для смешанной выборки (ингредиенты полимерных композиций представляют собой именно смешанную выборку), посвящено
незначителвное число публикаций (1-3 в год), причем предлагается
провести ее предварительную кластеризацию;
Таким образом, на основе количественного и качественного анализа
информационного массива выявлены особенности формирования
интересов исследователей и разработчиков, определены актуальные идеи в области моделирования зависимости С-С (С-А). Подобный анализ представляет интерес сам по себе, посколвку дает статистическую картину развития исследований и разработок в интересующей области; кроме того, позволяет найти перспективные точки приложения творческих сил.
Заключение
Обзор информации из различных источников (з основном периодических
публикаций и Интернет -сайтов), посвященной моделированию зависимости С-
С (А) в целом, подготовке данных для моделирования и разработке методов и
средств моделирования указанной зависимости в частности, позволил сделатв
выводы, обосновывающие актуалвноств темы работы и необходимость
совершенствования методик прогнозирования свойств (активности):
1. Научных основ подбора добавок, заведомо прогнозирующих свойства
композиции, на сегодняшний день не существует. Методом проб и ошибок
осуществляется последователвный перебор составов (компонентві которых
зачастую приходится вновь синтезировать), и после экспериментов
отсеивается подавляющее большинство созданных композиций. Так, из
каждых 1000 синтезированных соединений только 5 по эффективности
оказываются конкурентоспособнвши с серийнвгми. По технико -
экономическим соображениям еще исключается 3-4, и только 1-2 находят
практическое применение [136]. Своевременно создать таким образом
конкурентоспособный матерная невозможно. Поэтому весьма актуалвным
является создание инструмента выбора структуры эффективных добавок и
исключение заведомо неперспективных структур еще до осуществления
синтеза;
Основное внимание в указанной области уделяется моделированию зависимости «структура -биологическая активность»; работы, посвященных моделированию зависимости «структура - свойства ингредиентов полимерных композиций», практически отсутствуют. В то же время многие ингредиенты, широко используемые в промышленности для производства полимерных материалов, являются токсичными, что в связи с активным проникновением полимеров, в частности, в быт, затрагивает экологическую сторону обоснованности такого использования -необходимо находить баланс между желаемым и нежелательными свойствами;
Серьезную проблему представляет собой формализация описания структуры соединений, поскольку совершенного аппарата обработки структурной информации не существует, и отбор методов моделирования зависимости С-С (А), поскольку применение методов регрессионного анализа (РА) для решения этой задачи эффективно только на выборках родственных соединений, имеющих общий структурный шаблон, а методы ТРО работают на разнородных выборках, но дают невысокие оценки распознавания по сравнению методами РА.
Практически все компьютерные системы прогноза ОС (А) доступны только для коммерческого использования либо разрабатываются для внутренних нужд организации и решают какую-либо узкую задачу - например, идентификация марки и состава дизельных топлив. Наличие же универсального средства с возможностями адаптации позволило бы решать широкий круг задач в рамках моделирования зависимости С-С (А): создавать информационные банки ингредиентов полимерных композиций (включая информацию о проявляемых ими свойствах -эффективности, токсичности, канцерогени ости и пр.), моделировать зависимость С-С (А) различными методами, прогнозировать на основе построенных моделей свойства соединений, выявлять фрагменты структур, ответственные за проявление желаемых и нежелательных свойств, и с их помощью конструировать новые или шдифицировать базовые структуры.