Содержание к диссертации
Введение
1. Обзор литературы 8
1.1. Предпосылки и возможности молекулярного дизайна и прогноза химических соединений с заданными свойствами 8
1.2. Способы описания структуры соединений 10
1.3. Характеристика методов выявления закономерностей qspr и qsar. 17
1.4. Подходы и компьютерные системы выявления связи между строением и свойствами химических соединений 22
1.5. Характеристики классов исследуемых соединений 33
1.5.1. Характеристика производных бензимидазола и их антигельминтная активность 33
1.5.2. Анализ зависимостей между строением и гербицидным действием гетероциклических производных амидо-и иминосодержащих гетероциклических соединений 35
1.5.3. Характеристика биологической активности производных оксикарбоновых кислот 38
1.6. Заключение по литературному обзору 41
2. Разработка методов, алгоритмов и программная реализация модулей системы исследование связи «структура-свойства» прогноза и дизайна 43
2.1. Разработка метода формирования решающего набора признаков 43
2.2. Разработка модуля формирования исходной информации на основе различных систем ввода молекулярных структурных формул 47
2.2.1. Разработка алгоритмов выявления циклических систем, приведение их к псевдоканоническому коду, сравнение и идентификация 48
2.2.2. Разработка алгоритма приведения нумерации элементов структуры к псевдоканоническому виду 53
2.3. Разработка метода прогнозной оценки соединений с широким диапазоном оценок свойства 54
2.4. Разработка системы прогноза взаимонезависимых свойств на основе банка моделей 57
2.5. Программная реализация компьютерной системы анализа связи «структура свойства» с применением рассмотренных подходов 58
2.5.1. Компьютерная система исследования связи «структура-свойства» SARD-21 58
2.5.2. Программная реализация метода сокращения признакового пространства 66
2.5.3. Программная реализация конвертора различных систем ввода 67
2.5.4. Разработка модуля комплексного прогноза и дизайна «взаимозависимых» свойств на основе многоуровнего иерархического прогнозирующего комплекса 76
2.5.5. Разработка модуля комплексного прогноза и дизайна «взаимонезависимых» свойств 81
2.5.6. Разработка модуля анализа и визуализации результатов различных этапов исследования связи «строение-свойства» 83
2.5.6.1. Диспетчерское, аналитическое и графическое представление расчетных процедур системы исследования связи «структура-свойства» 84
2.5.6.2. Графическое и матричное представление направлений дизайна и целенаправленного синтеза исследуемых структур 85
2.5.7. Системное меню SARD-21 88
3. Анализ связи «структура -активность» производных бензимидазола 93
3.1. Характеристика массивов исследуемых структур 93
3.2. Характеристика моделей антигельминтной активности 94
3.3. Анализ характера влияния признаков на антигельминтную активность 97
3.4. Дизайн и прогноз 101
3.5. Сравнение результатов разных систем ввода структурной информации 109
4. Исследование связи «структура-токсичность», прогноз токсичности производных оксикарбоновых кислот 115
4.1. Формирование математических моделей прогноза интервальных значений токсичности (арил)гетерилпроизводных оксикислот (АГОК) 115
4.2. Формирование иерархического комплекса прогноза токсичности (арил)гетерилпроизводных оксикислот 129
5. Комплексный дизайн и прогноз производных бензимидазола, сульфонилмочевины и оксикарбоновых кислот 142
5.1. Дизайн и прогноз производных бензимидазола по антигельминтной активности и токсичности 142
5.2. Дизайн и прогноз производных сульфонилмочевины 145
5.2.1. Анализ направлений модификации и целенаправленного синтеза 145
5.2.2. Молекулярный дизайн производных сульфонилмочевины и других амидо и иминосодержащих гетероциклических соединений 150
5.3. Прогноз комплекса целевых свойств производных оксикарбоновых кислот 154
6. Описание работы с системой SARD-21 157
6.1. Описание модуля формирования исходной информации на основе различных систем ввода молекулярных структурных формул 158
6.2. Описание модуля формирования банка моделей 159
6.3. Описание модуля формирования таблицы моделей 162
6.4. Описание модуля формирования схем обхода по ЭПК 164
6.5. Описание модуля визуализации процесса выполнения и результатов исследования 166
6.5.1. Описание модуля просмотра структур в химическом виде 167
6.5.2. Описание модуля просмотра файлов очередности замены 168
6.5.3. Описание модуля просмотра любых файлов 169
6.6. Описание модуля визуализации анализа мест замены исследуемых структур 170
Выводы 175
- Способы описания структуры соединений
- Характеристики классов исследуемых соединений
- Разработка алгоритма приведения нумерации элементов структуры к псевдоканоническому виду
- Разработка модуля анализа и визуализации результатов различных этапов исследования связи «строение-свойства»
Введение к работе
Актуальность темы. Для поиска и целенаправленного синтеза соединений с определенными характеристиками наряду с традиционными методами в настоящее время достаточно активно привлекаются методы компьютерной химии и анализа связи «структура - свойства». Их использование позволяет выявлять скрытые закономерности и теоретически оценивать комплекс свойств химических соединений ещё на досинтетической стадии и стадии тестирования.
При целенаправленном синтезе наиболее существенным моментом, наряду с прогнозом, является конструирование новых соединений с заданным комплексом свойств. Это позволяет исключить нежелательные варианты на ранних стадиях планирования синтеза, предложить оптимальные структуры эффективных и токсикологически безопасных соединений, тем самым снизить затраты ресурсов на синтез и испытания. Для анализа связи «структура - свойства» и прогноза разработаны подходы и успешно эксплуатируются ряд систем, таких как PASS, MFTA, HYBOT, CoMFA и др. С их помощью можно прогнозировать разнообразные характеристики, в том числе и комплекс свойств. Однако, не всегда системы ориентированны на процедуры формализованного компьютерного дизайна конкретных соединений с комплексом свойств, особенно на основе фрагментарного подхода.
Некоторые свойства химических соединений имеют широкий диапазон количественных значений (например, токсикологические характеристики, такие как острая токсичность DL5o и др.). На практике часто ориентируются на их интервальные значения (например, классы опасности, токсичности и пр.). При исследовании связи «структура -свойства» ориентация на определённые интервальные значения, корректно отражающие изменение этих свойств, более предпочтительна. Прогноз интервальных значений соответствует большинству практических задач. Реализация результатов при дизайне конкретных соединений однозначна и имеет минимум неопределённости, тогда как реализация количественных результатов в процедурах дизайна неоднозначна и практически неприемлема.
В связи с этим возникает необходимость разработки методов оценки комплекса свойств, в том числе с широким диапазоном измерений, результаты которых можно было бы активно и удобно (в виде компьютерной системы) использовать не только для прогноза, но и на стадии конструирования. Поэтому исследования в этом направлении перспективны и актуальны.
Цель работы: создание и реализация в практических исследованиях модулей компьютерной системы молекулярного дизайна и прогноза гетероорганических соединений с заданными свойствами.
В соответствии с поставленной целью проведены исследования и получены результаты по трём направлениям:
1. Разработка математических методов для отдельных модулей системы анализа связи «структура-свойства».
2. Программная реализация разработанных модулей и создание компьютерной системы.
3. Исследование связи «структура-свойства», дизайн и прогноз на основе сформированной системы.
Научная новизна. Впервые путём понижения размерности признакового пространства на основе принципа максимальной информативности, минимальной взаимозависимости и оптимального «покрытия» новых распознаваемых объектов разработан метод формирования решающего набора признаков для модели распознавания свойств химических соединений.
Разработан новый алгоритм выявления замкнутых подграфов неориентированного графа (циклических фрагментов молекулярных структурных формул), заключающийся во фронтальном параллельном рассмотрении всех возможных ребер и цепей, исходящих из каждой вершины графа.
Разработан метод прогнозной оценки свойств соединений, имеющих широкий диапазон оценок, для которого не может быть применена обычная дихотомическая процедура формирования модели. Сущность метода заключается в последовательном ступенчатом сужении прогнозируемых интервалов в рамках комплекса иерархических моделей. Границы интервалов устанавливаются автоматически путем оптимизации распознавания свойств соединений на стадии формирования моделей, а также алгоритмов прогноза.
Практическая ценность работы. Созданная компьютерная система анализа связи «структура - свойства» с использованием разработанных методов и алгоритмов, иерархические комплексы прогноза токсичности и база знаний, содержащая материалы по целенаправленному конструированию производных бензимидазола, оксикарбоновых кислот, сульфонилмочевины применяются: в научно-исследовательской работе НИТИГ АН РБ при выборе оптимальных направлений целенаправленного синтеза и для оценки токсичности новых химических соединений; в научных работах сотрудников и аспирантов кафедры физики УГНТУ и У ТИС при исследовании связи «структура - свойства»; в образовательном процессе и при экспресс оценки острой токсичности биологически активных соединений на кафедре гигиены БГМУ.
Основные положения и результаты диссертационной работы докладывались и обсуждались на республиканской научно-практической конференции молодых учёных (Уфа, 2000); конференции «Новые достижения в химии карбонильных и гетероциклических соединений» (Саратов, 2000); XIII Международной научной технической конференции «Химические реактивы, реагенты и процессы малотоннажной химии» (Тула, 2000); международной научно-практической конференции «Современные информационные технологии» (Пенза, 2000); международной научно-практической конференции «Методы и алгоритмы прикладной математики в технике, медицине и экономике» (Новочеркасск, 2001); II Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах» (Новочеркасск, 2001).
Способы описания структуры соединений
Важную роль в исследовании связи между структурой и свойствами/активностью (QSPR/QSAR) является выбор метода представления структуры химического соединения. Для успешного нахождения соотношения между свойством/активностью органических соединений [19-24] и их структурой, необходимо отобразить химические структуры в числовом виде, т.е. сформировать дескриптор молекулярной структуры. Структурные особенности, определяющие какое либо моделируемое свойство, должны быть отражены в значениях дескрипторов. Для этой цели были предложено множество различных дескрипторов, включая топологические индексы, характеризующие связность, разветвленность, форму молекул, физико-химические индексы, учитывающие распределение зарядов, электроотрицательности, потенциалы ионизации, липофильность, молекулярную поверхность и объем, дескрипторы заместителей, фрагментные дескрипторы и другие [2,13,18-20]. В обзоре О.А. Раевского [12] рассмотрены классификации и приведены примеры вычисления и применения разнообразных дескрипторов, основанных как на молекулярной формуле (например, топологические индексы), так и на основе физикохимических характеристик (например липофильность, параметр водородной связи). Среди всех дескрипторов, рассмотренных в [12], можно выделить следующие группы. 1. Дескрипторы элементного уровня. К дескрипторам элементного уровня относится способ представления в виде брутто-формулы. Структурная формула представляется в этом случае в неполном виде (невозможно провести восстановление исходной информации структуры). В ней сохранена информация об атомном составе молекулы, и утрачена информация об ее структуре [9]. Единственным свойством, которое может быть точно предсказано на основании брутто-формулы, является молекулярная масса, которую можно рассматривать как дескриптор элементного уровня. Дескрипторы элементного уровня содержат слишком мало информации о молекулярной структуре и поэтому не могут самостоятельно использоваться для выявления реальных взаимосвязей «структура-свойства». 2. Дескрипторы структурной формулы. Структурная формула молекулы является наиболее распространенным способом описания химического соединения.
Как модель молекулярной структуры такая формула содержит элементы иконических, аналоговых и абстрактных моделей и является основой для конструирования многих видов дескрипторов и прежде всего топологических. а. Топологические индексы.. Топологические дескрипторы (индексы) рассчитываются на основе описания структурной формулы соединения с помощью молекулярного графа G, представляющего собой двумерное отображение молекулы (вершины соответствуют атомам, а ребра — химическим связям молекулы). При этом обычно рассматриваются скелетные атомы (со «стертыми» атомами водорода) и связи между ними. Матричный вид графов используется для оценки топологических индексов. Наиболее часто применяются матрица смежности A(G) и матрица расстояний D(G). Элементы матрицы смежности ау равны или единице, или нулю в зависимости от того, связана ли ребром і-ая вершина графа G с j-ой вершиной или нет. При этом число единиц в і-й строке или j-м столбце матрицы равно степени вершины. Каждый элемент в матрице расстояний D(G) представляет число ребер, соединяющих і-ую вершину с j-ой наикратчайшим путем, и обозначается как djj. Наиболее распространенными топологическими индексами, рассчитываемыми на основе матрицы смежности, являются индекс Плата F(G) (сумма степеней каждого ребра в графе G); индекс Гордона-Скантлбери Y(G) (число путей длины 2); индекс полной смежности A (G) (сумма всех ненулевых элементов матрицы смежности); индекс связности Рандича %(G), и др. Среди дескрипторов, рассчитываемых на основе матрицы расстояний, можно отметить индекс Винера W(G), индекс Хосойи Z(G), число полярности P(G), индекс суммы расстояний S(G), индекс расстояний между вершинами VDI(G). Указанные матрицы и топологические индексы отражают только топологические особенности молекул без учета типа атомов и реальных расстояний между ними. б. Линейная номенклатура (коды Висвессора) и матрица смежности. В линейной номенклатуре химическая структура кодируется строкой символов. Наиболее известными из линейных номенклатур, являются системы Висвессера, Хейворда, Сколникова, а также системы IUPAC и GREMAS. В отличие от линейных номенклатур правила составления матриц связей просты и легко применимы для кодирования структур любой сложности. Матрица связей дает такое представление молекулярной структуры, в котором каждый атом, каждая связь и тип связи кодируются по отдельности и всегда обозначаются явным образом [9,18]. Главная диагональ матрицы связей включает коды атомов структуры. Каждому типу атомов сопоставляется свой код.
Недиагональный элемент матрицы связей а содержит информацию о связи между і-м и j-м атомами и является кодом данного типа связи. Матрица связей всегда симметрична относительно главной диагонали. Это означает, что находящиеся под главной диагональю элементы матрицы связей для последующей работы не нужны. Путем перенумерации атомов структуры и затем приведения матрицы к одномерному представлению можно добиться значительного уменьшения длины информационного массива. В работе [21] была предложена матрица связности дескрипторных центров (МСДЦ), в главной диагонали которой коды атомов заменены на коды функциональных групп (дескрипторные центры), а в недиагональных элементах коды связей заменены на число связей между дескрипторами. С целью совершенствования языка описания структуры посредством МСДЦ в последующем было предложено использовать рассчитываемые расстояния между дескрипторными центрами [22]. в. Структурные фрагменты в качестве дескрипторов [12, 25]. Описанные выше топологические индексы и различные матрицы дают определенную информацию о химических соединениях в целом. Поскольку решающую роль во взаимодействии соединений с другими химическими и биологическими объектами часто играют отдельные фрагменты молекул, описание структур соединений рассматриваемого ряда при выявлении взаимосвязей структура - свойства или структура - биологическая активность производится пофрагментно. В качестве структурного фрагмента может выступить отдельный атом, заместитель, функциональная группа, конкретное сочетание атомов (с указанием их типов гибридизации). Каждый такой структурный фрагмент может использоваться в качестве самостоятельного дескриптора. Возможна дальнейшая детализация структурного фрагмента за счет указания локальных характеристик атомов, входящих во фрагменты. Существует много подходов к компьютерному конструированию новых веществ на основе структурных фрагментов соединений, обладающих каким-либо общим свойством. 3. Дескрипторы электронной структуры молекул. В квантово-химических расчетах сложных молекул используются атомные и молекулярные квантово-химические дескрипторы. а. Заряды на атомах - наиболее часто используемые квантово-химические дескрипторы для нахождения взаимосвязей структура -свойств. Если разделить химические взаимодействия на электростатические и ковалентные, то заряды на атомах будут характеризовать электростатическую составляющую внутримолекулярных взаимодействий. Полный заряд на атоме можно рассматривать как ненаправленный дескриптор, в то время как ст- и я-электронные плотности характеризуют возможную ориентацию химических взаимодействий и поэтому их можно считать дескрипторами направленного типа. Зная значения зарядов, можно в каждом конкретном исследовании предложить и использовать новый набор дескрипторов этого типа. б. Энергии высшей занятой (ЕНомо) и низшей незанятой (ELUMO) молекулярных орбиталей - дескрипторы, которые часто используются в расчетах электронной структуры молекул.
Характеристики классов исследуемых соединений
Антигельминтики - химические препараты, воздействующие на паразитических червей растений и животных. Одним из перспективных классов, производные которого обладают антигельминтным действием являются азотсодержащие гетероциклические соединения, в частности бензимидазолы. Производные бензимидазола типа А представляют многочисленную группу антигельминтиков с широким спектром действия [100-102]. Производные бензимидазола широко используются как системные фунгициды, обезболивающие средства [103], а также в качестве антигельминтных клинических и ветеринарных препаратов (тиабендазол, БМК, фенбендазол, албендазол и др.) [104,105]. Антигельминтики класса бензимидазола являются высокоизбирательными препаратами с широким спектром действия. Так, тиабендазол проявляет антигельминтное действие как на зрелых, так и на развивающихся червях у крупного рогатого скота, лошадей, свиней и овец, а также применяется для лечения людей, зараженных гельминтами. Относительно механизма действия антигельминтиков - производных бензимидазола - определенного ответа не получено. Обнаружены изменения в энергетическом обмене гельминтов, в частности, при введении мебендазола отмечены нарушения усвоения глюкозы и АТФ, что приводит к истощению запаса гликогена [104]. Предполагают, что механизм действия бензимидазолов связан с нарушением сборки микротрубочек - органелл растительных и животных клеток, играющих важную роль в хромосомных перестройках и других процессах [105]. Существенным фактором, определяющим особенности биотрансформации и фармакинетики производных бензимидазолов, является замещение в положении 5 бензольного кольца. В работах [106-108] показано, что основным путем метаболизма продукта присоединения к метиловому эфиру 2-бензимидазолкарбаминовой кислоты бутилизоцианата по атому азота в положении 1 (беномила) является отщепление боковой цепи и гидроксилирование бензольного кольца в положении 5 с последующим образованием конъюгатов. Аналогичные данные были получены при исследовании биотрансформации 2-(4-тиазолил)бензимидазола (тиабендазола). Эти соединения претерпевают примерно одинаковые изменения в организме животных и сравнительно быстро выделяются. Продукты их биотрансформации в антигельминтном отношении неактивны и, следовательно, полезные свойства препаратов лимитируются быстрой метаболической дезактивацией.
На основании анализа данных, полученных при исследовании антигельминтных препаратов из ряда производных 5(6)-(4/-аминофенилтио)- 2-бензимидазолкарбаминовой кислоты [109-114], можно предположить, что заместители, вводимые к азоту анилинового фрагмента молекулы эфира, такие как остатки карбоновых кислот, не должны быстро отщепляться в организме животного и эмбриона, давая исходный эфир, который является токсичным соединением. Этому требованию отвечают ароматические кислоты, у которых оба ор/яо-положения имеют достаточно объемные заместители, находящиеся в одной плоскости с карбанилидной группой и способные препятствовать атаке нуклеофила, например гидроксила, по углеродному атому карбонильной группы. Однако, несмотря на синтез значительного числа производных метилового эфира 2-бензимидазолкарбаминовой кислоты, проявляющих высокую гельминтоцидную активность [109-114], у некоторых соединений данного класса обнаружено наличие побочного действия (эмбриотоксичное, тератогенное, генотоксическое и др.). Это ограничивает возможности их практического применения. Поэтому поиск новых нетоксичных антигельминтных препаратов в этом классе соединений является весьма важной задачей. 1.5.2. Анализ зависимостей между строением и гербицидным действием гетероциклических производных амидо-и иминосодержащих гетероциклических соединений Зависимости между строением и действием в амидо-и иминосодержащих гетероциклических соединений являются предметом внимания исследователей. Зависимости между структурой и активностью изучаются различными методами: от визуально-аналитических и формализованных методов до механизмов. Результаты анализа взаимосвязи структура-активность позволяют обнаружить общие физико-химические свойства, фрагменты и другие характеристики молекул, связывающие их со свойствами гербицидов. В литературе описаны отдельные эмпирические зависимости связи структуры амидо-и иминосодержащих гетероциклических соединений с гербицидной активностью. Levitt [115] предполагает, что для проявления гербицидной активности структура должна иметь определенные заместители при ароматическом цикле. При этом наиболее активными являются соединения с «-заместителями в ароматическом цикле, активность л -замещенных сульфонилмочевин ниже, чем 0-замещенных. 77я/?я-замещенные соединения наименее активны. Данные по биологической активности, приведенные в патентах свидетельствуют о том, что многие функциональные группы усиливают активность, находясь в орто-положении Множество электроноакцепторных и донорных групп оказывают усиливающее влияние в о-положении (С02, СН3, N02, F, Br, CI, S02, SCH3, N(CH3), CF3, OCH3, OCF3). Те же заместители, находясь в я- и л#-положениях, понижают гербицидную активность соединений. Кроме того, по мнению [32] активная структура должна иметь незамещенный водород при мочевинной группе NH-CO-NH.
Однако известны гербициды, в которых замещены один или оба водорода при аминогруппе, в разных положениях ароматического цикла находятся разнообразные заместители или вообще карбоцикл заменен на гетероциклы. По мнению [115] замена бензольного кольца на пиридиновый, тиофеновый, фурановый и нафталиновый радикал не усиливает гербицидную активность. По данным [116] наибольшая гербицидная активность отмечена у соединений с заместителями в 4-ом и 6-ом положениях гетероцикла (симм-триазинового или пиримидинового), причем эти заместители - метил и метоксигруппы. Введение заместителей в положение 5 пиримидинового кольца снижало активность. Из структур, различающихся по арильной части молекулы, наиболее активными оказались фенил-о-замещенные производные. Кроме того, рострегулирующей активностью обладали 2,6-дизамещенные фенилсульфонилмочевины, а также пиридин, тиофен, фуран и нафталинсульфонилмочевины. Введение же различных заместителей в сульфонилуреидный мостик снижает активность соединений. Значимость эфирной группы во втором положении и метильной группы в шестом положении фенильного кольца показана также для трифлусульфурон-метила [117]. Имеются сведения о влиянии различных заместителей и для других классов соединений, например, для имидазолинонкарбоксилатов-производных бензойных, никотиновых и хинолиновых кислот [118, 119]. У пиридиновых производных гербицидная активность зависит от положения заместителя в кольце: С-5 С-6 » С-4, при этом фитотоксичность уменьшается с увеличением размера радикалов, таких как R, OR, NR2. У моногалоидзамещенных хинолиновых аналогов гербицидная активность снижается в следующем порядке: С-5 С-6 С-8 С-7 » С-4. Считается [118], что на гербицидную активность этой группы соединений существенное влияние оказывает свободная карбоксильная группа. Среди заявляемых имидазолинонов много различных солей, эфиров и других производных карбоксильной группы, которые способны легко метаболизироваться в карбоксил. Таким путем удается повысить селективность имидазолинонов и решить проблему создания жидких препаративных форм, что очень затруднительно для сульфонилмочевинных гербицидов. Обобщение результатов по анализу зависимости структура-токсичность [120, 121] амидосодержащих гетероциклических соединений позволяет высказать, что параметры острой токсичности (DL50) определяются наличием в молекуле незамещенного сульфонилмочевинного мостика.
Разработка алгоритма приведения нумерации элементов структуры к псевдоканоническому виду
Для приведения нумерации элементов структуры к псевдоканоническому виду (что является вторым условием формата dir-dat), потребовалось разработать алгоритм поиска максимального маршрута, маршрута, который охватывает в единую последовательность все элементы структуры. Для нахождения подобного маршрута был предложен алгоритм «лабиринтного» обхода структуры. Суть алгоритма заключается в следующем: для вершина gi записывается первая найденная связь с вершиной gj. После этого производится переход на вершину gj и находится первая связь для нее с вершиной gk и т.д. В том случае, если некоторой вершины нет связи с другой новой, то происходит возврат на предыдущий шаг, и разыскивается альтернативная связь для предшествующей вершины. Процесс продолжается до тех пор, пока не будут задействованы все существующие вершины и связи. Рассмотрим пример для структуры А (см. схему в п.2.2.1). Поиск начнем с вершины gj. Для этой вершины первое ребро образуется с вершиной g2; для вершины g2 первое ребро (не считая уже рассмотренной вершины gi) будет ребро с вершиной g3 и т.д. Получается цепь {gl-»g2- g3- g4- g5- g6-»gl}. ДЛЯ ВерШИНЫ gi НЄ Существует ребер С новыми не включенными в цепь вершинами. В то же время, еще не все вершины структуры охвачены цепью (маршрутом). Поэтому начинаем «отступать» по обходу назад и проверять, есть ли для вершин новые (не охваченные) связи (с вершины gi отступаем на вершину g6, затем на вершину gs и т.д). Получаем цепь {gi— g6— g5— g4— g3}, которая игнорируется и не записывается в общий маршрут обхода. Для вершины g3 есть не охваченная связь с вершиной g7. Получаем цепь {gi— g2- g3- g4- g5- g6— g7}- Далее ищем маршрут от вершины g7 и получаем множество {gi, g2, g3, g4 g5 g6 g7 ge g9» gio» gii gu}- После занесения вершины gn в последовательность все вершины задействованы, и поиск останавливается. Непосредственное приведение нумерации структуры к псведоканоническому виду происходит в следующей последовательности: Для каждого элемента структуры, если он принадлежит циклу или нескольким циклам, определяется идентификатор наибольшего цикла (цикла содержащего максимальное количество вершин).
Начинается обход по максимальному маршруту обхода, при этом проверяется, не перенумерован ли уже элемент, и если нет, то элементу присваивается порядковый номер. Проверяется не принадлежит ли вершина циклу, и в случае если принадлежит, присваиваются порядковые номера всем элементам цикла (по- или против- часовой стрелки). Разработанные алгоритмы «фронтального поиска» и псевдоканонизации записи молекулярного графа позволили создать конвертор для различных систем ввода структурных химических формул (Riga, ChemDraw, IsisDraw), что значительно расширяет возможности систем анализа «структура-свойства»: использование современных и широко применяемых систем ввода структурной информации и в то же время накопленные банки прогностических моделей и базы знаний, аким образом, предлагаемое приведение нумерации структуры к псевдоканоническому виду позволило выполнить условие формата dir-dat и создать конвертор. 2.3. Разработка метода прогнозной оценки соединений с широким диапазоном оценок свойства При формировании моделей методами теории распознавания образов (ТРО) обычно используется дихотомическая процедура (разбиение на две альтернативные по свойствам группы). Однако, диапазон измерения некоторых свойств (например, острой токсичности) является достаточно большим, и при использовании дихотомической процедуры образуются широкие интервалы значений. Нами предложен метод прогноза интервальных значений на основе формируемых иерархических прогнозных комплексов. Сущность метода заключается в последовательном ступенчатом сужении прогнозируемых интервалов в рамках комплекса иерархических моделей. Прохождение структурной информации по этому комплексу определяется задаваемой логической схемой, по ходу которой обозначаются более узкие интервалы. Границы интервалов устанавливаются автоматически, путем оптимизации распознавания свойств соединений на стадии формирования моделей, а также алгоритмов прогноза. Отбор соединений в альтернативные группы из общего банка данных производится автоматически по значениям оценок их свойств, согласно начальным границам интервалов. Для создания прогнозирующего иерархического комплекса автоматически формируется банк всех возможных моделей (Ml...Mi), отвечающих заданным интервалам критериев К1 и К2, используемых при формировании РНП при отборе «признаков-претендентов», и заданной нижней границей распознавания соединений в каждой из альтернативных групп ( 70%). Далее, отбираются оптимальные по числу признаков и уровню распознавания РНП, общие или индивидуальные для двух алгоритмов (геометрического подхода и метода голосования). Эти РНП представляют собой рабочие модели и являются элементами прогнозирующего комплекса (ЭПК). Структура прогнозирующего комплекса определяется логической схемой, которой задаются пути прохождения прогнозируемого объекта в зависимости от того, к какой из альтернативных групп отнесен исследуемый объект.
Алгоритмическая запись приведенного ниже фрагмента комплекса по отнесению объекта к альтернативным группам (в соответствии с границей разделения) по маршрутам А, В, АА, АВ выглядит следующим образом {/М1 ,М2,МЗ}, {А/М1 ,М2,М8,М9,М 11}, {В/М7,М8,М9}, {АА/М28,М29,М30}, {АВ/М7,М8,М9}. В этой записи символ «/» отделяет результат отнесения исследуемого объекта на предыдущих этапах по маршруту следования от совокупности моделей отражающих определенный интервал оценок свойств. Поскольку каждая совокупность моделей (М1-МЗ; М28-М30 и т.д.) отражает определённый интервал со своими границами, а общие количество моделей может быть достаточно большим, то их целесообразно сгруппировать в ЭПК. В этом случае алгоритмическая запись становится более компактной, а использование схемы более наглядным. Для корректного распознавания соединений в каждом ЭПК предусмотрена процедура голосования решений, принимаемых по каждой модели ЭПК. Выбор решения на каждом шаге производится процедурой голосования решений моделей (нечётное количество) ЭПК с определёнными характеристиками: алгоритм распознавания («геометрический подход» или «голосование»), качественный и количественный состав РНП, уровень распознавания (% правильного распознавания соединений обучения в альтернативных группах). В соответствии с предложенным методом для прогноза острой токсичности DL50 производных алканоксикарбоновых кислот были разработаны 108 рабочих моделей. Исследовано более 500 химических соединений. Интервал значений токсичности от 0.1 до 28000 мг/кг и выше. Достоверность (уровень распознавания) созданных моделей составляет 72-97% (см. гл.ІУ). На основе 108 моделей организован 21 ЭПК со следующими интервалами и границами разделения альтернативных групп (нижняя-средняя-верхняя, мг/кг): 0,1-(150, 500, 800, 1000, 1500, 1800, 2000, 2300, 2500, 3000, 3500, 4500, 5000)-28000; 0,1-150-5000; 0,1-150/ 5000-28000; 150-(500,1000,2000,5000)-5000; 500-1000-5000; 1000-2000-5000. На их основе создан прогнозирующий комплекс. Таким образом, разработанный подход позволяет формировать оптимальные модели прогноза свойств с широким диапазоном оценок. Результаты, полученные при формировании прогностических комплексов в виде оценок характера влияния фрагментов структур на исследуемые свойства, определения расчетных гипотетических эталонов и ранжирование всех исследуемых объектов по отношению к эталонам, используются при дизайне химических соединений с заданным комплексом свойств. 2.4. Разработка системы прогноза взаимонезависимых свойств на основе банка моделей При разработке модуля прогноза совокупности «взаимонезависимых свойств» предложен алгоритм, в котором учтены некоторые характеристики, полученные для объектов обучающей выборки.
Разработка модуля анализа и визуализации результатов различных этапов исследования связи «строение-свойства»
В процессе проведения поиска новых соединений важную роль играет отображение промежуточных результатов и их анализ с целью коррекции направления поиска и принятия решений на последующих этапах. С этой целью было разработано и внедрено в систему SARD-21 несколько программных модулей, позволяющих выполнять просмотр промежуточных результатов, с возможностью параллельного просмотра структурной формулы в традиционном химическом виде, группировка промежуточных таблиц по назначению, а так же использование в анализе графического и аналитического аппарата других прикладных пакетов, таких как MS Excel. Программный модуль предназначен для просмотра различных файлов данных, используемых в работе системы SARD-21. В частности, таких файлов, как файлы дезагригированных структур (как с определителями цикла, так и без); таблицы соответствий; файлы фрагментов; файл фрагментов в химическом виде; сокращенный файл фрагментов; сокращенный файл фрагментов в химическом виде; номера и определители циклов для исследуемого ряда; двойные конъюнкции; двойные конъюнкции в химическом виде; тройные конъюнкции; тройные конъюнкции в химическом виде; двойная дизъюнкция; тройная дизъюнкция; строгие двойные дизъюнкции; строгие тройные дизъюнкции; дизъюнкция в химическом виде; «кандидаты-претенденты» в РНП; Решающий Набор Признаков; РНП в химическом виде; коды структур в пространстве НРП; матрица структур в признаках sel3; результаты распознавания по геометрии; расстояния до разных идеальных структур; результаты по голосованию; результаты экзамена по геометрии; очередность замен по 4 критериям и другие файлы. Файлы могут быть разделены на группы по тому или иному признаку. Существует возможность редактирования и пополнения списка файлов, доступных для просмотра. Следует отметить, что просмотр файлов дезагригированных структур и файлов с очередностью замены происходит иначе, чем других файлов, что потребовало разработки отдельных программ для их просмотра, в рамках программного модуля.
Таким образом, структура модуля имеет вид представленный на рисунке 2.19. В состав программного модуля включены следующие программы: Viewer - программа диспетчер модуля (основное назначение программы - организовать выбор необходимого файла из списка возможных, определить какую именно программу просмотра лучше использовать, и запустить соответствующую программу); ViewCycl - программа просмотра структур в химическом виде; ViewSlex - программа просмотра файлов очередности замены; Файл направления модификации (SLEX) содержит информацию о порядке мест замены фрагментов (функциональных химических групп) в исследуемых структурах, с целью достижения целевого свойства. Нами был разработан программный модуль, позволяющий выполнять анализ очередности модификации элементов строений химических соединений, ориентированный на совокупность нескольких видов целевых свойств. Очередность замены определяется в системе SARD-21 по платёжным матрицам, рассчитываемых на основе четырех критериев теории игр (MinMax, МахМах, MinMin, МахМіп). Для проведения дальнейших процедур в системе SARD-21 на этапе расчёта матрицы необходимо осуществить в интерактивном режиме выбор заменяемого фрагмента в анализируемых соединениях, которые могут содержать более 100 фрагментов. Для соединения В, содержащего 24 фрагмента, матрица выбора приведена в таблице 2.6. В качестве исходных данных выступают файлы направления дизайна. Анализ может быть выполнен в двух режимах: сравнение различных критериев одного файла; сравнение одного критерия у нескольких файлов. Для построения графиков необходимо данные записать в таблицу Excel, поэтому после инициализации приложения осуществляется инициализация «листов» и запись данных в ячейки таблицы. Для этого используется встроенный макроязык Excel. Изложенные способы реализованы в виде программных модулей на языках программирования Delphi и Visual Basic. В приложении 8 приведены тексты этих программных модулей. 2.5.7. Системное меню SARD-21 Как уже было отмечено ранее, система SARD-21 представляет собой совокупность программных модулей, которые могут использоваться как отдельно друг от друга, так и вместе. Поэтому большую роль играет организация системного меню, позволяющего исследователю видеть, какие программы необходимо использовать для того или иного исследования, а так же в какой последовательности необходимо их запускать, объединять программные модули комплекса по разделам в произвольном наборе в соответствии с поставленной задачей исследования.
В то же время, программы исследований могут меняться в зависимости от поставленной цели, поэтому необходимо, что бы системное меню имело варианты и допускало создание индивидуальных программ исследований. В качестве файла данных принят текстовый файл. К его организации предъявлены следующие требования: уровень вложенности пункта меню определяется количеством пробелов в начале строки, описывающей действия раздела; У если строка следующая за текущей имеет более высокий уровень вложения, то текущая строка считается папкой, иначе — текущая строка считается элементом; представление в меню отделяется от выполняемой программы специальным символом. Формат командной строки файла данных имеет следующий вид: [ уровень пробелами ] Представление в меню Исполняемый файл [!] Символ «!» в конце строки означает, что нет необходимости проверять наличие файла перед его вызовом, иначе перед выполнением его будет совершена проверка и, в случае его отсутствия, будет выдано сообщение об ошибки (отключение проверки необходимо в случаях, когда исполняемый файл имеет дополнительные параметры). В приложении 9 приведен текст программного модуля системного меню SARD-21. Принципиальная схема системы SARD-21 (схема взаимодействия программных модулей) имеет следующий вид. Разработанные методы, алгоритмы и система SARD-21 были применены для поиска новых эффективных антигельминтиков. Проведены исследования зависимости между структурой и антигельминтным действием большой группы производных бензимидазола, выявлены фрагменты структур, связанные с проявлением активности, проведен прогноз и дизайн новых потенциально активных структур. Производные бензимидазола (ПБИ) типа А представляют многочисленную группу антигельминтиков с широким спектром действия: Ri Структура А ( X - О или S, R и R] - водород или замещенный алкил, арил, амид и др.). Несмотря на синтез значительного числа ПБИ, проявляющих высокую гельминтоцидную активность, у некоторых соединений данного класса обнаружено наличие побочного действия (эмбриотоксичное, тератогенное, гено-токсическое и др.). Это ограничивает возможности их практического применения. Поэтому поиск новых нетоксичных антигельминтных препаратов в этом классе соединений является весьма важной задачей. 3.1. Характеристика массивов исследуемых структур Для анализа активности сформирован массив соединений с известным антигельминтным действием (обучающая выборка). Обучающая выборка по уровню активности разделена на активные и неактивные соединения. К активным отнесено 71 соединение, эффективность которых против гельминтов (личинки Nippostrongilus, Ankilostoma, Haemonhus) более 65% при перораль-ном введении животным (крысы, овцы, собаки) в дозе 2,5- 50 мг/кг. Неактивные включают 40 соединений, антигельминтная активность которых ниже 40% при дозе 50-100 мг/кг. Обучающая выборка подразделялась на более мелкие группы, каждые из которых включают соединения, объединенные по определенному признаку (например, проверенные на одном виде гельминтов, при определенном диапазоне доз и др.). Антигельминтная активность, анализируемых ПБИ, проверена на разных тест-объектах животных при различных дозах введения препарата. Для выявления объективных зависимостей «структура-активность» целесообразно создание комплекса моделей, учитывающих разнородность исходных данных.