Содержание к диссертации
Введение
1 Литературный обзор 8
1.1 Социальная значимость оценки потенциальной генетической опасности химических соединений 8
1.1.1 Масштабы загрязнения окружающей среды 8
1.1.2 Генетические последствия 9
1.1.2.1 Мутации в половых клетках 9
1.1.2.2 Мутации в соматических клетках 10
1.2 Рождение генетической токсикологии 11
1.2.1 Использование биологических тест-систем для оценки потенциальной генетической опасности химических соединений для человека 13
1.2.1.1 Особенности действия мутагенов 13
1.2.1.2 Принципы регистрации генотоксических эффектов химических соединений 15
1.2.1.3 Чувствительность, специфичность и конкордантность тест-систем
16
1.2.1.4 Организация процедуры биотестирования 17
1.2.1.5 Ранжирование химических соединений по степени их генетической опасности 22
1.3 Связь между структурой соединений и их биологической активностью 24
1.3.1 История вопроса 25
13.2 Использование QSAR-анализа при оценке потенциальной мутагенной и канцерогенной опасности химических соединений 28
1.3.2.1 Основные характеристики метода ТОРКАТ 30
1.3.2.2 Основные характеристики программного комплекса CASE/MULTICASE 31
1.3.3 Прогностическая эффективность QSAR-анализа при оценке потенциальной генетической опасности химических соединений 33
1.3.4 Сравнительная эффективность существующих компьютерных программ при оценке канцерогенной опасности химических соединений 34
2 Методические и теоретические предпосылки 37
2.1 Материалы и методы 37
2.1.1. Источники информации при создании баз данных 37
2.1.2 Создание «структурной» базы данных 38
2.1.3 Кодировка химических соединений, лежащая в основе программы NASA 40
2.2 Оценка значимости различий 46
2.3 Оценка значений апостериорной вероятности 46
2.3.1 Дискриминантный анализ 47
2.3.2 Байесовское приближение 48
2.4 Количественная мера эффективности анализа 49
3 Результаты собственных исследований 52
3.1 Создание и эффективность компьютерной программы, учитывающей функциональные особенности структурных элементов молекул химических соединений 52
3.1.1 Программа генерации дескрипторов ФОМ 53
3.1.1.1 Основные типы дескрипторов 53
3.1.1.2 Методы кодирования дескрипторов 54
3.1.1.3 Проблема неоднозначности кодировки структурных дескрипторов . 57
3.1.2 Эффективность описания антимутагенной активности флавоноидов 59
3.1.3 Использование программ ФОМ и NASA для описания антимутагенной активности флавоноидов 61
3.2 Оценка мутагенной активности химических соединений 67
3.2.1 Идентификация структурных дескрипторов, статистически значимо влияющих на мутагенную активность химических соединений 69
3.2.2 Сравнение эффективности анализа при исследовании антимутагенов и мутагенов 74
3.2.3 Компаундные дескрипторы 78
3.2.4 Генерация компаундных дескрипторов 80
3.2.5 Однозначные и вероятностные идентификаторы активности 83
3.2.6 Эффективность описания мутагенной активности при использовании «двойных» компаундных дескрипторов 85
3.2.7 Компаунды, состоящие из двух первичных дескрипторов 86
3.2.7.1 Эффективность описания мутагенной активности при использовании компаундных дескрипторов 89
3.2.7.2 Эффективность прогноза мутагенной активности при использовании компаундных дескрипторов 91
4 Заключение 96
5 Выводы 102
6 Список литературы
- Использование биологических тест-систем для оценки потенциальной генетической опасности химических соединений для человека
- Сравнительная эффективность существующих компьютерных программ при оценке канцерогенной опасности химических соединений
- Проблема неоднозначности кодировки структурных дескрипторов
- Эффективность описания мутагенной активности при использовании «двойных» компаундных дескрипторов
Введение к работе
Актуальность темы. Масштабы использования современных технологий предполагают введение в окружающую среду вновь синтезированных химических соединений, многие из которых могут обладать мутагенной или канцерогенной активностью. Опасность этих соединений для генетического аппарата человека была осознана научным сообществом в 60-х годах прошлого столетия, в результате чего возникло новое направление в генетике ~ генетическая токсикология, в задачи которой входило создание методов оценки и классификации химических соединений по их мутагенной и канцерогенной опасности.
Одной из основных проблем генетической токсикологии является необходимость тестирования чрезвычайно большого числа химических соединений. По данным международного регистра CAS (Chemical Abstracts Service), в настоящее время зарегистрированы миллионы соединений. Ежедневно этот список пополняется примерно на тысячу соединений. Следовательно, для оценки мутагенной и канцерогенной активности веществ, попадающих в окружающую среду, требуется создание оперативных и экономичных систем тестирования.
Невозможность проведения экспериментов по определению генетической опасности химических соединений непосредственно на человеке обусловила создание различных тест-систем, предназначенных для предсказания мутагенной или канцерогенной активности химических соединений. При этом интерес представляют не сами полученные результаты, а их прогностическая эффективность в отношении генетических последствий воздействия на человека исследуемых соединений.
Однако эффективность биотестирования оказалась недостаточной, поскольку мутационный процесс в значительной степени зависит от метаболизма клеток-мишеней, а также от распределения мутагенов по органам и тканям многоклеточного организма. Это обстоятельство, а также требования к оперативности и экономичности системы оценки потенциальной генетической опасности химических соединений, обусловило интерес к использованию методов внеэкспериментального анализа для оценки этой опасности.
В основе внеэкспериментальных методов лежат представления о том, что все свойства химического соединения детерминируются его структурой, которая, хотя и не полностью, но достаточно хорошо отражена в их структурной формуле. Задачей имеющейся в настоящее время методологии анализа связи между структурой химических соединений и их активностью (Quantitative Structure-Activity Relationship - QSAR) является выделение тех структурных особенностей молекул химических соединений, которые отвечают за конкретную интересующую нас активность, в частности, мутагенную или канцерогенную активности. QSAR-анализ имеет высокую эффективность при исследовании ряда близкородственных соединений, однако в случае гетерогенных в химическом отношении выборок химических соединений эффективность QSAR-анализа существенно снижается. Именно с этим случаем мы сталкиваемся при анализе генетической опасности химических соединений - загрязнителей окружающей среды.
В настоящее время развито более десятка формализованных систем QSAR-анализа, которые используются для оценки мутагенной или канцерогенной активности химических соединений — потенциальных или реальных загрязнителей окружающей среды. Однако их эффективность в этом случае невысока и оказывается ниже эффективности экспертной оценки.
Это означает, что использующийся в настоящее время формализм при описании мутагенной и канцерогенной активности химических соединений - загрязнителей окружающей среды - требует своего дальнейшего развития.
Цели и задачи исследования. Цель настоящей работы заключается в разработке и применении формализованного способа оценки наличия или отсутствия биологической активности (мутагенной и антимутагенной) у химических соединений. Для этого решаются следующие задачи:
1. Создание базы данных химических соединений, исследованных на наличие мутагенной активности;
2. Разработка и реализация в программном продукте новых принципов описания мутагенной и канцерогенной активности химических соединений;
3. Разработка методов выявления структурных дескрипторов соединений, значимо влияющих на их активность;
4. Оценка прогностической эффективности разработанной методологии QSAR при анализе мутагенной активности химических соединений.
Научная новизна. Впервые разработан метод описания структуры химических соединений, при котором соединение рассматривается как набор из замкнутых (циклы, бициклы и т.д.) и разомкнутых (функциональные группы, ответвления) химических цепей. Данный метод позволяет учитывать не только наличие определенных структурных фрагментов, но и места соединения фрагментов разного рода (в частности, прикрепление функциональной группы к определенному атому в кольце).
Создана компьютерная программа, в которой реализован новый принцип описания мутагенной и канцерогенной активности химических соединений, основанный на отборе значимо влияющих на биологическую активность компаундных структурных дескрипторов, являющихся сочетанием нескольких фрагментов структуры, представленных в молекулах химических соединений.
Для определения структурных особенностей, влияющих на наличие активности у химических соединений, использованы компаундные дескрипторы, которые представляют собой комбинацию двух и более одиночных дескрипторов. Использование компаундов позволяет учитывать дескрипторы, кодирующие не связанные между собой фрагменты, а также определять влияние не только наличия, но и отсутствия определенного фрагмента структуры на биологическую активность.
Практическая значимость. Созданная компьютерная программа, в которой реализованы новые принципы описания биологической активности химических соединений, обладает большей прогностической эффективностью по сравнению с существующими при анализе гетерогенных в химическом отношении выборок химических соединений. Эта программа может быть использована при оценке не только мутагенной и канцерогенной опасности соединений, но и при оценке тератогенной, токсической и др. опасностей, связанных с «химическим» загрязнением окружающей среды для человека.
Развиваемые нами принципы описания активности химических соединений, реализованные в программный продукт, могут также быть использованы в практике исследований, направленных на оценку и предотвращение опасности для человека, связанной с загрязнением окружающей среды.
1 Литературный обзор
Использование биологических тест-систем для оценки потенциальной генетической опасности химических соединений для человека
К концу 60-х — началу 70-х годов прошлого столетия, то есть к моменту рождения генетической токсикологии, основные особенности индуцированного мутагенеза были уже хорошо известны. Эти особенности сформулированы еще в 30-е годы в отношении мутагенного действия ионизирующего излучения, и связаны с дискретностью генетического материала клеток и внешнего мутагенного фактора. В результате каждое событие поражения дискретной наследственной единицы (гена) при действии кванта излучения, или молекулы химического мутагена, с определенной, ненулевой, вероятностью приводит к тем или другим биологическим последствиям. Это положение, получившее название «принцип попадания», справедливо и сегодня для всех типов ионизирующего излучения, а также для ДНК-тропных химических мутагенов, мутагенный эффект которых связан с непосредственным повреждением молекул ДНК.
В настоящее время известно, что, наряду с ДНК-тропными химическими мутагенами, существуют соединения, мутагенный эффект которых связан не с поражением ДНК, а с инактивацией белков, участвующих в протекании процессов ее метаболизма, таких как синтез предшественников, процессов репарации, рекомбинации и репликации ДНК. Однако доля таких «косвенных», не ДНК-тропных, мутагенов относительно невелика, и их мутагенная активность значительно ниже по сравнению с таковой у ДНК-тропных мутагенов.
Для мутагенов, эффект которых не связан с непосредственным повреждением ДНК, следует ожидать реального порога в дозовой зависимости, как это имеет место для общетоксического действия.
Таким образом, если для всех типов радиации мутагенное действие безусловно не имеет порога, то мутагенный эффект химических соединений является потенциально беспороговым до тех пор, пока для конкретного химического соединения не показано обратное (Тарасов, 1994).
В этих условиях разумная стратегия тестирования заключается в минимизации генетической опасности, когда из всех потенциально опасных ситуаций выбирают ситуацию с минимальным уровнем генетического риска.
Дискретность генетического материала и одноударность действия мутагенов определяет характер распределения мутаций, подчиняющийся вероятностным закономерностям. В результате этого при проведении биотестирования оцениваются характеристики процесса, который по своей природе является вероятностным. Единственным прямо измеряемым показателем в этом случае является частота мутаций в популяции.
При этом, в силу относительно небольших размеров гена, эффективность индукции мутаций и, соответственно, доля популяции с фенотипически регистрируемыми изменениями, обусловленными поражениями конкретного гена, как правило, чрезвычайно мала. В результате для регистрации индукции мутаций конкретных генов требуется наблюдение за чрезвычайно большими по численности популяциями. Это обстоятельство, а также отдаленность последствий возникновения мутаций, создает принципиальные трудности при проведении эпидемиологических исследований непосредственно у человека, направленных на определение мутагенной активности химических соединений. В настоящее время не имеется ни одного химического соединения, для которого прямо показана мутагенная активность, и одновременно ни для одного химического соединения не показано отсутствие такой активности для человека.
Таким образом, все химические соединения являются потенциальными мутагенами для человека, и при этом их мутагенный эффект является потенциально беспороговым.
Все эти соображения, как уже говорилось, были очевидны к моменту рождения генетической токсикологии и легли в основу созданной стратегии биотестирования, которая с определенными модификациями используется и сегодня.
Невозможность проведения прямой оценки мутагенной опасности химических соединений непосредственно у человека привела к созданию целого ряда косвенных методов оценки этой опасности. Были созданы и продолжают создаваться так называемые тест-системы для экспериментальной оценки генотоксичности химических веществ. При этом в качестве тест-объектов используются клетки бактерий, низших эукариотов, клетки млекопитающих и человека, культивируемые in vitro, а также мелкие грызуны (мыши и крысы). При действии мутагенов учитываются либо мутации (генные или хромосомные), либо генотоксическое действие мутагенов или последствия этого действия. В первом случае речь идет о первичных повреждениях в ДНК, таких как разрывы, мутационные аддукты, во втором - о репарационном синтезе ДНК либо об обусловленной дефектом репарации гибели клеток и т.д.
Сравнительная эффективность существующих компьютерных программ при оценке канцерогенной опасности химических соединений
Ответ на сформулированный выше вопрос может быть получен при анализе результатов эксперимента, проведенного в рамках Национальной токсикологической программы США (Benigni, 1997; Benigni, Zito, 2004). Этот эксперимент проводился в два этапа - на первом этапе анализировались 44, а на втором - 30 химических соединений. В ходе проведения эксперимента предсказывалась канцерогенная активность этих соединений. Выбор в пользу канцерогенной, а не мутагенной активности связан с существенно большей развитостью базы данных соединений, у которых определена канцерогенная активность у грызунов. При этом в момент проведения эксперимента канцерогенная активность соединений, использующихся в эксперименте, была неизвестна. Результаты этого эксперимента представлены в табл. 1.1.
Несмотря на то, что число соединений, исследованных на каждом этапе проведенного эксперимента, невелико, и это приводит к низкой точности количественной оценки значений конкордантности, полученные результаты позволяют сделать ряд принципиальных выводов.
Во-первых, ни одна из существующих компьютерных моделей не обладает высокой прогностической эффективностью при оценке канцерогенной опасности химических соединений. Действительно, видно, что эффективность прогноза для представленных в эксперименте методов оценки канцерогенной активности соединений колеблется от 25 до 70 процентов.
Во-вторых, наибольшую эффективность показали методы, в которых, наряду с формализованными, используются и экспертные подходы при оценке исследуемой активности химических соединений.
И, наконец, проведенный специальный анализ (Benigni, Zito, 2004) показал, что большая доля ошибочных предсказаний связана с неправильным определением активности у неканцерогенов, т.е. соединения, не обладающие канцерогенной активностью, классифицировались как канцерогены.
Таким образом, несмотря на то, что актуальность проблемы оценки генетической опасности химических соединений, введенных тем или другим образом в биосферу, для человека с течением времени только возрастает, сегодня следует констатировать, что громадные усилия, предпринятые научным сообществом для создания эффективной системы оценки этой опасности, пока не увенчались успехом. Надежды на улучшение ситуации в этом плане связаны с развитием баз данных, в которых аккумулированы наши знания о механизмах мутационного процесса, канцерогенеза и биотрансформации ксенобиотиков, созданием генно-инженерными методами новых тест-систем, обладающих большей прогностической значимостью, с разработкой новых принципов компьютерной оценки потенциальной генетической опасности химических соединений, и объединением этих двух подходов в общую процедуру оценки мутагенной и канцерогенной опасности химических соединений - загрязнителей окружающей среды для человека. Источником информации при создании выборки мутагенов служили компьютерные базы данных NTP, Geneox.
База данных Geneox создана US ЕРА (United States Environmental Protection Agency) и является результатом экспертизы исследований генотоксичности более чем 3000 химических веществ, опубликованных в открытой научной литературе (http://toxnet.nlm.nih.gov). Программа Geneox направлена на оценку краткосрочных тестов и их роли в предсказании мутагенности и канцерогенное.
База данных NTP (National Toxicology Program) является результатом работы Национальной токсикологической программы, созданной в 1978 году министерством здравоохранения США (DHHS - Department of Health and Human Services), и содержит данные по биотестированию химических веществ (http://ntp-server.niehs.nih.gov). Национальная токсикологическая программа служит для координации различных программ по токсикологическому тестированию и направлена на усиление научной базы в токсикологии и на развитие и валидизацию методов тестирования, а также служит для обеспечения информацией о потенциальной токсичности химических веществ научных и медицинских организаций.
Проблема неоднозначности кодировки структурных дескрипторов
Как уже говорилось, в процессе генерации всевозможных структурных дескрипторов их подавляющее большинство относится либо к избыточным, либо не связаны с интересующей нас биологической активностью химических соединений, и величина этого «шума» сказывается существенным образом на эффективности отбора значимых дескрипторов. Возникновение избыточных дескрипторов в процессе их генерации связано в случае программы ФОМ не только с использованием различных символов при кодировании одной и той же структуры, но и с принципиальной неоднозначностью кодировки выделенных основных типов дескрипторов. Исключение в этом плане представляют собой дескрипторы типа «группа», в которых можно однозначно определить начальный и конечный атомы. В других случаях это не так. Дескрипторы типа «вилка» и «мост» имеют два эквивалентных описания, связанных с неопределенностью в определении их начала и конца. Атомы, ограничивающие дескрипторы этих типов, можно рассматривать либо как их начало, либо как их окончание. Число эквивалентных описаний дескрипторов типа «кольцо» и «скелет» существенно больше, в общем виде оно равно удвоенному числу атомов, входящих в структуру этих дескрипторов. Исключение составляют структуры, в состав которых входят идентичные атомы и связи, например, бензольное кольцо. В этом случае конкретный код дескриптора зависит от того, какой атом в структуре кольца или скелета принимается за начальный, и в каком направлении происходит последовательное кодирование атомов и связей между ними. Для того чтобы избежать включения таких, по сути, эквивалентных дескрипторов в их набор, генерируемых программой ФОМ, использовался следующий прием. При анализе выборки дескрипторы, возникающие для первого из анализируемых соединений, записывались в библиотеку. Для второго и последующих соединений при возникновении дескрипторов с неоднозначной кодировкой генерировались всевозможные коды для данного дескриптора, которые сравнивались с дескрипторами из библиотеки. В том случае, если один из кодов данного дескриптора совпадал с кодом, представленным в библиотеке, ему присваивался код последнего, в противном случае он вносился в библиотеку. Эта процедура продолжалась последовательно при переборе всех соединений, включенных в обучающую выборку соединений.
Несмотря на то, что при создании программы ФОМ не удалось полностью решить проблему избыточного описания дескрипторов, их доля по отношению к дескрипторам, значимо связанным с биологической активностью химических соединений, существенно уменьшилась. При анализе одной и той же выборки соединений, включающей себя 80 флавоноидов, число дескрипторов, встречающихся не менее чем в 4 соединениях, генерированных программой NASA, составляло 5331, тогда как при идентичных ограничениях при использовании программы ФОМ возникало 832 структурных дескриптора.
Подробнее принципы кодировки структурных дескрипторов при использовании компьютерной программы ФОМ представлены в прил. 2.
При использовании программы ISIS для соединений, представленных в этой выборке, была создана база данных, в которой представлена их активность и структурные формулы соединений (прил. 1В). Для генерации дескрипторов использовалась созданная нами компьютерная программа ФОМ и программа NASA. Отбор дескрипторов и оценка их биологической значимости при описании антимутагенной активности проводились с помощью дискриминантного анализа с использованием соответствующего модуля пакета компьютерных программ STATISTICA v.6. При этом проведение отбора дескрипторов, значимо влияющих на антимутагенную активность соединении, осуществлялось с использованием дискриминантного анализа в варианте «пошагового включения», когда на каждом шаге в набор включался дескриптор, максимально влияющий на исследуемую биологическую активность химических соединений.
Характеристика дескрипторов, статистически значимо влияющих на антимутагенную активность флавоноидов. В табл. 3.1.3 представлена структура дескрипторов, статистически значимо влияющих на антимутагенную активность соединений (с уровнем значимости р 0.05), встречаемость в активных и неактивных соединениях, а также значения их канонических коэффициентов, характеризующие вклад отдельных дескрипторов в общий процесс деления соединений на активные и неактивные
Эффективность описания мутагенной активности при использовании «двойных» компаундных дескрипторов
Отобранные дескрипторы не являются статистически независимыми. В результате часть из них, как в случае одиночных, так и особенно в случае компаундных дескрипторов, является избыточными. Толерантность таких дескрипторов, то есть независимый от других дескрипторов вклад в изменчивость активности соединений, равняется нулю. В результате возникают проблемы отбора минимального числа дескрипторов, обеспечивающих максимально возможный уровень разделения
анализируемой выборки на группу активных и неактивных по критерию наличия или отсутствия активности.
Для этого использовался метод пошагового включения дескрипторов, максимально влияющих на эффективность дискриминации (распределения) химических соединений по их активности, в данном случае мутагенной. Критерием максимальной эффективности являлось значение коэффициента корреляции дескриптора с активностью, в данном случае мутагенной, химических соединений, представленных в выборке. Соединения, содержащие отобранный дескриптор, исключались из дальнейшего анализа. Для оставшейся группы соединений вновь отбирался дескриптор, содержащийся в максимальном числе соединений. Эта процедура продолжалась до тех пор, пока в оставшейся выборке соединений не оказывается представленным ни один из дескрипторов.
Характеристики компаундных дескрипторов.
Дескриптор С1. Отличительной чертой этого компаунда является наличие фрагмента с альдегидом. Типичным представителем соединений, содержащих такой фрагмент, является кротоновый альдегид. Данный компаунд содержится и в молекулах метотрексата, стрептонигрина, гикантона, имеющих более сложную химическую структуру.
Дескриптор С4. Представляет собой сочетание аминогруппы и фрагмента с альдегидом и содержится в акриламиде, митомицине С, адриамицине, фуросемиде, мелфалане и др.
Дескриптор С7. Представляет собой сочетание трицикла с одинарными связями и линейного фрагмента -С-С- . При этом оба фрагмента, входящих в компаунд описывают одни и те же подструктурые элементы, а именно этилениминый цикл и этилен оксид. Соответственно, данный компаунд обнаружен в структурах тио-ТЕПА, ТЕПА, тренимона, трис-азиридинилтриазина и этилен оксида.
Дескриптор С9. Объединяет мутагены, содержащие в своей структуре кислород в качестве гетероатома в цикле (например, трифосфорамид, циклофосфан, бета-пропиолантон) или в цепи (милеран, пропилметансульфонат и др.).
Видно, что характер распределения в случае компаундных дескрипторов отличается от такового для одиночных дескрипторов (рис. 3.2.2). Эти различия, в основном, связаны с распределением мутагенов. Действительно, количественная оценка, полученная в ходе анализа информации и уровня доказанности (табл. 3.2.7), показала, что у 83 процентов мутагенов с помощью отобранных компаундных дескрипторов может быть «правильно» описана их активность. Это и понятно, поскольку из десяти отобранных компаундных дескрипторов девять оказалось биофорами и лишь один - биофоб.
При использовании компаундных дескрипторов для обучения модели величина средней информации для всех трех категорий (общая выборка, мутагены, немутагены) также оказывается выше, чем при использовании одиночных.
В целом, использование компаундных дескрипторов по сравнению с одиночными приводит к увеличению эффективности анализа по критерию величины полученной информации приблизительно в два раза (1,85 для общей выборки и 1,9 - для группы мутагенов). Аналогичный вывод следует из анализа вклада компаундных и одиночных структурных дескрипторов в деление анализируемой выборки соединений на группу мутагенов и немутагенов в том случае, когда они используются совместно. Для этого был сформирован набор дескрипторов, включающих в себя пять одиночных и десять компаундных, представленных выше в табл. 3.2.2 и 3.2.6. При оценке относительно вклада дескрипторов использовался дискриминантный анализ. Как уже говорилось, в этом случае вклад каждого дескриптора в общий процесс дискриминации характеризуется значениями так называемых канонических коэффициентов. На рис. 3.2.9 представлены значения канонических коэффициентов для данных дескрипторов. Одиночные дескрипторы обозначены как s (single), компаундные - как d (double).