Введение к работе
І. Актуальность темы диссертационного исследования
Изучение связывания ДНК факторами транскрипции семейства Lad. Специфические взаимодействия между ДНК-связывающими белками и сайтами ДНК остаются малоизученными, несмотря на некоторый прогресс, достигнутый благодаря экспериментальным исследованиям мутаций и компьютерному анализу известных рентгеновских структур комплексов белок-ДНК.
Анализ экспериментально определенных структур комплексов белок-ДНК позволил выделить ряд закономерностей: предпочтения пар аланин-тимин (за счет взаимодействия метальных групп), образование пар водородных связей между аргинином и гуанином и аспарагином и аденином. Было показано, что область контакта белок-ДНК богата полярными аминокислотами, пурины более избирательны, чем пиримидины, а ароматические аминокислоты могут иметь различные предпочтения.
Со структурной точки зрения, взаимодействие зависит от фиксированного числа контактов, специфичных для каждого семейства. Для распознавания участков белка, взаимодействующих с ДНК в различных семействах, применялись методы распознавания образов, а также методы, основанные на анализе детерминант специфичности.
При исследовании кода взаимодействий белок-ДНК в больших семействах ДНК-связывающих белков данные могут быть получены не только экспериментально, но и из сравнительно-геномного анализа регуляторных взаимодействий. Богатый источник таких данных — бактериальные факторы транскрипции, например, семейство Lad, рассмотренное в настоящей работе. Имея данные о сайтах связывания белков, можно исследовать корреляции между аминокислотными последовательностями и соответствующими сайтами ДНК, а потом использовать известные структуры как контроль, подтверждая, что наблюдаемые позиции действительно контактируют в комплексах белок-ДНК.
Предыдущие исследования показали, что корреляции не ограничены парами позиций в выравниваниях белков и ДНК: во многих случаях предпочтения белка к конкретному нуклеотиду в конкретной позиции могут зависеть от наличия специфических остатков сразу в нескольких позициях белка. Это приводит к задаче выбора оптимальной сложности модели. В настоящем исследовании предпринята попытка решить эту задачу, используя прогнозирующую силу алгоритмов распознавания образов как средство определения оптимального числа параметров модели.
Изучение первичной специфичности матриксных металлопротеиназ. Протеазы (или протеиназы) - ферменты, катализирующие реакцию расщепления пептидной связи
(протеолиза). Матриксные металлопротеиназы (ММР) — семейство цинк-зависимых эндопептидаз, заякоренных на поверхности клеток или секретируемых клетками. Они проявляют свою каталитическую активность по отношению к мембранным белкам, а также белкам секреторных путей и белкам межклеточного пространства.
ММР широко представлены у позвоночных, где предположительно произошла серия событий дупликации. ММР также представлены у беспозвоночных и растений, что позволяет предположить их древнее происхождение. У млекопитающих найдено 24 типа матриксных металлопротеиназ.
Основной и единственной функцией ММР долгое время считалась деградация межклеточного матрикса. Неудачное завершение клинических испытаний ММР-ингибиторов (Маримастат), привело к пересмотру возможных биологических функций этих ферментов. Новое видение биологических функций ММР включает их участие в таких процессах как репарация тканей, ангиогенез, иммунный ответ, развитие опухолей, воспалительные. Установление новых функций ММР стало возможным путем определения новых субстратов ММР — цитокинов, хемокинов, рецепторов и антибактериальных пептидов.
Среди известных семейств протеаз, ММР в наибольшей степени задействованы в процессах онкогенеза. Раннее представление о роли ММР в онкогенезе, как о ферментах, способствующих распространению опухолевых клеток, сменилось более сложным — на разных этапах болезни ММР проявляют как про-, так анти-опухолевую активность.
Текущий каталог субстратов ММР, несомненно, является далеко не полным, а трудоемкость применения экспериментальных техник делает разработку биоинформатических методов предсказания субстратов актуальной задачей, имеющей непосредственную практическую важность в области медицины и разработки лекарств.
В настоящей работе исследовались восемь протеаз из разных подгрупп семейства ММР, для которых были доступны количественные экспериментальные данные об эффективности реакции протеолиза, любезно предоставленные лабораторией Д. Смита Медицинского исследовательского института Сэнфорда-Бе'рнема. Данные использовались для построения моделей первичной специфичности исследованных ММР методами машинного обучения.
Целями исследования являются
разработка методов прогнозирования сайтов связывания факторов транскрипции по аминокислотным последовательностям последних;
поиск контактирующих позиций в комплексах белок-ДНК семейства Lad;
разработка методов прогнозирования первичной специфичности матриксных металлопротеиназ;
Для достижения указанных целей были поставлены и решены следующие основные задачи:
Выявление позиций, определяющих специфичность, в выравнивании сайтов связывания факторов транскрипции семейства Lad;
Отбор позиций выравнивания аминокислотных последовательностей факторов транскрипции, оптимальных для прогнозирования каждой позиции сайта связывания, определяющей специфичность;
Построение моделей, определяющих сайты связывания факторов транскрипции семейства Lad, методами машинного обучения и оценка эффективности моделей на известных структурах комплексов белок-ДНК;
Отбор позиций аминокислотных последовательностей пептидов, оптимальных для прогнозирования протеолитической активности исследуемых матриксных металлопротеиназ;
Построение моделей, предсказывающих эффективность реакции протеолиза исследованными матриксными металлопротеиназами, классифицирующих и ранжирующих пептиды по эффективности разрезания, методами машинного обучения и оценка их эффективности на выборке экспериментальных фактов протеолиза из базы CutDB.
Объектом исследования являются специфические взаимодействия между ДНК-связывающими белками и сайтами ДНК, а также между каталитическими доменами протеаз и сайтами разрезания их субстратов.
Предмет исследования — аминокислотные последовательности факторов транскрипции семейства Lad и нуклеотидные последовательности их сайтов связывания, аминокислотные последовательности пептидных субстратов матриксных металлопротеиназ ММР-2, ММР-9, ММР-14, ММР-15, ММР-16, ММР-17, ММР-24 и ММР-25 и соответствующие им значения эффективности реакции гидролиза пептидной связи.
Наиболее существенные результаты и научная новизна. Исследование бактериальных факторов транскрипции семейства Lad и их сайтов связывания, а также пептидных субстратов матриксных металлопротеиназ, привело к следующим результатам:
-
Разработаны модели, позволяющие предсказывать распределение нуклеотидов в наиболее специфичных позициях сайта связывания фактора транскрипции по его аминокислотной последовательности. Эти модели не сводятся к ранее известным правилам, так как одновременно учитывают несколько позиций последовательности белка при прогнозировании распределения нуклеотидов в выбранной позиции сайта.
-
Разработаны модели, позволяющие по аминокислотной последовательности фактора транскрипции и нуклеотидной последовательности сайта предсказать, соответствует ли этот сайт мотиву связывания этого фактора.
-
Определены зависимые пары позиций в выравниваниях последовательностей факторов транскрипции семейства Lad и их сайтов связывания. Большая часть этих пар имеет специфические контакты в экспериментально определенных структурах комплексов белок-ДНК факторов транскрипции, что доказывает адекватность модели.
-
Предложены регрессионные и классификационные модели, а также модели ранжирования, позволяющие количественно описать первичную специфичность изученных матриксных металлопротеиназ.
-
Предложен метод снижения размерности модели, основанный на параметризации аминокислот, повышающий качество гребневой и логистической регрессии в задачах предсказания эффективности, классификации и ранжирования субстратных пептидов.
-
Предложен метод построения регрессионной модели с одновременным использованием пептидов, для которых известна эффективность реакции гидролиза пептидной связи, и пептидов, эффективность разрезания которых заведомо ниже известного порога, с помощью оптимизации кусочно-квадратичной функции потерь, позволяющий получить более точные модели.
Теоретическая значимость исследования
Исследование показало эффективность методов теории машинного обучения при разработке моделей, описывающих специфические взаимодействия между ДНК-связывающими белками и сайтами ДНК, а также моделей первичной специфичности протеаз. Основные выводы, содержащиеся в диссертации, могут быть использованы при дальнейшем совершенствовании этих моделей.
Практическая значимость исследования
Разработанные модели могут быть применены для прогнозирования мотивов, узнаваемых ранее не исследованными членами семейства Lad. Кроме того, описанные методы могут быть применены для предсказания мотивов, узнаваемых факторами транскрипции из других семейств, для которых имеется подходящая обучающая выборка.
Предложенные модели первичной специфичности матриксных металлопротеиназ могут быть использованы для предсказания новых белковых субстратов этих протеаз. Апробация результатов исследования
Результаты исследования докладывались на конференции "Информационные технологии и системы" (ИТиС) (Бекасово, Россия, 2009 г., Геленджик, Россия, 2011 г.), 5-ой международной конференции «Распознавание образов в биоинформатике» (PRIB) (Наймихен, Нидерланды, 2010 г.). По теме диссертации опубликованы две статьи и тезисы в трудах конференции "Информационные технологии и системы — 2011".
Структура диссертационной работы
Диссертация состоит из введения, обзора литературы, описания материалов и методов исследования, изложения и обсуждения результатов, заключения и списка цитируемой литературы. Работа изложена на 135 страницах и включает в себя 10 таблиц и 14 рисунков.