Содержание к диссертации
Введение
1 Обзор литературы 7
1.1 Особенности строения бактериальных геномов 7
1.2 Транскрипция в прокариотах 10
1.2.1 РНК-полимераза и её роль в процессе транскрипции 10
1.2.2 Механизмы регуляции инициации транскрипции 14
1.3 Промоторы 16
1.3.1 Основные элементы нуклеотидной последовательности 70-промоторов 17
1.3.2 Физико-химические и структурные характеристики молекулы ДНК, вносящие вклад в процесс промоторно-полимеразного узнавания 20
1.3.3 Промоторные островки 20
1.4 Методы предсказания положения промоторов 22
1.4.1 Анализ нуклеотидной последовательности 22
1.4.2 Анализ структурных особенностей ДНК в промоторах 23
1.5 Роль электростатического потенциала в ДНК-белковом взаимодействии 25
2 Материалы и методы 28
2.1 Источники данных 28
2.2 Построение баз данных 29
2.3 Используемые методы 30
2.3.1 Расчет электростатического потенциала 30
2.3.2 Дискриминантный анализ на основе проекций на латентные структуры 31
2.3.3 SAX- и iSAX-представления числовых рядов 33
2.4 Оценка предсказательной способности классификационных моделей 35
2.5 Обработка и визуализация данных 36
3 Хранение, поиск и анализ профилей физических свойств ДНК 37
3.1 База данных для хранения профилей физических свойств 37
3.1.1 Возможные запросы к базе данных 41
3.2 Графовая база данных 42
3.2.1 Основные служебные категории 49
3.2.2 Возможные запросы к базе данных 51
4 Анализ нуклеотидной последовательности промоторов 54
4.1 Подготовка данных 54
4.2 Анализ структуры нуклеотидного состава промоторов 55
4.2.1 Описание алгоритма 55
4.2.2 Множественные потенциальные -10 и -35 области 56
4.2.3 Функциональные элементы нуклеотидной последовательности в экспериментально подтвержденных и предсказанных промоторах 59
4.3 Анализ гексануклеотидного состава промоторных областей 61
5 Предсказание положения промоторов по распределению электростатического потенциала вдоль молекулы ДНК 66
5.1 Предсказание положения промоторов на основе профилей электростатического потенциала 67
5.1.1 Подготовка данных 67
5.1.2 Построение классификационных моделей и оценка их характеристик 68
5.1.3 Анализ кривых ошибок 72
5.1.4 Вклад переменных в результат классификации 73
5.2 Построение редуцированных классификационных моделей 76
5.2.1 Модели с максимальной точностью 76
5.2.2 Модели на основе 10 значений электростатического потенциала 77
5.3 Методы предсказания промоторов по закономерностям нуклеотидного состава 78
5.3.1 Краткое описание рассмотренных алгоритмов 78
5.3.2 Сравнение характеристик 79
5.3.3 Положительные предсказания рассмотренных алгоритмов 80
5.4 Ошибочно классифицируемые промоторы 82
6 Поиск промоторов на полной последовательности хромосомы E.coli 91
6.1 Подготовка данных 91
6.2 Анализ полученных предсказаний 93
6.3 Предсказания для промоторных островков 95
6.4 Методы текстового анализа последовательностей 96
Заключение 100
Список рисунков 106
Список таблиц 108
Литература 109
Приложение А 125
- РНК-полимераза и её роль в процессе транскрипции
- Графовая база данных
- Ошибочно классифицируемые промоторы
- Методы текстового анализа последовательностей
Введение к работе
Актуальность темы. Регуляция экспрессии генов на уровне транскрипции играет важнейшую роль в жизнедеятельности прокариотических организмов, позволяя клетке оптимально расходовать внутренние ресурсы и быстро адаптироваться к изменениям в окружающей среде. В бактериях за осуществление всех необходимых этапов синтеза мРНК ответственен единственный белок — ДНК-зависимая РНК-полимераза. Он распознает промоторы (специальные ре-гуляторные участки генома) и связывается с ними, затем “расплетает” двойную спираль ДНК, синтезирует мРНК по шаблонной цепочке и, достигая специальных терминирующих областей, завершает синтез РНК, осуществляя, таким образом, процессы инициации, элонгации и терминации, соответственно.
По некоторым оценкам, геном E.coli содержит 5000—10000 промоторов разных типов, регулирующих экспрессию генов в зависимости от нужд клетки и изменяющихся условий. Для того чтобы РНК-полимераза могла узнавать промоторы разного типа (имеющие ряд отличий в своей организации), она использует дополнительную субъединицу, так называемый -фактор. При помощи -фактора происходит обнаружение промоторной области и связывание с ней в определенных функциональных участках. После перехода на этап элонгации -фактор диссоциирует из холофермента РНК-полимеразы.
Проблема предсказания положения промоторов в геноме до сих пор не имеет удовлетворительного решения. Главная трудность при этом заключается в том, что эти важнейшие области генома имеют сильно вариабельный нук-леотидный состав. На основе анализа нуклеотидных последовательностей были выявлены некоторые закономерности в структуре последовательности промоторов, однако обнаруженных мотивов оказалось недостаточно для разработки надежных методов их поиска.
Всё большую популярность набирает новый подход к поиску регулятор-ных областей генома, который опирается на анализ не только структурных, но и обусловленных ими физико-химических характеристик ДНК, способствующих образованию ДНК-белкового комплекса. Поскольку и ДНК, и РНК-полимераза являются заряженными полимерами с гетерогенным распределением потенциала на поверхности, очевидно, что электростатические взаимодействия между этими молекулами должны играть важную роль в промоторно-полимеразном узнавании. Электростатический потенциал представляет собой глобальную характеристику нуклеотидной последовательности (влияние распространяется более чем на 30 п.о.), что делает его хорошим дополнением к анализу локальных свойств промоторных последовательностей и возможной характеристикой для предсказания положения промоторных областей на бактериальной хромосоме.
Ранее исследование распределения электростатического потенциала вдоль протяженных участков молекулы ДНК представлялось непосильной задачей, так как требовало значительных вычислительных мощностей. Эта трудность была решена в 1999 г. в Пущино с созданием быстрого метода оценки данной характеристики при помощи модифицированной формулы Кулона [Polozov et al., 1999].
Целью данной работы являлось исследование возможности использования данных о распределении физических свойств вдоль молекулы ДНК для поиска промоторных последовательностей на примере электростатического потенциала.
Для достижения поставленной цели были поставлены следующие задачи:
-
Разработать пакеты программ для расчета распределения электростатического потенциала вдоль молекулы ДНК и создать инфраструктуру для хранения, поиска и анализа профилей физических свойств ДНК.
-
Исследовать закономерности нуклеотидного состава последовательностей в промоторных областях.
-
Построить классификационные модели, обученные отличать промоторы от других участков хромосомы, на основе данных о распределении электростатического потенциала вдоль молекулы ДНК.
-
Выявить характерные особенности в распределении электростатического потенциала вдоль промоторной ДНК, отличающие промоторы от других областей генома.
-
Использовать полученные классификационные модели для поиска промоторов на полной последовательности хромосомы E.coli.
Научная новизна: Впервые построены классификационные модели, способные отличать промоторные области от других функциональных участков генома только на основе данных о распределении электростатического потенциала. Выявлены участки промоторов, в которых наблюдаются особенности распределения электростатического потенциала.
Впервые проведен поиск потенциальных точек старта транскрипции и промоторов, которые их регулируют, на основе данных о распределении электростатического потенциала на полной хромосоме E.coli, которые демонстрируют точность работы сопоставимую с методами анализа закономерностей нук-леотидного состава промоторных областей. Полученные результаты позволяют говорить о том, что распределение электростатического потенциала вдоль молекулы ДНК может быть использована как одна из характеристик в иерархических
комплексных алгоритмах предсказания положения промоторов в бактериальных геномах.
Практическая значимость. В рамках данной работы была разработана и реализована новая инфраструктура на основе граф-ориентированного хранилища, в которой содержится следующая информация:
Данные о биологически значимых элементах клеточного генома, продуктах синтеза генов и регуляторных взаимодействиях между ними. Включены как реально существующие объекты, такие как: гены, полипептиды, химические соединения, РНК и др., так и общепринятые абстракции – транскрипционные единицы, опероны, механизмы регуляции, альтернативные последовательности белков и др.
Данные о метаболических путях и индивидуальных реакциях. Для каждой реакции указаны участники, обратимость, компартментализация, ферменты и принадлежность к метаболическим путям.
Распределения физико-химических и топологических свойств вдоль последовательностей ДНК.
Ссылки на внешние источники данных, EC-номенклатура и Gene Ontology.
Полное таксономическое дерево для бактерий.
Пространственное положение генетических объектов на геноме: связи типа “следующий” и “перекрывающийся” для соседствующих элементов.
Отношения подобия аминокислотных последовательностей полипептидов, определенные при помощи алгоритма BLAST.
Наиболее часто используемые имена и их синонимы для молекулярных комплексов, ферментов, химических соединений и других объектов базы данных.
В хранилище загружены данные о четырех хорошо описанных бактериях: Escherichia coli, Bacillus subtilis, Chlamydia trachomatis и Corynebacterium glutamicum, что позволяет проводить межвидовой сравнительный анализ данных. Исходные данные были взяты из MetaCyc, GenBank, RegulonDB, Uniprot, Gene Ontology Consortium, ChEBI, NCBI Taxonomy, ENZYME.
Помимо этого, создана реляционная база данных для хранения, поиска и анализа профилей электростатического потенциала в промоторных областях E.coli. Для этого был разработан новый тип данных, позволяющий хранить полные профили электростатического потенциала или любые другие характеристики, имеющие вид числовых рядов, в реляционной базе данных PostgreSQL. Кроме того, для этого типа данных была построена вычислительная инфраструктура, позволяющая осуществлять быстрый поиск профилей на основании их
взаимного подобия. Доступ к данным об электростатическом потенциале промоторов E.coli предоставлен по адресу .
Апробация работы. Основные результаты работы докладывались на следующих научных форумах: 16-ая Международная Пущинская школа-конференция молодых ученых “Биология - наука XXI века” (Пущино, 16 -21 апреля 2012), 8-я Международная конференция по биоинформатике регуляции и структуры геномов и системной биологии (Новосибирск, 25 - 29 июня 2012), Школа молодых ученых “Биоинформатика и системная биология” (Новосибирск, 30 июня - 2 июля 2012), Школа “Биотехнология будущего” (Клязьма, 6-10 августа 2012), IV Съезд биофизиков России (Нижний Новгород, 20 -26 августа 2012), Отчетная конференция ИБК РАН (Пущино, 28 - 29 ноября 2012), 20-я Международная конференция “Математика. Компьютер. Образование” (Пущино, 28 января - 2 февраля 2013), VII Московский международный конгресс “Биотехнология: состояние и перспективы развития” (Москва, 19-22 марта 2013), Albany 2013: Conversation 18 (США, Олбани, 11 - 15 июнь, 2015), Отчетная конференция ИБК РАН (Пущино, 25 - 27 ноября 2013), 21-я Международная конференция “Математика. Компьютер. Образование” (Дубна, 3-8 февраля 2014), 9-я Международная конференция по биоинформатике регуляции и структуры геномов и системной биологии (Новосибирск, 23 - 28 июня 2014), IV Международная научно-практическая конференция “Постгеномные методы анализа в биологии, лабораторной и клинической медицине” (Казань, 29 октября - 1 ноября 2014), 22-я Международная конференция “Математика. Компьютер. Образование” (Пущино, 26-31 января 2015), Albany 2015: Conversation 19 (США, Олбани, 9-13 июнь, 2015), V Съезд биофизиков России (Ростов-на-Дону, 4 -10 октября 2015).
Работа была отмечена следующими наградами: лучший доклад секции “Mathematical biology” школы молодых ученых “Биоинформатика и системная биология” (Новосибирск, 2012), лучший доклад секции “Модели субклеточных систем” XX-ой Международной конференции “Математика. Компьютер. Образование” (Пущино, 2013), диплом III степени на конкурсе молодых ученых на лучшую научно-исследовательскую работу VII-ого Московского международного конгресса “Биотехнология: состояние и перспективы развития” (Москва, 2013), лучший доклад секции “Модели субклеточных систем” XX-ой Международной конференции “Математика. Компьютер. Образование” (Дубна, 2014), почетная грамота за 3 место в городском конкурсе работ молодых ученых, посвященный Празднику труда, номинация “Научно-исследовательские работы аспирантов” (Пущино, 2014), лучший стендовый доклад и премия издательства NAR IV Международной научно-практической конференции “Постгеномные методы анализа в биологии, лабораторной и клинической медицине” (Казань, 2014), луч-
ший доклад на секции “Вычислительные методы и математическое моделирование” 22-ой Международной конференции “Математика. Компьютер. Образование” (Пущино, 2015). Результаты работы были дважды отмечены на секции “Биофизика макромолекул и надмолекулярных комплексов” Ежегодной отчетной конференции ИБК РАН (Пущино, 2012–2013 гг.). Также автор является лауреатом конкурса “Свободная мысль” в номинации для лиц до 35 лет (Москва, 2013).
Диссертационная работа была выполнена при поддержке следующих грантов РФФИ: 11-04-01436_a, 12-04-16036-моб_з_рос, 14-04-31793 мол_а, 14-44-03679-р_центр_а, 15-07-05889_а.
Публикации. Основные результаты по теме диссертации изложены в 28 печатных изданиях, 5 из которых изданы в журналах, рекомендованных ВАК, 23 — в тезисах докладов.
Объем и структура работы. Диссертация состоит из введения, материалов и методов, четырех глав с результатами работы, заключения и приложения. Полный объем диссертации 138 страниц текста с 37 рисунками и 22 таблицами. Список литературы содержит 242 наименований.
РНК-полимераза и её роль в процессе транскрипции
Бактериальная РНК-полимераза состоит из 5 субъединиц: 2, , и , которые формируют основу белка, так называемый апофермент или кор-фермент (молекулярная масса составляет примерно 400 кДа). У некоторых грамположительных бактерий, в частности фирми-кут, наблюдается дополнительная -субъединица, функции которой долгое время оставались неясными. Последние исследования показали, что -субъединица избирательно повышает эффективность процесса транскрипции некоторых генов: участвует в процессе распознавания промоторов, способствует ускорению начала синтеза цепочки РНК и быстрой диссоциации РНК-полимеразы с терминирующих областей [28,29].
РНК-полимераза ответственна за синтез всех типов молекул РНК в клетке. Количество свободного фермента в клетке E.coli составляет приблизительно 7000 копий [30, 31]. За процесс распознавания промоторных областей отвечает дополнительная -субъединица или -фактор, которая, связываясь с кор-ферментом, приводит к формированию холофермен-та [25,32,33]. Известно, что кор-фермент способен к неспецифическому связыванию с ДНК, но в комплексе с -субъединицей значительно возрастает специфичность фермента к промоторам. Сам по себе -фактор не способен связываться с ДНК.
В бактериях число генов, задействованных в кодировании -факторов, варьируется от одного единственного для Mycoplasma genitalium до 63 в Streptomyces coelicolor [34]. Как правило, они образуют несколько семейств, ответственных за взаимодействие с разными типами промоторов. В клетке E.coli имеется 7 видов -факторов, информация о них представлена в Таблице 1.1. Наличие нескольких отличных друг от друга -субъединиц, распознающих разные группы промоторов и, как следствие, отвечающих за экспрессию определенного набора генов – ключ к управлению системой адаптации организма к изменениям условий окружающей среды [30,35].
Среди -факторов наиболее представленным в клетке E.coli является 70-субъединица (-фактор “домашнего хозяйства”). Показано, что он обладает наибольшим сродством к апоферменту РНК-полимеразы [25,36] и участвует во взаимодействии с основной частью промоторов в геноме, осуществляя контроль экспрессии генов при нормальных условиях жизнедеятельности клетки. В ситуации нехватки питательных веществ в клетке используются специальные механизмы, позволяющие обратимо сократить популяцию активных 70-субъединиц, что снижает их конкурентоспособность по отношению к другим -факторам.
Известно, что многие промоторные области распознаются сразу несколькими -субъединицами [37], что позволяет не прекращать синтез молекул РНК с необходимых генов в случае “переключения” от превалирования одних -факторов над другими. Например, 32- и 24-промоторы значительно отличаются по первичной последовательности [38–40], но в тоже время оба могут распознаваться 70-субъединицей [41].
Первичная и третичная структуры РНК-полимераз прокариот отличаются высокой консервативностью. В исследовании [42] РНК-полимеразу E.coli помещали в другие бактериальные организмы, где она также была способна осуществлять свои функции: распознавала промо-торные области и запускала процесс транскрипции. Более того были описаны явные структурные сходства между бактериальной РНК-полимеразой и эукариотической РНК-полимеразой II [43–46].
Среди важнейших элементов структуры РНК-полимеразы можно выделить [47]:
основной канал, находящийся между - и -субъединицами — в нем располагается возникающий в процессе транскрипции гибрид РНК-ДНК длиной 8–9 пар оснований;
вторичный канал или пора, необходимый для поступления нуклеотидов в активный центр фермента, может связывать различные регуляторные факторы;
активный центр, расположенный между основным и вторичным каналами, который содержит по меньшей мере один сайт связывания нуклеотидов и два иона Mg2+.
В каталитическом центре РНК-полимеразы встречаются 3-конец синтезируемой цепочки РНК и трифосфаты, которые будут к ней присоединены. Для функциональной активности каталитического центра важен ион Mg2+ (на Рисунке 1.1 указан звездочкой) [44,48]. Помимо каталитического также выделяют три других не менее важных центра связывания белка с нуклеиновыми кислотами: сайт связывания двуцепочечной ДНК, сайт связывания гибридного ДНК-РНК участка и сайт связывания синтезированной РНК [24,49].
Процесс инициации транскрипции сложен и включает несколько этапов. Вначале кор-фермент РНК-полимеразы связывается с одной из -субъединиц, формируя холофермент, готовый к следующему шагу — поиску и построению связей с промоторной ДНК. Показано, что -субъединица узнает определенные паттерны в основной части промотора (гексануклео-тиды -10 и -35 областей, подробнее описанные в разделе 1.3.1). Дополнительные контакты могут возникать между -субъединицами РНК-полимеразы и АТ-богатой upstream областью промотора. Связавшись с участком молекулы ДНК, РНК-полимераза формирует закрытый комплекс, в котором двойная спираль ДНК ещё сохраняет свою структуру. Затем посредством плавления ДНК образуется “транскрипционная вилка” — происходит разрыв водородных связей на участке [-10; +1 (+2)] п.о., где 0 соответствует положению точки старта транскрипции. Таким образом возникает открытый комплекс РНК-полимеразы и участка ДНК.
1С образования открытого комплекса начинается синтез молекулы РНК. До того момента, как -субъединица не покинет фермент, он не производит полноценной нуклеотидной цепочки: происходит наработка коротких РНК-транскриптов длиной около 8–12 п.о. Это явление называется абортивным синтезом [52, 53]. Его возникновение связывают с тем, что -субъединица закрывает выходной канал РНК-полимеразы и выступает в роли препятствия для молекулы РНК, не позволяя ей покинуть каталитический центр должным образом. Более того, находясь в структуре холофермента, -субъединица затрудняет продвижение фермента от промотора к кодирующей области. Таким образом, некоторое время РНК-полимераза как бы “топчется” на месте, не имея возможности покинуть промотор и продолжить транскрипцию гена.
После диссоциации -субъединицы РНК-полимераза получает возможность продолжить движение вдоль расплавленной цепочки ДНК: происходит переход к элонгационному комплексу. При этом РНК-полимераза претерпевает череду конформационных изменений, требующих от её структуры значительной подвижности и гибкости [54–56].
По оценке приведенной в работе [57], средняя скорость синтеза молекулы РНК РНК-полимеразой на этапе элонгации в нормальных условиях составляет около 50 нуклеоти-дов/с. При этом добавление очередного нуклеотида к растущей цепочке РНК — это лишь один из нескольких путей, по которому может пойти каталитическая реакция. Помимо этого РНК-полимераза может остановиться (pausing), вернуться назад для того, чтобы исправить ошибочно включенный нуклеотид и гидролизовать фосфоэфирные связи в цепочке РНК (backtracking), осуществлять транскрипционный арест c переходом элонгационного комплекса в неактивную форму и покинуть цепочку ДНК в случае появления терминатора. На скорость работы фермента влияют не только доступность необходимых нуклеотидов в среде и регуляция посредством различных факторов, но и возникновение пауз при синтезе мРНК. Завершение синтеза цепочки РНК (терминация) может быть:
1. р-зависимой: р-фактор связывается с синтезируемой РНК, выступая в качестве терминатора,
2. р-независимой: цепочка РНК формирует шпильку, которая вначале приводит к остановке транскрипции, а далее и диссоциации синтезированной РНК.
Графовая база данных
Основные принципы реляционной модели данных были сформулированы в начале 70-х годов и с тех пор подверглись лишь незначительным изменениям. В рамках данного подхода вся необходимая информация о рассматриваемых объектах и событиях помещается в набор взаимосвязанных таблиц (отношений), в которых строки соответствуют индивидуальным записям, а столбцы (или поля) – характеристикам для этих записей. Важно соблюдать всего несколько ключевых правил:
таблицы могут не содержать ни одной записи, но должны состоять как минимум из одного столбца;
столбцы должны иметь уникальные имена в пределах одной рассматриваемой таблицы;
порядок столбцов определяется при создании таблицы и остается неизменным;
столбцы должны содержать данные одного типа (например, числовые, строковые, логические);
запрещены полностью совпадающие строки, то есть записи в таблице должны быть уникальными (“наличие первичного ключа”);
значения, помещенные в ячейки на пересечение строки и столбца должны быть однозначными (“запрет на множественные значения”).
Работа с содержимым реляционных баз данных осуществляется при помощи операций реляционной алгебры (проекция, объединение, вычитание, исключение, деление и др.), которая оперирует отношениями и в качестве результата преобразования данных возвращает отношения.
Реляционные базы данных как хранилища на основе реляционной модели первоначально разрабатывались для нужд бизнес-аналитики, то есть направления деятельности, в котором предметная область довольно четко определена: структура данных изначально хорошо известна и слабо подвержена изменениям, возможные запросы к базе данных ограничены и однотипны. В этой области реляционные базы данных зарекомендовали себя как надежный и эффективный инструмент для хранения, поиска и доступа к собранной информации. В свою очередь, использование реляционной модели данных сильно ограничено в приложениях, для которых на момент проектирования хранилища структура данных не может быть строго задана, требует частого масштабирования и гибкости к вносимым модификациям.
Ярким примером того, какие сложности возникают при создании реляционных баз данных для хранения информации о биологических объектах, может быть попытка формализовать небинарные молекулярные события, в которых набор молекул-участников сильно изменяется. При создании таблиц с такими данными необходимо заранее предусмотреть максимальное количество возможных молекул-участников и создать для каждого свое поле, что неминуемо приводит к появлению разреженных таблиц и усложнению запросов.
При визуализации, анализе данных и моделировании различных процессов (индивидуальные биохимические реакции, метаболические и сигнальные пути, механизмы регуляции) часто прибегают к графовому представлению данных. Можно сказать, что граф является наиболее естественной и наглядной формой представления наборов биологических объектов и событий. Первоначально, мы создали реляционную базу для работы с профилями электростатического потенциала вдоль промоторных последовательностей. Её функции, структура и возможные пути использования обсуждаются в 3.1. Однако ясно, что для полного понимания функциональных характеристик промотора недостаточно информации лишь о его положении на хромосоме и нуклеотидном составе. Активность промотора может зависеть от множества параметров: его базового уровня активности (сильные и слабые промоторы), физиологически условий в клетке и пула свободных -факторов, наличия регуляции промотора посредством транскрипционных факторов, перекрывания промотора с другими функциональными участками генома (например, генами) и др.
Подытоживая вышесказанное можно утверждать, что при исследовании промоторов нас в первую очередь должна интересовать следующая информация:
положение точек старта транскрипции и их ближайшее окружение,
факторы, которые участвуют в распознавании промотора,
наличие регуляции промоторов посредством транскрипционных факторов и её характер (активация, репрессия), функции генов, контролируемые промоторами,
оперонная структура и транскрипционные единицы, к которым относятся промоторы,
источники данных о промоторах и степень достоверности информации об их наличии.
Для хранения такого объема разнородных данных, структура которых могла варьировать в используемых нами источниках (базах данных и научных статьях), было разработано граф-ориентированное хранилище на основе noSQL СУБД Neo4j. При этом все объекты базы данных были представлены в виде вершин графа и связей между ними. Такая архитектура хранилища была выбрана по целому ряду причин: гибкость структуры и простота внесения новых типов данных, характеристик и категорий, возможность поиска “цепочек” объектов с известным началом и концом, но неизвестным числом промежуточных шагов, совместное хранение противоречивых данных, простая система построения запросов и высокая скорость работы [230]. Так как все данные внесены в структуру связного графа, дополнительным выигрышем становится возможность использовать обширный арсенал методов анализа биологических сетей при помощи теории графов.
Все объекты загружены в базу данных в виде вершин графа, для которых определены категории (лейблы) и свойства. Категории позволяют указывать природу и функции объектов базы данных для их объединения и построения сложных запросов. При этом одна вершина может относиться к нескольким категориям одновременно. Свойства вершин построены по принципу ключ-значение, где в качестве ключа выступают различные параметры, характерные для данной категории вершин. Для иллюстрации рассмотрим несколько вершин, представленных в базе данных:
Промоторы относятся к категориям BioEntity, Feature, Promoter и имеют свойства name, start, end, strand, tss, seq, source, uid;
Полипептиды относятся к категориям BioEntity, Peptide, Polypeptide и имеют свойства name, seq, source, uid;
Биохимические реакции относятся к категории Reaction и имеют свойства type, formula, reversibility, source, uid;
Идентификационные номера из других баз данных относятся к категории XRef и имеют свойства id и uid.
Вершины создаются независимо друг от друга, поэтому они могут содержать как разный набор свойств, так и разные типы данных в значениях свойств. Контроль соответствия значений свойств объектов ожидаемому типу данных осуществляется на этапе загрузки. Так, проверяется, действительно ли числовые свойства имеют числовые значения и.т.п.
Связи между вершинами имеют направление, категорию и устроены таким образом, чтобы их было несложно запомнить и интуитивно просто использовать при построении запросов на языке Cypher. Для примера рассмотрим вершины для генов, которые имеют наибольшее количество различных связей с другими объектами базы данных, среди которых:
1. ген, являющийся частью контига/хромосомы/плазмиды, запрос на языке Cypher: MATCH (g:Gene)-[:PART_0F]- (:ContigI Chromosome IPlasmid)I) RETURN g;
2. ген имеет имя, соответствующее термину, запрос на языке Cypher: (g:Gene)-[:HAS_NAMESTANDART_NAME]- (:Term) RETURN g
3. ген кодирует РНК, запрос на языке Cypher: (g:Gene)-[:ENCODES]- (:RNA) RETURN g
4. ген кодирует пептид, запрос на языке Cypher: (g:Gene)-[:ENCODES]- (:Peptide) RETURN g
5. ген кодирует белок, запрос на языке Cypher: (g:Gene)-[:ENCODES]- (:Protein) RETURN g
6. ген участвует в метаболическом пути, запрос на языке Cypher: (g:Gene)-[:ACTS_IN]- (:Pathway) RETURN g
7. генетический элемент по соседству с геном, запрос на языке Cypher: (g:Gene)-[:NEXT]-(:Feature) RETURN g
8. генетический элемент, перекрывающийся с геном, запрос на языке Cypher: (g:Gene)-[:OVERLAP]-(:Feature) RETURN g
Ошибочно классифицируемые промоторы
При анализе упомянутой в разделе 5.1.2 кривой ошибок был выбран классификационный порог величины 0.50. Данный выбор был сделан для того, чтобы максимизировать точность классификационных моделей. При этом пришлось пожертвовать некоторым числом промоторов, которые по каким-то причинам имели предсказанное значение класса ниже данного порога. Если уменьшить значение классификационного порога до 0.40, то средняя чувствительность методов повысилась бы примерно на 5–7%, при понижении средней специфичности на 7–10%. Обратная ситуация наблюдалась при повышении величины порога до, например, 0.60. Таким образом, значение классификационного порога можно регулировать в зависимости от конкретных задач, поставленных в исследовании: идентифицировать как можно больше промоторов, либо убрать из рассмотрения как можно больше непромоторных последовательностей.
Отдельно были исследованы промоторы, которые плохо определялись на основе данных о распределении электростатического потенциала и в большинстве случаев оказывались в числе ложно отрицательных срабатываний. Так, были рассмотрены промоторы, для которых более чем в 10 из 100 построенных классификационных моделей типов chr, gen, lowscore значение предсказаний классов было менее 0.40, 0.30, 0.20 и 0.10.
Оказалось, что многие из них ошибочно классифицировались сразу несколькими моделями, что, по всей видимости, указывает на то, что обнаруженные промоторы действительно неотличимы от непромоторных участков по распределению электростатического потенциала вдоль молекулы ДНК. Степень пересечения ложно отрицательных срабатываний в разных типах моделей можно оценить по диаграммам Венна, представленным на Рисунке 5.7.
Таким образом, было выявлено 20 промоторов, для которых значения предсказаний были ниже порога величиной 0.10: csrAp1, dnaNp1, gabDp1, glgAp, glrKp, hscBp, hslJp, hupBp3, malKp, mfdp1, mutLp1, nagCp2, pyrDp, rcnRp, sdhDp2, trpRp, uvrDp1, ycaRp, yhdTp, yjeFp2. Указанные промоторные последовательности невозможно идентифицировать, опираясь лишь на профиль электростатического потенциала. Во избежание ложно отрицательных срабатываний в будущем и усовершенствования методов предсказания необходимо выяснить, что их отличает от других промоторов. В пересечение всех типов моделей на диаграмме Венна изображенной на Рисунке 5.7.г попали следующие девять промоторов: glgAp, hscBp, mutLp1, nagCp2, pyrDp, trpRp, uvrDp1, ycaRp, yjeFp2.
Интересно, что большинство из указанных двадцати промоторов были также ошибочно классифицированы программами BPROM, NNPP и PlatProm (Таблица 5.6). Исследование нуклеотидной последовательности показало, что практически во всех промоторных областях можно выявить -10 и -35 область, а в некоторых случаях обнаруживается и динуклеотид TG, участвующий в формировании расширенной -10 области. Половина из ошибочно классифицируемых промоторов расположены на значительном отдалении от точки старта транскрипции (csrAp1, dnaNp1, gabDp1, glgAp, hupBp3, mutLp1, nagCp2, rcnRp, sdhDp2, yjeFp2), а более трети из них частично или полностью перекрываются с кодирующими областями (csrAp1, dnaNp1, gabDp1, glgAp, mutLp1, nagCp2, sdhDp2, uvrDp1).
Профили электростатического потенциала неверно классифицируемых промоторов были разделены на кластеры при помощи иерархической кластеризации по Варду (см. дерево на Рисунке 5.8). Можно выделить четыре удаленные друг относительно друга кластера, промоторы в которых должны обладать какими-то сходствами в распределении электростатического потенциала вдоль их нуклеотидных последовательностей.
Промоторы, попавшие в первый кластер, находятся на заметном отдалении от соответствующих им точек старта транскрипции, два из них располагаются в кодирующих областях (glgAp, uvrDp1). Все они подвержены регуляции со стороны транскрипционных факторов. Канонические гексануклеотиды имеют большое количество совпадений с консенсусными последовательностями, и в промоторных областях rcnRp, uvrDp1 можно обнаружить динуклеотид
Второй кластер состоит из промоторов, которые не удалось идентифицировать ни одной из рассмотренных программ поиска промоторов на основе анализа нуклеотидных последовательностей. При этом наш алгоритм поиска функциональных элементов промоторов позволяет определить потенциальные -10 и -35 области для каждого из них, хотя количество позиций, совпадающих с консенсусными последовательности, невелико. Большинство из этих промоторов (5 из 7 промоторов) располагается на расстоянии в 100–400 п.о. от точки старта транскрипции. Промоторы csrAp1, dnaNp1, gabDp1 распознаются не только 70-, но и 38-субъединицей РНК-полимеразы. При анализе профилей распределения электростатического потенциала можно заметить тенденцию к формированию протяженного минимума значений на интервале [-85; +15] A. Дополнительно можно заметить минимум в интервалах [-235; -150] A, который смещен в upstream область [-285; -190] A у промоторов dnaNp1, trpRp, ycaRp, yjeFp2, образующих кластер 2. В профилях электростатического потенциала кластера 2 также наблюдается схожее поведение в интервале [-500; -300] A.
Для промоторов из третьего кластера не обнаружено общих характеристик нуклеотидной последовательности или регуляции. Основные сходства профилей распределения электроста тического потенциала наблюдаются в областях [+10; +160] A и [-265; -150] A для промоторов, формирующих кластер 3, и [-300; +65] A для наблюдаются протяженные минимумы значения электростатического потенциала неподалеку от точки старта транскрипции, смещенные либо в downstream область (hslJp, malKp), либо в upstream область (mfdp1, nagCp2).
В интервале [-100; 0] A профилей электростатического потенциала промоторов из четвертого кластера hscBp, yhdTp, glrKp, mutLp1 наблюдается несколько локальных максимумов. При этом для указанных промоторов нет никаких данных о возможной регуляции. Активность промоторов pyrDp и hupBp3 того же кластера подвержена как позитивной, так и негативной регуляции транскрипционными факторами. Характерно, что в профилях электростатического потенциала для них подобной картины не наблюдается.
Для того чтобы подробнее изучить особенности в распределении электростатического потенциала вдоль промоторной области uvrDp1 были включены в рассмотрение промоторы atpIp, recAp, rrsBp1, у которых также обнаруживаются потенциальные -10 и -35 области, совпадающие с консенсусными гексануклеотидами в 11 позициях. На Рисунке 5.13 изображены профили электростатического потенциала для них. Несмотря на то, что -10 область у указанных промоторов полностью совпадает и соответствует гексануклеотиду ТАТААТ, профили электростатического потенциала в данных участках сильно различаются. Следовательно, РНК-полимераза должна с разной эффективностью распознавать данные промоторы.
Классификационные модели на основе профилей распределения электростатического потенциала точно распознают промоторы atpIp, recAp и лишь в трети случаев верно распознают сильный рибосомальный промотор rrsBp1. Если обратиться к шкалированным профилям электростатического потенциала, представленным на Рисунке 5.14, можно обнаружить значи- тельные сходства в поведении кривых для uvrDp1 и rrsBp1 в интервале [-75; +5] A. При этом нуклеотидные последовательности в данных промоторных область довольно сильно различаются (см. Рисунок 5.15).
Методы текстового анализа последовательностей
Также были построены предсказания положения бактериальных промоторов для полной хромосомы E.coli при помощи программ BPROM, NNPP и PlatProm, которые используют анализ текста нуклеотидных последовательностей (см. раздел 5.3). Аналогично подходу, описанному в разделе 5.3.2, рассмотрены как точные соответствия с указанным положением точки старта транскрипции, так и наличие хотя бы одного положительного предсказания в интервале ±2 нуклеотида. Результаты представлены в Таблицах 6.7 и 6.8.
Интересно, что методы предсказания промоторов на основе закономерностей в нуклеотид-ном составе, как и на валидационных выборках, показали очень высокую специфичность (все более 99.5%) и довольно низкую чувствительность (см. раздел 5.3.2). В работах [125, 130] указано, что это, возможно, связано с тем, что область перед точкой старта транскрипции часто имеет большое число промотороподобных сигналов и многие из них имеют более выраженные текстовые элементы по сравнению с активными промоторами. По этой причине создатели алгоритмов задают довольно высокие пороговые значения для классификационных баллов и реальные промоторы не попадают в число положительных срабатываний.
Как и для классификационных моделей на основе профилей распределения электростатического потенциала значения чувствительности рассмотренных программ для первой выборки (6 – 33% и 15 – 47%) являются несколько завышенными, в то время как значения этой характеристики для второй выборки (2 – 7%, 10 – 21%) – заниженными.
Программа PlatProm (единственная из трех рассмотренных в данной работе) рассчитывает классификационные баллы для каждого нуклеотида исследуемой последовательности ДНК. Это позволило определить значения классификационных баллов для неверно классифицированных точек старта транскрипции представленных в обеих выборках истинно положительных срабатываний.
На гистограмме, изображенной на Рисунке 6.2, представлены максимальные значения классификационного балла программы PlatProm на участке [ТСТ-2, ТСТ+2] для экспериментально подтвержденных точек старта транскрипции. Видно, что те точки старта транскрипции, которые не удалось идентифицировать при помощи алгоритма PlatProm и при использовании неточного совпадения (интервала длиной 5 п.о.), имеют значительный разброс в значениях классификационного балла.
Для более надежного сравнения нашего подхода по предсказанию промоторов по профилям электростатического потенциала и программы PlatProm мы снизили порог в алгоритме PlatProm до уровня, при котором доля верно обнаруженных промоторов (Sens) стала сравнима с нашим классификационными моделями. Полученные результаты показывают, что в таком случае алгоритм PlatProm превосходят предложенный нами подход по точности распознавания на 5–15% (см. Рисунок 6.9).
Первая выборка Вторая выборка 0.7 -0.8 10.618.7 582 8296504 83.3 89.4 89.4 4712 7540548 55.8 81.3 81.3
Однако, не стоит забывать, что электростатические взаимодействия способны играть роль только на ранних этапах узнавания промотора и лишь при отсутствии других белков, связанных с ДНК в окрестности точки старта транскрипции. Таким образом, то что при использовании только электростатического потенциала получены сравнимые по точности методы предсказания положения ТСТ, свидетельствует о важности той роли, которую играет процесс первичного взаимодействия РНК-полимеразы с промотором, исключаемый из рассмотрения в большинстве экспериментов.
Сопоставляя характеристики предсказательной способности классификационных моделей PLS-DA и алгоритмов поиска промоторов по закономерностям нуклеотидного состава, можно предположить, что совместное применение данных подходов должно заметно улучшить процесс определения положения промоторных областей. При этом на первом этапе должен проводиться анализ распределения электростатического потенциала вдоль молекулы ДНК и определяться набор потенциальных точек старта транскрипции, которые затем будут анализироваться на предмет закономерностей нуклеотидного состава и, возможно, наличия характерных особенностей в распределении других физико-химических и структурных свойств промоторных областей.