Введение к работе
Актуальность работы
Понимание того, как клетка регулирует наиболее общие для всех живых систем процессы транскрипции и сплайсинга - одна из ключевых задач молекулярной биологии. Изучение и глубокое понимание механизмов этих процессов поможет объяснить, как происходит развитие организмов, диагностировать и лечить наследственные заболевания.
Дальнейшее продвижение в изучении механизмов регуляции транскрипции и сплайсинга с применением вычислительных методов становится наиболее актуальным, так как стали доступны для анализа полногеномные последовательности многих организмов и активно развивается аннотирование геномов, благодаря появлению существенно более эффективных и менее дорогостоящих экспериментальных методов секвенирования нового поколения, а также благодаря возрастанию точности и появлению новых экспериментальных методов узнавания на нуклеотидных последовательностях участков взаимодействия ДНК/РНК с белками. Накоплены гигантские объемы генетических данных, этот объем непрерывно растет, поэтому требуются новые вычислительные методы для обработки этой информации.
Цель и задачи исследования
Целью диссертационной работы является полногеномное предсказание, анализ локализации и структуры регуляторных элементов (участков ДНК или РНК), распознаваемых белками-регуляторами транскрипции и сплайсинга, и разработка соответствующих вычислительных методов.
Для достижения поставленной цели необходимо решить следующие задачи:
-
Изучить характеристики участков связывания белков-регуляторов транскрипции и сплайсинга на ДНК и РНК.
-
Предложить адекватный метод, разработать алгоритм и программное средство для вычислительной полногеномной идентификации регуляторных участков.
-
Верифицировать разработанный нами вычислительный метод полногеномного предсказания регуляторных элементов на экспериментально подтвержденных таких участках для уже хорошо изученных белков-регуляторов транскрипции. Оценить эффективность метода на геноме человека.
-
Реализовать методы сравнения экспериментально выявленных участков взаимодействия белков с РНК или ДНК или других размеченных участков генома с предсказанными вычислительно регуляторными элементами.
-
Верифицировать метод сравнения предсказанных регуляторных элементов и экспериментально выявленных участков взаимодействия факторов с нуклеотидными последовательностями на данных экспериментально подтвержденных функционально связанных, кооперативно действующих, факторов регуляции транскрипции.
-
Применить разработанные вычислительные методы для предсказания регуляторных элементов, взаимодействующих с малоизученным РНК-связывающим белком Pasilla, который, как показывают экспериментальные исследования, участвует в регуляции альтернативного сплайсинга.
-
Провести анализ расположения предсказанных на РНК регуляторных элементов, взаимодействующих с исследуемым белком-регулятором сплайсинга, Pasilla, по отношению к известной экзонно-интронной аннотации, а также по отношению к экспериментально показанным альтернативно-сплайсируемым под действием этого белка экзонам.
Объекты и методы исследования
Данные, на которых проводились исследования: геном D.melanogaster из базы данных FlyBase и UCSC Genome Browser, геном человека из базы данных UCSC Genome Browser; участки связывания факторов транскрипции, определенные методом ChlP-chip из базы данных Национальной лаборатории университета Беркли проекта Berkeley Drosophila Transcription Network Project (BDTNP); последовательности сайтов связывания, построенные по таким последовательностям матрицы позиционных частот для белков -регуляторов транскрипции из базы данных TRANSFAC; аннотация генов D.melanogaster из базы данных Ensemble Genome Browser; последовательности сайта связывания белка -регулятора сплайсинга Pasilla и результаты эксперимента с интерференцией РНК, определившие регулируемые этим белком альтернативные экзоны, полученные из материалов соответствующей публикации и предоставленные лично доктором Анжелой Брукс (Angela Brooks) из Калифорнийского университета, Беркли, США.
Решение поставленных задач осуществлено методами вычислительной обработки и анализа данных, разработанными автором на языках C++ и Perl и общедоступными
программами, такими как Microsoft Office Excel, сервисами UCSC Genome Browser, Ensemble Genome Browser.
Научная новизна работы
Разработан новый алгоритм PatternClust, который позволяет эффективнее и точнее, чем с помощью существующих методов, обрабатывать последовательности ДНК и РНК для полногеномного предсказания регуляторных элементов белков-регуляторов транскрипции и сплайсинга.
Впервые для РНК-связывающего белка Pasilla на всем геноме D.melanogaster предсказаны in silico регуляторные элементы, при связывании с которыми Pasilla, как предполагается, регулирует альтернативный сплайсинг.
Впервые проведен анализ локализации предсказанных участков по отношению к аннотированным границам экзонов и интронов и к экспериментально показанным альтернативно-сплайсируемым под действием Pasilla экзонам.
Предложен подход для выявления взаимодействующих белков-регуляторов из сравнительного анализа вычислительно предсказанных регуляторных элементов и экспериментально показанных участков связывания изучаемых белков с нуклеотидными последовательностями.
Внесен вклад в разработку вычислительного метода расшифровки результатов сенгеровского секвенирования смесей ДНК гетерогенных объектов, в том числе применимого для изучения гетерогенных регуляторных участков.
Практическая значимость исследования
Разработанные программные средства могут быть использованы для эффективного полногеномного предсказания регуляторных элементов как для изучения регуляции транскрипции в ДНК, так и для изучения регуляции сплайсинга в РНК.
Разработанные программы и предложенные подходы к анализу данных применимы для широкого круга научных задач, таких как:
идентификация регуляторных элементов по известным сайтам связывания белков-регуляторов;
верификация предполагаемых сайтов связывания для белков-регуляторов;
проверка гипотезы о регуляторный роли белка по известному или предполагаемому для него сайту связывания;
выделение функционально связанных регуляторных факторов;
выделение ко-регулируемых генов;
аннотация генома, а именно предсказание альтернативности известных экзонов, предсказание местоположения новых, еще неаннотированных экзонов, ранее не обнаруженных в экспериментальных исследованиях.
изучение регуляторных участков смесей ДНК гетерогенных объектов, таких как, например, клетки раковых тканей, популяции микроорганизмов и т.п., полученных в результате расшифровки данных секвенирования по Сенгеру.
Апробация результатов исследования
Основные результаты работы докладывались автором и обсуждались на международных научных конференциях по вычислительной молекулярной биологии МССМВ (Moscow Conference on Computational Molecular Biology) в Москве, Россия, в 2005 г. и в 2011 г.; на международной научной конференции по компьютерным наукам и информационным технологиям С SIT (Computer Science and Information Technologies) в Будапеште, Венгрия, в 2004г, на научных семинарах лаборатории биоинформатики ИМБ им. В.А. Энгельгардта РАН в Москве, Россия, и на научных семинарах группы биоинформатики лаборатории департамента статистики университета Беркли, Калифорния, США в 2011 и в 2012 гг.
По материалам диссертации опубликовано семь печатных работ, из них четыре в реферируемых журналах, остальные - в трудах научных конференций.
Объем и структура диссертации
Диссертационная работа включает Введение, четыре главы, Заключение, Выводы, список цитируемых источников и Приложения. Основное содержание работы изложено на 101 странице машинописного текста. Диссертация содержит 12 таблиц, иллюстрирована 28 рисунками.