Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК Макеев Всеволод Юрьевич

Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК
<
Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Макеев Всеволод Юрьевич. Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК : диссертация ... доктора физико-математических наук : 03.00.02 / Макеев Всеволод Юрьевич; [Место защиты: Моск. гос. ун-т им. М.В. Ломоносова].- Москва, 2009.- 182 с.: ил. РГБ ОД, 71 10-1/53

Введение к работе

Актуальность проблемы

В результате быстрого прогресса экспериментальной техники современная биология подошла вплотную к решению одной из своих фундаментальных проблем, а именно - проблемы понимания того, как происходит реализация наследственной информации в живом организме. Решение этой важнейшей проблемы современных генетики и биофизики должно повлечь за собой успехи в ряде практических задач в областях биотехнологии и медицины. К ним, в частности, относится управление дифференцировкой тканей, выращенных в культуре; понимание роли конкретных аллелей в возникновении заболеваний, имеющих наследственный компонент, а также производство лекарств белковой природы в культурах клеток млекопитающих, модифицированных методами генной инженерии.

Деление и дифферецировка клеток контролируются тысячами актов взаимодействий между макромолекулами белков и нуклеиновых кислот. Современные экспериментальные технологии позволяют получить огромные объемы экспериментальных данных, характеризующих взаимодействие биологических макромолекул в различных условиях. Одной из непосредственных задач современной биофизики является использование вычислительных физических методов для систематизации и сопоставления данных, полученных различными экспериментальными методами. За всю свою историю научные исследования никогда не располагали средствами такой мощи для переработки информации и никогда не сталкивались с необходимостью переработки информации такого объема, приходящией из различных источников и открытых для общего доступа.

Компьютерная биофизика, по существу, становится полигоном для применения сложных статистических методов анализа данных и оценки гипотез. Основой работы является использование вычислительных методов

для анализа тех закономерностей в строении последовательностей нуклеотидов в ДНК, которые связанны со структурно-физическими основами регуляции инициации транскрипции. Объекты исследования - участки геномов эукариот. Выбор такого объекта имеет ряд технических преимуществ. Во-первых, тексты ДНК дискретны и при современном уровне технологии секвенирования число ошибок в последовательностях не превышает, как минимум, одной ошибки на пять тысяч оснований (Robertson.G., et al. (2007)). Поскольку специфичность ДНК-белкового распознавания значительно ниже, при решении задач, описанных в настоящей работе, этим уровнем ошибок можно пренебречь. Во-вторых, секвенирование сейчас относительно дешево, а поэтому в открытом доступе имеются последовательности геномов тысяч видов прокариот и сотен видов эукариот. В третьих, геном является одномерной струтурой, поэтому молекула гетерополимера ДНК может анализироваться как текст, составленный из символов - мономеров разных типов нуклеотидов. Анализ на уровне текста ДНК позволяет понять большое количество биофизических по существу эффектов, связанных с инициацией транскрипции на молекулярном уровне.

Важной задачей настоящей работы является нахождение участков ДНК, участвующих в работе механизмов, управляющих переключением генов, так как для решения вопросов, связанных с пространственной структурой и физикой взаимодействия элементов регуляторных комплексов прежде всего надо знать какие именно сегменты ДНК несут регуляторную нагрузку и какие факторы белковой природы действуют на эти регулятороные сегменты, вызывая переключение экспрессии конкретных генов.

В работе используется широкий арсенал математических методов анализа последовательностей. В частности, это методы сравнительного анализа последовательностей, грамматический анализ, т.е. анализ структруктурных закономерностей в последовательностях, распознавание

характерных образов в последовательностях, а также оценка надежности найденных закономерностей путем построения статистических критериев.

Цель и задачи исследования

Целью работы является установление физических основ реализации генетической информации на этапах образования регуляторных комплексов ДНК-белок и функционирования компонентов генома. Это включает в себя: установление физических характеристик участков последовательности ДНК, несущих регуляторную функцию, и получение распределения участков специфического связывания регуляторных белков в пределах этих регуляторных участках ДНК; также предполагается установление связи характеристик распределения участков связывания регуляторных белков с физическими свойствами формирующихся иерархически организованных структур ДНК-белковых комплексов.

В работе решались следующие частные задачи:

  1. Установление участков ДНК, вступающих в специфическое взаимодействие с белковыми факторами, регулирующими транскрипцию, с помощью специально разработанных методов.

  2. Построение формального критерия наличия конкретных структур в последовательности нуклеотидов ДНК, на основые вычисления статистической значимости.

  3. Построение метода крупномасштабной сегментации последовательности на участки, однородные по своему нуклеотидному составу, с помощью вычисления статсуммы всевозможных разбиений последовательности на сегменты.

  4. Построение метода, позволяющего определять участки ДНК, вступающие в специфическое взаимодействие с белками путем вычисления позиционно-специфической энергии взаимодействия с учетом симметрии структуры ДНК.

  1. Установление связи между характером распределения ДНК-связывающих областей в регуляторных зонах, типами пространственных структур, диктуемых такими распределениями, и функционированием определенных сегментов генома.

  2. Разработка способа, позволяющего выделять регуляторные сегменты ДНК (промоторов и энхансеров) как участки ДНК, имеющие высокую аффинность взаимодействия с кооперативно связанными белковыми факторами.

  3. Определение регуляторных сегментов ДНК для системы генов, участвующих в раннем развитии Drosophila melanogaster.

Научная новизна и практическая ценность работы

В работе впервые получены следующие результаты:

На основе разработаных методов, позволяющих выделять в нуклеотидной последовательности геномной ДНК участки, специфически взаимодействующие с белками-регуляторами транскрипции, установлены характерные конфигурации таких участков ДНК, позволяющие обеспечить самоорганизацию нативного инициаторного комплекса при превышении пороговой концентрации регуляторных факторов.

Для тех случаев, когда задача вычисления вероятности появления наблюдаемой конфигурации мотивов в случайной последовательности ДНК не имеет аналитического решения (наблюдаются группы перекрывающихся мотивов, распознаваемых разными факторами) построен алгоритмический метод, позволяющий быстро и точно вычислять статистическую значимость появления наблюдаемой конфигурации мотивов.

Разработан метод сегментации генома на участки со стабильным нуклеотидным составом, в пределах которых допустимо использование одной и той же статистической модели. Метод основан на вычислении

статистической суммы по всевозможным разбиениям последовательности на формально-однородные сегменты.

Для определения конкретных учасктов ДНК специфически распознаваемых регуляторными белками, создан метод построения множественного локального выравнивания фрагментов ДНК, учитывающий предполагаемую структуру регуляторного участка.

Создан банк данных мотивов в ДНК, распознаваемых различными регуляторными белками, участвующими в регуляции генов, управляющих ранним развитием Drosophila melanogaster.

Показано, что регуляторные белки кооперативно взаимодействуют с регуляторными модулями, в частности с энхансерами. Этот феномен позволяет идентифицировать регуляторные модули в геноме. Найден ряд новых регуляторных модулей в D. melanogaster.

Основные положения, выносимые на защиту

  1. Расположение дистальных регуляторных элементов, в частности энхансеров в геноме может быть определено исходя из наличия в них участков, специфически взаимодействующих с регуляторными белками.

  2. Периодические закономерности в расположении участков связывания регуляторных белков в пределах регуляторных модулей могут быть эффективно использованы для предсказания стабильной конформации ДНК-белкового инициаторного комплекса.

  3. Для регуляторных белков, связывающихся с ДНК в форме димера, удается существенно улучшить распознавание участков ДНК, взаимодействующих с регуляторным белком, путем учета симметрии их структуры.

  4. Статистическая значимость наблюдения мотива связывания белков или конфигурации мотивов может быть вычислена точно, путем комбинаторного анализа с помощью модификации алгоритма Ахо-Корасик.

5. Распределение мотивов в последовательности ДНК позволяет судить об уровнях организации генома, которые ответственны за конкретные структурные и регуляторные функции.

Практическое значение работы

Практическая значимость работы выражается в том, что разработанные в данном исследовании методы применяются в области биотехнологии: это -разработка эффективных конструктов из культур клеток тканей эукариот, включая млекопитающих и биомедицине: это - связь аллельных вариантов, локализованных в регуляторных областях, с возможными патологиями. Кроме того, в качестве практических достижений можно назвать создание конкретных программных инструментов, используемых научным сообществом. Такими инструментами являются:

Программа BASIO, осуществляющая сегментацию хромосомы на участки с определенным характерным составом.

Программа SeSiMCMC построения множественного локального выравнивания последовательностей, при условии заданной симметрии выровненной последовательности и определения характерного мотива в выровненном участке [].

Программа поиска сегментов ДНК, содержащих кластеры участков связывания одного и того же регуляторного белка (гомотипические кластеры сайтов связывания).

Программа AhoPro, позволяющая оценивать статистическую значимость кластеров мотивов в ДНК. [].

База данных DMMPMM, содержащая мотивы, распознаваемые белками, регулирующими транскрипцию в ходе раннего развития Drosophia melanogaster [].

О результативности практических приложений свидетельствует использование наших результатов в нижеперчисленных исследованиях.

Программа SeSiMCMC успешно принимала участие в международном конкурсе аналогичных программ, проводимом Вашингтонским Университетом (США) [Tompa et. al. //Nat.Biotech (2005), 123, p. 137.], и использовалась в ряде исследований совместно с широко используемым комплексом программ GenomeExplorer [Миронов А.А. и др.// Молекул, биология, 34, 253]. Приоритет работ, с участием автора, в которых была предложена идея кластеризации сайтов связывания в регуляторных элементах [Papatsenko D.A. et al. II Genome Research 2002,12:470; Lifanov A.P. et al II Genome Research, 2003,13:579; Makeev V.J. et al II Nucleic Acids Res. 2003 31:6016] как основного фактора, обеспечивающего сложную регуляцию тканеспецифической экспресси генов высших эукариот, признан международным научным сообществом. Следует отметить, что упомянутые практические успехи стали возможны потому, что удалось решить ряд теоретических проблем, в частности переформулировать задачу распознавания функциональных участков как задачу распознавания одномерных текстовых образов.

Апробация работы

Материалы диссертации докладывались на международных и всероссийских конференциях и семинарах, в том числе: Московском семинаре по компьютерной генетике (Москва, 1997); Отчетной конференции по программе «Геном человека», (Черноголовка, 1997); международный семинар Mathematical applications in biological sciences (Tronheim, Norway, 1997, Rouen, France, 1998); Международной конференции по алгоритмам в вычислительной биологии RECOMB 1998 (Lyon, France); Международной конференции JOBIM 1997 (Montpellier, France); II, III Съездах биофизиков России (Москва, 1999, Воронеж, 2004), III, IV,V, Международных конференциях по биоинформатике регуляции структуры генов (Новосибирск, 2002, 2006, 2008), I и II Московских международных конференциях по вычислительной биологии (2003, 2005), Международном семинаре ASSCG

(Evry, France, 2003), Энгельгардтовской конференции по молекулярной биологии (Суздаль, 2004); Gordon Research Conference in Human Genetics and Genomics (Newport, USA, 2005), III и IV Съездах биофизиков и молекулярных биологов (Санкт-Петербург, 2005, Новосибирск 2008), Международном семинаре Statistical semantics of genomes (Evry, France, 2008); Международной выставке Biotechnica 2008 (Hannover, Germany); Конференции общества Гельмгольца (Москва, 2008); Российско-Индийских школах-конференциях по биоинформатике и геномике (Хайдарабад, 2006, Новосибирск, 2008) и др.

С использованием материалов диссертации автором сделаны: доклад в Rockefeller University, New York, USA (1999); 2 доклада в Georgia Tech, Atlanta, USA (2003, 2004); доклад в РАН (Москва, 2004); доклад в Каролинском университете (Стокгольм, 2005) и ряд других выступлений.

Публикации

По материалам диссертации опубликовано 36 статей в реферируемых научных журналах (из них 35 в соавторстве), а также более 50 тезисов докладов (см. пред. раздел).

Структура работы

Диссертация состоит из семи глав, выводов и библиографии (243 наименования). Ее полный объем составляет 184 страницы, количество рисунков 17, количество таблиц 6.

Похожие диссертации на Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК