Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики Герасимова Анна Викторовна

Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики
<
Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Герасимова Анна Викторовна. Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики : Дис. ... канд. биол. наук : 03.00.03 Москва, 2006 116 с. РГБ ОД, 61:06-3/775

Содержание к диссертации

Введение

1. Обзор литературы

1.1. Регуляция дыхания в геноме Е. coli 7

1.1.1. Транскрипционный регулятор FNR 7

1.1.2. Двухкомпонентная система АгсА/АгсВ 9

1.1.3. Регуляция нитрит-нитратного дыхания 11

1.1.4. Транскрипционный регулятор ModE 14

1.2. Регулон NadR в геномах Е. coli и S. thypi 17

1.3. Современные методы сравнительной геномики 21

1.3.1. Методы поиска экспериментальных данных, для последующего компьютерного анализа и предсказаний 21

1.3.2. Методы, основанные на сходстве аминокислотных последовательностей белков 22

1.3.3. Кластеризация генов на хромосоме 26

1.3.4. Анализ регуляторных сигналов 29

2. Материалы и методы

2.1. Банки данных геномных последовательностей 31

2.2. Компьютерные программы и методы для анализа нуклеотидных и аминокислотных последовательностей 32

3. Результаты и обсуждение

3.1. Построение распознающих правил для поиска потенциальных сайтов связывания регуляторных белков

3.1.1. Построение распознающего правила для регулона FNR 34

3.1.2. Построение распознающего правила для регулона АгсА 35

3.1.3. Построение распознающего правила для регулона NarP 37

3.1.4. Построение распознающего правила для регулона ModE 38

3.1.5. Построение распознающего правила для регулона NadR 40

3.2. Разработка и применение новых методов сравнительной геномики

3.2.1. Анализ таксоноспецифичной регуляции 41

3.2.2. Применение метода таксоноспецифичного анализа для 42 изучения эволюции NadR регулона в группе геномов Enterobacteriaceae

3.3. Анализ дыхательных регулонов

3.3.1. Анализ FNR регулона 49

3.3.2. Анализ АгсАрегулона 58

3.3.3. Анализ NarP регулона 61

3.3.4. Анализ ModE регулона 75

3.3.5. Комплексный анализ дыхательных регулонов 77

Выводы 93

Введение к работе

Большинство гамма-протеобактерий, к которым относится и Escherichia coli, могут существовать в среде с различными концентрациями кислорода, что дает возможность изучать аэробные и анаэробные особенности жизни клетки. В аэробных условиях основным акцептором электронов является кислород, а в анаэробных - нитрат и нитрит.

В клетках Е. coli в качестве основного белка-регулятора, отвечающего за переключение экспрессии генов, вовлеченных в дыхательный метаболизм, выступает регуляторный белок FNR.

Другой транскрипционный регулятор АгсА, часть двухкомпонентной системы АгсА/АгсВ, также регулирует экспрессию генов, участвующих в дыхании, но его основная функция - выбор между аэробным метаболизмом и брожением.

В анаэробных условиях наиболее эффективным способом получения клеткой энергии является нитрат-нитритное дыхание. Регуляция этого типа дыхания в Е. coli осуществляется удвоенной двухкомпонентной системой, включающей гомологичные сенсорные белки NarQ и NarX и гомологичные факторы транскрипции NarL и NarP.

Основным коферментом в дыхательных ферментах является молибден, и поэтому неудивительно, что часто их эспрессия регулируется не только регулятором потребления молибдата ModE, но и белками-регуляторами аэробно-анаэробного переключения, упомянутыми выше.

С каждым годом секвенируется все больше и больше геномов. На данный момент известны последовательности более 350 полных и около 570 незаконченых бактериальных геномов. Сравнительный анализ большого числа различных секвенированных геномов произвел переворот в области функциональной аннотации генов. Чтобы ответить на вопрос "Какова

5 наиболее вероятная функция данного гена?" до недавнего времени использовался исключительно перенос экспериментально установленных функций белков из одного вида на другие, основанный на сходстве аминокислотных последовательностей. Для реализации поиска гомологичных последовательностей по различным банкам данных (таких как Genbank, Swiss-Prot и др.) были разработаны программные комплексы BLAST (Altschul et al, 1994) и FASTA (Pearson, 1990).

Наличие полных секвенированных геномов и возможность проводить
их компьютерный анализ позволяет существенно уменьшить количество
экспериментов. Экспериментально обнаружив ту или иную особенность
определенного участка ДНК, можно попытаться ее формализовать и затем
провести анализ сразу всего генома, используя при этом чисто
компьютерные подходы, однако, несмотря на общий успех, методы,
основанные на сходстве нуклеотидных последовательностей не способны
определить функции многих генов, а также могут приводить к неточным
(или даже неправильным) аннотациям генов. Такие гипотетические гены, не
имеющие точно определенной функции, составляют от 20% до 60%
і большинства бактериальных геномов. Функциональное описание

большинства из этих гипотетических белков потребует огромного количества экспериментов, число которых может быть существенно уменьшено применением сравнительного анализа геномов. Среди новых подходов сравнительной геномики большое значение имеют анализ сцепленных на хромосоме генов (Overbeek et al., 1999), случаев слияния генов (Enright et al., 1999), профилей встречаемости генов в полных геномах (Pellegrini et al., 1999) и анализ общих регуляторных сайтов (Gelfand et al., 2000). Одновременное использование всех этих геномных методик позволяет обнаружить функциональную связь между белками, участвующими в одном метаболическом пути (Wolf et al., 2001; Makarova et al, 2002). Таким образом, метаболическая реконструкция помогает обнаружить как новые

6 аспекты данного метаболического пути в хорошо изученных организмах (таких как Е. coli и S. typhi), так и описать de novo метаболический потенциал ^охарактеризованных организмов.

Другой, не менее важный, раздел сравнительной геномики -предсказание регуляции экспрессии генов. В ряде работ было показано, что регуляторные сайты в бактериальных геномах могут быть предсказаны наиболее эффективно при одновременном анализе нескольких родственных геномов. Так, в частности, были описаны регулоны, отвечающие за биосинтез пуринов и аргинина (Mironov et al, 1999), ароматических аминокислот (Panina et al, 2001), транспорт и метаболизм железа (Panina et al., 2001), утилизацию различных Сахаров (Laikova et al., 2001; Rodionov et al, 2001 and 2000), а также SOS-ответ (Permina et al, 2002).

В дополнение к этим методам, в рамках данной работы был разработан новый метод анализа регуляции, специфичной для геномов одной таксономической группы.

При помощи всех методов сравнительной геномики была описана
регуляция дыхания в геномах гамма-протеобактери, произведен
> комплексный, таксон-специфичный анализ четырех глобальных регулонов в

десяти геномах.

Регулон NadR в геномах Е. coli и S. thypi

Никотинамид аденин динуклеотиды (NAD, NADH, NADP, NADPH) являются необходимыми кофакторами во всех живых системах. В окислительно-восстановительных биохимических реакциях они выступают и как акцепторы гидрида (NAD и NADP), и как доноры (NADH и NADPH) (Begley tf я/., 2001). Когда содержание NAD в клетке повышается, транскрипционный регулятор NadR начинает репрессировать пути синтеза de novo и дополнительный путь синтеза из продуктов распада никатинамид аденин динкулеотидов. Экспериментальные исследования регул она NadR проводились в бактериях Е. coli и S. typhimurium, и было показано, что NadR не только регулятор транскрипции, это многофункциональный белок. На его N-конце находится ДНК-связывающийся домен (НТН), который как раз и репрессирует биосинтез NAD; центральный домен содержит никотинамид мононуклеотид адегилтрансферазу (NMNAT); а С-конец - это RNK-домен, обеспечивающий белку рибозилникотинамид киназную активность (Kurnasov et al., 2002), (Penfound et ai, 1999). Надо отметить, что в некоторых гамма-протеобактериях ортологи белка NadR не содержат ДНК-связывающийся домен, и соответсвенно, сохраняют только ферментативную функцию (Kurnasov et al., 2002). Если построить выравнивание аминокислотных остатков белка NadR из Enterobacreiaceae и Paseurellaceae, то видно, что ДНК-связывающий домен разрушается в геноме Н. influenzae (рис. 1.2.2). Другие бактерии семейства Pasteurellaceae сохранили НТН домен, однако утратили потенциальных членов регулона, гены nadA, nadB и рпсВ. По этой причине мы сосредоточили своё внимание на изучении эволюции NadR регулона в широкой группе энтеробактерий. Кроме традиционных Escherichia coli К-12 MG1655 (ЕС), Shigella flexneri 2457T(SF), Salmonella typhi CT18 (ST), Yersinia pestis C092 (YP), Yersinia enterocolitica 8081 (YE), мы так же изучили регуляцию NAD в геномах Photorhabdus luminescens subsp. laumondii TT01 (PHL), Erwinia carotovora subsp. atroseptica SCRI1043 (ERW), Klebsiella pneumoniae MGH78578 (KP) и Serratia marcescens Dbl 1 (SM).. Гены, репрессируемые NadR в Е. coli и S. typhimurium отмечены на схеме прямоугольником. Это два гена биосинтеза NAD {nadA и nadB) и ген, являющийся частью дополнительного пути синтеза ниацина рпсВ (Penfound et al, 1999), (Foster et al., 1990).

Известно, что в некоторых гамма-протеобактериях, ортологи белка NadR не содержат ДНК-связывающийся домен, и соответственно, сохраняют только ферментативную функцию (Kurnasov et al., 2002). 1.3. Современные методы сравнительной геномики 1.3.1. Методы поиска экспериментальных данных для последующего компьютерного анализа и предсказаний Биоинформатика, как наука, не могла бы существовать без экспериментальных данных. Поиск и последующий отбор литературы, содержащую уникальную, дополняющую, а порой и противоречивую информацию, занимает важное место в работе in silico. Основной базой данных, которая использовалась в данной работе, была база данных PubMed http://www.ncbi.nlm.nih.gov/PubMed/ Это самая извесная и широко используемая база данных в биологии. На данный момент в ней содержится более 16 миллионов научных статей. Но, надо понимать, что в ней нет и не будет всех биологических данных, например такие разделы, как ботаника и изучение окружающей среды, другие разделы биологии, особенно те, которые не связаны напрямую с проблемами здоровья человека, в ней предсавленны весьма слабо. Большинство статей, доступных в PubMed были опубликованы после 1965 года, однако некоторые статьи, вышедшие в промежутке 1958-1965 можно найти в базе данных под названием OldMEDLINE http://gatewav.nlm.nih.gov/gw/Cmd/ Самая ранняя статья, к которой мы аппелируем в данной работе, вышла в середине шестидесятых годов, новые статьи индексируются PubMed в течение месяца, так что использование базы данных PubMed было удобно и оправдано. 1.3.2. Методы, основанные на сходстве аминокислотных последовательностей белков Первая полная геномная последовательность была определена для грамотрицательной бактерии Haemophilus influenzae в 1995 г. (Fleischmann et al., 1995). Затем был отсеквенирован геном бактерии Mycoplasma genitalium (Fraser et al, 1995) и архебактерииMethanococcus jannaschii (Bult et al, 1996). В 1997 г. были опубликованы полные геномы двух основных модельных бактерий - Escherihia coli и Bacillus subtilis (Blattner et al, 1997; Kunst et al., 1997). Кроме открытых академических исследований появилось множество биотехнологических компаний секвенирующих геномы как в рамках открытых, так и в рамках закрытых проектов. База данных GOLD (Genomes OnLine Database) (Kyrpides et al, 1999) http://www.genomesonline.org/ содержит информацию о доступности и полноте геномов. На момент написания этой работы, согласно GOLD, 282 генома (36 эукариотических и 246 прокариотических) были секвенированы полностью, геномы 742 прокариот и 517 эукариот были секвенированы частично. Из них в открытой базе данных GenBank (Benson et al, 2003) было доступно 245 полных и 403 неполных прокариотических геномов. После секвенирования нового бактериального генома, установленную нуклеотидную последовательность транслируют при помощи компьютерных программ во всех шести рамках считывания и выявляют в результате открытые рамки считывания (open reading frames, ORF). Средний размер функциональной ORF в бактериальных геномах соответствует примерно 300 аминокислотным остаткам. Чтобы определить, являются ли открытые рамки считывания реальными генами, используют компьютерные методы сравнения аминокислотных последовательностей этих ORF с известными белками из разных банков данных. К наиболее крупным и часто используемым банкам данных относятся Genbank (Benson et al., 2003) и EMBL (Stoesser et al., 2003), кроме того, широко используются белковые банки данных, Swiss-Prot, TREMBL и PIR (Boeckmann et al., 2003; Wu et al., 2003). Для осуществления поиска родственных последовательностей по банкам данных были разработаны программные комплексы BLAST (Altschul et al, 1994; 1997) и FASTA (Pearson, 1990). В начале семидесятых годов В. Фитч ввел представление об ортологах и паралогах (Fitch et al., 1970), которое является центральным при сравнительном анализе геномов. Гены, которые разделились во время видообразования, т.е. разделения вида на два вида-потомка и каждый из генов-потомков перешел в соответствующий вид-потомок, и начали эволюционировать независимо, называются ортологичными. Гены, которые дуплицировались внутри одного вида называются паралогами. Следствием из этого определения является то, что ортологи сохраняют исходную функцию, а паралоги сохраняют "биохимическую" функцию, но меняют специфичность и клеточную роль. Приближенный способ поиска ортологов, использовавшийся и в этой работе, это поиск в двух направлениях наилучших хитов (biderectional best hits).

Компьютерные программы и методы для анализа нуклеотидных и аминокислотных последовательностей

Комплекс программ Genome Explorer (Миронов et al., 2000) был использован для поиска ортологов в бактериальных геномах. Ортологичные белки были определены по критерию наибольшего сходства при двухстороннем поиске в двух геномах (Tatusov et al., 2000). Белки с низким сходством были обнаружены с помощью программы локального выравнивания PSI-BLAST (http://www.ncbi.nlm.nih.gov/BLAST/; Altschul et al., 1997). Для выравнивания нуклеотидных и аминокислотных последовательностей использовали программу ClustalW (Thompson et al., 1997). Филогенетические деревья были построены по методу максимального правдоподобия с использованием пакета программ PHYLIP (Felsenstein, 1981) и графически обработаны с использованием программ TreeView (http://taxonomy.zoology.gla.ac.uk/rod/treeview/) и GenMaster (Миронов А.А.). Для поиска потенциальных трансмембранных сегментов в белковых последовательностях использовалась программа TMPred (http://www.ch.embnet.org/ software/TMPRED_form.html). Существование потенциальных ДНК-связывающих мотивов спираль-поворот-спираль (НТН) анализировалось с помощью программы HTH-finder (http://npsa-pbil.ibcp.fr/; Dodd и Egan, 1990). Остальные известные структурные и функциональные мотивы в белках были обнаружены с помощью поисковой системы, реализованной в банке данных InterPro (Apweiler et al., 2000; http://www.ebi.ac.uk/interpro/). Для конструирования распознающего правила для палиндромных ДНК-сигналов применялась программа SignalX (Миронов et al., 2000), которая находит все возможные палиндромы в каждой нуклеотидной последовательности изучаемой выборки, а затем итеративно отбирает наиболее сильные палиндромы, общие для заданного количества последовательностей. В качестве распознающего правила для поиска потенциальных операторных участков ДНК использовалась матрица весов нуклеотидов. Данная матрица строится на основе выборки операторных участков, каждый из которых, в общем случае, имеет длину L. Вес w(a,i) нуклеотида "а" в позиции "/" рассчитывался по формуле: w(a,i) = log [N(a,i) + 0.5 ] - 0.25 Ife=ACGTlog [ N(b,i) + 0.5 ], где N(a,i) - количество нуклеотидов "я" из нашей выборки, которые находятся в позиции V. Таким образом, используя данную матрицу, любому участку нуклеотидной последовательности длиной L можно поставить в соответствие вес S: где а, - нуклеотид в позиции і. Далее можно ввести некоторое пороговое значение Sp, при котором, если вес S больше или равен этому значению, то данная последовательность является потенциальным операторным участком, а в противном случае - нет.

Используя такой подход, можно проанализировать области, находящиеся непосредственно перед началами генов для всего генома, и определить потенциальные операторные участки. Для поиска регуляторных ДНК-сигналов, удовлетворяющих данной матрице с заданным порогом распознавания, использовался комплекс программ Genome Explorer (Миронов и соавт., 2000) Для поиска сайтов связывания АгсА нами использовалась программа SeSiMCMC (Favorov et al. 2005; http://favorov.imb.ac.ru/SeSiMCMC/) Полученные правила для поиска сигнала также были продемонстрированы наглядно при помощи Лого. В Лого высота каждой буквы показывает степень её консервативности, а общая высота каждой колонки - статистическую значимость данной позиции. В этой работе Лого были построены при помощи программы WebLogo (Schneider et al, 1990; http://weblogo.berkelev.edu/) 3.1. Построение распознающих правил для поиска потенциальных сайтов связывания регуляторов дыхания 3.1.1. Построение распознающего правила для регулона FNR Для анализа и поиска новых членов регулонов необходимо создать распознающие правила, или матрицы для поиска сигнала. Если цель работы -изучить регуляцию на больших эволюционных расстояниях, то для каждой группы (семейства или вида) геномов, создаются собственные матрицы для поиска сигнала. В нашей работе мы изучали регуляцию в близкородственных организмах, поэтому создание индивидуальных матриц было нецелесообразно. Для построения матрицы поиска потенциальных сайтов связывания FNR мы взяли 5 -некодирующие области перед теми генами из генома Е. coli, для которых FNR регуляция была показана экспериментально. В качестве таких генов мы взяли выборку с сайта DPInteract (http ://arep. med. harvard. edu/dpinteract/): narXL/narKGJl (нитратредуктаза/ переносчик нитрата), nirBD (нитритредуктаза), cydAB (цитохром D оксидаза), ndh (NADH-дегидрогеназа), nrfABCDEFG (формиат-зависимая нитритредуктаза), fdnGHI (формиатдегидрогеназа), focA-pflB (переносчик формиата , пируват-формиатлиаза), ansB (L-аспарагиназа). При помощи программы SignalX, описанной в разделе "Материалы и Методы", мы получили следующую весовую матрицу: Процедура создания распознающего правила для поиска потенциальных сайтов NarP несколько отличалась от уже описаной выше. Нами было установлено, что ген пагР всегда присутствует в геномах с генами для периплазматических нитрат-редуктаз (пар), нитрит-редуктаз (nrf) и генами экспорта гема в периплазму (ест). Исключение составляют геномы Y. pestis, Y. enterocolitica и V. cholerae, в которых не было обнаружено nrf-генов. Для Е. coli ранее была экспериментально показана регуляция экспрессии всех этих генов белком NarP (Wang et al., 2000, Wang et al., 2003). Экспериментально установлено, что сайт связывания NarP представляет собой палиндром с консенсусом TACYYMTNNAKRRGTA (Darwin et al., 1997). Используя поиск по этому консенсусу, нам удалось обнаружить сайты такого вида перед рядом оперонов, содержащих гены пар, nrf и ест в рассматриваемых геномах. На основании этих сайтов была составлена обучающая выборка и построены матрица для поиска сайтов связывания NarP и диаграмма Лого. Рисунок 3.1.3.1 и Рисунок 3.1.3.2 соответственно.

Разработка и применение новых методов сравнительной геномики

С каждым годом количество полностью отсеквенированных геномов растет, только в группе Энтеробактерий, с учетом различных штаммов, их около двадцати. Такое многообразие позволило нам разработать и применить метод полного попарного сравнения геномов. Известно, что самый хорошо изученный на сегодняшний день организм, это энтеробактерия Е. coli. Именно его обычно и использовали в качестве образца для сравнения с остальными, мало изученными бактериями. Но нельзя не считаться с тем фактом, что далеко не все гены, присутствующие, например в Y. pestis, имеют ортологов в геноме Е. coli. В предыдущих компьютерных исследованиях транскрипционной регуляции использовали следующую процедуру: строили распознающие правило (матрицу для поиска сигнала), при помощи этой матрицы проводили поиск потенциально регулируемых генов в геноме Е. coli и проверяли сохранение сигнала перед ортологичными генами в близкородственных геномах. Эта процедура позволяла с большой долей вероятности предсказывать регуляцию генов, имеющих ортологов в Е. coli, однако найти новых членов регулона, свойстенных другим бактериям, было невозможно. Поэтому мы разработали подход для анализа таксон-специфичной регуляции. Мы провели полное попарное сравнение геномов организмов, относящихся к одной таксономической группе: в каждом из геномов проводился поиск потенциальных сайтов одного белка-регулятора. Далее на основании сохранения сайтов перед ортологичными генами определялись потенциальные члены обобщенного регулона. Если сайт перед геном сохранялся минимум в трех геномах организмов из одной группы, то ген считался членом обобщенного регулона. Для таких генов также проверялось наличие сайтов перед его ортологами в геномах организмов из других групп. 3.2.2. Применение метода таксоноспецифичного анализа для изучения эволюции регулона NadR в семействе Enterobacteriaceae Убедившись в сохранении всех доменов белка NadR в геномах Escherichia coli K-12 MG1655 (ЕС), Shigella flexneri 2457T (SF), Salmonella typhi CT18 (ST), Yersinia pestis C092 (YP), Yersinia enterocolitica 8081 (YE), Photorhabdus luminescens subsp. laumondii TTOl (PHL), Erwinia carotovora subsp. atroseptica SCRI1043 (ERW), Klebsiella pneumoniae MGH78578 (KP) и Serratia marcescens Dbll (SM), мы применили процедуру попарного сравнения геномов и изучили эволюцию NadR регулона в Enterobacteriaceae.

Мы считали, что ген может быть потенциальным членом регулона NadR, если сайт сохраняется как минимум перед четырьмя ортологичными генами из рассмотренных геномов. Результаты приведены в таблице 3.2.1. Видно, что кроме уже известных членов NadR регулона, появились новые кандидаты. Был проведен детальный анализ этих кандидатов с применением метода филогенетического футпринтинга, всех 5 -некодирующих областей генов из таблицы 3.2.1. На рисунке 3.2.6 видно, что консервативный участок выравнивания (ААТАТАТ) совпадает со спейсером палиндрома, составляющим NadR-сайт, а никак не с плечами, которые как раз и являются значимой частью сигнала. С другой стороны, в геномах Pseudomonas spp и Bordetella parapertussis сохранились ортологи ynfLM дивергона, но в них отсутствует транскрипционный регулятор NadR. Всё это дает возможность считать указанный участок не сайтом связывания NadR, а, возможно, потенциальным сайтом связывания белка-регулятора YnfL, а гены ynfL и уп/М не включать в NadR регулон. В любом случае, эти предсказания нуждаются в экспериментальной проверке. Ген rpsP кодирует рибосомный белок S16. Выравнивание 5 -некодирующих областей этого гена равномерно консервативно Эта равномерная консервативность всей некодирующей области, а не только островка сайта, а также функция RpsP, делают маловероятным участие гена rpsP в NadR регулоне. Данная работа показала, что даже очень простой регулон, отвечающий за необходимый метаболический путь, может заметно различаться в весьма близкородственных организмах. Варьировать может не только набор регулируемых генов, но даже авторегуляция. Впервые показанная в этой работе авторегуляция nadR является особенностью нескольких, но далеко не всех организмов из семейства энтеробактерий. Одним из возможных объяснений этого факта может быть предположение, что NadR регулон относительно молод, поскольку он присутствует только в одном семействе (энтеробактиях) из всех гамма-протеобактерий. Тем ни менее, подобная ситуация наблюдалась и в других регулонах, например, LRP (Friedberg et al., 2001, Alkema et. al. 2004), FruR (Friedberg et al., 2001) и KdgR (Rodionov et al, 2004). Для более точного объяснения эволюции NadR регуляции необходимо большее число отсеквенированных геномов. С использованием матрицы для поиска FNR сигнала, описанную в пункте 3.1.1, был проведен поиск потенциальных FNR-сайтов, расположенных перед другими генами Е. coi. Получилось, что при пороге 4.0 FNR-сайты обнаруживаются перед 121 геном. Заметим, что такой выбор порога приводит к потере части генов, регулируемых FNR, поэтому был проведен поиск с другими порогами. Оказалось, что порог, равный 4.0, является оптимальным, поскольку при более высоких порогах пропускается неприемлемо много известных сайтов (недопредсказание), а при более низких - практически каждый ген имеет потенциальный FNR-сайт (перепредсказание). В самом деле, рассмотрим функцию распределения вероятности весов потенциальных сайтов связывания белка FNR в геноме Е. coli (рисунок 3.3.1). Видно, что порог, равный 4.0, отбирает примерно 5% от всех генов генома. В то же время, формально оценить ошибку первого и второго рода не представляется возможным, поскольку точно не известно какие гены входят в регулон.

При построении весовой матрицы использовались сайты для 9 из 121 отобранных генов (полученные из базы данных регуляторных сайтов DPInteract), а регуляция 12 генов белком FNR экспериментально подтверждена. Используя стандартную процедуру сравнения близкородственных геномов, мы обнаружили, что геномы всех рассмотренных бактерий, (S. typhi, К. pneumoniae, Y. pestis, Н. influenzae, V. cholerae и P. aeruginosa) содержат гены, ортологичные jhr, что указывает на консервативность FNR-регулона у этих гамма-протеобактерий. Ортологи 121 гена Е. coli, перед которыми найдены потенциальные FNR-боксы, идентифицированы и в других геномах. Построенную весовую матрицу применили для анализа 5 -областей ортологичных генов. В таблице 3.2.1 и 3.2.2 приведены 39 генов, 5 -области которых содержат потенциальные FNR-сайты в геномах как минимум трех разных бактерий, одна из которых - Е. coli. Эти гены были разделены на три группы. В первую группу вошли 9 генов, сайты которых использовали для построения распознающей матрицы. Вторая группа состоит из 12 генов, регуляция которых показана экспериментально, но FNR-сайты не выявлены. В третью группу вошли 18 генов, 5 -области которых содержат потенциальные FNR-боксы как минимум в двух геномах, кроме Е. coli, FNR-регуляция этих генов не изучена. Для того чтобы оценить число регуляторных сайтов, которые могли сохраниться случайно, была построена статистическая модель. Использовали следующие оценки: Р=5% - доля генов с потенциальными сайтами (рисунок), g=2/3 - доля ортологичных генов при сравнении двух геномов, п=4000 -среднее число генов в геноме. Ожидаемое число случайно найденных генов можно оценить как: Cnk n g2 P3=(5 6)/(1 2) 4000 4/9 125 10 =3.3 Хорошо известно, что белок FNR гомологичен регулятору CRP и что сигналы связывания этих двух регуляторов похожи (Lynch et ah, 1996). Поэтому нельзя исключить, что часть из предсказанных сайтов на самом деле являются сайтами связывания CRP. С использованием весовой матрицы для поиска CRP-сайтов (Gelfand et ah, 2000) были получены веса потенциальных сайтов связывания CRP для отобранных генов из FNR-регулона. Видно, что многие известные гены из FNR-регулона (первая и вторая группы таблицы 2.2) имеют потенциальный CRP-сайт. Кроме того из литературы известно, что гены ansB и tdcA находятся под двойной регуляцией CRP и FNR (Green et al., 1996), (Chattopadhyay et al., 1997). Кроме того, CRP регулирует ген mtlA входящий в третьею группу (Ramseier et al., 1995). Нам удалось обнаружить перед этим геном множество сайтов связывания CRP, и их вес выше, чем вес потенциального FNR-сайта.

Анализ NarP регулона

В общей сложности было рассмотрено 13 геномов различных организмов, относящихся к группе гамма-протеобактерий. Полные последовательности геномов Escherichia coli К12 (ЕС), Salmonella typhi Ту2 (ST), Erwinia carotovora subsp. atroseptica (EO), Yersinia pestis KIM (YP) Haemophilus ducreyi 35000HP (HD), Haemophilus influenzae Rd (Ш), Pasteurella multocida Pm70 (PM), Vibrio cholerae 01 (VC), Vibrio parahaemolyticus RTMD 2210633 (VP), Vibrio vulnificus CMCP6 (VV) были взяты из базы данных GenBank. Полная последовательность генома Yersinia enterocolitica (YE) была взята с интернет-сайта Wellcome Trust Sanger Institute (http://www.sanger.ac.ukA Предварительная последовательность генома Actinobacillus actinomycetemcomitans HK1651 (AA) была взята с интернет-сайта University of Oklahoma s Advanced Center for Genome Technology (http://www.genome.ou.edu/). Предварительная последовательность генома Vibrio fischeri ESI 14 (VF) была взята из базы данных GOLD. В исследуемых геномах проводился поиск сайтов с весом выше порогового значения 3,50. Однако в геноме A. actinomycetemcomitans перед генами-потенциальными членами регулона зачастую удавалось обнаружить лишь сайты с весом ниже принятого порогового значения. Поэтому для данного генома было установлено пороговое значение 3,25. При данных пороговых значениях потенциальные сайты связывания NarP обнаруживались в каждом геноме перед приблизительно 400 генами. Ясно, что отдельные предсказания таких сайтов недостоверны. В соответствии с процедурой поиска членов обобщенного регулона, описанной в разделе "Материалы и методы", в общей сложности к обобщенному регулону было отнесено 77 генов, организованных как минимум в 29 оперонов. В исследованных геномах обобщенный NarP-регулон включает в себя почти все гены, входящие в объединенный NarL-NarP-регулон в Е. coli (табл. 3.3.1). Исключение составляют лишь некоторые гены, для которых в исследованных геномах не было найдено ортологов. Это гены из оперонов narGHJI, narK, hya, hyb,fumB и пио. Несколько оперонов было включено в обобщенный NarP-регулон на основании формального критерия, описанного в разделе "Материалы и методы", однако анализ множественных выравниваний регуляторных областей этих оперонов показал, что потенциальные сайты неконсервативны, и, следовательно, данные предсказания не могут рассматриваться как вполне достоверные. Таковыми оперонами являются IdhA, hemR, gcvA и sucAB. В то же время, результаты компьютерного анализа достаточно сильны для того, чтобы считать целесообразной их экспериментальную проверку.

За счет обнаружения новых членов обобщенного регулона, к пяти функциональных группам генов, перечисленных в разделе "Введение", были добавлены еще две. Каждая из семи функциональных групп подробно описывается далее. Гены регуляторных белков. Одним из наиболее неожиданных результатов является обнаружение потенциальных NarP-сайтов перед генами белков, участвующих в регуляции дыхания. В геномах P. multocida, А. actinomycetemcomitans, Н. influenzae, V. cholerae и V. fischeri такие сайты были найдены перед геном fnr, продукт которого представляет собой глобальный регулятор дыхания, осуществляющий переключение между аэробным и анаэробным метаболизмом. Во всех геномах семейства Vibrionaceae потенциальные NarP-сайты были обнаружены перед опероном narQP. Гены восстановления нитрата и нитрита. Ядро обобщенного NarP-регулона составляют гены, непосредственно участвующие в восстановлении нитрата и нитрита. Это гены периплазматической нитрат-редуктазы (пар), периплазматической (nrf) и цитоплазматической (піг) нитрит-редуктаз, а также гены, ответственные за экспорт гема в периплазму и формирование Nap-комплекса (ест). Потенциальные сайты перед этими оперонами были обнаружены во всех случаях. Гены дегидрогеназ доноров электронов. Ранее регуляция факторами NarL и NarP была показана только для оперона формиат-дегидрогеназы./йяОЯ/ (Darwin et al., 1996). Оперон fdoGHI гомологичен оперону fdn и выполняет ту же функцию (Darwin et al., 1996). Сайты перед опероном fdo были обнаружены в геномах Y. pestis и Y. enterocolitica. Ген fdhD имеет потенциальный сайт в регуляторной области в четырех геномах. Точная функция этого гена неизвестна, но предполагается, что он принимает участие в работе формиат-дегидрогеназ (Plunkett et al, 1993). Новым членом обобщенного регулона является также оперон nqrABCDEF, кодирующий НАДН-дегидрогеназу, экспортирующую ионы натрия (Tokuda et al., 1981). Гены восстановления альтернативных акцепторов электронов. Потенциальные сайты связывания NarP были обнаружены перед оперонами, кодирующими дегидрогеназы альтернативных акцепторов электронов. К данной группе относятся два новых члена регулона: опероны torYZ и cydAB. Первый оперон кодирует вторую редуктазу триметил-оксида азота (ТМОА) и гены torY и torZ являются паралогами, соответственно, генов torC и tor A (Gon et al., 2000). Оперон cydAB кодирует комплекс цитохром с/-оксидазы. Данный фермент осуществляет перенос электронов с убихинола-8 на молекулярный кислород и таким образом, участвует в аэробном дыхании (Cotter et al., 1990). Данный оперон является членом NarP-регулонов во многих геномах (табл.3.3.2.). Гены метаболизма четырехуглеродных дикарбоновых кислот. NarL-регуляция оперона dcuB-fumB в Е. соН была экспериментально показана ранее (Golby et al., 1998). В ряде исследуемых геномов потенциальные сайты были найдены перед геном dcuB, тогда как ортологов fumB не было обнаружено ни в одном из геномов. Членом обобщенного регулона является и паралог dcuB, ген dcuA, также кодирующий транспортер дикарбоновых кислот (Golby et al., 1998).

Кроме того, потенциальные сайты были найдены перед двумя паралогами fumB: fumC и aspA. Ген fumC, так же как и fumB, кодирует фермент фумаразу (Tseng et al., 2001), тогда как продуктом aspA является другой фермент метаболизма четырехуглеродных дикарбоновых кислот - аспартат-аммоний-лиаза (Spiro и Guest, 1991). Гены ферментов, участвующих в брожении. Ранее было показано, что в объединенный NarL-NarP регулон Е. coli входят гены для алкогольдегидрогеназы adhE (Chen et al., 1991) и пируват-формиат-лиазы pjlB (Kaiser et al., 1995). В геноме E. coli ген pflB может транскрибироваться как совместно с геном транспортера формиата focA, образуя транскрипт focA-pflB, так и со своего собственного промотора. Сайты связывания NarL располагаются перед опероном focA-pflB, перед внутренним же промотором таковых не обнаружено (Kaiser et al., 1995). Поскольку в геномах Y. pestis и Y. enterocolitica присутствует потенциальный оперон focA-pflB, весьма вероятно, что транскрипция данных генов осуществляется так же, как и в Е. coli. На это указывают и обнаруженные в этих геномах потенциальные NarP-сайты перед геном focA. Однако, потенциальные сайты связывания NarP в этих геномах были обнаружены также и перед геном pflB. В других исследуемых геномах гены focA и pflB располагаются отдельно, и перед одиночным геном focA не удается найти значимых сайтов. Отсюда можно предположить, что ключевой является регуляция именно теш pflB. Еще одним членом регулона, по-видимому, является паралог pflB, ген yfiD, также кодирующий пируват-формиат-лиазу (Wyborn et al., 2002). Наконец, на основании сохранения сайтов в различных геномах, к обобщенному NarP-регулону были предварительно отнесены ген IdhA, кодирующий лактат-дегидрогеназу (Jiang et al., 2001), и ген pgk, кодирующий фосфоглицерат-киназу. При этом сайты перед геном pgk в Pasteurellaceae в множественном выравнивании регуляторных областей располагаются на одном месте и перекрываются с потенциальными промоторами, тогда как потенциальные сайты перед IdhA в Vibrionaceae не выравниваются (данные не приводятся), что ставит под сомнение регуляцию данного гена NarP. Гены ферментов цикла трикарбоновых кислот. Два оперона, кодирующих ферменты цикла трикарбоновых кислот (ЦТК), по всей видимости, также входят в обобщенный NarP-регулон. Продуктом гена mdh является малат-дегидрогеназа (Jiang et al., 2001), тогда как оперон sucAB кодирует две субъединицы фермента 2-оксоглутарат-дегидрогеназы (Alefounder et al., 1989). Сайты перед двумя этими оперонами были найдены только в геномах организмов из семейства Pasteurellaceae (табл. 3.3.2.), причем сайты перед геном mdh располагаются на выравнивании в одном месте, тогда как сайты перед sucAB разбросаны по выравниванию (данные не приводятся).

Похожие диссертации на Анализ регуляции транскрипции генов дыхания в гамма-протеобактериях методами сравнительной геномики