Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование локальных сходств геномов эукариот Огурцов Алексей Юрьевич

Исследование локальных сходств геномов эукариот
<
Исследование локальных сходств геномов эукариот Исследование локальных сходств геномов эукариот Исследование локальных сходств геномов эукариот Исследование локальных сходств геномов эукариот Исследование локальных сходств геномов эукариот Исследование локальных сходств геномов эукариот Исследование локальных сходств геномов эукариот Исследование локальных сходств геномов эукариот Исследование локальных сходств геномов эукариот
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Огурцов Алексей Юрьевич. Исследование локальных сходств геномов эукариот : Дис. ... канд. физ.-мат. наук : 03.00.02 : Пущино, 2003 91 c. РГБ ОД, 61:04-1/166-0

Содержание к диссертации

Введение

ГЛАВА 1. Обзор литературы 7

1.1. Сравнительный анализ геномов (сравнительная геномика) 7

1.2. Информационные ресурсы геномных баз данных 10

1.3. Функциональные элементы генома 11

1.4. Основные вопросы, решаемые сравнительной геномикой 12

1.5. Задача поиска гомологии 13

1.6. Простейшие алгоритмы поиска гомологии 14

1.6.1. Точечные матрицы гомологии 15

1.6.2. Поиск общего слова 1 б

1.6.3. Метод J-граммного разложения 16

1.6.4. Позиционные деревья 17

1.7. Задача выравнивания 19

1.7.1. Метод динамического программирования 19

1.7.2. Локальное выравнивание 22

1.8. Методы построения выравниваний, используемые в современном программном обеспечении 24

1.9. Оценка статистической значимости локальных сходств 26

ГЛАВА 2. Иерархический подход к построению цепочек локальных сходств 30

2.1. Неформальный обзор подхода к разрешению конфликтов 32

2.2. Обозначения 36

2.2.1. Локальные сходства 3 7

2.2.2. Цепочка локальных сходств 37

2.2.3. Качество локального сходства 38

2.2.4. Достоверность индивидуального сходства и цепочки сходств 38

2.2.5. Сравнение множеств сходств 40

2.2.6. Основная цепочка 40

2.3. Алгоритмы 40

2.3.1. Алгоритм Fractal 41

2.3.2. Краткий обзор алгоритмов Chain и Chain Basic 44

2.4. Примеры 45

2.5. Заключение 46

ГЛАВА 3. Анализ сходства 142 пар ортологичных межгенных интервалов в геномах Caenorhabditis elegans и Caenorhabditis briggsae 49

3.1. Критерии отбора межгенных интервалов 50

3.2. Построение выборки филогенетических следов 52

3.3. Результаты 53

3.3.1. Селективное ограничение 58

3.3.2. Распределение филогенетических следов 60

3.4. Обсуждение 64

ГЛАВА 4. Селективное ограничение в межгенных интервалах геномов мыши человека 71

4.1. Материалы и методы 72

4.2. Результаты 73

4.3.1. Сходство и селективное ограничение 75

4.3.2. Распределение филогенетических следов 77

4.3. Обсуждение 79

Список литературы 81

Введение к работе

После того, как в 1978г. появились методы быстрого определения
последовательностей ДНК, объем известных последовательностей растет
экспоненциально. В 1982г. была создана единая база данных, куда поступают все
опубликованные последовательности. В 1994г., когда общая длина известных
последовательностей составляла уже десятки миллионов нуклеотидов, впервые
были расшифрованы два полных генома клеточных организмов - бактерий
Haemophilus influenzae и Mycoplasma genitalium. На сегодняшний день, наряду с
геномами десятков бактерий, расшифрованы геномы нескольких многоклеточных
эукариот, например, нематоды Caenorhabditis elegans, цветковых растений
f резуховидки (Arabidopsis thaliana) и риса (Oryza sativa L.), дрозофилы (Drosophila

melanogaster), комара (Anopheles gampial), рыбы фугу (Takifugu rubripes), человека (Homo sapiens) и мыши (Mus musculus). Общая длина хранящихся в базе данных "GenBank" последовательностей превышает 100 миллиардов нуклеотидов.

Аннотация большей части геномных последовательностей, публикуемых в базе данных GenBank, содержит информацию о генах (их экзон - интронной структуре и нетранслируемых участках), функциональных областях и повторах. Аннотация последовательностей проводится в основном с использованием компьютерных методов сравнения последовательностей и предсказания кодирующих областей. Экспрессия генов обеспечивается многочисленными регуляторными элементами, плотность нуклеотидных последовательностей которых в геномах эукариот превышает плотность кодирующих участков. Описание и разграничение функциональных элементов требует как проведения большого количества трудоемких экспериментов, так и разработки алгоритмов предсказания, создания специализированного программного обеспечения, помогающего направить поиск на наиболее вероятные участки генома.

Таким образом, компьютерный анализ геномной информации является одним из перспективных направлений, хотя и сопряжен со многими трудностями. Хотя символьная последовательность в четырехбуквенном алфавите является относительно простым объектом (по сравнению, например, с пространственной структурой белка), изучение даже небольшого числа не очень длинных последовательностей далеко не тривиально. Например, одновременное выравнивание 100 последовательностей длиной 1000 каждая требует заполнения 100-мерного куба со стороной 1000, содержащего 10300 ячеек, что, естественно невозможно вычислительно. Несмотря на очень большое количество работ, отсчет которым можно вести с выхода в 1970г. пионерской работы СБ. Нидлемана и С.Д. Вунша (Needleman S.B. and Wunsch CD., 1970), нерешенных проблем в анализе последовательностей все еще больше, чем решенных.

Анализ эукариотических геномов сопряжен с дополнительными проблемами. У прокариот около 90% ДНК кодирует белки. Соответственно, в значительной степени изучение прокариотических геномов сводится к изучению наборов относительно коротких белковых последовательностей. Напротив, большая часть геномов многоклеточных эукариот (от 70% у растений до 98% у млекопитающих) белки не кодируют. Большая часть некодирующих последовательностей, видимо, не несет никакой функции. Однако, значительная ее доля (по оценкам, полученным в этой диссертационной работе - более 10%) функционально значима, и видимо, играет не меньшую роль в жизни организмов, чем белки. При этом изучение важных некодирующих последовательностей затруднено тем, что их функция не описывается простыми правилами, а межвидовое сходство ограничивается коротким консенсусом. Даже просто разграничить важные некодирующие последовательности от неважных - трудная задача.

Таким образом, на сегодня мы не можем предсказать a priori, как должны выглядеть функционально значимые участки некодирующей ДНК. В такой ситуации может помочь сравнительный метод: не зная, какие последовательности важны в отдельно взятом геноме, мы все же можем предположить, что важные

гомологичные последовательности в геномах близких видов будут похожи друг на

друга. По крайней мере, это относится к последовательностям, ответственным за

межвидовое сходство.

Напротив, те, по-видимому относительно немногочисленные, участки

некодирующей ДНК, которые отвечают за межвидовые различия, могут у близких

видов различаться даже больше, чем бессмысленные (случайные)

последовательности. С этой точки зрения представляется чрезвычайно интересным

сравнение геномов человека и шимпанзе, так как средний уровень сходства между

этими видами составляет 98%. В самое близкое время, после публикации генома

шимпанзе, удастся выяснить, не существуют ли короткие участки ДНК, которые

разошлись гораздо больше, чем на 2%, и, тем самым, ответственны за различия

между человеком и шимпанзе.

, Диссертация посвящена двум аспектам сравнения геномов. В главе 1

предложен новый подход к выравниванию длинных гомологичных

последовательностей, в которых уровень сходства резко неравномерен - короткие

I консервативные участки чередуются с последовательностями, всякое сходство

! между которыми утрачено. В этой диссертации предлагается простой,

і эффективный, иерархический алгоритм для построения цепочек гомологичных

| консервативных последовательностей. Алгоритм реализован в виде интерактивной

программы "Оуэн" (названной в честь английского зоолога, предложившего в 1848

году понятие гомология (Owen R., 1848)).

Главы 2 и 3 посвящены применению этого алгоритма и программы "Оуэн" к

сравнительному анализу геномов. В главе 3 проведен анализ пары человек-мышь, а

в главе 2 рассмотрены две относительно близкие нематоды - Caenorhabditis elegans

и C.briggsae. В обоих случаях главный вывод состоит в том, что доля

функционально важной некодирующей ДНК составляет, по меньшей мере, 10%, то

есть значительно больше, чем считалось раньше. Для сравнения, белок-

кодирующие последовательности ДНК составляют до 5% генома человека,

нитроны - 15%, межгенные интервалы - 80%.

Методы построения выравниваний, используемые в современном программном обеспечении

За последнее время было создано и опубликовано множество программ построения выравниваний. К последним относятся Blast (Altshul S.F. et aL, 1997), MUMmer (Delcher AX. et ah, 2002), DBA (Jareborg N. et al,y 1999), GLASS (Batzoglou S. et ah, 2000), WABA (Kent WJ. and Zahler A.M., 2000), Dialign (Morgenstern B. et at.t 1998), PipMaker (Shwartz S. et al, 2000) и OWEN (Ogurtsov A. Y. et al.t 2002). Эти программы используют множество различных алгоритмов для улучшения производительности и уменьшению потребляемых ресурсов. К сожалению, зачастую повышение производительности, на компьютерах с ограниченными ресурсами, возможно только снизив чувствительность работы алгоритмов.

Построение выравнивания (в глобальном или локальном смысле) условно можно разбить на несколько этапов. Сначала строятся участки значимой (меньше некоторого порога вероятности, обычно равного 1%) гомологии. Затем, найденные участки гомологии расширяют насколько это возможно в обоих направлениях, и объединяют с близко расположенными другими гомологиями. Из полученного таким образом множества локальных сходств собирают цепочки, при необходимости заполняя промежутки выравниванием, построенным по принципу Нидльмана — Вунша. Основным требованием для конструирования цепочек является требование коллинеарности гомологичных участков последовательностей, что вполне оправдано (Jareborg N., 1999).

Одним из основных методов, используемых при построении локальных сходств на первом этапе, является /-граммное разложение. Возможен также вариант применения с ним 2-1 фильтра, когда требуется совпадения двух, находящихся рядом нуклеотидов и не требуется совпадение следующего за ними. Тогда, исключив из рассмотрения каждый третий нуклеотид и уплотнив участки последовательностей, получается обычное /-граммное разложение. Этот метод требует фиксированной памяти. Так, полная таблица /-грамм для нуклеотидной последовательности должна быть размером 4, т.е. достаточно большая при / 32. Поскольку длина сравниваемых последовательностей обычно меньше, чем 109(или 415), то значительная часть таблицы является пустой, что делает возможным эффективное применение хеш-таблиц (Кнут Д.Э., 2000).

Второй, конкурирующий с разложением на /-граммы, метод нахождения точных совпадений, - метод суффиксных деревьев. Метод суффиксиых деревьев обычно требует больше памяти и затрат на его построение, поскольку построенное дерево должно содержать все возможные подпоследовательности исследуемых последовательностей, которых может быть N (N-l)/2.

Для продолжения уже построенных локальных сходств широко используется алгоритм, названный "A drop" и предложенный Ч. Чангом (Zang Z. et а/., 1998). Метод заключается в том, что продолжение при некоторых параметрах строится до тех пор, пока его весовая функция не достигнет некоторого порога X, после чего из построенного выравнивания выбирается оптимальное подвыравнивание.

Следующим этапом в построении выравнивания является сбор локальных сходств в цепочки. В большинстве программ этот этап алгоритмически не отличается от построения выравнивания в точечной матрице гомологии с фильтрацией, когда все незначимые сходства отфильтрованы (выброшены), и предполагает применение динамического программирования. Однако к такому подходу имеется несколько возражений. Во-первых, после такой процедуры нельзя достраивать точечную матрицу гомологии, так как включение в нее одного, даже незначительного, сходства может привести к значительному изменению всего результата выравнивания. Второе возражение связано с биологической интерпретацией гомологии, его можно сформулировать в виде вопроса: "Всегда ли цепочка локальных сходств лучше (сильнее) одного конкурирующего с ними сходства, которое лучше каждого присутствующего в цепочке сходства по отдельности?" В этой диссертации предлагается альтернативный способ построения цепочки локальных сходств и проводится его анализ.

И, наконец, заключительным этапом построения выравнивания можно назвать его доводку, а именно, заполнение небольших невыравненных участков между двумя локальными сходствами (для этого вполне годится алгоритм Нидльмана - Вунша) и улучшение самого сходства путем применения алгоритма Нидльмана - Вунша к неплотным его участкам.

Значительно отличаются в разных программах способы графического представления информации о построенных выравниваниях. Как правило, все программы дают возможность получить текстовое представление выравниваний. Однако для графического представления результатов применяют MUM ограммы (MUMver), Рір ьі (PipMaker) наряду с точечными матрицами (Рисунок 4).

Теоретическая оценка значимости построенного безделеционного выравнивания была впервые опубликована в 1990 году в статье С. Карлина и С. Альтшуля (Karlin S. and Altschul S.F., 1990). С. Карлин и С. Альтшуль в своей работе ориентировались на выравнивания аминокислотных последовательностей, хотя полученные результаты применяются и для нуклеотидных последовательностей. Для этого вместо двух коэффициентов — премии за совпадение и штрафа за несовпадение - вводится, так называемая "матрица замен", построенная следующим образом: на ее главной диагонали расположены элементы - значение премии за совпадение (обычно +1), а элементы вне главной диагонали -значение штрафа за несовпадение (-1). Следует заметить, что в матрице замен можно назначить различные штрафы за транзиции и трансверсии.

Неформальный обзор подхода к разрешению конфликтов

Так как все современные клетки произошли от общего предка (Албертс Б. и др., 1994), участки сходств могут быть найдены между любыми двумя геномами. Однако степень сходства зависит от эволюционного расстояния. Порядок генов слабо консервативен в филогенетически далеких геномах, несмотря на сильную консервацию внутри ортологичных генов (Wolf Y.I. et al., 2001). Сравнение таких геномов, в основном, означает сравнение неупорядоченного набора закодированных в них белков.

И наоборот, порядок ортологичных генов частично сохранен между филогенетически близкими геномами. В частности, области обширной коллинеарности существуют в геномах всех млекопитающих (Venkatesh В. et al, 2000) и всех цветковых растений (Eckardt N.A., 2001). Таким образом, экзоны, кодирующие белок, составляют только меньшую часть генома многоклеточных эукариот, эти геномы могут быть сравнены путем выравнивания их длинных коллинеарных областей (Miller W., 2001). Нахождение таких областей является важной задачей (Hannenhalli S. and Pevzner P.А., 1999; ZafarN. et al., 2001).

Степень сходства между коллинеарными областями умеренно похожих геномов различается. Очень похожие сегменты чередуются с сегментами, обладающими незначительным сходством (Jareborg N. et al, 1999). Поэтому, порядок генов более консервативен, чем многие нуклеотидные сайты. Сравнение таких геномов (например, человека и мыши) лучше всего проводить в терминах множества локальных сходств, а некоторые области оставлять не выравненными (Schwartz S. et aL, 2000; Miller W., 2001). В противоположность, для пары очень похожих геномов, таких как человек и шимпанзе, глобальное выравнивание имеет больший смысл (например, Kent WJ. and Zahler А.М., 2000).

Локальные сходства между ортологичными областями геномов с обширной коллинеарностью также в основном коллинеарны (последовательны, неконфликтны), то есть следуют в одинаковом порядке в обоих геномах (Schwartz S. et al., 2000). Другими словами, макроколлинеарность обычно заключает в себе микроколлинеарность (Rossberg М. et а\.у 2001), потому, что скорость расхождения быстро эволюционирующих областей геномов превышает скорость процессов, разрушающих микроколлинеарность, таких как эволюция в результате дупликаций, инверсий, перестановок, и конвергенции. С биологической точки зрения ортологичные локальные сходства соответствуют единице функционирования и, тем самым, являются консервативными (Shabalina S.A. et al.% 2001). На практике, если рассмотреть все возможные локальные сходства между двумя длинными последовательностями, обычно возникают многочисленные конфликты. Большинство конфликтов возникает по причине сходства транспозонов и микросателлитов разбросанных случайно, которые, впрочем, можно распознать и замаскировать (Miller W., 2001).

Хотя общее сходство между двумя макроколлинеарными участками геномов могут быть представлены эволюционно истинной" цепочкой микроколлинеарных локальных сходств между их ортологичными сегментами, нахождение локальных сходств, которые принадлежат этой цепочке нетривиально. В этой диссертационной работе исследуется задача построения цепочки локальных сходств, а процедура нахождения индивидуальных локальных сходств (см. например, Smith T.F. and Waterman M.S., 1981; Ратнер B.A., 1985; Lipman D.J. and Pearson W.R., 1985; Миронов АЛ. и Александров Н.Н., 1988; Altschul S.F. et al, 1997; Zhang Z. et aL, 1998; Arslan A.N. et al., 2001) рассматривается как параметр.

Для построения цепочки локальных сходств необходимо разрешить все конфликты путем удаления нескольких конфликтующих локальных сходств или их частей. С. Шварц (Schwartz S. et al., 2000) описал два метода нахождения "истинной" цепочки локальных сходств, оба они создают цепочку оптимальную в целом, или, другими словами, максимизирующую глобальную оценочную функцию. В этой диссертационной работе предлагается принципиально другой подход. Этот подход не создает оптимальную в целом цепочку, а напротив, разрешает каждую пару конфликтующих сходств в пользу более сильного локального сходства. В этой работе алгоритм представлен в терминах сравнения двух последовательностей, и созданный на его основе программа "Оуэн" (Ogurtsov A.Y. et aly 2002) в настоящее время работает с двумя последовательностями, хотя множественное выравнивание трех и более последовательностей может быть построено аналогичным способом.

Предлагаемый простой, иерархический подход основан на том наблюдении, что профиль сходства длинных коллинеарных участков умеренно похожих геномов значительно изменяется от участка к участку. Так, между соответствующими ортологичными функциональными сайтами степень сходства часто лучше средней, а части глобального выравнивания, являющиеся значимыми, покрывают только малую часть последовательности.

Между значимыми частями выравниваний сходство соответствующих участков последовательностей мозаично, и построение блоков геномных выравниваний есть нахождение локальных сходств с различными длинами, многие их которых индивидуально статистически значимы. Пара локальных сходств в таких блоках часто вступает в конфликт, вследствие того, что событие, вызвавшее нарушение микроколлинеарности, возникло во время эволюции сравниваемых геномов от общего предка (рис. 5).

Во-первых, микроколлинеарность могла быть нарушена во время локальной конвергентной эволюции (или по-другому вставки) в один геном повторяющейся последовательности, которая также присутствует во втором геноме, но в другом месте. В этом случае одно из конфликтующих сходств не имеет ортологичной последовательности и профиль ортологии может по-прежнему представлять цепочку. Во-вторых, микроколлинеарность может быть нарушена в результате локальной перестановки сегментов в одной или обеих последовательностях (рис. 5а) или небольшой дупликации (рис. 56). В этом случае сходства между ортологичными участками не формируют цепочку.

Достоверность индивидуального сходства и цепочки сходств

В первом случае конвергентная эволюция последовательностей вряд ли сделает их достаточно похожими, следовательно, ортология после такой эволюции вероятнее всего отражается сильнейшим из конфликтующих сходств. Вставка же повтора может привести к сильному и при этом неортологичному сходству, поэтому необходимо замаскировать повторы на первых этапах сравнения. Однако даже в этом случае сходство ортологичных участков может оказаться сильнее всех остальных неортологичных сходств, конфликтующих с ним. В этом случае только попарное разрешение конфликтов построит "истинную" цепочку сходств (рис. 6).

Во втором случае, когда коллинеарность нарушена перестановкой частей одной последовательности, обе ее части являются ортологами, и, поэтому, логично было бы из двух конфликтующих участков сходства оставить участок, образованный более длинной частью. Учитывая одинаковый уровень дивергенции частей одной последовательности, более длинная часть должна формировать выравнивание с более сильным уровнем сходства. В случае нарушения коллинеарности вследствие небольшой дупликации трудно сказать, какое из сходств должно остаться в цепочке, а какое - очищено. Очевидно, имеет смысл сохранять более сильное сходство.

Таким образом, правило всегда сохранять сильнейшее сходство генетически обосновано в первом случае и не противоречит логике во втором случае. Далее, термин "сильнейшее" будет означать "имеющее более низкую вероятность". "Оуен" также позволяет пользователям разрешать конфликты путем удаления одного или нескольких конфликтующих локальных сходств (Ogurtsov A.Y. et ai, 2002).

Можно сформулировать два основных принципа нахождения 4истинной" цепочки локальных сходств: (1) Все конфликты между статистически значимым сходством и любым количеством слабых сходств решается в пользу значимого. Таким образом, сходства, не конфликтующие со всеми более сильными, всегда включаются в цепочку. (2) Принцип 1, примененный не к построенным сходствам, а к достраиваемым, означает фрактальность, т.е. позволяет достраивать сходства в промежутках цепочки. Это правило более важно потому, что сходства могут быть статистически незначимыми, когда мы сравниваем две последовательности длиной 107 каждая, и могут стать значимыми (или же могут быть найдены), если длины последовательностей уменьшить до 103. Таким образом, более сильные сходства создают статистическую поддержку менее сильным сходствам, неконфликтующим сними.

Назовем цепочку локальных сходств, построенную с помощью этих принципов, "основной" цепочкой и будем считать, что она близка к эволюционно истинной цепочке, отражающей ортологию. Начнем построение "основной" цепочки с самого сильного сходства, затем добавим к нему сильнейшее неконфликтующее с ним сходство, и т.д. Алгоритмически разрешение конфликтов попарно решает две задачи.

Во-первых, можно применить иерархический алгоритм для построения "основной" цепочки из любого множества конфликтующих сходств. Во-вторых, можно создавать эти множества иерархически, т.е. начать с построения сильных сходств и разрешить конфликты между ними, затем последовательно просматривать незаполненные участки для нахождения менее сильных сходств и т.д. Таким образом, можно избежать требующего времени просмотра всей точечной матрицы гомологии при построении менее сильных сходств. Подобные алгоритмы в литературе обычно называют "жадными .

В этом разделе вводится терминология, необходимая для определения "основной" цепочки локальных сходств между последовательностями U и V, и описывается алгоритм ее построения. Участок (сегмент) последовательности U (V) начинающийся с позиции Ь и заканчивающийся позицией е обозначается как

Сходством Нмежду последовательностями {/и Vназывается пара сегментов U[bh еі] и V[b2, erf вместе с их выравниванием А1(Я) и его весом Score(#). Эти сегменты также называются U-областъю и V-областъю сходства, и обозначаются Domain(#, V) (Боташ(Я, V)). Началом и концом (/-области сходства Я являются Beg(H, U) и ЕпоХД U)t соответственно, аналогичные обозначения используются для F-области.

Пусть Н есть сходство между U[bj, в]] и V[b2, ег] и G является сходством ЩсьЛ\ и V[c2,f2], где [chfi\ - фрагмент [b]t е{\ n[c2,f2] - фрагмент {Ъъ е2]. Сходство G называется подсходством Я, если A\(G) является подвыравниванием А1(Я), т. е. если A1(G) устанавливает такое же соответствие между буквами из U[c}if{\ и У[с2,/2] как и А1(Я).

Сходство Н} предшествует сходству Н2 (обозначение Hi Н2), если U-область Я/ предшествует {/-области Н2 и К-область Н} предшествует Г-области Н2, т. е. если End(#;, U) Beg(H2, U) и End(Hh V) Начало(Я2, V). Сходства Я/ и Н2 конфликтуют, если ни Ні не предшествует Н2, ни Н2 не предшествует Hj. Два не конфликтующих сходства называются коллинеарными. Цепочкой сходств называется множество сходств {Я/, Н2, ..., Я }, в котором любые два сходства коллинеарны, упорядоченное в соответствии с отношением предшествования.

Сходство Я называется коллинеарным цепочке сходств В = {Н}, Н2 ...» HN}, если оно коллинеарно всем элементам В. Если Я коллинеарно 5, то Я следует за к-тым сходством В (или же Я может быть вставлено между к-тым и (к+1)-вым сходством В), где 1 , к N - 1, если Нк Н ЯА+/. Для k = N это означает Нк Я, а для &= 0 - соответственно Нк Я.

Качество сходства может быть охарактеризовано его вероятностью (или по-другому Р-значением) (Durbin R. et at, 1998; Mott R., 2000). Другими словами, P-значение сходства с весом S внутри U и V является вероятностью того, что две последовательности с такими же длинами и статистическими свойствами как UVLV содержат как минимум одно сходство с весом S или выше. Таким образом, значимые сходства имеют низкое Р-значение (скажем, меньше 1%).

Пусть P(S,Li,L2) есть Р-значение сходства с весом S между последовательностями с длинами Lj и L2. Следует отметить, что 05Р 1 и что P(S, Lh L2) уменьшается с увеличением S и увеличивается с увеличением L\ и L2 (неформально говоря, Р "нормализует" вес S длинами L} и L2).

Распределение филогенетических следов

Также мало вероятно, чтобы филогенетические следы являлись неизвестными кодирующими экзонами по следующим причинам. Во-первых, здесь использовались три различные программы предсказания генов и ни одна последовательность с предсказанным кодирующим экзоном в выборку не включалась. Во-вторых, выравнивания межгенных интервалов не имели характерную структуру выравнивания кодирующих экзонов: а именно, сходство нуклеотидных последовательностей филогенетических следов превышало сходство аминокислотных последовательностей, полученных путем трансляции нуклеотидных последовательностей, и, выравнивания содержали участки делеций, не кратные трем. В-третьих, отношение транзиций к трансверсиям в кодирующих последовательностях обычно выше единицы (Волькенштейн М.В., 1976; Mullikin J.C. et aL, 2000; Wang D.G. et aL, 1998), а отношение в исследуемых филогенетических следах равнялось 0,81 и значимо ниже единицы (t — 4,7, Р 0,001). И, наконец, средняя длина филогенетических следов составляет 61,8 нуклеотида, что значимо короче, чем средняя длина кодирующего экзона в 99,7 нуклеотида для C.elegans (t = 48,3, Р 0,001) (Deutsch М. and Long М., 1999).

Филогенетические следы могу быть экзонами, что является вполне возможным для Caenorhabditis. Показано, что приблизительно 70% генов в C.elegans могут иметь альтернативную форму сплайсинга (Blumenthal Т., 1995; Huang Т. et aL, 2001). При построении выборки межгенных интервалов 56% потенциальных ортологичных межгенных интервалов было выброшено, так как требовалось одинаковое предсказание трех программ нахождения генов. Многие из отсеянных участков могли содержать повторяющиеся последовательности, поскольку они обычно неточно предсказываются программами. Также на межгенные интервалы накладывались EST для того, чтобы избежать возможного попадания альтернативно сплайсирующихся последовательностей в выборку. Также межгенные интервалы были просмотрены на наличие в них канонического TTTCAG сплайсинг акцептора за 5 EST (Blumenthal Т., 1995), были найдены всего три потенциальных сайта сплайсинга из 14 рассмотренных 5 EST. Эти данные предполагают, что до 21% данных могут иметь альтернативные формы сплайсинга. Однако самый длинный известный такой участок имеет длину в 400 нуклеотидов (Blumenthal Т., 1995; Huang Т. et aL, 2001). Если убрать из выборки межгенные интервалы с длиной менее 500 нуклеотидов, то результат значимо не изменится, подтверждая, что возможные наличие альтернативной формы сплайсинга на результате не отражается, даже если и присутствует.

Некоторые филогенетические следы в нетранслируемых областях могут соответствовать некодирующим экзонам, присутствующих у высших эукариот. Некодирующие экзоны часто плохо предсказываются программами поиска генов (Wong G.K.S. et at, 1998), однако они являются важной частью в регуляции трансляции. Такие экзоны транскрибируются, но не транслируются и, тем самым, могут быть филогенетическими следами.

Второй функцией филогенетических следов в нетранслируемых областях, возможно, является участие филогенетических следов в образовании вторичной структуры мРНК. В частности, структурные элементы петля-шпилька Y-типа и псевдоузлы могут быть важны в IRES элементах, где регулирование трансляции происходит без инициатора тРНК (Воронина А.С., 2002; RajBhandary U.L., 2000; Le S.Y. and Maizel J.V., 1997). Другими словами, сохранение некоторых РНК структурных элементов таких, как петля-шпилька Y-типа и псевдоузлы, могло производить группирование филогенетических следов, как было отмечено ранее. Есть также несколько примеров участков последовательностей, богатых нуклеотидами Г и Ц, связанных с регулированием трансляции на 5 концах генов (Kozak М-, 1991), что согласуется с наблюдаемым профилем увеличенного содержания нуклеотидов Г и Ц в областях, предшествующих 5 концам генов.

Филогенетические следы могут быть РНК генами (Erdmann V.A. et al.t 2001). Существует также прямое свидетельство того, что филогенетические следы в нетранслируемых областях могут быть регуляторними элементами, такими как промоторы или энхансеры, и, видимо они и составляют основную часть филогенетических следов в нетранслируемых областях. Прямое соответствие на уровне последовательности было найдено между филогенетическими следами и экспериментально определенными регуляторными элементами в геноме Drosophila (Dickinson W.J., 1991), а также между консервативными участками филогенетических следов в выравниваниях межгенных интервалов геномов мыши и человека и экспериментально определенными регуляторными мотивами (Kondrashov A.S. and Shabalina S.A., 2002). Отношение частот нуклеотиднов для филогенетических следов в этом исследовании косвенно указывает на регуляторную функциональность. Отношение транзиций к трансверсиям в филогенетических следах очень близко к экспериментально определенным регуляторным элементам (Shabalina SA. et al., 1991), когда высокое содержание нуклеотидов Г и Ц в филогенетических следах сравнивалось с остальной частью межгенного интервала (Brown А.М. and Lemke G., 1997; Butta N. et al., 2001). Суммируя вышесказанное, можно предположить, что филогенетические следы несут в большинстве регуляторную функцию транскрипции и/или трансляции.

Оценка среднего уровня селективного ограничения в межгенных интервалах составила 15%, и очень близка к полученным оценкам в некоторых других исследованиях. Так, например, эта оценка согласуется с оценкой для C.elegans и C.briggsae, равной 18%, полученной для небольшого количества межгенных интервалов с более длинной средней длиной (3000 нуклеотидов) (Shabalina S.A. and Kondrashov A.S., 1999). Эта оценка похожа на оценку селективного ограничения, полученную для геномов мыши и человека, 19% - для мыши и 15% - для человека (Shabalina SA. et al., 2001), и геномов Drosophila, 22% - 26% (Bergman CM. and Kreitman M., 2001). Средний уровень селективного ограничения 15% - 30% в межгенных интервалах оказывается константой в сравнениях различных эукариот и также близок к уровню селективного ограничения в интронах (Shabalina SA. and Kondrashov A.S., 1999; Bergman CM. and Kreitman M., 2001). Распределение частот филогенетических следов в C.elegans и C.briggsae сравнивалось с аналогичным распределением для геномов мыши и человека (Shabalina S.A. et al., 2001). В Caenorhabditis филогенетические следы наиболее часто расположены в 3 нетранслируемых областях, и реже 5 нетранслируемой области. Частота филогенетических следов падает за 3 нетранслируемой областью, однако, является почти константой внутри и вне 5 нетранслируемых областей. Сохранение постоянной частоты филогенетических следов с увеличением расстояния от 5 конца гена в 5 нетранслируемой области может означать, что важные позиции для 5 регуляции являются вариабельными и, тем самым, уникальными в межгенных интервалах. В противоположность, в 3 нетранслируемых областях позиции могут быть более консервативны для 3 регуляции. В сравнении межгенных интервалов мыши и человека основная часть распределения находится внутри трансляционных границ как для 3 так и для 5 нетранслируемых областей, и падает при удалении от границы гена (Shabalina S.A. et al., 2001). Это можно объяснить тем, что регуляторные элементы расположены около трансляционных границ в 5 нетранслируемых областях чаще у млекопитающих, чем у нематод, потенциально влияя на возникновение фундаментальных различий регуляции в силу важности точных позиций регуляторных элементов в этих двух группах.