Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе Панчин, Александр Юрьевич

Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе
<
Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Панчин, Александр Юрьевич. Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе : диссертация ... кандидата биологических наук : 03.01.09 / Панчин Александр Юрьевич; [Место защиты: Ин-т проблем передачи информации им. А.А. Харкевича РАН].- Москва, 2011.- 192 с.: ил. РГБ ОД, 61 12-3/28

Содержание к диссертации

Введение

Глава 1 - Анализ загрязнений транскрипционных данных человека 31

1.1 Введение 31

1.2 Методы

1.2.1 Создание коллекции «мусорных » EST 34

1.2.2 Полимеразная цепная реакция (ПЦР) 35

1.3 Результаты и обсуждение 37

1.3.1 Человеческие EST, не имеющие сходства с последовательностями из генома человека 37

1.3.2 Загрязнения в базе данных EST человека 40

1.3.3 Растительные EST в базе данных EST человека 42

1.3.4 Анализ загрязнений рибосомальными мРНК в базе данных EST человека 44

1.3.5 Экспериментальный поиск «пропущенных» генов человека 45

1.4 Выводы 46

Глава 2 - Сравнительных анализ частот нуклеотидных слов в геноме человека, а также в геномах других эукариот 48

2.1 Введение 48

2.2 Методы 49

2.2.1 Выборка анализируемых геномов 49

2.2.2 Разорванные слова 52

2.2.3 Частотность 52

2.2.4 Статистические методы для подсчета ожидаемых частот слов .53

2.2.5 Минимальная частотность 55

2.3 Результаты и обсуждение 55

2.3.1 Сравнение методов для подсчета ожидаемых частот слов 55

2.3.2 Однобуквенные слова 56

2.3.3 Недопредставленные двухбуквенные слова 57

2.3.4 Перепредставленные двухбуквенные слова 60

2.3.5 Недопредставленные трехбуквенные и четырехбуквенные словабО

2.3.6 Перепредставленные трехбуквенные и четырехбуквенные слова 61

2.3.7 Пятибуквенные, шестибуквенные и семибуквенные слова 62

2.3.8 Сравнение с маскированными геномами 63

2.3.9 Сравнение с кодирующими последовательностями 63

2.4 Выводы 64

Глава 3 - Исследование мутационных контекстов в геноме человека „.66

3.1 Введение 66

3.2 Методы

3.2.1 Критерии включения полиморфизмов 68

3.2.2 Мутационный контекст и подконтекст 69

3.2.3 Контраст 69

3.2.4 Минимальный контраст 70

3.2.5 Мутационное смещение 70

3.2.6 Статистическая значимость 71

3.3 Результаты 71

3.4 Обсуждение 78

3.5 Выводы 83

Глава 4 - Исследование эволюции недавно дуплицированных генов человека 84

4.1 Введение 84

4.2 Методы

4.2.1 Составление выборки семейств паралогичных генов человека... 87

4.2.2 Подсчет dN и dS 88

4.2.3 Исследование асимметрии эволюции паралогов 88

4.2.4 Сравнение с ортологами 89

4.2.5 Анализ GOstat !90

4.2.6 Транскрипционные данные 90

4.2.7 Анализ PolyPhen 90

4.3 Результаты 90

4.3.1 Оценка индивидуальных значений dNn dS 90

4.3.2 Индивидуальные значения dN и dS паралогичных генов 93

4.3.3 Асимметрия в несинонимичных сайтах 95

4.3.4 Асимметрия в синонимичных сайтах -. 100

4.3.5 Анализ программой PolyPhen 100

4.3.6 Анализ с помощью базы данных Pride 1 4.4 Обсуждение 103

4.5 Выводы 106

Глава 5 - Исследование эволюции сайтов сплайсинга в семействах

паралогичных генов человека 107

5.1 Введение 107

5.2 Методы 108

5.2.1 Составление выборки семейств паралогичных генов 108

5.2.2 Определение сайтов сплайсинга 109

5.2.3 Составление выравниваний окрестностей сайтов сплайсинга... 109

5.2.4 Построение деревьев 110

5.2.5 Реконструкция предковых состояний 110

5.2.6 Вычисление веса сайта 1 5.3 Результаты и обсуждение 110

5.4 Выводы 137

Глава 6 - Метилированные цитозины реже мутируют в CpG островах 138

6.1 Введение 138

6.2 Методы 1 6.2.1 Метилированные цитозины 142

6.2.2 Полиморфизмы 142

6.2.3 Направленные замены 142

6.2.4 CpG острова 142

6.2.5 Составление контрольных выборок CpG динуклеотидов 142

6.2.6 Оценка частоты мутаций 5mCpG TpG 144

6.2.7 Частоты аллелей 144

6.2.8 Частота рекомбинаций 145

6.2.9 Отрицательный отбор в генах 145

6.3 Результаты 146

6.3.1 Частота направленных мутаций 5mCpG TpG понижена в CpG островах 146

6.3.2 Распределение частот аллелей в CpG островах смещено в сторону редких аллелей 147

6.3.3 Смещенная генная конверсия не объясняет снижение частоты

мутаций 5mCpG TpG в CpG островах 148

6.3.4 Отрицательный отбор не может объяснить снижение частоты мутаций 5mCpG TpGB CpG островах 151

6.3.5 Данные по полиморфизмам подтверждают сниженную частоту 5mCpG TpG мутаций в CpG островах 1 6.4 Обсуждение 156

6.5 Выводы 159

Выводы 161

Благодарности 163

Список публикаций по теме диссертации 164

Список литературы

Введение к работе

Актуальность проблемы.

Активное развитие технологий секвенирования генетических последовательностей сделало возможными широкомасштабные проекты по чтению геномов. В 1995-ом году был опубликован первый полный геном - геном гемофильной палочки Haemophilus influenzae, а уже в 2001 году - геном человека. На сегодняшний день прочитаны геномы представителей практически всех известных крупных таксономических групп эукариот. За последние десять лет разработаны такие методы, как SOLiD, метод пиросеквенирования (технология 454), SOLEXA и Ion Torrent. Интенсивно разрабатываются методы секвенирования последовательностей ДНК, позволяющие анализировать одиночные молекулы, например, технологии Helicos и SMART. Стали доступны не только последовательности генов и полных геномов огромного количества живых организмов, но и, в ряде случаев, данные по полиморфизмам в этих последовательностях, данные по транскрипции (например, EST - expressed sequence tags), сплайсингу, наличию белковых продуктов, функциональной аннотации генов, а также профили метилирования ДНК в различных тканях и типах клеток.

Геном человека является удобной моделью для анализа закономерностей эволюции и мутагенеза благодаря высокому качеству сборки и постоянному притоку большого количества сопряженных данных. Наряду с полностью прочитанным геномом человека, также прочитаны геномы ископаемых представителей рода Homo: неандертальца Homo neanderthalensis и Денисовского человека Denisova hominin, а также геномы родственных приматов, таких как шимпанзе Pan troglodytes, орангутанов Pongo abelii, Pongo pygmaeus и макаки Macaca mulata. Большой интерес представляют как закономерности точечного мутагенеза (например, зависимость мутационных процессов от нуклеотидного контекста), так и закономерности эволюционных событий большего масштаба, например, дупликаций генов и последующего изменения их моделей сплайсинга.

Цели и задачи исследования:

Целью данного исследования является выявление закономерностей эволюции генетических последовательностей человека. Особенное внимание здесь уделено

закономерностям точечного мутагенеза и эволюции генов после дупликаций. При этом были поставлены следующие задачи:

Создание коллекции "мусорных" фрагментов транскриптов (EST) человека. Анализ источников загрязнений.

Анализ встречаемости 1-7 нуклеотидных слов в 139 полных геномах эукариот.

Установление предковых состояний одиночных нуклеотидных полиморфизмов в геноме человека и поиск ранее не описанных мутационных контекстов, в которых наблюдается избыток или недостаток мутаций.

Анализ эволюции генов человека, возникших в результате недавних дупликаций.

Анализ закономерностей эволюции сайтов сплайсинга в генах человека после дупликаций.

Исследование взаимосвязи между степенью метилирования цитозинов и частотой CpG>TpG мутаций в CpG островах и в остальных областях генома человека. Научная новизна и практическая значимость.

В ходе данной работы мы использовали наиболее современные (на момент исследования) базы данных и провели анализ, который раньше был невозможен в силу недоступности или недостаточности экспериментальных данных. Так, в сравнительный анализ частот нуклеотидных слов в геномах эукариот нами было включено 139 полностью прочитанных геномов (включая геном человека), покрывающих значительную часть филогенетического древа эукариот. Анализ подобного масштаба позволил выявить ряд интересных закономерностей, которые могут помочь дальнейшему исследованию механизмов мутагенеза.

Для анализа частот мутаций в геноме человека мы использовали выборку из нескольких миллионов полиморфизмов в геноме человека, что позволило оценить частоты мутаций в мутационных контекстах длиной до 4-х букв, исключив при этом возможный статистический шум. Эти мутационные данные, наряду с появившимися совсем недавно данными по полногеномному анализу метилирования в эмбриональных стволовых клетках человека, были также использованы для исследования причин пониженной частоты CpG>TpG мутаций в CpG островах.

Новизна исследований, посвященных эволюции недавно дуплицированных генов человека, прежде всего, заключается в предложенном методологическом подходе - мы использовали семейства паралогичных генов для реконструкции предковых состояний в узлах филогенетических деревьев. Нам удалось подтвердить, что после дупликации две копии гена в значительной части случаев накапливают замены с разной скоростью и показать, что в быстро эволюционирующих копиях недавно дуплицированных генов человека среди замен, меняющих кодируемый белок, перепредставлены замены, влияющие на функцию белкового продукта. Нами также было показано, что после дупликаций генов появление сайтов сплайсинга преобладает над исчезновением, а также, что конститутивные сайты сплайсинга реже становятся альтернативными, чем наоборот.

Результаты исследований могут быть полезны в области медицинской генетики.

Публикации и апробация работы.

По материалам диссертации опубликовано 4 статьи в международных
рецензируемых научных журналах, индексируемых в PubMed (две в журнале Journal of
Bioinformatics and Computational Biology, одна в BMC Bioinformatics и одна в Biology
Direct). Материалы работы были представлены на конференциях: Московской
конференции по вычислительной молекулярной биологии (МССМВ 2007; МССМВ 2009;
МССМВ 2011, Москва), конференции "Информационные технологии и системы" (ИТиС
2008; ИТиС 10; ИТиС 11, Геленджик; ИТиС 2009, Москва), "Ломоносов-2008" (Москва) и
на Русско-Швейцарском семинаре "Сравнительная геномика и разнообразие

транскриптома" (Женева, 2010).

Структура и объем работы.

Диссертация изложена на 192 страницах машинописного текста и содержит следующие разделы: введение, обзор литературы, а также шесть глав, каждая из которых содержит свое введение, методы, результаты, обсуждение (в главах 1, 2 и 5 результаты и обсуждение объединены вместе) и выводы. В конце приведены выводы, а затем список литературы. Материал иллюстрирован 35 рисунками. В работе 15 таблиц. Библиографический указатель включает 238 ссылок.

Полимеразная цепная реакция (ПЦР)

Основными источниками мутаций являются излучение, вставки провирусов или мобильных элементов [22, 23], действие мутагенных химических агентов, а также ошибки при репликации ДНК [24]. В некоторых случаях процесс мутагенеза инициируется самой клеткой, например, при рекомбинации в предшественниках лимфоцитов человека [25] - процессе необходимом для нормального развития специфического иммунитета, для создания разнообразия антител. У многоклеточных организмов таких как человек выделяют мутации в соматических клетках и мутации в клетках зародышего пути. Первые могут приводить к неблагоприятным последствиям для конкретного индивида, например, к развитию раковых заболеваний [26, 27], но не наследуются. Наследоваться могут только мутации, происшедшие в клетках зародышего пути (например,- в гаметах или их предшественниках, в том числе в некоторых эмбриональных стволовых клетках и гаметогониях).

Мутации играют огромную роль в эволюции живых организмов, создавая в популяции генетическое разнообразие, необходимое для эволюции под действием естественного отбора. Например, высокая частота мутаций в геномах вирусов делает более вероятным появление штаммов, способных обойти-защитные механизмы хозяина, в том числе иммунную систему человека [28] [29-31].

Мутации, в результате которых один нуклеотид меняется на другой, называют точечными. Также бывают вставки (например, в результате встраивания транспозона или провируса в геном клетки) и делеции различных размеров. Встречаются и крупные хромосомные перестройки. К ним иногда относят дупликации генов (амплификация), очень крупные делецииг (ведущие к утрате целых генов), объединение различных последовательностей ДНК, иногда с образованием новых генов на стыке, хромосомные инверсии. Известны примеры полногеномных дупликаций [32, 33]. Считается, что полногеномная дупликация случалась дважды в ходе эволюции позвоночных. Один хорошо изученный пример крупной перестройки генома — появление второй хромосомы человека в результате объединения двух хромосом в процессе эволюции [34]. Однако в данной работе нас будут больше интересовать точечные мутации и дупликации. Это связано с тем, что такие события происходят сравнительно часто, что облегчает их систематический анализ и поиск закономерностей. Влияние соматических и наследуемых мутаций

Мутации в соматических клетках являются одной из» основных причин возникновения раковых заболеваний [35]. Некоторые наследуемые мутации также могут увеличивать риск появления различных заболеваний, в том числе раковых. Например, мутации в гене супрессора опухолей человека АРС приводят к очень высокой вероятности развитияч рака% прямой кишки [36]. Наследуемые мутации нередко сказываются на приспособленности живых организмов. Создаваемые таким образом отличия в приспособленности необходимые для эволюции под действием естественного отбора. Наследуемые мутации могут уменьшать приспособленность носителя - такие мутации называются вредными и они, как правило, удаляются из популяции под давлением отрицательного отбора. Также мутации могут быть нейтральными или полезными. В качестве примера сравнительно недавних полезных мутаций в геноме человека можно привести появление аллеля rs429358(T) в гене аполипротеина Е (сейчас этот аллель самый распространенный в популяции людей). Предковый аллель rs429358(C) (присутствующий в геномах шимпанзе и макаки) в гомозиготном состоянии ассоциирован более, чем с 10-и кратным увеличением риска болезни Альцгеймера по сравнению с гомозиготным rs429358(T) [37].

Эффект мутации зависит как от характера мутации, так и от геномного локуса, где она произошла. К серьезным заболеваниям приводят мутации в функционально важных участках генома, например, в кодирующих участках, сайтах сплайсинга. Например, деления трех нуклеотидов в гене регулятора трансмембранной проводимости при муковисцидозе, ведущая к утрате аминокислоты фенилаланина в позиции 508, как и целый ряд других мутаций в том же гене, приводит к патологии, характеризуемой тяжелыми последствиями для работы органов дыхания и желудочно-кишечного тракта [38]. Часто к серьезным генетическим заболеваниям приводит появление преждевременных стоп-кодонов в генах, кодирующих белки. Такие мутации отвечают примерно за 11% всех генетических изменений, ведущих к наследуемым заболеваниям у людей и около 20% от наследуемых заболеваний, вызванных мутациями одиночных нуклеотидов [39]. Большую долю таких мутаций составляют мутации кодона CGA в стоп-кодон TGA, высокая частота которых связана с высокой вероятностью мутации CG TG в геноме человека предположительно в связи с частым метилированием и последующим дезаминированием цитозина в данном контексте [40, 41]. Упомянутое метилирование CpG динуклеотидов играет важную роль в эпигенетической регуляции [42, 43] и является важной чертой многих живых организмов и объектом активных исследований [44, 45]. Подробнее о метилировании CpG динуклеотидов будет сказано ниже. Таким образом, частоты мутаций, ведущих к серьезным наследуемым патологиям, напрямую связаны с базовыми частотами мутаций в геноме.

Минимальная частотность

В ходе данного исследования рассматривались все полностью прочитанные геномы эукариот, доступные в базах данных http://www.ncbi.nlm.nih.gov/, 4 http://genome.ucsc.edu/. http://www.j gi .doe, gov на июнь 2009-ого года. Ко всем используемым геномам было предъявлено требование, чтобы частоты нуклеотидов и динуклеотидов совпадали с частотами комплементарных нуклеотидов и динуклеотидов (соотношения А/Т 1, G/C 1, AC/GT 1, AG/CT 1, CA/TG 1, GA/TC 1, АА/ТТ 1, CC/GG 1). Эта мера позволяет отсеять плохо прочитанные или собранные геномы. В нашей выборке оказалось 139 полных геномов эукариот.

Мы разбили все геномы на 25 таксономических групп. Ниже приведены все эти группы (выделены жирным шрифтом) и все 139 организмов, чьи геномы мы использовали в данном анализе.

Gnathostomata (Bos taurus, Callithrix jacchus, Canis lupus, Cavia porcellus, Dasypus novemcinctus, Echinops telfairi, Equus caballus, Erinaceus europaeus, Felis catus, Homo sapiens, Loxodonta africana, Macaca mulatta, Monodelphis domestica, Mus musculus, Ornithorhynchus anatinus, Oryctolagus cuniculus, Otolemur garnettii, Pan troglodytes, Pongo abelii, Rattus norvegicus, Sorex araneus, Sus scrofa, Tiipaia belangeri, Gallus gallus, Taeniopygia guttata, Anolis carolinensis, Xenopus tropicalis, Danio rerio, Gasterosteus aculeatus, Oryzias latipes, Takifugu rubripes, Tetraodon nigroviridis), Petromyzontidae (Petromyzon marinus), Cephalochordata (Branchiostoma floridae), Tunicata (Ciona intestinalis), Echinodermata (Strongylocentrotus purpuratus), Arthropoda (Acyrthosiphon pisum, Anopheles gambiae, Apis mellifera, Daphnia pulex, Drosophila ananassae, Drosophila erecta, Drosophila grimshawi, Drosophila melanogaster, Drosophila mojavensis, Drosophila persimilis, Drosophila pseudoobscura, Drosophila sechellia, Drosophila simulans, Drosophila virilis, Drosophila willistoni, Drosophila yakuba, Nasonia vitripennis, Tribolium castaneum), Mollusca (Aplysia californica, Lottia gigantea), Annelida (Capitella sp.), Nematoda (Brugia malayi, Caenorhabditis brenneri, Caenorhabditis briggsae, Caenorhabditis elegans, Caenorhabditis japonica, Caenorhabditis remand, Pristionchus pacificus), Placozoa {Trichoplax adhaerens), Cnidaria {Hydra magnipapillata, Nematostella vectensis), Choanoflagellida {Monosiga brevicollis), Fungi {Aspergillus fumigates, Aspergillus nidulans, Aspergillus niger, Candida albicans, Candida glabrata, Cochliobolus heterostrophus, Debaryomyces hansenii, Eremothecium gossypii, Gibberella zeae, Hypocrea jecorina, Hypocrea virens, Kluyveromyces lactis, Magnaporthe grisea, Myceliophthora thermophila, Mycosphaerella fijiensis, Mycosphaerella graminicola, Nectria haematococca, Neurospora crassa, Neurospora discreta, Neurospora tetrasperma; Pichia stipitis, Saccharomyces cerevisiae, Schizosaccharomyces pombe, Thielavia terrestris, Trichoderma atroviride, Yarrowia. lipolytica, Cryptococcus neoformans, Laccaria bicolor, Melampsora laricis-populina, Phanerochaete chrysosporium, Postia placenta, Schizophyllum commune, Sporobolomyces roseus, Ustilago maydis, Encephalitozoon cuniculi, Mucor circinelloides, Phycomyces blakesleeanus, Batrachochytrium dendrobatidis), Streptophyta {Arabidopsis thaliana, Oryza sativa, Physcomitrella patens, Populus trichocarpa, Selaginella moellendorffii, Sorghum bicolor, Vitis vinifera), Chlorophyta {Chlamydomonas reinhardtii, Chlorella sp, Micromonas 522 S. I. Mitrofanov et al. pusilla, Micromonas sp, Ostreococcus,?. lacimarinus, Ostreococcus sp, Volvox carteri), Alveolata {Cryptosporidium parvum, Plasmodium falciparum, Theileria parva, Paramecium tetraurelia, Tetrahymena thermophila), Bacillariophyta {Phaeodactylum tricornutum, Thalassiosira pseudonana), Dictyosteliida {Dictyostelium discoideum, Dictyostelium purpureum), Heterolobosea {Naegleria gruberi, Giardia lamblia), Isochrysidales {Emiliania huxleyi), Kinetoplastida {Leishmania infantum, Trypanosoma brucei), Pelagophyceae {Aureococcus anophagefferens), Peronosporales {Phytophthora ramorum, Phytophthora sojae), Rhodophyta {Cyanidioschyzon merolae), Entamoeba {Entameoba histolytica). Кроме того, мы проанализировали 33 генома с отфильтрованными повторами (в которых известные повторы и участки малой сложности заменены на буквы N) из баз данных (htxp://www.ncbi.nlm.nih.gov/) и JGI (http://www.jgi.doe.gov ).

Чтобы исследовать состав нуклеотидных слов в кодирующих областях мы воспользовались данными CDS из базы данных EnsEMBL (http://www.ensembl.org/index.htmr). Данные бьши получены для- 35 геномов (тех, что представлены и в EnsEMBL, и в нашей выборке полных геномов).

Минимальный контраст

Чтобы уменьшить влияние естественного отбора на анализ частот мутаций мы использовали одиночные нуклеотидные полиморфизмы (SNP), взятые из участков, которые не принадлежат известным генам, CpG островам и не находятся в 1000 нуклеотидной окрестности от известных генов. Геномные полиморфизмы в популяции людей в большинстве случаев могут быть отнесены к относительно недавним мутациям. Теоретически, часть полиморфизмов могла быть унаследована от общего предка, например, человека и шимпанзе, но доля таких полиморфизмов оценивается как небольшая [168]. Действительно, большинство таких унаследованных полиморфизмов должны быть редкими случаями стабилизирующего отбора в пользу полиморфности позиции в геноме. Таким образом, можно сравнить каждый человеческий полиморфизм с соответствующими ему нуклеотидами в ортологичных геномных последовательностях шимпанзе {Pan troglodytes) и орангутана {Pongo pygmaeus). В случаях, когда в геноме шимпанзе и орангутана обнаружен один и тот же нуклеотид, который совпадает с одним из двух полиморфных вариантов в геноме человека, мы можем определить предковое состояние, т.е. установить направление мутации. Используя этот метод, мы восстановили направление 3,405,095 потенциальных мутаций. Эти мутационные данные можно скачать, по ссылке: http://mouse.belozersky.msu.ru/SNP/. В ходе данного анализа мы использовали картирование полиморфизмов человека на геномы шимпанзе и орангутана, доступное в UCSC Genome Browser [176]. Мы оценили, что такого количества данных достаточно для анализа частот мутаций в мутационных контекстах длинной до четырех нуклеотидов (включительно).

Мы использовали величину, называемую, "контраст" (раздел Методы 3.2.3), чтобы оценить влияет ли добавление конкретного нуклеотида к 5 или 3 концам одно-, двух- или трехбуквенных слов на вероятность определенного типа мутации в конкретной позиции.

Например, по сравнению со средней частотой мутаций из цитозина в тимин (ОТ) в геноме человека, существует избыток в 5.1 раз мутаций из цитозина в тимин, если за цитозином следует гуанин. Мы описываем такой мутационный контекст как {ОТ1, CG} и указываем его контраст, который в данном случае равен 5.1 при сравнении с его подконтекстом {ОТ1, С}. При значениях контраста больших единицы можно говорить об избытке мутаций, в то время как при значениях контраста меньших единицы — о недостатке. Значения контрастов для парьь мутационного контекста {mutpos, W} и подконтекста {mutpos\ W } вычисляются на основании частот слов Pw и PW и числа мутаций, наблюдаемых в контекстах N{mutp0S) w} и N{mutp0s\ w) (раздел Методы 3.2.3). Здесь pos означает позицию в слове, в котором происходит мутация, a mut - тип мутации, например, ОТ или A G. Мы предлагаем оценивать отклонения частот мутаций двумя значениями контраста: "смещение частоты мутаций" и "минимальный контраст". Значение минимального контраста — это наиболее близкое к 1 значение контраста; достигаемое при сравнении контекста со всеми возможными; его подконтекстами. Например, контекст {С Т2, ACG} имеет три подконтекста: {ОТ2, АС}, {Є Т1, GG} и {С Т1, Є} со значениями контраста 5:08, 1.08 и 5.48; соответственно. 1.08 - это значение минимального контраста для контекста {С Т2, AGG}. Значения контраста, полученные по отношению .к однобуквенному подконтексту, например, к {С Т1, С}, называются «смещением частоты мутаций: Значение 5.48 —это смещение частоты мутаций для контекста, {С Т2, ACG} потому, что есть избыток в 5:48; раз С Т мутаций во второй1 позиции слова AGG; по-сравнению со средней частотой С Т мутаций в геноме человека. Значение смещения» частоты мутаций отражает избыток (или недостаток) мутаций, в данном контексте. Значение минимального контраста5 отражает избыток (или недостаток) мутаций в данном контексте, который не может быть объяснен избытком (или; недостатком) мутаций; в каком-либо». из его подконтекстов, таким образом, отражая влияние всего контекста. Для двухбуквенных контекстов, таких как {С Т1, GG}, значение минимального контрастасовпадает со значением смещения частоты мутаций. На Рисунке 5 изображено распределение значений минимального контрастам и смещений частот мутаций: Данный анализ не позволяет нам установить, на какой из двух цепей ДНК произошла мутация, поэтому, каждый?мутационный контекст имеет комплементарный контекст со схожими свойствами: точки расположены на ,. диаграмме парами. Кроме большого кластера, включающего большинство мутационных контекстов можно увидеть еще три отчетливых кластера. Как и ожидалось, кластер, характеризующийся наибольшими значениями смещения частоты мутаций и минимального контраста, представлен контекстом {С Т1, CG} и комплементарным контекстом {G A2, CG}. Второй кластер характеризуется малыми значениями минимального контраста, но большими значениями смещения частоты мутаций - он состоит из всех таких и только таких контекстов, для которых {ОТ1, CG} или {G A2, CG} являются подконтекстами. Наконец, есть еще один кластер, который выделяется как за счет больших значений смещения частот мутаций, так и больших значений минимального контраста. Он содержит три пары контекстов: {Т С2, ATTG} и комплементарный ему {A G3, СААТ}; {Т С2, ATAG} и {A G3, СТАТ}; и {А С1, АСАА} и {T G4, TTGT}. Кроме этого можно заметить, что частоты мутаций в геноме варьируют в широком диапазоне в зависимости от контекста и могут отличаться более чем в 20 раз.

Теоретическое предсказание распределений смещений частот мутаций и минимальных контрастов представляет определенную сложность из-за зависимости контекстов: одна мутация из набора данных рассматривается во всех возможных контекстах размером 1-4 нуклеотида, включающих эту мутацию, и эти контексты явно не независимы. Действительно, не ясно каким образом можно описать распределение смещений частот мутаций (Рисунки 6А и 6Б). Зато в диапазоне значений 0.7 - 1.2 распределение минимальных контрастов хорошо описывается нормальным распределением со средним 0.99 и дисперсией 0.12 (Рисунок 6В). В диапазоне 1.2-5.1 эти распределения существенно отличаются от нормального распределения (Р 0.001; Рисунок 6Г). Если предположить, что мутации происходят случайно и, что нормальное распределение отражает распределение значений минимального контраста, то более сотни мутационных контекстов размером 1-4 нуклеотида, возможно, значимо сказываются на частоте мутаций. Восемь описанных мутационных контекстов — это самые выделяющиеся случаи (Таблица 2).

Индивидуальные значения dN и dS паралогичных генов

Существует ряд научных публикаций, в которых приведены свидетельства в пользу того, что некоторые синонимичные сайты находятся под давлением естественного отбора. Этот отбор может быть связан с различными концентрациями транспортных РНК [201], кинетическими факторами трансляции [202], точностью трансляции [200, 203], факторов сворачивания белков [204], которые зависят от частоты использования кодонов [205, 206], с наличием энхансеров и сайленсеров в экзонах [207], а также с другими пока не изученными факторами. Несмотря на это, нам не удалось найти свидетельств асимметрии в распределении синонимичных замен между парами паралогичных генов человека. Синонимичные замены распределены между генами гораздо более равномерно, чем замены, ведущие к изменению аминокислот в белке. Хотя возможно, что некоторые синонимичные позиции в исследованных нами генах находятся под действием отбора, этот отбор скорее всего существенно более слабый, чем отбор в несинонимичных сайтах для генов, эволюционирующих после недавней1 дупликации. В целом, индивидуальные значения dS могут быть рассмотрены как оценка времени, прошедшего с момента последней дупликации, в то время как dN/dS может служить мерой естественного отбора.

Как показано на Рисунке 10 большинство генов из паралогичных семейств находится под действием отрицательного отбора, но сила этого отбора существенно меньше, если в истории гена наблюдается совсем недавняя дупликация. Это утверждение справедливо как для одноэкзонных, так и для многоэкзонных генов. Как для отдельных генов, так и для генных семейств: молодые семейства эволюционируют, в среднем, быстрее. Таким образом, дуплицированные гены меняются быстрее сразу после дупликации. Эти наблюдения согласуются со спекулятивным эволюционным сценарием, описанным ниже.

Сразу после дупликации, давление отрицательного отбора ослабевает, и пары генов начинают быстро меняться, возможно, до тех пор, пока оба гена не обретут важные, но различные, физиологические значения. В этот момент происходит восстановление отрицательного отбора - количество несинонимичных замен падает. Дуплицированные гены, не несущие полезных функций, вероятней всего утрачиваются в течение короткого времени после дупликации, а механизмы, вроде тех, что описаны выше, указывают на возможные пути фиксации полезных дупликаций. Наши исследования хорошо согласуются с некоторыми другими исследованиями в данной области, например с работой Джордана [181] и его соавторов, в которой некоторые похожие закономерности отмечались при сравнении дуплицированных генов человека и генов мышей.

Тем не менее, эволюционный сценарий, описанный выше, хоть и весьма привлекателен, но не единственно возможный. Мы наблюдаем существенную асимметрию в распределении несинонимичных замен между ближайшими паралогами в 18% пар. Здесь можно сформулировать вторую выраженную тенденцию эволюции паралогичных генов: после события дупликации один ген остается практически неизменным, в то время как другой быстро эволюционирует. Можно предположить, что это те случаи, когда одна копия гена сохраняет свою исходную функцию, в то время как другая эволюционирует и обретает новую функцию. В пользу этого указывает проведенный нами анализ с помощью программы PolyPhen. Действительно, более быстро эволюционирующие копии паралогичных генов обогащены функциональными мутациями, в то время как медленно эволюционирующие копии генов таких мутаций практически не содержат. Мы также убеждены в том, что это свидетельства изменений функций генов, а не псевдогенизации: все гены из асимметричных пар имеют транскрипты (достоверные последовательности мРНК и, как правило, EST) и не имеют преждевременных стоп-кодонов. Более того, большая их часть имеют прочитанные белковые последовательности, опубликованные в базе данных Pride. Мы не имеем никаких оснований полагать, что какие-либо из этих генов — псевдогены, исходя из имеющихся данных.

Одно из нововведений нашей работы заключается в том, что для сравнения ближайших паралогов мы использовали другие гены из того же организма, а не ортологов - генов из других организмов. Мы полагаем, что такой подход более надежен, потому- что все три гена эволюционируют в одних и тех же условиях. Также, во многих случаях, это позволяет использовать более близкого партнера для сравнения: более чем в 60% случаев анализированных троек генов человеческий-паралог был ближе к гену и его ближайшему соседу, чем ближайший ортолог из мыши (по доле совпадающих позиций в аминокислотных последовательностях, раздел Методы 4.2.4). Кроме того, использование паралогов в качестве генов сравнения избавляет нас от нетривиальной проблемы разрешения ортологичных взаимоотношений. Тем не менее, есть и негативные стороны такого подхода: Ограничиваясь семействами паралогов, содержащими три и более гена, мы. уменьшаем размер выборки и обогащаем ее генами с большим числом копий. Наличие третьего паралога в геноме может сказаться на характере эволюции двух остальных паралогов, но это проблема касается любых исследований на паралогичных семействах генов.

Похожие диссертации на Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе