Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Сравнительно-геномный анализ посттранскрипционных и посттрансляционных механизмов регуляции структуры и функции белков Курмангалиев, Ербол Жанузакович

Сравнительно-геномный анализ посттранскрипционных и посттрансляционных механизмов регуляции структуры и функции белков
<
Сравнительно-геномный анализ посттранскрипционных и посттрансляционных механизмов регуляции структуры и функции белков Сравнительно-геномный анализ посттранскрипционных и посттрансляционных механизмов регуляции структуры и функции белков Сравнительно-геномный анализ посттранскрипционных и посттрансляционных механизмов регуляции структуры и функции белков Сравнительно-геномный анализ посттранскрипционных и посттрансляционных механизмов регуляции структуры и функции белков Сравнительно-геномный анализ посттранскрипционных и посттрансляционных механизмов регуляции структуры и функции белков
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Курмангалиев, Ербол Жанузакович. Сравнительно-геномный анализ посттранскрипционных и посттрансляционных механизмов регуляции структуры и функции белков : диссертация ... кандидата биологических наук : 03.01.09 / Курмангалиев Ербол Жанузакович; [Место защиты: Ин-т проблем передачи информации РАН].- Москва, 2011.- 110 с.: ил. РГБ ОД, 61 11-3/1253

Содержание к диссертации

Введение

1.Обзор литературы 11

1.1 Альтернативный сплайсинг 11

1.1.1 Распознавание сайтов сплайсинга через интрон и через экзон 14

1.1.2 Цис-регуляторные элементы сплайсинга 16

1.1.3 Котранскрипционный сплайсинг 19

1.1.4 Альтернативный сплайсинги структура белков 21

1.2 Посттрансляционные модификации 23

1.2.1 Фосфопротеомика 25

1.2.2 Структурные особенности сайтов фосфорилирования 29

1.2.3 Эволюционные особенности сайтов фосфорилирования 31

1.2.4 Нефункциональное и неспецифичное фосфорилирование 33

1.2.5 Протеомные исследования ацетилирования лизина 34

2.Данные и методы 38

2.1 Данные 38

2.1.1 Выборки удержанных и конститутивно сплайсируемых интронов 38

2.1.2 Выборки экзонов с мутациями в сайтах сплайсинга 39

2.1.3 Данные по включаемости кодонов 40

2.1.4 Сайты посттрансляционных модификаций 40

2.1.5 Контрольные выборки немодифицированных аминокислотных остатков 41

2.1.6 Ортологи модифицированных белков и филогене тические деревья 42

2.2 Методы и программное обеспечение 44

2.2.1 Веса сайтов сплайсинга 44

2.2.2 Плотность энхансеров и сайленсеров сплайсинга 45

2.2.3 Реконструкция эволюции сайтов модификаций 46

2.2.4 Предсказание неструктурированных областей белков 47

2.2.5 Проверка статистической значимости 48

2.2.6 Авторское программное обеспечение 48

З.Результаты и обсуждения 49

3.1 Ошибки сплайсинга 49

3.1.1 Удержанные интроны 50

3.1.2 Мутации в сайтах сплайсинга 58

3.1.3 Обсуждение результатов анализа удержанных интронов и мутаций в сайтах сплайсинга 61

3.2 Альтернативный сплайсинг и посттрансляционные модификации 65

3.2.1 Сайты фосфорилирования тяготеют к альтернативно сплайсируемым областям генов 65

3.2.2 Обсуждение взаимосвязи между альтернативным сплайсингом и посттрансляционными модификациями 67

3.3 Паттерны эволюции посттрансляционных модификаций 69

3.3.1 Паттерны замен сайтов фосфорилирования 70

3.3.2 Паттерны замен сайтов ацетилирования 78

3.3.3 Обсуждение анализа эволюции посттрансляционных модификаций 80

Основные результаты и выводы 83

Благодарности 84

Список литературы

Введение к работе

Актуальность темы

До полного секвснирования генома человека высказывались самые различные предположения об общем количестве генов. При этом достаточно общепринятой была точка зрения, что количество генов возрастает со сложностью биологических организмов. Поэтому неожиданными оказались результаты первичного анализа полного генома человека, который выявил менее 30000 генов. Для сравнения, в геноме круглого червя Caenorhabditis elegans содержится примерно 20000 генов.

Однако разнообразие белков не ограничивается лишь общим числом генов. У высших эукариот одним из основных механизмов повышения разнообразия генных продуктов на постгранскрипцнонном уровне является альтернативный сплайсинг. Существуют различные оценки общего числа альтернативно сплайсируемых генов человека. Массовое секвенирование EST-последователыгостей и их анализ показали, что не менее трети генов человека альтернативно сплайсируются. Дальнейшее увеличение объема данных о транскриптоме человека только увеличивало эту оценку, которая сейчас достигла 90-95%.

С другой стороны, неясно, какая доля из предсказанных но EST-последователыюстям вариантов транскриптов являются функциональными, а какая является результатом ошибок механизма сплайсинга или экспериментальными артефактами. Традиционно исследователей интересует в первую очередь функциональный ачьтернативный сплайсинг, и они пытаются очистить анализируемые наборы данных от нефункциональных транскриптов. В то же время, анализ последствий подобных ошибок может дать информацию о том, как функционирует сам механизм сплайсинга. Одной из ошибок сплайсинга является удержание интрона. Другим интересным объектом являются мутации в сайтах сплайсинга, нарушающие их распознавание, что может приводить к различным последствиям. По некоторым данным, мутации, нарушающие сплайсинг пре-мРНК, потенциально являются одной из наиболее частых причин наследственных заболеваний. Поэтому исследования последствий ошибок сплайсинга, и, в частности, мутаций, затрагивающих сплайсинг, может также иметь важное практическое значение.

В то же время, структурное и функциональное разнообразие генных продуктов не ограничивается лишь набором транскриптов, получаемых при альтернативном сплайсинге. Уже после синтеза белки могут подвергаться дальнейшим поспрансляционным модификациям путем ковалентного присоединен различных функциональных групп или протеолитического расщепления. Посттрансляционные модификации играют важнейшую роль в самых разнообразных клеточных процессах путем влияния на активность белков, их клеточную локализацию и взаимодействия с другими белками. Одним из наиболее важных н распространенных типов посттрансляционных модификаций эукариот является обратимое фосфорилирование белков по остаткам серина, треонина и тирозина. По некоторым оценкам, треть белков, закодированных в геноме человека, содержат ковалентно связанный фосфат. В последние годы, с развитием новых методов в протеомике и масс-спектроскопии, количество фосфосайтов, идентифицированных в белках различных модельных организмов, достигло десятков тысяч. Накопление таких больших объемов протсомных данных позволяет

проводить системные исследования постгрансляционных модификаций методами биоипформатики. Одной из таких задач является исследование возможной связи посттранскрипционных и посттрансляциоиных механизмов регуляции генов.

Другой интересный вопрос заключается в том, как эволюционируют сайты посттрансляционных модификаций. Как и все функционально важные участки белков, сайты модификаций более консервативны по сравнению с окружающими их алшнокислотными остатками. Однако, кроме функциональной значимости, модифицированные аминокислоты отличаются от своих немодифицированных аналогов и по химическим свойствам. Поэтому мутации в сайтах модификаций и их немодифицированных аналогах, приводящие к их замене на другие типы аминокислот, скорее всего, будут иметь различное влияние на структуру и функцию белков. Это должно приводить к различиям в частотах замен модифицированных и немодифицированных аминокислот на другие типы аминокислотных остатков.

Цепі* и задачи исследования

Целью данной работы было исследование различных аспектов поеттранскрипциошюй и постгрансляционной регуляции структуры и функции белков с помощью компьютерного анализа новейших доступных данных. В частности, были исследованы ошибки альтернативного сплайсинга и эволюционные паттерны постгрансляционных модификаций. При этом были решены следующие задачи:

собрана выборка нитронов, для которых наблюдались случаи удержания в транскриптах;

проведен сравнительный анализ удержанных и конститутивных нитронов;

собрана выборка экзонов, мутации в сайтах сплайсинга которых приводили к пропуску этих экзоноа;

проведен сравнительный анализ экзонов, в которых мутации в сайтах сплайсинга приводят к пропуску экзона и к активации скрытых сайтов сплайсинга;

исследована возможная связь между альтернативным сплайсингом и посттрансляционными модификациями путем анализа распределения сайтов фосфорилирования между различными участками белков;

проведена реконструкция эволюции сайтов постгрансляционных модификаций, в том числе, сайтов фосфорилирования и сайтов ацетилирования;

проведен сравнительный анализ паттернов замен сайтов постгрансляционных модификаций и их немодифицированных аналогов на другие типы аминокислот.

Научная новизна и практическое значение

В данной работе был проведен систематический анализ ошибок сплайсинга. Выявлены достоверные различия между конститутивными и удержанными шпронами по ряду параметров (в т.ч. по дайне, по качеству сайтов сплайсинга, по плотности потенциальных цис-регуляторных элементов, по расположению в генах). Впервые было показано, что доля удержанных интронов монотонно возрастает от 5'- к З'-концу транскриптов.

Проведен анализ экзонов с мутациями в сайтах сплайсинга. Собрана выборка экзонов, мутации сайтов сплайсинга в которых вызывают пропуск экзона. Выявлены значимые различия между экзонами, в которых мутации в сайтах сплайсинга приводят к пропуску экзона либо к активации скрытого сайта сплайсинга (в т.ч. по длине, по весу сайтов сплайсинга, по плотности потенциальных цис-регуляторных элементов, по наличию эквивалентных скрытых сайтов сплайсинга в непосредственной близости от сайтов с мутациями).

Получены данные о возможной связи альтернативного сплайсинга и постгрансляционных модификаций. Выдвинута гипотеза о различиях в частотах замен модифицированных и пемодифицированных аминокислотных остатков на другие типы аминокислот. Впервые проведен эволюционный анализ паттернов замен сайтов посттрансляционных модификаций. На примере сайтов фосфорилирования выявлены значимые различия между векторами замен модифицированных и немодифицированных аминокислотных остатков. В частности показано, что фосфорсерины в среднем чаще заменяются на глутамат и аспартат, по сравнению с нефосфорилированными остатками серина. Реализованная методика анализа паттерна замен сайтов фосфорилирования может использоваться для исследования других типов посттрансляционных модификаций.

В целом, полученные в этом исследование результаты могут использоваться при предсказании возможных последствий мутаций в сайтах сплайсинга и посттрансляционных модификаций, что может иметь практическое значение в исследованиях наследствешіьгх заболеваний и найти применение в персонализированной медицине.

Апробация работы

Материалы исследования по теме диссертации были представлены на следующих конференциях: XIV Международной конференции студентов, аспирантов и молодых ученых "Ломоносов" (Москва, апрель 2007); 3rd International Moscow Conference on Computational Molecular Biology (MCCMB'07, Москва, июль 2007); 30-й конференции "Информационные технологии и системы" (ИТиС'07, Звенигород, сентябрь 2007); 31-й конференции "Информационные технологии и системы" (ИТиС'08, Геленджик, сентябрь, 2008); 4th International Moscow Conference on Computational Molecular Biology (MCCMB'09, Москва, июль 2009); 33-й конференции "Информационные технологии и системы" (ИТиС'Ю, Геленджик, сентябрь 2010).

Объем и структура диссертации

Цис-регуляторные элементы сплайсинга

В настоящее время известно, что практически все экзоны содержат ESE-последовательности (экзонные энхансеры сплайсинга). Большая часть ESE-последовательностей являются сайтами связывания SR-белков (serine/arginine rich). Эти белковые факторы сплайсинга связываются с пре-мРНК при помощи N-концевых RPM-доменов. В С-концевых участках SR-белков расположены RS-домены, участвующие в белок-белковых взаимодействиях при сборке и функционировании сплайсосомы [5, 19].

Экзонные сайленсеры сплайсинга (ESS) часто связываются с репрессорами сплайсинга, принадлежащих к большому семейству РНК-связывающих белков hnRNP (гетерогенных ядерных рибонуклеопротеинов). Считается, что сайленсеры сплайсинга играют важную роль при распознавании конститутивных экзонов путем подавления близрасположеных ложных сайтов сплайсинга, а также в предотвращении включения в мРНК участков интронов, окруженных подобными ложными сайтами [5, 20]. Был разработан ряд вычислительных методов для предсказания ESE- и ESS-последовательностей. Одним из таких методов является RESCUE-ESE (Relative Enhancer and Silencer Classification by Unanimous Enrichment) [21, 22]. Этот статистический метод основан на предположении, что олигонуклеотиды, соответствующие экзонным энхансерам сплайсинга, должны чаще встречаться в экзонах, по сравнению с нитронами, а также в экзонах с неканоническими (слабыми) сайтами сплайсинга, по сравнению с экзонами с каноническими (сильными) сайтами сплайсинга. Подобный анализ базы данных, содержащей. бо лее 30000 экзонов человека, выявил набор из 238 гексамеров (из 4096 возможных), являющих потенциальными ESE-последовательностями. Путем множественного выравнивания идентифицированных гексамеров было выявлено 10 различных классов ESE-мотивов. Из каждого такого класса, был отобран репрезентативный представитель, для которого была показана энхансерная.активность в экспериментах in vivo: Последующее нарушение этих ESE-гексамеров точечными мутациями в 9 из 10 случаев понижали уровень включения экзонов более чем в два раза [21, 22]. Эволюционный анализ этого набора ESE-последовательностей показал пониженную частоту синонимичных однонуклеотидных полиморфизмов (SNP), что предполагает важную функциональную роль данных мотивов [22].

Другим вычислительным методом предсказания цис-регуляторных мотивов сплайсинга является PESX (Putative Exonic Splicing Enhancers/Silencers) [23, 24]. Он также основан на статистическом анализе олигонуклеотидного состава различных участков генов. Чтобы избежать влияния белок-кодирующих участков генов, в анализ были включены лишь некодирующие области генов. В частности, проводилось сравнение внутренних некодирующих экзонов генов с псевдоэкзонами и с 5"-нетранслируемыми областями безинтронных генов. Октамеры, перепредставленные и недопредставленные в некодирующих экзонах, были охарактеризованы как потенциальные ESE- и ESS-последовательности. Таким образом было идентифицированно 2060 PESE и 1018 PESS мотивов из 65536 всех возможных октамеров. Энхансерная и сайленсерная активность идентифицированных PESX-мотивов была подтверждена в мини-генных конструкциях in vivo. Более того, был проведен мутационный анализ PESE-последовательностей, обнаруженных в естественных экзонах млекопитающих. В большинстве случаев, мутации, нарушающие PESE-последовательности, приводили к значительному снижению эффективности сплайсинга [23, 24].

Liu и коллеги провели ряд SELEX-экспериментов по идентификации мотивов, распознаваемых рядом SR-белков [25, 26]. В частности, были выявлены мотивы, связывающие SF2/ASF, SRp40, SRp55 [25] и SC35 [26]. По идентифицированным мотивам были построены позиционно-весовые матрицы, на которых основывается ещё один вычислительный метод поиска ESE-последовательностей - ESEFinder [27, 28].

Wang и коллеги разработали метод скрининга ESS последовательностей in vivo FAS-ESS. В результате было идентифицированно 133 декамера, обладающих ESS-активностью. Эти олигонуклеотиды представляют собой семь различных кластеров последовательностей и включают известные мотивы связывания hnRNP Н и А1 [29, 30]

Существует также ряд цис-регуляторных элементов сплайсинга, располагающихся в интронах [5]. Наиболее изученным интронным энхансером сплайсинга (ISE) являются G-триплеты (GGG), и шире, поли-С-последовательности (Gn), которые часто располагаются кластерами и усиливают распознавание близлежащих сайтов сплайсинга [31, 32]. Другим примером интронных цис-регуляторных элементов являются сайты связывания hnRNP L, представляющие собой СА-повторы. В зависимости от контекста такие повторы могут выступать и как энхансеры, и как сайленсеры сплайсинга [33, 34]. Ещё одним из охарактеризованных интронных энхансеров сплайсинга является гексамер UGCAUG, предсталяющий собой сайт связывания тканеспецифичных регуляторов сплайсинга Foxl и Fox2 [35, 36]. Высокая консервативность интронных областей, окружающих альтернативные экзоны, свидетельствует о том, что интронные цис регуляторные элементы сплайсинга играют важную роль в регуляции альтернативного сплайсинга [37].

Эволюционные особенности сайтов фосфорилирования

Выборки экзонов с мутациями включали только внутренние экзоны с однонуклеотидной заменой в одном из сайтов сплайсинга (с -3 до +6 для донорных сайтов и с -15 до +2 для акцепторных сайтов). Рассматривались только мутации экзонов, приводящие к пропуску данного экзона (S-экзоны) или активации скрытого сайта (С-экзона). С-экзоны были ограничены экзонами со скрытыми сайтами, расположенными в пределах экзонов и интронов, непосредственно граничащих с сайтами с мутацией.

Набор С-экзонов с мутациями в донорных сайтах был получен из [171] и содержал 67 экзона. Набор С-экзонов с мутациями в акцепторных сайтах был получен из базы данных DBASS3 (http://www.som.soton.ac.uk/research/geneticsdiv/dbass3/, [172]) и содержал 42 экзона.

Выборка S-экзонов была собрана путем полуавтоматического поиска случаев пропуска экзонов, описанных в базе данных Менделевских наследственных заболеваний OMIM (http://www.ncbi.nlm.nih.gov/omim, [173]). Предварительно был осуществлен автоматический поиск записей OMIM, содержащих описание точечных замен в интронах. Далее проводился ручной поиск случаев, в которых такие мутации затрагивали сайты сплайсинга и приводили к пропуску экзонов. Экзоны с мутациями в сайтах сплайсинга идентифицировались в наборах экзонов наиболее длинных изоформ генов, использованных в главе 2.1.1. Экзоны отождествлялись по данным о длине или последовательности, полученным из оригинальных статей, в которых были описаны данные мутации. В результате было отобрано 67 S-экзонов с мутациями в донорных сайтах (Приложение 1) и 42 S-экзонов с мутациями в акцепторных сайтах (Приложение 2). Все вычисления для экзонов с мутациями в сайтах сплайсинга производились на исходных последовательностях. 2.1.3 Данные по альтернативному сплайсингу

Данные по альтернативному сплайсингу, в том числе «включаемость» кодонов, косвенно указывающая на частоту включения кодируемой аминокислоты в альтернативных изоформах белка, получены из базы данных EDAS (EST-Derived Alternative Splicing database, http://edas2.bioinf.fbb.msu.ru, [174]). «Включаемость» определена как доля последовательностей EST, содержащих кодон, среди всех последовательностей EST покрывающих данную область гена (Рисунок 11).

Сайты фосфорилирования были получены из баз данных PHOSBDA (http://phosida.de/, [138]) и PhosphoPep (версия 2.0, http://www.phosphopep.org/, [94]). Для Saccharomyces cerevisiae мы использовали фосфосайты, идентифицированные в двух различных высокопроизводительных экспериментах [94, 98]. Фосфосайты Drosophila melanogaster были идентифицированы в двух различных высокопроизводительных экспериментах: из клеточной линии КС197[104] и клеточной линии Schenider SL2 [105]. В случае фосфосайтов человека мы использовали данные, полученные в 4 различных высокопроизводительных фосфопротеомных экспериментах [69, 73, 122, 129]. Фосфотирозины в связи с очень маленькими размерами начальных выборок были исключены из эволюционного анализа (362, 562 и 952 сайта для дрожжей, дрозофил и человека, соответственно). Фосфосерины и фосфотреонины были разделены на две группы, в зависимости от расположения в неструктурированных или регулярных областях белков.

Сайты ацетилирования человека были взяты из двух работ по массовой идентификации ацетиллизинов в белках человека: из цитозольной и митохондриальной фракций клеток печени [165] и цельных лизатов клеточных линий MV4-11, А549 и Jurkat [164].

Кроме того, в отдельную выборку выделялись сайты, обнаруженные как минимум в двух независимых экспериментах. В случае ацетилирования пересечение между наборами сайтов из разных экспериментов было крайне малым (около 2%), поэтому эти выборки рассматривались раздельно. Размеры начальных и конечных выборок сайтов модификаций, использовавшихся в данной работы, приведены в Таблицах 8, 9, 10.

В качестве контрольной выборки при сравнительном анализе сайтов модификаций использовались все немодифицированные аминокислоты соответствующего типа из модифицированных белков. Для оценки статистической значимости наблюдений контрольные выборки подвергались процедуре бутстрепа (размножения выборок). Из конечных выборок контрольных сайтов (Таблицы 8, 9, ДО) случайным образом отбирались немодифицированные аминокислоты в количестве, равном размеру тестируемой выборки сайтов модификаций. Подобным образом генерировалось по 10000 случайных контрольных выборок для каждой тестируемой выборки сайтов модификаций.

Кроме того, были сконструированы дополнительные контрольные выборки, которые включали в себя нефосфорилированные аналоги сайтов модификаций, расположенные в непосредственной близости от самих сайтов модификаций. Размеры этих выборок также равнялись размерам тестируемых выборок. Для этого мы набирали немодифицированные остатки из конечных выборок контрольных сайтов (Таблица 8, 9), постепенно удаляясь одновременно от всех сайтов модификаций в тестируемой выборке до тех пор, пока не набирали достаточное количество немодифицированньгх сайтов.

Кластеры ортологичных генов среди пятнадцати видов грибов {Saccharomyces cerevisiae; S. paradoxus; S. mikatae; S. bayanus; Candida glabrata; S. castelli; Kluyveromyces waltii; K. lactis; Ashbya gossypii; Debaryomyces hasenii; C. albicans; Yarrowia lipolytica; Aspergillus nidulans; Neurospora crassa; Schizosaccharomyces pombe) и соответствующее филогенетическое дерево были получены из базы данных FungalOrthogroups (http://www.broadinstitute.org/regev/orthogroups/, [175]). Ортологи одинадцати видов плодовых мушек (Drosophila melanogaster; D. yakuba; D. erecta; D. sechecellia; D. ananassae; D. pseudoobscura; D. persimilis; D. wilistoni; D. mojavensis; D. virilis; D. grimshawi) и их филогенетическое дерево были взяты из базы данных FlyBase (http://flybase.org/, [176]). Для восьми видов позвоночных (человек Homo sapiens; шимпанзе Pan trogolodytes; мышь Mus musculus; крыса Rattus norvegicus; корова Bos taurus; собака Canis lupus familiaris; курица Gallus gallus; и данио Danio rerid) были использованы ортологические ряды из базы данных Homologene (http://www.ncbi.nlm.nih.gov/homologene, [177]). Филогенетическое дерево позвоночных было взято из [178]. Филогенетические деревья всех трех групп организмов, использованные в данном исследовании, приведены на Рисунке 12.

Контрольные выборки немодифицированных аминокислотных остатков

Данные по фосфорилированию белков были получены: из баз данных PHOSIDA [138] и PhosphoPEP. [94]: Для каждого из трех организмов мы использовали наборы.сайтов фосфорилирования, полученных в; более чем одном; массовом эксперименте. Фосфорилированию чаще всего подвергаются остатки серина,.реже треонина,,и ещё реже, тирозина [69] . В «связи с очень маленысими размерами выборок фосфотирозинов; этот тип? сайтов был исключен изіанализа\(см; Материалы и методы глава 2.1.4).

Фосфорилирование: белков - процесс динамичный; поэтому пересечение между наборами фосфосайтов, идентифицированных в,различных экспериментах,, из различных клеточных линий и тканей, было- относительно небольшим. Єайтьі; которые, были: в; фосфорилированы; в более; чем одном массовом эксперименте, по; всей видимости; модифицируются конститутивно, или; как. минимум, представляют собой- выборку наиболее надёжных фосфосайтов.

Мы исследовали эволюцию модифицированных и немодифицированных остатков серина и треонина отдельно в восьми видах позвоночных, одиннадцати; видах дрозофил и . пятнадцати; видах грибов (см. "Данные и методы", раздел 2.1.6). Для каждого сайта? фосфорилирования мы- реконструировали, эволюцию и вычисляли вектора замен в . соответствующей, группе организмов,, как; описано в "Данных и методах" (Рисунок 13, раздел 2.2.3).

Эволюционные, особенности: и частота фосфосеринов и фосфотреонинов сильно зависят от структурного контекста, и они очень часто располагаются в неструктурированных областях белков [56, 138, 112]. Известно, что неструктурированные

и регулярные области белков сильно различаются по аминокислотному составу [201]. Чтобы избежать влияния этого факта на результаты нашего исследования, мы разделили все фосфосайты и немодифицированные остатки серина и треонина из контрольных выборок на сайты, расположенные в регулярных и неструктурированных областях белков (см. ниже).

Лишь часть фосфосеринов из наших начальных выборок имели замены на другие аминокислоты. Очень небольшая доля из них были локализованы в регулярных участках белков. Поэтому дальнейший анализ проводили только на остатках серина и треонина из неструктурированных участков белков. Неструктурированные области белков предсказывались с помощью программы PONDR VSL2 (раздел 2.2.4). Конечные выборки фосфорилированных и нефосфорилированных остатков серина и треонина включали сайты с хотя бы одной заменой на другие аминокислоты, расположенные в неструктурированных областях фосфопротеинов (Таблицы 8 и 9). Отдельно рассматривалась подвыборка сайтов фосфорилирования, которые были подтверждены в более чем одном эксперименте (выборка "надежных сайтов").

Для оценки статистической значимости различий между векторами замен мы применили процедуру бутстрепа контрольных выборок немодифицированных остатков серина и треонина, как описано в "Данных и методах" (раздел 2.1.5). Размер каждой из 10000 случайных контрольных выборок соответствовал размеру анализируемой выборки фосфосайтов. Так, к примеру, в случае фосфосеринов человека каждая из контрольных выборок содержала 4277 нефосфорилированных остатков серина. В случае же сравнительного анализа подвыборки фосфосайтов человека, обнаруженных в более чем одном массовом эксперименте, бутстрепы содержали 906 контрольных сайтов (Таблица 8).

Выборки фосфорилированных и нефосфорилированных остатков серина. Показано количество серинов в каждой выборке. Анализировались только остатки серинов с хотя бы одной заменой на другие аминокислоты и расположенные в неструктурированных областях фосфопротеинов (последние 6 строк). 5. cerevisiae D. melanogaster — Н. sapiens Начальные выборки остатков серина все фосфосерины 7381 11785 11624 фосфосерины, обнаруженные более одного раза 1649 3137 2589 нефосфорилированные серины 103682 202574 243968 Серины с как минимум одной заменой на другие типы аминокислот, из регулярныхобластей все фосфосерины 215 180 434 фосфосерины, обнаруженные более одного раза 21 38 43 нефосфорилированные серины 20459 13826 26350

Серины с как минимум одной заменой на другие типы аминокислот, из неструктурированных областей все фосфосерины 3666 2482 4277 фосфосерины, обнаруженные более одного раза 857 611 906 нефосфорилированные серины 31815 42424 78120

В то же время, особенности белковых областей, окружающих сайты фосфорилирования, скорее всего, не ограничиваются лишь их неструктурированностью. В частности, важную роль в фосфорилировании может иметь вторичная структура, экспозиция на поверхности белка, доступность растворителям и т.п. Поэтому для уменьшения влияния этих факторов на результаты нашего сравнительного анализа, мы ввели дополнительные контрольные выборки. Они включали нефосфорилированные остатки серина и треонина, находящиеся в тех же областях белков, что и сайты модификаций (см. "Данные и методы", раздел 2.1.5). Размеры дополнительных контрольных выборок в каждом случае совпадали с размерами анализируемых выборок, содержащих все фосфосайты (Таблицы 8 и 9). Достаточное количество немодифицированных остатков серина было набрано на максимальном расстоянии 10, 11 и 9 а.о. от фосфосеринов для дрожжей, дрозофилы и человека соответственно. В случае фосфотреонинов эти расстояния равнялись 29, 26, 20 а.о, соответственно.

Сайты фосфорилирования тяготеют к альтернативно сплайсируемым областям генов

Мы. провели сравнительный эволюционный? анализ, паттернов замен, сайтов; посттрансляционных, модификаций белков и- их:-немодифицированных аналогов: В . частности; была;реконструирована:и изучена эволюция сайтов фосфорилирования серина и треонина, а также сайтов ацетилирования?лизинаг.

Нами было показано, что. в- процессе эволюции; фосфосерины; намного,, чаще; заменяются.на.отрицательно заряженные остатки глутамата.и аспартата(по сравнению с нефосфорилированными остатками- серина). Эта тенденция наблюдалась во всех трех; группах организмов; Во всех;таксонах1эта разницабьша;статистическшзначимой (Р 10" 4), а в. случае подвыборок. надежных; сайтов, подтвержденных в? нескольких:; экспериментах, этотэффеюг бьш ещё;более:выраженным:.Это;наблюдение;интересно.тем; что искусственная замена: серина, на; аспартат или? глутамат, так; называемая. фосфомиметическая»мутация; часто.используется для.функционального подтверждения фосфорилирования серина [202-204]. ,/ ,

С другой; стороны, методы; используемые в массовых фосфопротеомных. экспериментах, часто основаны- на предварительной: аффинной селекции отрицательно заряженных; пептидов. Это приводит к обогащению фосфопептидов;; кислотными остатками- [71, 205]. Также бьшо показано, что некоторые .случаи фосфорилирования могут быть функционально консервативными, но при. этом не сохранять конкретные позиции в быстро, эволюционирующих неструктурированных областях белков. Так, в некоторых: случаях функциональной целью фосфорилирования являются, не конкретные сайты, а целые участки белков. В таких случаях позиции сайтов фосфорилирования в ортологичных белках могут быть смещены относительно друг друга [96, 206]. Все это, вместе со структурными особенностями белковых областей, в которых расположены фосфосайты, и проблемами, возникающими при выравниваниях таких областей, могло исказить результаты нашего анализа. Но все эти факторы должны оказывать такой же эффект и на выборку нефосфорилированных остатков серина, расположенных в тех же областях белков. Таким образом, эти факторы не могут объяснить наблюдаемую разницу между векторами замен фосфосеринов и серинов из дополнительных контрольных выборок, расположенных в непосредственной близости от фосфосайтов.

Необходимо учитывать, что анализируемые в данной работе вектора замен сайтов модификаций, вполне возможно, содержат ложные фосфосайты. Это может являться как экспериментальным артефактом массовых протеомных исследований, так и результатом нашей методики реконструкции эволюции фосфосайтов. При реконструкции эволюции мы принимали упрощенное допущение, что в. процессе эволюции сайт начал модифицироваться с момента возникновения соответствующей аминокислоты в данной, позиции, и считали количество замен предковых потенциальных сайтов модификации на другие типы аминокислот (см. "Данные и методы", глава 2.2.3, Рисунок 13). Некоторые из этих предковых аминокислот могли быть модифицированными. Кроме того, существуют данные о том, что многие из идентифицированных сайтов фосфорилирования могут быть нефункциональными, и являться результатом неспецифичного фосфорилирования киназами (см. "Обзор литературы", раздел 1.2.4, [150, 152]). Паттерны замен таких нефункциональных фосфосайтов, скорее всего, будет схож с паттернами замен нефосфорилированных остатков серина. С другой стороны, контрольные выборки могут содержать еще не идентифицированные сайты фосфорилирования. По некоторым оценкам, общее число серин/треониновьгх сайтов фосфорилирования в белках человека может достигать 200000 [68]. Эти ложные, неспецифичные и неидентифицированные фосфосайты должны размывать наблюдаемую разницу между векторами замен модифицированных и немодифицированных остатков. Тем самым, реальная разница частот замен может быть ещё выше, чем было показано в настоящей работе.

В то же время, для других типов посттрансляционных модификаций значимых различий между паттернами замен модифицированных и немодифицированных аминокислотных остатков обнаружено не было. Это могло стать результатом малого количества доступных данных. Кроме того, дополнительное ограничение на объем данных о заменах сайтов модификаций на другие типы аминокислот, накладывало количество доступных ортологов из других организмов. Поэтому, несмотря на то, что начальные выборки содержали достаточно большие объемы данных, лишь для небольшой части изученных сайтов наблюдались какие-либо замены на другие типы аминокислот в рассмотренных группах организмов.

В случае ацетилирования лизина результаты, полученные для двух различных наборов данных, оказались несогласованными. Это могло быть результатом низкой репрезентативности доступных на сегодняшний день данных по ацетилированию лизина (пересечение между двумя наборами сайтов, полученных различными группами исследователей, было крайне малым). Поэтому результаты подобных исследований должны интерпретироваться крайне осторожно, и желательно основываться на данных, полученных из различных источников и для разнообразных групп организмов.

Похожие диссертации на Сравнительно-геномный анализ посттранскрипционных и посттрансляционных механизмов регуляции структуры и функции белков