Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Анализ масс-спектров пептидных фрагментов для идентификации генетически детерминированного полиморфизма белков Чернобровкин, Алексей Леонидович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Чернобровкин, Алексей Леонидович. Анализ масс-спектров пептидных фрагментов для идентификации генетически детерминированного полиморфизма белков : диссертация ... кандидата биологических наук : 03.01.09 / Чернобровкин Алексей Леонидович; [Место защиты: Науч.-исслед. ин-т биомед. химии им. В.Н. Ореховича РАМН].- Москва, 2012.- 189 с.: ил. РГБ ОД, 61 12-3/739

Содержание к диссертации

Введение

2 Обзор литературы 10

2.1 Масс-спектрометриявпротеомике 12

2.1.1 Общие принципы 12

2.1.2 Протеомный анализ с использованием масс-спектрометрии 16

2.1.3 Идентификация белков методом отпечатков пептидных масс 19

2.1.4 Идентификация белков методом отпечатков фрагментации пептидов 21

2.2 Интерпретация результатов масс-спектрометрической идентификации белков 27

2.2.1 Определение списка идентифицированных белков 27

2.2.2 Идентификация высокогомологичных белков 31

2.2.3 Базы данных аминокислотных последовательностей белков 34

2.3 Масс-спектрометрический анализ продуктов одного гена 37

2.3.1 Протеотипирование и популяционная протеомика 37

2.3.2 Идентификация микрогетерогенности белков методом «сверху-вниз» 39

2.3.3 Идентификация генетически-детерминированного полиморфизма белков методом «снизу-вверх» 41

2.3.4 Базы данных полиморфизмов белков и генов 47

2.3.5 Репозитории масс-спектрометрических данных 50

3 Материалы и методы 58

3.1 Материалы 58

3.1.1 Масс-спектрометрические данные для белков микросомальной фракции печени человека 58

3.1.2 Контрольный набор масс-спектров «Aurum Dataset» 59

3.1.3 Масс-спектрометрические данные протеомного репозитория PRIDE 60

3.1.4 Базы данных аминокислотных последовательностей белков человека 60

3.1.5 Данные о возможных полиморфизмах белков человека 61

3.2 Методы 62

3.2.1 Веб-сервер идентификации белков по масс-спектрам 62

3.2.2 Пакетная обработка масс-спектров методом отпечатков пептидных масс 62

3.2.3 Пакетная обработка тандемных масс-спектров 66

3.2.4 Одномерное протеомное картирование 67

3.2.5 Программная реализация итеративного алгоритма идентификации ОАП 70

3.2.6 Валидация алгоритма идентификации ОАП 74

4 Результаты и обсуждение 76

4.1 Увеличение степени покрытия аминокислотных последовательностей идентифицированными пептидами 77

4.1.1 Идентификация белков в срезах геля 79

4.1.2 Одномерные протеомные карты и их свойства 81

4.1.3 Выявление высокогомологичных белков надсемейства цитохромов Р450 за счет увеличения степени покрытия аминокислотных последовательностей идентифицированными пептидами 86

4.2 Идентификация ОАП в белках надсемейства цитохромов Р450 92

4.3 Алгоритм идентификации ОАП 101

4.3.1 Итеративная схема обработки тандемных масс-спектров 101

4.3.2 Чувствительность и специфичность алгоритма идентификации ОАП 103

4.4 Применение итеративного алгоритма для выявления ОАП в масс спектрометрических данных протеомного репозитория PRIDE 108

4.4.1 Исходные данные, используемые для выявления ОАП 108

4.4.2 Идентификация пептидов и белков с использованием масс-спектрометрических данных, загруженных из репозитория PRIDE 112

4.4.3 Идентификация одноаминокислотных полиморфизмов 120

4.5 Анализ идентифицированных ОАП 126

4.5.1 Анализ ОАП-содержащих пептидов 126

4.5.2 Связь выявленных ОАП с заболеваниями человека 132

5 Выводы 140

6 Список литературы 141

Введение к работе

1.1. Актуальность проблемы

В генах человека известно 65 тысяч замен единичных нуклеотидных остатков (Single Nucleotide Polymorphism, SNP), являющихся несинонимичными, то есть потенциально приводящих к точечным заменам в аминокислотной последовательности белка [Yip и др., 2008]. По данным ресурса UniProt менее 1% точечных замен аминокислотных остатков установлено экспериментальным путем, например, методом Сэнжера или белковой хроматографией. Развитие биологической масс-спектрометрии как средства высокопроизводительного анализа протеомов открывает перспективы для подтверждения наличия в белках одноаминокислотных полиморфизмов (ОАП).

В рамках центральной догмы молекулярной биологии наличие несинонимичного SNP в гене предопределяет, что в белковом продукте гена будет присутствовать соответствующая замена аминокислотного остатка. Однако, генотипирование не позволяет установить, влияет ли точечное изменение в последовательности ДНК на уровень экспрессии белкового продукта. В литературе имеются единичные сведения о соотношении уровня экспрессии продуктов аллельных генов, тогда как определение этого соотношения расширяет представления о природе слабовредных генетических мутаций, лежащих в основе соматических мультигенных заболеваний [Roth и др., 2008].

Исследование индивидуальных особенностей протеома, в частности полиморфизма аминокислотных остатков, является задачей протеотипиро- вания. Термин предложен по аналогии с генотипированием молекул ДНК для обозначения экспериментов по изучению микрогетерогенности белков, обусловленной альтернативным сплайсингом, пост-трансляционными модификациями, а также полиморфизмом аминокислотных остатков. В свое время, задача генотипирования была решена за счет биологической реакции полимеризации молекул ДНК. В отношении белков аналогичный подход в настоящее время не известен, поэтому информацию об ОАП целесообразно получать с помощью физического похода, основанного на высокоточном измерении масс-зарядных характеристик белков и их фрагментов.

Основным методом, применяемым для исследования протеома, является масс-спектрометрический анализ белковых молекул. Идентификация белков проводится алгоритмически, путем сопоставления масс и зарядов продуктов ферментативного гидролиза белков с теоретическими значениями, вычисленными на основе расшифрованного генома [Govorun и др., 2002]. При масс-спектрометрическом анализе белок считается идентифицированным, если установлено 1-2 специфичных пептидных фрагмента первичной структуры. По пептидным фрагментам последовательности удается различить белковые продукты разных генов, но отнюдь не установить микрогетерогенные варианты одного и того же белка. Специфичные для аллельных форм пептидные фрагменты (протеотипи- ческие пептиды [Craig и др., 2005]) с высокой вероятностью приходятся на неустановленную в ходе масс-спектрометрического эксперимента часть последовательности белка. Если же протеотипический пептид находится в идентифицируемой части последовательности, то наличие аллельного варианта трансляции гена вносит неоднозначность в интерпретацию масс- спектрометрических данных.

Принципиальная проблема в области протеотипирования заключается в недостаточном покрытии пептидными фрагментами последовательностей белков, идентифицируемых масс-спектрометрическими методами. Масштаб обозначенной проблемы таков: сегодня стандартные экспериментальные и биоинформационные подходы обеспечивают 10-30% покрытия, а для идентификации ОАП необходимо достичь 100%. Решение возможно за счет обработки обширных репозиториев масс-спектрометрических данных, то есть коллекций, полученных разными исследовательскими группами при варьировании условий проведения экспериментов. Настоящая работа направлена на разработку вычислительного подхода к решению проблемы определения ОАП в белках.

Целью работы являлась разработка способа анализа масс- спектрометрических данных для идентификации единичных аминокислотных полиморфизмов, возникающих в результате трансляции несинонимичных нуклеотидных замен в соответствующих генах, и применение разработанного способа для выявления аминокислотных замен в белках человека.

Для достижения поставленной цели решались следующие задачи:

  1. Провести обработку масс-спектров пептидных фрагментов для повышения степени покрытия аминокислотных последовательностей белков идентифицированными пептидами.

  2. На модельном наборе масс-спектрометрических данных, обеспечивающих высокую степень покрытия последовательностей, разработать метод выявления одноаминокислотных замен в белках человека.

  3. Обобщить метод выявления одноаминокислотных замен в форме универсального алгоритма обработки тандемных масс-спектров; оценить чувствительность и специфичность созданного алгоритма.

  4. Применить созданный алгоритм для обработки репозитория масс- спектрометрических данных, определить одноаминокислотные полиморфизмы и охарактеризовать белки человека, содержащие выявленные полиморфизмы.

1.2. Научная новизна и практическая значимость

Для выявления в белках аминокислотных полиморфизмов разработан оригинальный итеративный метод, основанный на последовательном применении существующих алгоритмов идентификации белков и пептидов. Особенностью разработанного метода является то, что в процессе идентификации ОАП в базу данных аминокислотных последовательностей белков итеративно вносятся изменения, учитывающие сведения о наличии несинонимичных нуклеотидных замен в соответствующих идентифицированным белкам генах (патент РФ №2408011).

C помощью анализа масс-спектрометрических данных на протеомном уровне обнаружена экспрессия аллельных вариантов белков надсемейства цитохромов P450 человека. Впервые проведена масштабная инвентаризация одноаминокислотных полиморфизмов белков человека. В результате установлено 270 одноаминокислотных полиморфизмов в 156 белках человека.

Среди выявленных одноаминокислотных полиморфизмов более 20% связаны с различными заболеваниями человека, включая сердечнососудистые, онкологические и другие заболевания. Обнаруженные протео- типические пептиды, характерные для связанных с заболеваниями микрогетерогенными вариантами белков человека, могут быть использованы для выявления диагностических биомаркеров методом мониторинга множественных реакций (MRM).

  1. Апробация работы

Основные положения диссертационной работы докладывались и обсуждались на международной конференции «Central and Eastern European Proteomics Conference» (Йена, Германия, 2008), на научной конференции «Химическая биология. Фундаментальные проблемы бионанотехнологии» (Новосибирск, 2009), а так же на 8-м Ежегодном всемирном конгрессе Международной организации «Протеом человека» (HUPO 8-th Annual World Congress, Торонто, Канада, 2009).

  1. Публикации

Материалы диссертационной работы изложены в 7 публикациях: в 3 статьях, в 1 патенте, в 3 публикациях в материалах сборников научных конференций.

  1. Объем и структура диссертации

Идентификация белков методом отпечатков фрагментации пептидов

В современных протеомных лабораториях для идентификации белков в сложных смесях широко используется так называемый «метод дробовика» (shotgun method) [Han, Aslanian, Yates III, 2008]. В основе метода лежит многомерное хроматографическое разделение сложной смеси пептидов, полученных в результате ферментативного гидролиза белков в образце, с последующим тандемным масс-спектрометрическим анализом, для которого обычно с используются сканирующие анализаторы типа ионная ловушка [McDonald, Yates, 2003]. Фактором, определяющим успешность идентификации белков при анализе биоматериала, является эффективность разделения пептидов. В связи с этим, для анализа таких сложных белковых смесей, как лизаты клеток, тканей и субклеточных фракций широкое распространение получил метод многомерной идентификации белков (MudPIT) с использованием ВЭЖХ [Delahunty, Yates, 2003; Delahunty, Ш, 2007]. Ввиду непрерывного характера хроматографического разделения пептидов, требуется высокая скорость масс-спектрометрического сканирования. Из-за ограниченного динамического диапазона масс-спектрометрического анализа для выявления низко-представленных белков необходима дополнительная пробоподготовка образцов, например, удаление высоко-представленных белков [Gao и др., 2008] или концентрирование [Archakov и др., 2009]. В настоящее время подход «снизу-вверх» все больше используется не только для идентификации белков, но и для количественного анализа [Asara и др., 2008].

При проведении тандемной масс-спектрометрии диссоциация пептидных ионов, находящихся в газовой фазе, осуществляется несколькими путями [Zubarev, Zubarev, Savitski, 2008]: индуцируется за счет столкновения с молекулами инертного газа (гелий или аргон) (collision induced dissociation, CID), за счет захвата электрона (electron capture dissociation, ECD), за счет взаимодействия с поверхностью (source-induced dissociation, SID), или посредством переноса электрона (electron transfer dissociation, ETD). Из этих способов, в коммерческих масс-спектрометрах наиболее распространенным является способ фрагментации CID. Характер диссоциации (типы и количества образующихся фрагментов) определяется энергией столкновения, при этом в подавляющем большинстве приборов применяется низко-энергетическая диссоциация CID ( 100 эВ). Использование низко-энергетической диссоциации обусловлено тем, что при низких энергиях столкновения обычно происходит разрыв главной цепи полимера, в то время как в масс-спектрах, полученных при более высоких энергиях наблюдаются фрагменты боковых цепей. При низкоэнергетической СГО-фрагментации, в спектрах преобладают Ь- и у-ионы (рис. 1), нейтральные потери воды и аммиака. Характер фрагментации также зависит от химических и физических свойств аминокислотных остатков, входящих в состав последовательности пептида. В большинстве существующих алгоритмах подразумевается, что преимущественно в результате фрагментации образуются b и у ионы. Распределение интенсивностей между Ъ и у ионами, являясь довольно интересной исследовательской задачей Huang и др., 2005], на данный момент не используется в подавляющем большинстве алгоритмов идентификации пептидов.

Источником возникновения погрешностей при анализе тандемных масс-спектрометров, является неточное определение заряда родительского иона при вычислении молекулярной массы пептида. Заряд иона определяется посредством определения в масс-спектре группы пиков, соответствующих различным изотопам пептида. При анализе масс-спектрометров низкого разрешения, в случае, когда точное определение изотопного распределения невозможно, масс-спектры фрагментации ионов-предшественников с зарядом больше +1 обычно анализируют дважды: первый раз анализ проводят исходя из предположения, что зарядовое состояние является +2, а второй раз оно принимается за +3 INesvizhskii, Vitek, Aebersold, 2007].

Дополнительным источником ошибок при идентификации пептидов по масс-спектрам фрагментации пептидов является наличие пост-трансляционных или химических модификаций пептидов, аминокислотных полиморфизмов и вариантов альтернативного сплайсинга. Учет возможных модификаций пептидов существенно усложняет задачу интерпретации масс-спектров [Kim, Gupta, Pevzner, 2008; Pevzner и др., 2001].

Как и в случае анализа отпечатков пептидных масс, основной задачей алгоритмов сравнения тандемных масс-спектров с базой данных аминокислотных последовательностей является определение аминокислотной последовательности, теоретический масс-спектр которой наилучшим образом соответствует полученным экспериментальным данным. При этом, для каждой пары, состоящей из экспериментального спектра и аминокислотной последовательности из базы данных, вычисляется значение шкалированной оценки, позволяющей отранжировать аминокислотные последовательности пептидов по степени сходства с наблюдаемым масс-спектром.

Существующие методы идентификации пептидов по тандемным масс спектрам с использованием баз данных аминокислотных последовательностей можно условно разделить на три категории: корреляционные, аналитические и статистические. Корреляционный подход заключается в расчете коэффициента корреляции между двумя наборами масс-зарядных характеристик. Первый набор представляете собой экспериментально полученный масс-спектр фрагментации пептида, а второй получают теоретически вычисляя масс-зарядные отношения фрагментов протеолитических пептидов, содержащихся в геномной базе данных последовательностей. Корреляционный анализ для сопоставления экспериментальных и теоретических масс-спектров фрагментации пептидов используется в программе SEQUEST [Eng, McCormack, Yates III, 1994].

Второй подход основан на анализе частичных совпадений между взаиморасположением пиков в масс-спектре и вероятными сочетаниями аминокислотных остатков, которые могли бы привести к таким пикам. Например, если расстояния между пиками в пределах точности совпадают с молекулярными массами а.о., а также с ди- и три- пептидами, то алгоритмически восстанавливается фрагмент аминокислотной последовательности. Фрагмент используется для поиска в полногеномной базе данных, и совпадающие с частично заполненным шаблоном подстроки повторно ранжируются для определения последовательности, наилучшим образом отвечающей экспериментально полученным сериям пептидных ионов. Практическая реализация алгоритма частичных совпадений представлена программой PeptideSearch [Mann, Wilm, 1994].

С точки зрения цели настоящей работы наибольший интерес представляет статистический подход к интерпретации масс-спектров фрагментации пептидов. Статистический подход строится на оценке вероятности случайного совпадения тандемного масс-спектра с пептидом из геномной базы данных. Оценка проводится путем сопоставления экспериментального масс-спектра с «псевдо» масс-спектрами, моделируемыми на основе случайно сгенерированных последовательностей а.о. Исходя из статистической модели, определяется шкалированная оценка достоверности идентификации для каждого протеолитического пептида в составе белков, кодируемых геномом человека (или другого анализируемого организма). В простейшем случае, определяются частоты идентификации b ж у ионов, которые используются для вычисления вероятности идентификации аминокислотной последовательности путем перемножения вероятностей идентификации ее фрагментов. Вариации статистического подхода реализованы в виде программ поиска масс-спектров по геномным базам данных. Наиболее известными программами являются Mascot [Perkins и др., 1999] и XITandem [Craig, Beavis, 2004].

В основе статистического подхода лежит определение вероятности того, что наблюдаемое соответствие между экспериментальньм масс-спектром и последовательностью из базы данных является случайным событием. Соответствие, для которого эта вероятность будет наименьшей, признается наилучшим. Однако, является ли наилучшее соответствие достоверным соответствием зависит от размера базы данных. Этот факт можно проиллюстрировать простым примером. Пусть вероятность того, что соответствие наблюдаемых пиков заданной последовательности является случайньм, составляет 10 . Эта вероятность представляется достаточной, чтобы говорить о достоверной идентификации при размере базы данных, равном 103, однако, если база данных содержит 10 последовательностей, то такая вероятность случайного соответствия наблюдаемых масс-спектрометрических пиков одной последовательности свидетельствует об отсутствии специфичности.

Репозитории масс-спектрометрических данных

Уже указывалось, что идентификация ОАП при масс-спектрометрическом анализе протеолитических пептидов является довольно редким явлением. Помимо того, что большинство мутаций сами по себе являются редкими в популяции, дополнительные сложности связаны с низкой степенью покрытия аминокислотной последовательности белков. Однако, вероятность обнаружения ОАП может быть значительно увеличена, если анализировать одновременно результаты большого количества протеомных экспериментов.

Для совместного анализа результатов масс-спектрометрическшх экспериментов, данные, полученные различными группами на различном оборудовании, должны быть представлены в сопоставимом формате. Масс-спектры, полученные с прибора, как правило, хранятся в бинарном проприетарном формате, поддерживаемом производителем, что значительно усложняет доступ к экспериментальным данным. В этом отношении протеомным сообществом (в лице Proteomics Standard Initiative, PSI) было предложено два решения. Первое направление — это создание унифицированного формата представления экспериментальных данных. Научным сообществом рассматривалось несколько различных форматов, но на сегодняшний день сделан выбор в пользу mzML [Deutsch, 2008]. Данный формат был разработан инициативной группой PSI-Dev в сотрудничестве с производителями масс-спектрометрического оборудования и компьютерных программ идентификации пептидов по масс-спектрам. В итоге, большинство форматов «сырых» данных могут быть сконвертированы практически без потерь в открытые форматы — mzData, mzXML или mzML. Однако, так как размер этих XML файлов может быть очень большим, на практике часто используется хранение выделенных списков масс-спектрометрических пиков в виде текстовых файлов.

Второй существенный вопрос заключается в грамотном и полном представлении протеомных данных. Для того, чтобы сравнивать результаты протеомных экспериментов, необходимо знать условия проведения экспериментов. Условия проведения экспериментов включают в себя источник биологического образца (организм, ткань, биологические жидкости и т.д.), процедуру пробоподготовки (выделение белковых фракций, разделение белков, очистка, удаление мажорных белков, протеолиз и т.д.), условия проведения эксперимента (способ разделения пептидов, способ ионизации, тип масс-спектрометрического детектора, тип и энергия фрагментации пептидов, точность измерения массы и т.д.). Для решения этой задачи был предложен стандарт MIAPE (Minimal Information About Proteomic Experiment) [Taylor, 2006; Taylor и др., 2007]. Стандарт определяет минимальное количество сведений, которыми необходимо снабдить масс-спектрометрические данные, для того, чтобы их можно было интерпретировать. Следует особо отметить, что MIAPE не является ни форматом хранения данных, ни форматом представления данных. Это набор рекомендаций для аннотирования результатов экспериментов с использованием общепринятых контролируемых словарей, охватывающих большую часть предметной области.

Результатом масс-спектрометрического анализа биологических образцов являются не только масс-спектры, но и результаты их алгоритмической интерпретации [Aebersold, Mann, 2003]. В случае масс-спектрометрического анализа по методу «снизу-вверх» результатами являются выборки идентифицированных белков (а точнее - списки идентифицированных пептидов и их «отображение» на белки выбранного протеома). Идентификация пептидов и белков осуществляется с применением биоинформатических методов, часть из которых реализованы в виде программ с открытым исходным кодом (XTandem, peptideProphet, proteinProphet), a часть — проприетарные программные средства. Таким образом, возникает необходимость сопоставления результатов идентификации белков и пептидов, полученных разными методами. Эта задача может быть решена различными способами:

1) сопоставление и анализ списков идентифицированных белков, полученных экспериментаторами в разных условиях проведения экспериментов;

2) проведение повторной идентификации белков с использованием стандартного алгоритма и унифицированных параметров;

3) использование объективных критериев для сравнения идентификаций, выполненных с использованием различных приборов (подразумевает создание «интегрирующего» инструмента).

Различные репозитории протеомных данных используют оригинальные способы решения обозначенной выше проблемы.

С появлением открытых репозиториев для размещения протеомных данных, результаты высокопроизводительных протеомных экспериментов стали централизовано накапливаться с высокой скоростью. Это привело к развитию подхода коллективного использования протеомных данных, так как доступ других исследователей к полученным данным позволяет подтвердить или опровергнуть результаты, выявить ошибки, а также найти новое применение полученным сведениям [Vizcano, Foster, Martens, 2010]. Благодаря нескольким крупномасштабным протеомным проектам, научному сообществу стали доступны сведения о многих экспериментах по идентификации белков. Но, несмотря на внушительные объемы накопленной информации, на основе этих данных было очень немного успешных исследований по причине неоднородности размещенных протеомных данных [КИе и др., 2008]. Одним из успешных примеров анализа большого объема мета-данных, представленных в открытых репозиториях, является обработка резулътатов выполнения проектов HUPO Plasma Proteome Project [Farrah и др., 2011] и HUPO Brain Proteome Project [Mueller и др., 2008], в которых объединение данных нескольких протеомных экспериментов позволило значительно увеличить общее число достоверно идентифицированных белков. Кроме того, протеомные ресурсы предоставляют дополнительные аналитические возможности, такие как поиск по паттернам пептидной фрагментации или создание библиотек масс-спектров [Baumgardner и др., 2011].

Глобальная протеомная машина (Global Proteome Machine, GPM, www.thegpm.org) является первым и самым объемным (по количеству экспериментов) репозиторием протеомных данных [Craig, Cortens, Beavis, 2004]. Для идентификации пептидов и белков по данньм тандемной масс-спектрометрии в GPM используются несколько поисковых средств, включая поиск по базе данных аминокислотных последовательностей (XTandem), поиск по библиотеке консенсусных спектров (X!Hunter) и итеративный поиск с использованием библиотек протеотипических пептидов (X!РЗ). Масс-спектрометрические данные загружают в базу данных GPM (GPMDB) в распространенных форматах (pkl, dta, mgf, mzXML). Аннотирование данных не является обязательным для размещения; доступны так же приватные загрузки.

Помимо простого интерфейса загрузки данных, GPM предлагает пользователю веб-интерфейс поиска по базе данных с использованием ключевых слов, включая идентификаторы белков, описания наборов данных и термины онтологии генов. Пользователю предлагается несколько режимов просмотра результатов поиска, которые включают в себя сведения об идентифицированных белках, в том числе основные параметры идентификации — количество уникальных идентифицированных пептидов, отображенных на данный белок, общее количество масс-спектров, использованных для идентификации, молекулярная масса белка, степень покрытия аминокислотной последовательности белка, вероятность ошибки при идентификации. В некоторых режимах отображаются модифицированные аминокислотные остатки и/или одноаминокислотные полиморфизмы, таблица peptide-spectrum matches с указанием параметров идентификации пептидов, таких как вероятность того, что идентификация пептида является случайным событием (e-value), суммарная интенсивность пиков масс-спектра, объясняемых данным идентифицированным пептидом, масса пептида, отклонение экспериментального m/z от теоретического, последовательность пептида, идентификатор спектра. Ресурс GPM предоставляет возможность визуально сравнить выбранный пользователем спектр с лучшими масс-спектрами, соотнесенными к данному пептиду, получить список МРМ-переходов для целевой идентификации данного белка.

Идентификация ОАП в белках надсемейства цитохромов Р450

При идентификации высокогомологичных белков в настоящей работе мы использовали подход, включающий два основных этапа. На первом этапе с помощью построения одномерных протеомных карт для каждой группы высокогомологичных белков определяли зону локализации, представляющую собой набор последовательных срезов одномерного геля. На втором этапе масс-спектрометрические данные набора срезов дополнительно интерпретировали с учетом сведений об аминокислотных последовательностях, входящих в группу белков для выявления протеотипических пептидов. В предыдущем разделе было показано, что с использованием такого подхода удается различить высокогомологичные формы в составе подсемейств цитохромов Р450. Используя тот же объект исследования рассмотрим, как двухэтапная схема анализа масс-спектрометррческих данных позволяет дифференцировать экспрессию аллельных вариантов белков.

В настоящей работе было идентифицировано 3 белка подсемейства СУP3А - CYP3А4, СУP3A5, и СУР43. В настоящее время известно более 200 полиморфных вариантов и мутаций в генах СУP3А (www.cypalleles.ki.se; w w w.pharmgkb .org). из которых 23 приводят к одноаминокислотным полиморфизмам в белке СУP3A4, 12 - в СУP3A5, и только одна мутация транслируется в ОАП белка CYP3А43. Сайты возможного полиморфизма распределены практически равномерно по аминокислотным последовательностям белков, поэтому даже при частичном покрытии есть вероятность обнаружить протеолитический пептид, содержащий ОАП.

Для учета сведений об возможных полиморфизмах, для каждого из ОАП была создана сгенерирована последовательность белка, содержащая замененный а.о., и добавлена в список белков, используемый для построения протеомных карт. При группировании гомологичных белков, содержащие замены последовательности были объединены в общую группу, соответствующую белкам подсемейства СУP3A. За счет группирования при построении протеомных карт были учтены так же пептиды, содержащие одноаминокислотные замены белков подсемейства СYP3А.

Для группы, содержащей белки подсемейства CYP3А строили таблицу распределения пептидов, идентифицированных в тандемных масс-спектрах, по срезам геля. На рисунке 8 приведен снимок экрана программы Zoomer, на котором показано распределение пептидов белков подсемейства СУP3А, идентифицированных в образце №2, по срезам геля. Для дальнейшего анализа отбирали те пептиды, которые были идентифицированы в пределах зоны локализации группы белков СУP3А (срезы 31-33), длина которых составляет не менее 7 а.о., и которые так же являются специфическими для белков подсемейства СУP3А. На рисунке 8 не отмечены три пептида, два из которых являются слишком короткими (менее 7 а.о.), и один пептид, обнаруженный исключительно в срезе №25, который не входит в зону локализации белков подсемейства СУP3А. На рисунке 8 для зоны локализации белков группы СУP3А отмечено 15 пептидов, а для всех четырех образцов были отобраны 29 идентифицированных в тандемных масс-спектрах пептидов.

Отобранные пептиды использовали для построения сводной таблицы, отражающий распределение отобранных пептидов в исследованных образцах по отношению к аллельным вариантам белков. На рисунке 9 приведен снимок экрана программы Zoomer, на котором показана часть сводной таблицы, относящаяся к идентифицированным в тандемных масс-спектрах пептидам. Столбцы таблицы организованы в четыре раздела, каждый из которых соответствует отдельному образцу. В таблице для наглядности ограничено количество одноаминокислотных полиморфизмов белков подсемейства СУP3А. Внутри разделов пронумерованные столбцы соответствуют белкам подсемейства CYP3A: 00 - СУP3А4, 01 -СУP3А43, 02-06 - варианты белка СУP3А4, содержащие аминокислотные замены, 07-11 — варианты белка СУРЗА5, содержащие аминокислотные замены, 12 - СУP3А5.

Первый пептид в таблице на рисунке 9(ЕАETGКPVТLK) был идентифицирован во всех четырех образцах (в каждом из четырех разделов присутствуют заполненные ячейки), при этом входит в состав аминокислотной последовательности белка СУP3А4 (заполненная знаком «+» ячейка в столбце 00), а так же в состав последовательностей четырех и пяти вариантов СУP3А4, содержащих аминокислотные замены (заполненные ячейки в столбцах 02-05). В то же время, пустая ячейка 05 свидетельствует о том, что данный пептид не входит в состав аминокислотной последовательности варианта белка СУP3А4, содержащего полиморфизм V—»1 в позиции 170. Это является подтверждением того, что данный вариант отсутствует в исследованных образцах.

Далее для подсемейства CYP3A отбирали характерные масс-спектрометрические пики, обнаруженные с помощью времяпролетной масс-спектрометрии. Для этого строили распределение измеренных масс-спектрометрических пиков усредненных масс-спектров в срезах геля. На рисунке 10 приведен снимок экрана программы Zoomer, на котором показано распределение масс-спектрометрических пиков по срезам геля. Как и в случае отбора пептидов, идентифицированных в тандемных масс-спектрах, для дальнейшего анализа отбирали только те пики, которые обнаружены в зоне локализации группы белков CYP3A, т. е. в срезах №31 -34.

Структура таблицы, отображенной на рисунке 11, аналогична структуре таблицы распределения пептидов, идентифицированных в тандемных масс-спектрах (рис. 9). В данном случае для каждого масс-спектрометрического пика исходя из значения m/z была определена аминокислотная последовательность пептида. В отличие от таблицы на рисунке 9, представленная на рисунке 11 таблица позволяет визуально определить случаи, когда отобранный масс-спектрометрический пик oднoзначно идентифицирует конкретный содержащий аминокислотную замену белок подсемейства цитохромов Р450 CYP3A.

Распределение идентифицированных пептидов по исследованным образцам и вариантам белков подсемейства CYP3A приведено в таблице 4. Представлены аллельные варианты белков CYP3A4 и CYP3A5, выявленные в масс-спектрах, полученных методом MALDIOF. Всего было обнаружено 8 масс-спектрометрических пиков, соответствующих теоретическим массам пептидов ОАП-содержащих вариантов белков CYP3A4 и CYP3A5 с точностью до 0,025 Да. Два пептида относились к цитохрому CYP3A4, а три — к CYP3A5. Кроме того, приведены значения m/z теоретические пептидов других идентифицированных микросомальных белков, значения которых близки к значениям m/z содержащего ОАП пептида.

Из данных таблицы 4 следует, что в двух и более образцах были идентифицированы замены М445Т в CYP3A4 и D277E в CYP3A5. Замена L82R в белке CYP3A5 (аллель CYP3A5 3D согласно номенклатуре CypAlIeles) была идентифицирована только в одном образце. Следует отметить, что для ОАП D277E в белке CYP3A5 было идентифицировано сразу два протеотипических пептида. Идентификация сразу двух этих пептидов наблюдалась в образцах №2 и №4. Оба идентифицированных пептида содержат модифицированный метионин (окисление), и отличаются за счет наличия сайтов пропуска гидролиза в одном случае слева (со стороны N-кoнцa), а во втором случае справа (со стороны С-конца).

Связь выявленных ОАП с заболеваниями человека

Поскольку были проанализированы масс-спектрометрические данные большого количества протеомных экспериментов, то выявленные 270 ОАП могут быть рассмотрены как репрезентативное представление вариабельности протеома человека. Среди идентифицированных полиморфизмов наибольшее количество, 163 ОАП, являются нейтральными ОАП. Количество ОАП, ассоциированных с заболеваниями, практически в три раза меньше, чем нейтральных и составляет 51 ОАП. Кроме того, статус 38 ОАП не известен (отмечены как «unknown» в UniProt).

На рисунке 27 представлена диаграмма распределения ОАП по взаимосвязи с заболеваниями. В левой части изображения (рис. 27а) приведено распределение всех ОАП, описанных в базе данных UniProt, а в правой части (рис.276) распределение ОАП, идентифицированных в масс спектрометрических данных PRIDE.

Как видно на рисунке, в масс-спектрометрнческих данных PRIDE значительно выше доля нейтральных ОАП. В то же время доля ОАП, ассоциированных с различными заболеваниями снизилась для идентифицированных в PRIDE ОАП с 32% до 20%. Можно рассматривать несколько причин для превалирования нейтральных замен в протеомных данных, в том числе причины искусственного характера. Однако, полученный результат объясним с биологических позиций; например, при гетерозиготном генотипе экспрессия продукта мутантного аллеля снижена по сравнению с нормальной формой. Как следствие, в масс-спектрометрических экспериментах регистрируются пики той формы белка, которая присутствует в более высоких концентрациях, а продукт мутантного аллеля не идентифицируется. В случае нейтральной или слабовредной мутации, экспрессия аллельных вариантов происходит примерно на одном уровне, поэтому вероятность обнаружения аллельного варианта на протеомном уровне довольно высока.

Другим объяснением диспропорции между частотой встречаемости ассоциированных с заболеваниями nsSNP и наблюдаемых в протеомных данных ОАП может быть низкая достоверность результатов медико-генетических исследований, обусловленная небольшими размерами выборок, иногда состоящих из результатов мониторинга одной семьи на протяжении одного-двух поколений. Проведенное протеотипирование позволяет предполагать, что до трети ассоциированных с заболеваниями несинонимичных нуклеотидных полиморфизмов на самом деле являются безвредными (или маловредными).

В таблице 10 представлены заболевания, связанные с идентифицированными в PRIDE одноаминокислотными полиморфизмами. Приведены только заболевания, связанные с которыми ОАП были идентифицированы более чем в одном эксперименте. В таблицу не вносили те ОАП, для которых изменение массы, вызванное заменой, составляло 16±0,1 Да, если соответствующий этому ОАП протеотипический пептид содержал один или несколько метионинов. Ранее уже указывалось, что такие ОАП потенциально могут быть скомпрометированы, и возможна ложная идентификация ОАП за счет неверного учета возможного окисления метионина.

В наибольшем количестве экспериментов были идентифицированы ОАП, связанные с дефицитом антитромбина III ( М1М:613118). В 14 экспериментах наблюдали замену лейцина (L) на валин (V) в позиции 131, еще в четырех экспериментах была обнаружена замена пролина (Р) на треонин (Т) в позиции 112 белка ANT3_HUMAN. Антитромбин III (серпин С1) является одним из основных регулятором свертываемости крови [Butenas, Mann, Butenas, 2002].

Различают два типа наследственного дефицита антитромбина III [Perry, Carreil, 1996]. Дефицит первого типа наблюдается только в гетерозиготном состоянии и характеризуется уменьшением уровня антитромбина в крови приблизительно на 50%. Мутации, вызывающие дефицит антитромбина типа 1, приводят к нарушению экспрессии белка, и содержащий аминокислотные замены вариант антитромбина не секретируется из гепатоцитов в кровь. Дефицит антитромбина второго типа не связан с изменением концентрации белка, а вызван изменением активности белка.

Идентифицированную в 14 экспериментах базы данных PRIDE замену лейцина (L) на валин (V) в позиции 131 антитромбина III связывают с дефицитом антитромбина типа 2 [Choudhury и др., 1994; Perry, Carrell, 1996; Stein, Carrell, 1995]. Данная мутация возникает в участке белка, связывающимся с гепарином, и приводит к снижению аффинности связывания. Эксперименты PRIDE, в которых была обнаружена данная мутация, относятся к исследованию протеома плазмы крови, опубликованному в работе [Liu и др., 2006]. Авторы методами протеомики исследовали белковый состав плазмы крови 7 людей, из которых шесть были пациентами с различными воспалениями при травмах. Данные, анализ которых позволил идентифицировать ОАП L131V, были получены при масс-спектрометрическом анализе N-гликопептидов. Идентифицированный пептид 124LGAC[128N]DT[131V]QQLMEVFKFDTISEK146, содержащий валин в 131 позиции, содержит так же сайт гликозилирования в позиции 128 [Bunkenborg и др., 2004; Chen и др., 2009; Liu и др., 2005], что является дополнительным подтверждением правильности идентификации содержащего ОАП пептида.

Интересно, что в той же работе Liu и соавторов [Liu и др., 2006], при анализе фракции негликозилированных пептидов были получены масс-спектрометрические данные (4 эксперимента в базе данных PRIDE), в которых была обнаружена мутация, вызывающая замену пролина (Р) на треонин (Т) в позиции 112. Учитывая, что в работе анализировали образцы крови семи человек, не известно, относятся ли эти данные к одному человеку или нет. Генетическая мутация, вызывающая замену Р112Т, впервые была обнаружена в 1994 году в работе [Millar и др., 1994]. Авторы с помощью ПЦР и прямого секвенирования исследовали семь пациентов с наследственным дефицитом антитромбина. Соответствующая мутация была обнаружена у одного из пациентов, а так же у его матери, у которой так же наблюдались фенотипические проявления, связанные с дефицитом антитромбина. Считается, что данная мутация ассоциирована с дефицитом антитромбина III типа I [Millar и др., 1994; Perry, Carrell, 1996; Stein, Carrell, 1995], при котором содержащие данный полиморфизм белки не секретируются из гепатоцитов в кровь. Обнаружение данной мутации при масс-спектрометрическом анализе образцов крови ставит под вопрос правильность представлений, что полиморфный вариант антитромбина III не секретируется в кровь.

В строке №11 (табл. 10) представлен ОАП M697I рецептора нейротрофического фактора мозга NTRK2, являющегося известным онкомаркером [Bullinger и др., 2010; Ullrich и др., 2007; Gabellini, 2008; Gimm и др., 2001]. В базе данных UniProtKB для мутации, приводящей к замене метионина на изолейцин в позиции 697 указана взаимосвязь с карциномой легкого; данная взаимосвязь была установлена в работе [Marchetti и др., 2008]. Авторы исследовали 528 образцов первичной карциномы лекого на наличие мутаций в тирозинкиназном домене нейротрофных рецепторов тирозинкиназ NTRK1, NTRK2 и NTRK3. Авторы обнаружили 10 соматических мутаций ( 4 мутации гена NTRK2 и 6 мутаций гена NTRK3), включая мутацию C.2139G4A, вызывающую аминокислотную замену метионина на изолейцин в позиции 697 белка NTRK2. Все мутации были обнаружены в образцах крупноклеточной нейроэндокринной карциномы. В нашей работе одноаминокислотный полиморфизм M697I белка NTRK2 был обнаружен в двух экспериментах PRIDE, в которых исследовали киназы (с использованием аффинной экстракции киназ) клеток линии К-562 [Bantscheff и др., 2007а]. Клеточная линия К-562 была получена из миелоидных клеток костного мозга пациента, страдающего хроническим миелобластным лейкозом. Хотя ранее в образцах миелобластных лейкозов методом генотипирования не исследовали данную мутацию, идентификация соответствующего ОАП может свидетельствовать о том, что данный полиморфизм ассоциирован не только с раком легкого, но и с гемобластозом.

Похожие диссертации на Анализ масс-спектров пептидных фрагментов для идентификации генетически детерминированного полиморфизма белков