Содержание к диссертации
Введение
1. Введение. Основные представления о предмете исследований 13
1.1 Масс-спектрометрия как основной метод исследования биомолекул в протеомике 13
1.2 Модели предсказания хроматографических времен удерживания белков и пептидов по их аминокислотной последовательности 24
1.3 Жидкостная хроматография в критических условиях как метод исследования синтетических полимеров 32
2. Теоретические основы концепции жидкостной хроматографии в критических условиях 39
2.1 Модель случайных блужданий для гетерополимеров 39
2.2 Эффективная энергия взаимодействия биомакромолекулы с поверхностью твердой фазы в градиентной хроматографии 43
2.3 Основное уравнение градиентной хроматографии 45
2.4 Система уравнений модели BioLCCC для определения объемов/времен удерживания пептидов 46
3. Определение феноменологических параметров 47
4. Апробация модели на экспериментальных данных 51
4.1 Экспериментальные условия и методы исследования 51
4.2 Корреляция экспериментальных и предсказанных времен удерживания на примере пептидных стандартов и дайджеста белков бактерии Escherichia Со 55
4.3 Предсказание разделения пептидов с модифицированными аминокислотными остатками на примере изомеров лейцин и изолейцин 59
4.4 Предсказание разделения последовательностей с перестановкой аминокислот на примере пептидов с зеркально-симметричными текстами 61
4.5 Практическое применение модели BioLCCC для фильтрации и верификации результатов поиска по базам данных в процессе идентификации пептидов и белков на примере Escherichia Coli 64
Заключение и выводы 86
Список публикаций 98
Литература
- Модели предсказания хроматографических времен удерживания белков и пептидов по их аминокислотной последовательности
- Эффективная энергия взаимодействия биомакромолекулы с поверхностью твердой фазы в градиентной хроматографии
- Система уравнений модели BioLCCC для определения объемов/времен удерживания пептидов
- Предсказание разделения пептидов с модифицированными аминокислотными остатками на примере изомеров лейцин и изолейцин
Введение к работе
последнего времени хроматографические данные, т.е. объем или время удерживания, мало использовались или вообще не использовались для определения аминокислотной последовательности пептидов. Несмотря на возросший в последнее время интерес к хроматографии как к источнику дополнительной информации о первичной структуре пептидов и белков, до сих пор не было предложено такой содержательной физической теории, описывающей процессы разделения биомакромолекул, которая позволила бы связать закономерности разделения с "текстом" аминокислотной последовательности. Все существующие методики предсказания удерживания пептидов с известной последовательностью строились либо на основе моделей, развитых для низкомолекулярных соединений, либо на основе систем искусственного интеллекта. Это в лучшем случае позволяло "определить" средний аминокислотный состав пептида, но не характер чередования аминокислотных остатков в цепи.
Цель и задачи исследования. Основной целью и задачами работы были (1) разработка модели хроматографического разделения биомакромолекул (BioLCCC), учитывающей зависимость их хроматографического удерживания от первичной структуры-последовательности аминокислотных остатков; (2) экспериментальная верификация предложенной модели для предсказания времени и порядка выхода биомакромолекул с разными "текстами" в условиях градиентной хроматографии; (3) интеграция данных по последовательности цепи, получаемых в рамках развитого хроматографического подхода, с существующими экспертными системами МС/МС секвенирования для повышения достоверности идентификации белков и пептидов.
Научная новизна.
1. Впервые предложена физическая модель, описывающая взаимодействие связанных в цепь аминокислотных остатков биомакромолекулы с поверхностью, и учитывающая зависимость взаимодействия (статистической суммы) от их последовательности в цепи.
Впервые известная концепция жидкостной хроматографии в критических условиях, развитая ранее для исследования строения цепи синтетических полимеров, применена для описания разделения биомакромолекул в ВЭЖХ, в том числе и в условиях градиентной хроматографии.
Впервые экспериментально найдены эффективные энергии адсорбции 20 наиболее распространенных в природе аминокислотных остатков, а также концевых групп пептидов с гидрофобной поверхностью типа CJ8.
Впервые модель хроматографического разделения пептидов применена, в том числе совместно с экспертными системами МС/МС секвенирования, для определения последовательностей пептидов, для идентификации модифицированных участков аминокислотных последовательностей, вызванных либо пострансляционными модификациями белков, либо мутациями в процессе их синтеза, либо перестановками аминокислотных остатков.
Практическое значение работы. Полученные результаты могут быть использованы исследователями, работающими в области протеомики, для решения следующих проблем: S предсказания времен удерживания биомакромолекул с известной последовательностью, что позволит повысить достоверность идентификации пептидов и белков, полученных в результате хромато-масс-спектрометрического анализа; S определения аминокислотных последовательностей неизвестных или отсутствующих в протеомных базах данных белков (de novo sequencing); S определения или идентификации типа и места посттрансляционных модификаций в аминокислотной последовательности, а также изомерных аминокислот.
Личный вклад автора. Материал, представленный в диссертации, получен при непосредственном участии автора в постановке задач исследований, в выполнении экспериментов и в обсуждении полученных результатов. Диссертационная работа выполнена на кафедре химической физики Московского физико-технического института в лаборатории физических основ и техники масс-спектрометрии биополимеров Института энергетических проблем химической физики РАН в период с 2004 по 2007 год.
Апробация работы. Результаты работы докладывались и обсуждались на следующих российских и международных конференциях: 2-й Съезд Всероссийского масс-спектрометрического общества "Масс-спектрометрия и ее прикладные проблемы", 2005, Москва, Россия, 53-я Конференция Американского масс-спектрометрического общества, 2005, Сан Антонио, США, 17-я Международная масс-спектрометрическая конференция, 2006, Прага, Чехия, XLIX Научная конференция Московского физико-технического института, 2006, Москва, Россия, 54-я Конференция Американского масс-спектрометрического общества, 2006, Сиэтл, США, 3-я Школа-семинар "Масс-спектрометрия в химической физике, биофизике и экологии", 2007, Звенигород, Россия.
Публикации. Основное содержание диссертационной работы опубликовано в статьях, список которых приведен на стр. 95-96 диссертации. Работы, вошедшие в диссертацию, были выполнены при поддержке РФФИ (гранты №№ 03-04-48228, 06-04-49632), Российской Академии Наук (ОХНМ 4.2), CRDF (гранты №№ RUC1-5031-MO-04, RUE1-000588-МО-05), и INTAS (Young Scientist Fellowship №04-83-2643 и Genomics-05-1000004-7759).
Изложение в диссертации построено следующим образом:
Модели предсказания хроматографических времен удерживания белков и пептидов по их аминокислотной последовательности
В последние годы было предложено достаточно большое количество методик, главной целью которых являлось повышение качества и достоверности процесса идентификации пептидов. Следует отметить, что при этом большинство усилий было направлено на разработку новых алгоритмов для интерпретации МС/МС данных [23-28], изучение механизмов тех или иных типов фрагментации в тандемной масс-спектрометрии [29-31], а также на разработку инструментальных методик, способных улучшить разрешающую способность, чувствительность и точность измерений существующих масс-спектрометров [32-35].
К началу нынешнего столетия сформировалось понимание того, что одними средствами масс-спектрометрии задачу идентификации аминокислотной последовательности белка решить если не невозможно, то, по крайней мере, этот процесс сложен и требует на нынешнем этапе длительного времени. Достаточно сказать, что полная расшифровка аминокислотной последовательности среднего по размеру белка (молекулярный вес около 70000-80000 Да), не входящего в протеомные базы данных, с учетом всех посттрансляционных модификаций занимает около года для оснащенной самым современным оборудованием масс-спектрометрической лаборатории. Этот факт инициировал поиск и развитие методов и математических алгоритмов, позволяющих использовать хроматографические данные в процессе секвенирования или идентификации белков [36-40].
Наиболее развитой среди всех существующих на сегодняшний день моделей предсказания времен удерживания в хроматографии полипептидов является сформулированная в 80-х годах прошлого века [20, 41], так называемая аддитивная модель, получившая широкое признание и внимание со стороны хроматографического сообщества [38, 42-48]. Основное предположение, которое делается в рамках модели - это то, что разделение пептидов идет в соответствии с теми же принципами, что и разделение низкомолекулярных органических соединений, т.е. исключительно через адсорбционное взаимодействие всей пептидной цепочки с поверхностью твердой фазы. Взаимодействие каждого аминокислотного остатка определяется его индивидуальным коэффициентом удерживания (retention coefficient) и общее время удерживания пептида определяется суммой коэффициентов удерживания аминокислотных остатков, входящих в его состав. Такой аддитивный подход к рассмотрению разделения пептидов достаточно понятен и лежит в рамках существовавших в то время представлений, которые рассматривали пептиды как небольшие индивидуальные органические соединения, либо соединения, составленные из небольшого числа индивидуальных соединений (более того, даже в наше время такие представления являются доминирующими). К концу 80-х годов была завершена работа по определению индивидуальных коэффициентов удерживания для 20 наиболее распространенных в природе аминокислотных остатков [47]. Следует отметить, что определение коэффициентов для каждого конкретного аминокислотного остатка осуществлялось в экспериментах на модельных синтетических пептидах, в состав которых входил тот или иной остаток. Уже в этих ранних работах был сделан первый значительный шаг в сторону от хроматографии низкомолекулярных соединений: взаимодействие аминокислотных остатков с поверхностью рассматривалось как происходящее в составе аминокислотной последовательности. Полученные в этих работах коэффициенты удерживания аминокислотных остатков стали широко использоваться в хроматографии для предсказания времен удерживания пептидов и пептидных стандартов. Идея же использования времен удерживания пептидов наряду с масс-спектрометрической информацией в протеомньгх исследованиях появилась лишь в 2002 году [36], и в настоящее время приобретает все большую популярность среди исследователей в области протеомики. На сегодняшний день можно выделить три совершенно различных подхода к предсказанию времени удерживания: (1) машинное обучение с применением методов искусственных нейронных сетей [37, 49] и векторной регрессии [40]; (2) различные варианты аддитивной модели [36, 38, 49-53]; и (3) концепция жидкостной хроматографии в критических условиях, положенная в основу описания хроматографического разделения биомолекул и представленная в данной работе. Следует сказать, что модельным описанием хроматографии пептидов является только жидкостная хроматография биомолекул в критических условиях, в то время как остальные подходы являются сугубо эмпирическими. Остановимся подробнее на каждом из перечисленных подходов и результатах, которые были получены с их использованием.
Машинное обучение (англ. Machine Learning, подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться) очень широко используется в биоинформатике для решения самых различных задач [54-59]. Общая постановка задачи обучения формулируется следующим образом: имеется множество объектов (ситуаций - в нашем случае аминокислотная последовательность пептида) и множество возможных ответов (откликов, реакций, т.е. в нашем случае времен удерживания). Между ответами и объектами существует некоторая зависимость, которая неизвестна.
Эффективная энергия взаимодействия биомакромолекулы с поверхностью твердой фазы в градиентной хроматографии
Из-за сложности рассматриваемой системы описание взаимодействия реальной макромолекулы с поверхностью, учитывающее детальное химическое строение, как самой макромолекулы, так и поверхности, и молекул растворителя, как методами квантовой химии, так и другими методами математического моделирования, вряд ли возможно в обозримом будущем. Это связано не только с ограничениями в вычислительной мощности, но также и с тем, что реальные потенциалы взаимодействий известны лишь приблизительно, из-за чего результаты сложных и длительных расчетов также будут далеки от реальности. Однако в хроматографической системе реализуются соотношения между рядом параметров:
Размер колонки L » размер частиц d » размер пор D размер макромолекул R » размер мономеров а и молекул растворителя г, радиус действия адсорбционных потенциалов г о, которые позволяют значительно упростить модель разделения. В частности, из того факта, что размер макромолекул больше размера мономеров и радиусов взаимодействия, можно на первом этапе пренебречь особенностями химической структуры мономеров, а также использовать самые простые представления о характере взаимодействия мономеров с поверхностью. На практике для описания поведения макромолекулы при взаимодействии с поверхностью адсорбента полезной оказывается модель случайных блужданий по узлам кубической решетки [67]. В этой модели (Рис. 9), макромолекула (в нашем случае биомакромолекула) представляется линейной цепочкой «бестелесных» мономеров (аминокислотных остатков), соединенных между собой наподобие шариков на шарнирах. Пора адсорбента моделируется щелью, размер которой D определяется отношением размера поры d к размеру мономера а, и, как правило, не превышает 30. При этом взаимодействие макромолекулы с поверхностью определяется теми мономерами, которые находятся непосредственно в контакте с поверхностью (слой 1 и D, Рис. 9). Мономеры макромолекулы, оставаясь связанными в цепь, случайным образом могут «перемещаться» по узлам кубической решетки в поре, образуя, тем самым, все возможные состояния. Для определения статистической суммы достаточно просуммировать по всем возможным конфигурациям с учетом их статистического веса, зависящего от того, какие мономеры находятся на поверхности и взаимодействуют с ней. Контакт г -того мономера с поверхностью увеличивает статистический вес конфигурации на величину expert, где seffi - эффективная энергия адсорбции. Таким образом, различие в химическом строении аминокислотных остатков сводится к различию их эффективных энергий адсорбции, которые следует рассматривать как феноменологические параметры модели.
Чтобы посчитать статистическую сумму Zp макромолекулы в поре и определить основную количественную характеристику в хроматографии -коэффициент распределения Kj проще всего воспользоваться методом переходной матрицы, элементы которой есть условная вероятность перехода мономера из одного узла в соседний:
Если аминокислотная последовательность состоит из N мономеров, то произведение стартового вектора PQ=\ exp(eeffi) 1 — 1 ехр( ) г, описывающего распределение начального аминокислотного остатка (начальный аминокислотный остаток соответствует первому остатку на С -конце пептида), на N-1 матриц перехода, дает распределение N- конца внутри поры, а суммирование по всем координатам N- конца цепи определяет статистическую сумму цепи в поре и, соответственно, коэффициент распределения
При этом следует отметить важное свойство, вытекающее из такой записи коэффициента распределения. Поскольку каждая матрица перехода описывает конкретную аминокислоту через энергию взаимодействия с поверхностью seffІ, а произведение матриц некоммутативно, то в таком представлении коэффициент распределения зависит не только от аминокислотного состава пептида, но и от порядка чередования аминокислот в цепи, то есть
Поскольку в представлении (2) отсутствует какое-либо дополнительное взаимодействие между соседними мономерами (за исключением химической связи), оказывается, что самого факта связывания остатков в цепь уже достаточно для того, чтобы разделение в хроматографии зависело и от последовательности. Представленная модель, безусловно, не учитывает всех особенностей строения цепи реальных пептидов, в частности, возможность образования вторичных структур и т.п. Однако модель блужданий допускает рассмотрение и более реалистичных цепей, в частности, несложно ввести в эту модель параметры жесткости цепи, дополнительное взаимодействие удаленных по цепи остатков, нелокальность взаимодействия с поверхностью.
Нам, для того чтобы связать модель с реальной хроматографической системой и использовать ее в дальнейшем для предсказания времени удерживания пептидов и их последовательности, необходимо определить ряд феноменологических параметров - эффективных энергий адсорбции, с учетом состава бинарного растворителя и изменения состава растворителя во времени в условиях градиентного элюирования.
Система уравнений модели BioLCCC для определения объемов/времен удерживания пептидов
Начнем обсуждение с экспериментальных результатов, полученных в ходе тестирования модели BioLCCC на коммерческих стандартах S]-S5 и дайджеста белка Cytochrome С. На Рис. 12а и 126 представлена корреляция между найденными экспериментально временами удерживания и временами, предсказанными в рамках модели BioLCCC для данных образцов. Как видно, наблюдается хорошая корреляция между предсказанными и реальными временем удерживания в обоих случаях.
Вместе с тем стоит отметить, что на Рис. 12а стандарт Sj явно "выпадает" из линейной зависимости. Отличие этого стандарта от , заключается в том, что он имеет на конце ионизованную группу Нз+№- . Очевидно, что эта группа сильно гидрофильна и отталкивается от поверхности (другими словами, это отталкивание обусловлено тем, что "изображение" заряда на границе раздела полярной фазы (воды) и неполярной Cjs имеет тот же знак). Поэтому объем удерживания стандарта Sj заметно меньше объема удерживания S3, имеющего тот же "текст", но незаряженную концевую группу на ІУ-конце. Хотя модель BioLCCC учитывает такое отталкивание (энергия взаимодействия группы #/iV-принята равной eHN_ =- 1.69), однако, даже если предположить бесконечно сильное отталкивание концевого мономера, это приводит к исключению лишь относительно небольшого числа конфигураций, а именно тех, которые начинаются на поверхности. Этого, по-видимому, недостаточно для наблюдаемого уменьшения объема удерживания стандарта S] с зарядом на jV-конце. Поэтому необходимо учитывать нелокальность взаимодействия таких концевых групп, что достаточно просто сделать в переходных матрицах уравнения (1) в рамках модели BioLCCC.
(Отметим, что идейно это близко к поправкам к энергии адсорбции аминокислотных остатков, "привязанных" к N- концу пептида, развиваемому в работе.) Тем не менее, правильный учет взаимодействия заряженных концевых групп Л%+ , а также аминокислотных остатков лизина, аргинина и гистидина - (а также их взаимного влияния друг на друга в цепи) в рамках модели BioLCCC пока остается открытым.
Рассмотрим наконец возможность использования модели BioLCCC для анализа хроматографических данных, полученных в протеомных исследованиях смесей триптических пептидов белков бактерии E.Coli. Главное отличие данного объекта исследований от двух предыдущих заключается в том, что аминокислотные последовательности пептидов не были известны со 100%-ной точностью, т.е. все расчеты времен удерживания были сделаны для последовательностей, идентифицированных на основе масс-спектрометрических данных при помощи поисковой программы Mascot по белковым базам данных. Хотя достоверность идентификаций, сделанных программой Mascot, не должна была быть менее 95%, вместе с тем следует сказать, что далеко не для всех последовательностей были получены полные спектры фрагментации высокого качества, так что достоверность их первичной структуры не абсолютная.
Как следует из Рисунка 13 а, и для реальных систем наблюдается хорошая корреляция (коэффициент корреляции R 0.9) между предсказанными и реальными временами. Тем самым, информация о возможном тексте последовательности, получаемая из времени удерживания, может быть использована для повышения достоверности идентификации пептидов, а, следовательно, и белков протеома организма.
Такой же анализ был применен нами и к идентифицированным последовательностям пептидов из стандартной смеси 6 белков: Cytochrome С, Bovine Serum Albumin, Chicken Lysozime, Aporansferrin, Alcohol dehydrogenase и beta-galactosidase (Dionex/LCPackings, USA). Для последнего образца корреляция между предсказанными и экспериментальными временами удерживания приведена на Рис. 136. В целом, однако, степень корреляции в этом случае заметно хуже, чем для белков E.coli. В отличие от белков E.coli, при анализе данной стандартной белковой смеси использовались также и такие идентифицированные последовательности, степень достоверности которых была существенно ниже 95 %.
Кроме того, следует отметить, что в смеси была идентифицирована пара белков, которые не входят в перечень описания данного стандарта. Так вместо белка Aporansferrin был идентифицирован Serotransferrin, а также наряду с beta-galactosidase был идентифицирован белок beta-D-galactosidase. Это еще раз доказывает, что даже для «проверенных» стандартов с известными заранее белками, идентификация последовательностей пептидов только лишь по их массам может обладать не слишком высокой достоверностью.
Предсказание разделения пептидов с модифицированными аминокислотными остатками на примере изомеров лейцин и изолейцин
Достоверность хроматографической идентификации, которая была обозначена нами как индекс LC_Score (Liquid Chromatography Score), оценивалась по относительному отклонению предсказанного времени удерживания от экспериментального и определялась как RT —RT LC_Score = - -, (17) а где а - среднеквадратичное отклонение, определяющееся точностью предсказания модели. Чтобы определить эту величину для обеих моделей предсказания удерживания, BioLCCC и SSRcalc, в данном исследовании были отобраны пептиды, чьи значения индексов достоверности МС идентификации были выше 60, т.е. намного превышали пороговое значение, и, следовательно, достоверность их определения вряд ли могла бы быть поставлена под сомнение. Кроме того, последовательности этих пептидов не содержали никаких модификаций аминокислотных остатков и принадлежали белкам, которые в данном поиске набрали наибольшее количество идентификаций. На Рис. 16 представлена корреляция экспериментальных времен удерживания с предсказанными по модели BioLCCC и модели SSRcalc. Величины среднеквадратичного отклонения и коэффициентов корреляции для этих данных, как и ожидалось, не слишком различаются и составили 2.9 минуты и R2=0.97 в случае BioLCCC и 2.97 минуты и R =0.96 для SSRcalc, соответственно. Во всех дальнейших расчетах индексов достоверности хроматографических идентификаций, LC Score, использовались именно эти значения стандартных отклонений. На Рисунках 17а, 176 представлено распределение идентифицированных последовательностей в шкалах индексов достоверностей масс-спектрометрических и хроматографических идентификаций для обоих калькуляторов, SSRcalc и BioLCCC. Очевидно, что качественно полученные распределения дают схожую картину:
Графики распределений идентификаций для моделей BioLCCC (а) и SSRcalc (б) по двум шкалам индексов достоверности, хроматографической и масс-спектрометрической: LC Score vs. Mascot_Score [11 из списка публикаций автора, стр. 98-99]. чем ниже достоверность МС идентификации, тем выше величина LC_Score. Это лишний раз подтверждает, во-первых, наличие большого количества неверно идентифицированных пептидов на основе только масс-спектрометрических данных, и, во-вторых, комплементарность масс-спектрометрических и хроматографических данных о структуре пептидов. При этом следует отметить, что распределение точек для SSRcalc калькулятора в области LC_Score ±2, 15 Mascot_Score 60 более плотное, нежели на Рисунке 17а. Более детальный анализ распределений LC_Score vs. Mascot_Score показал следующие результаты. Отбор «достоверных» идентификаций осуществлялся таким образом, чтобы хроматографические данные удовлетворяли критерию: -2 LC_Score 2. В целом модель BioLCCC оказалась значительно более жестким фильтром и не подтвердила порядка 45% всех масс-спектрометрических идентификаций, в то время как аддитивная модель SSRcalc отклонила только 27%. При этом показания BioLCCC и SSRcalc, как по отношению к положительным, так и ложным идентификациям, совпадают только в 63% случаев (Рис. 18). Очевидно, что такой подход к повышению достоверности идентификаций пептидов сопровождается потерей значительного числа (от 30 до 45%) всех идентификаций, сделанных только на основе МС данных. Его использование приведет к тому, что за счет повышения достоверности пептидных идентификаций существенно будет снижена достоверность идентификации самого белка, в состав которого входят эти пептиды. Белок определяется (идентифицируется) тем точнее, чем большее количество пептидов, принадлежащих ему, удалось обнаружить, и чем большую часть последовательности протеина они покрывают. Как правило, в процессе идентификации удается получить информацию лишь о 50-60% аминокислотной последовательности белка. Даже в этом случае всегда находится огромное количество белков-гомологов, и точная, т.е. однозначная, идентификация белка становится невозможной. Конечно, среди пептидов существует так называемые уникальные пептиды, которые являются своеобразными «метками» белка, однако, на данный момент времени эта информация, как правило, труднодоступна и, в частности, не используется поисковой машиной Mascot. Поэтому более удачным вариантом использования хроматографических фильтров является их применение на стадии отбора пептида-лидера из всех обнаруженных МС совпадений или же непосредственно в процессе поиска по базам данных.
Фильтрация списка совпадений, составленного по масс спектрометрическим данным, с использованием предсказания хроматографического удерживания.
Рассмотрим использование выбранных для сравнения моделей предсказания времен удерживания при идентификации белков и пептидов при оценке достоверности совпадений техр и mthe0r, wfragexP и rir{mgtheor с «хроматографической точки зрения» на этапе отбора наиболее вероятного кандидата из всех найденных МС совпадений (Рис. 19). Продемонстрируем это на том же примере идентификации белков бактерии E.Coli, уже описанной нами ранее. Достоверность хроматографической идентификации, среднеквадратичное отклонение и экспериментальное время удерживания определялись при этом так же, как это описано в предыдущем пункте.