Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики Макаров Василий Викторович

Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики
<
Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Макаров Василий Викторович. Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики : Дис. ... канд. техн. наук : 01.04.01 СПб., 2006 118 с. РГБ ОД, 61:06-5/2977

Содержание к диссертации

Введение

ГЛАВА 1. Литературный обзор 10

1.1. Масс-спектрометрия как один из основных аналитических инструментов протеомики 10

1.2. Методики масс-спектрометрической идентификации белков 12

1.2. 1. Идентификация белков методом пептидного массового картирования 12

1. 2. 2. Идентификация белков методами тандемной масс-спектрометрии 14

1.3. Перспективные направления развития аналитических методов для решения задач протеомики 17

1.3.1. Перспективы ВЭЖХ-МС

1.3.2. Перспективы тандемной масс-спектрометрии 18

1.4. Обработка данных в эксперименте по исследованию пептидов и белков 19

1.4.1. Первичная обработка 20

1.4.2. Вторичная обработка 21

Заключение 33

ГЛАВА 2. Расчет параметров модельного изотопного мультиплета пептида 35

2.1. Пептиды как предмет масс-спектрометрического анализа 35

2.2. Модельный изотопный мультиплет пептида 37

2.3. Расчет параметров модельного изотопного мультиплета пептида 39

2.3.1. Формирование рабочей выборки 39

2.3.2. Ограничение диапазона молекулярных масс пептидов 40

2.3.3. Расчет формы изотопного мультиплета ...42

2.3.4. Подвыборки ряда значений молекулярных масс для расчета плотности распределения относительной интенсивности пиков изотопных мультиплетов пептидов 42

2.3.5 Ограничение количества пиков изотопного мультиплета, участвующих в расчете 44

2.3.6. Гистограммы плотности распределений относительной интенсивности пиков изотопных мультиплетов пептидов 45

Заключение 51

ГЛАВА 3. Разработка алгоритма декомпозиции масс-спектра высокого разрешения 53

3.1. Постановка задачи обработки масс-спектра с целью извлечения аналитически значимой информации 53

3.2. Анализ различных случаев наложения изотопных мультиплетов 55

3.3. Классификация возможных ошибок декомпозиции масс-спектра 60

3.4. Стратегия работы алгоритма декомпозиции с искаженными масс-спектрометрическими данными 62

3.5. Алгоритм декомпозиции масс-спектра высокого разрешения 63

3.5.1. Описание алгоритма 63

3.5.2. Формирование тестовой группы спектральных пиков 66

3.5.3. Интерпретация тестовой группы спектральных пиков 67

3.5.4. Пересчет центроидов пиков тестовой группы 67

3.5.5. Масштабирование и позиционирование модельного изотопного мультиплета на тестовой группе спектральных пиков 68

3.5.6. Коррекция интенсивности пиков тестовой группы 70

3.5.7. Группировка выделенных изотопных мультиплетов по принадлежности к компонентам пробы 72

3.6. Модификация алгоритма декомпозиции для обработки хромато-масс-спектрометрических данных 73

3.6.1. Схема обработки массива данных ВЭЖХ-МС эксперимента 73

3.6.2. Решение задачи кластерного анализа на массиве результатов декомпозиции масс-спектров 74

3.7. Реализация алгоритма декомпозиции в программном обеспечении обработки результатов масс-спектрометрических экспериментов 78

Заключение 82

ГЛАВА 4. Тестирование алгоритма декомпозиции масс-спектра высокого разрешения 83

4.1. Тестирование алгоритма декомпозиции на массиве модельных масс-спектрометрических данных 83

4.1.1. Процедура генерирования модельных масс-спектров 84

4.1.2. Примеры модельных масс-спектров 86

4.1.3. Описание алгоритма выделения спектральных пиков 86

4.1.4. Исследование работы алгоритма декомпозиции на модельных масс-спектрах различной сложности 88

4.1.5. Исследование зависимости характеристик качества обработки от параметров процедуры интерпретации тестовой группы пиков 92

4.1.6. Исследование зависимости времени выполнения процедур обработки от параметров масс-спектра 94

4.1.7. Сравнение алгоритма декомпозиции с известными алгоритмами решения аналогичных задач 95

4.2. Тестирование алгоритма декомпозиции на массиве масс-спектрометрических данных ВЭЖХ-МС эксперимента 98

4.2.1. Идентификация белка методом пептидного массового картирования 98

Заключение 102

Список использованных источников 106

Приложения 117

Введение к работе

Актуальность темы. История развития масс-спектрометрии свидетельствует, что математическая обработка и интерпретация данных является одним из ключевых этапов анализа. Совершенствование аналитических характеристик масс-спектрометров, появление новых систем регистрации экспериментальных данных, развитие компьютерной техники открывает новые возможности масс-спектрометрического анализа и, вместе с тем, диктует необходимость создания новых высокоэффективных методов обработки данных.

Важнейшей областью приложения масс-спектрометрии сегодня является протеомика, в которой масс-спектрометрия занимает место одного из основных аналитических методов. С ее помощью решаются задачи идентификации и секвенирования (установления аминокислотной последовательности) белков и пептидов, изучаются пост-трансляционные модификации, исследуются количественные характеристики белка в смеси.

Характерной особенностью данных исследований является высокая сложность анализируемых смесей (порядка 105 -106 компонентов с содержанием в диапазоне от единиц фемтомолей до 10 микромоль). Для масс-спектрометрического анализа проб такой сложности применяются приборные комплексы, представляющие собой сочетание высокоразрешающих масс-спектрометров (МС), в том числе тандемных (МС-МС), с высокоэффективной жидкостной хроматографией (ВЭЖХ). Для предварительного фракционирования проб применяется двумерный гель-электрофорез.

В экспериментах, проводимых с использованием данных приборных комплексов, генерируются колоссальные объемы данных, достигающие нескольких гигабайт за эксперимент. Тенденции развития масс-спектрометрии связаны с повышением производительности анализа, т.е. дальнейшим ростом объемов данных и скорости их регистрации. Работа исследователя с такими массивами данных неизбежно требует использования вычислительной техники и программного обеспечения, автоматизирующего процесс регистрации, сохранения, обработки и интерпретации масс-спектрометрических данных. Эти операции должны выполняться за время, сопоставимое с длительностью самого эксперимента, в противном случае повышение производительности масс-спектрометрического анализа будет неоправданным.

Наименее проработанными являются задачи высокоскоростной обработки и интерпретации масс-спектрометрических данных. Существующие методы решения этих задач не адекватны производительности перспективных масс-спектрометрических систем и зачастую требуют вмешательства оператора в процесс обработки. Поэтому весьма актуальной является разработка нового класса методов обработки и интерпретации масс-спектрометрических данных, характерными особенностями которых являются полная автоматизация и возможность создания на их основе высокоэффективных алгоритмов.

Настоящая работа посвящена ключевому этапу обработки масс-спектрометрических данных - извлечению аналитически значимой информации, на основе которой производится интерпретация масс-спектрометрических данных методами биоинформатики. От качества выполнения обработки на этой стадии зависит правильность интерпретации данных, эффективность использования аналитических характеристик прибора и качество анализа в целом.

Целью работы является разработка высокопроизводительного метода извлечения аналитически значимой информации из масс-спектрометрических данных.

Для достижения этой цели предложен алгоритм обработки масс-спектрометрических данных, обладающий высокой производительностью и адаптированный для обработки масс-спектров многокомпонентных проб с большим количеством перекрывающихся сигналов.

Научная новизна работы

1. Предложена новая методика декомпозиции масс-спектра, основанная на выделении и интерпретации тестовых групп спектральных пиков ионов, в последовательности от высших зарядовых состояний к низшим.

2. Предложена новая методика интерпретации группы спектральных пиков с использованием модельного изотопного мультиплета, обеспечивающая выделение изотопных мультиплетов, претерпевающих наложения. Практическая значимость работы

Разработанный алгоритм декомпозиции масс-спектра смеси пептидов может применяться для обработки масс-спектрометрических данных, регистрируемых в экспериментах протеомики на масс-спектрометрических приборах различных типов. На основе разработанного метода могут быть реализованы алгоритмы обработки масс-спектров различных классов химических соединений.

Алгоритм реализован в программном обеспечении, которое позволяет автоматизировать обработку хромато-масс-спектрометрических данных, получаемых в экспериментах протеомики. Созданное программное обеспечение внедрено в систему регистрации и обработки результатов эксперимента времяпролетного масс-спектрометра МХ-5303, разработанного в Лаборатории экологической и биомедицинской масс-спектрометрии Института аналитического приборостроения РАН по госконтракту ОКР № 40.032.11.17 от 1.04.2002 г «Времяпролетный масс-спектрометр с ортогональным источником ионов и электрораспылением (типа «Электроспрей») для сочетания с жидкостным хроматографом».

Положения, выносимые на защиту

1. Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики, основанный на использовании модельного изотопного мультиплета пептида.

2. Реализация разработанного метода в виде алгоритма декомпозиции масс-спектра смеси пептидов, производительность которого более чем на порядок превышает производительность известных алгоритмов решения аналогичных задач.

3. Эффект восстановления алгоритмом декомпозиции спектральных пиков, которые не были выделены на предварительной стадии обработки. Апробация работы. Результаты работы были представлены на Всероссийской конференции с международным участием «Масс-спектрометрия и ее прикладные проблемы» (Москва, 2005г.), на III съезде Общества биотехнологов России (Москва, 2005г.), на конференции «Лазеры, измерения, информация» (Санкт-Петербург,2005г.), а также на конкурсах научных работ, проводимых в Институте аналитического приборостроения РАН.  

Перспективные направления развития аналитических методов для решения задач протеомики

В 1993 году пятью группами ученых из разных стран [23-27] была продемонстрирована возможность идентификации белков масс спектрометрическим методом на основе сопоставления масс пептидов, полученных путем ферментативного гидролиза, с ожидаемыми массами, рассчитанными на основе аминокислотной последовательности, полученной из базы данных. Результаты этих исследований составили основу методики, получившей название «пептидное картирование», или «фингерпринт» (Peptide Mass Fingerprint, PMF). Белок, предварительно выделенный из смеси методом гель-электрофореза, подвергается ферментативному гидролизу, чаще всего с использованием трипсина, расщепляющего аминокислотную последовательность в определенных местах (по лизину и аргинину). Полученная смесь пептидов анализируется методом масс спектрометрии, с возможным предварительным разделением методами ВЭЖХ. Массы пептидов, полученные в результате эксперимента, сопоставляются с ожидаемыми массами, рассчитанными в результате моделирования процесса ферментативного гидролиза известных белков, аминокислотные последовательности которых заимствованы из базы данных. Белкам базы данных присваивается значение рейтинга, которое отражает степень соответствия масс пептидов экспериментально зафиксированным массам. Белок, обладающий максимальным рейтингом, признается наиболее вероятным вариантом интерпретации результатов анализа. Информация об аминокислотных последовательностях известных белков и пептидов накапливается мировым научным сообществом еще со времен открытия первых методов расшифровки аминокислотных последовательностей, таких как деградация по Эдману [28]. В настоящее время эта информация суммирована в базах данных, пополнение которых происходит за счет результатов геномных и протеомных исследований. Крупнейшими общедоступными и наиболее популярными в настоящее время являются следующие базы данных, Базы данных, аннотируемые автоматически, составляются на основе информации, непосредственно предоставляемой исследователями. При этом значительную часть базы могут составлять гипотетические белки, существование которых предсказано при анализе генетических последовательностей. Сведения о таких белках, полученные различными научными центрами, часто дублируют друг друга, поэтому при составлении баз данных каждая аминокислотная последовательность проходит автоматическую проверку и аннотацию, целью которой является устранение избыточности. Примером базы данных с устраненной избыточностью является NCBInr [31]. Разработано большое количество алгоритмов ранжирования белков базы данных по степени соответствия экспериментальному набору молекулярных масс. Основой для вычисления рейтинга в подобных алгоритмах являются: количество обнаруженных масс пептидов - алгоритмы PeptideSearch [31], Peptldent [33]; вероятностные модели - алгоритм MOWSE (Molecular Weight Score Estimation -оценка рейтинга на основе молекулярных масс) [24], используется такими программами как Mascot, MS-Fit, MSag, MS-Seq; модели на основе формул Байеса - алгоритм ProFound [32] эвристическое ранжирование, основанное на методе обучения - алгоритм Smartldent [34]. Существенным недостатком метода пептидного массового картирования является тот факт, что по мере роста объема баз данных достоверность идентификации снижается, так как растет количество белков, пептиды которых потенциально интерпретируют список масс, зарегистрированных в эксперименте. Кроме того, метод пептидного массового картирования неприменим для идентификации белка в случае, если смесь пептидов содержит результат ферментативного гидролиза нескольких различных белков. Попытки адаптировать метод пептидного массового картирования для идентификации белка в смеси предпринимались неоднократно, однако ни один метод не стал общепринятым. Применение данного метода для смесей из 2-5 белков, требует тщательного обоснования, учета априорной информации, и большого количества ручной работы. Более широкие возможности исследования протеинов предоставляет тандемная масс-спектрометрия. Тандемная масс-спектрометрия позволяет получить дополнительную информацию об аминокислотной последовательности пептида за счет выделения из узкого диапазона масс так называемых родительских ионов, их фрагментации и последующей записи масс-спектра фрагментных (дочерних) ионов. Интерес к разработке подобных приборов возрос в начале 80х годов после наблюдения фрагментации, вызванной столкновениями ионов с молекулами спутного газа [35] [36]. Одними из первых инструментальных разработок в этой области стали работы [37] [38].

Тандемные масс-спектрометры, используемые для исследования белков, представлены сегодня целым рядом конструктивно-компоновочных схем на основе масс-анализаторов различных типов: тандемные квадрупольные (Q-Q), квадруполь-времяпролетные (QOF), времяпролетно-времяпролетные (TOFOF), а также на основе ионных ловушек (Qrap), в том числе орбитальных (Orbitrap) и приборов на основе ионно-циклотронного резонанса с преобразованием Фурье (FTICR) [16-22].

Различают три типа тандемного масс-спектрометрического эксперимента: анализ дочерних ионов, целью которого является определение аминокислотной последовательности пептида; анализ родительских ионов и анализ потери нейтральных фрагментов [39]. Последние два типа эксперимента служат для более обоснованного выбора родительских ионов при анализе дочерних ионов. Основой для определения аминокислотной последовательности пептида служит информация, которая содержится в масс-спектрах дочерних ионов.

Подвыборки ряда значений молекулярных масс для расчета плотности распределения относительной интенсивности пиков изотопных мультиплетов пептидов

Результатом современного масс-спектрометрического эксперимента по исследованию белков является массив масс-спектров, каждый из которых содержит сигналы определенной части компонент пробы. При использовании аппаратной конфигурации ВЭЖХ-МС масс-спектры регистрируются в процессе хроматографической элюции с определенной периодичностью, порядка 1 с/спектр. Период регистрации масс-спектров, именуемых в данном случае «сканами», как правило, меньше длительности элюции одного компонента пробы, составляющей несколько минут. Поэтому сигналы от каждой из компонент пробы присутствуют в нескольких сканах, при этом интенсивность сигнала в каждом отдельном скане может быть весьма низкой - на уровне сигнала единичных ионов. Поэтому на начальной стадии вторичной обработки общепринятой является процедура суммирования сканов или их фрагментов, относящихся к одинаковым компонентам пробы. Это позволяет повысить соотношение сигнал/шум и улучшить качество масс-спектрометрических данных за счет взаимодополнения изотопных мультиплетов. Кроме того, интерес представляют восстановленные хроматограммы отдельных компонентов пробы.

Методы обработки хромато-масс-спектрометрических данных изначально разрабатывались и применялись в системах «газовый хроматограф - масс-спектрометр». Первый из подобных методов, известный под названием «реконструкция масс-спектра», предложен Биллером и Биманом в работе [59]. Метод основан на анализе временных зависимостей ионного тока отдельных фрагментов масс-спектра, называемых масс-фрагментограммами. При суммировании масс-спектра учитываются только те фрагменты, для которых в пределах нескольких ближайших сканов наблюдается хроматографический максимум. Таким образом, если две компоненты имеют различные отношения массы к заряду, и их хроматографические максимумы разделены двумя или более сканами, для каждой из компонент будет получен отдельный масс-спектр. Данный метод, будучи сравнительно простым, не во всех случаях позволяет разрешить сигналы различных компонент. В работе [60] идея анализа масс-фрагментограмм получает дальнейшее развитие. Предложенный в [60] метод позволяет получить значительно лучшее разделение сигналов различных компонент за счет более точного вычисления положения пиков в масс-фрагментограммах на основе их полиномиальной аппроксимации. В случае наложения нескольких пиков, данный участок масс-фрагментограммы обрабатывается процедурой разделения, основанной на решении системы линейных уравнений. В качестве недостатка данного метода следует отметить сложность реализации и большой объем вычислительных операций.

Еще одна модификация метода [59] предложена в работе [61]. В основе данного метода лежит поиск центроидов пиков масс-фрагментограмм с последующей их группировкой по временным ячейкам шириной в 1/10 периода скана. Затем масс-спектрометрические данные суммируются в границах пиков, попавших в ячейки, с образованием отдельного суммарного масс-спектра для каждой из ячеек. К недостаткам метода можно отнести возможность получения некорректного результата в случае если центроид пика расположен близко к границе ячейки. При этом масс-спектрометрические данные, относящиеся к одному компоненту пробы, будут суммированы в разных масс-спектрах.

Следует еще раз подчеркнуть, что рассмотренные методы разрабатывались применительно к масс-спектрометрическим данным низкого разрешения. В случае непосредственного применения их к масс-спектрометрическим данным, в которых обеспечено разрешение пиков изотопных мультиплетов, возможно искажение их формы вплоть до потери отдельных пиков, вследствие особенностей суммирования, обсуждавшихся выше. Это создаст определенные трудности на дальнейших этапах обработки.

Вид изотопного мультиплета в масс-спектре определяется разрешающей способностью масс-спектрометра и отношением молекулярной массы иона к его заряду. В масс-спектрах высокого разрешения изотопные мультиплеты фиксируются в виде серий приблизительно равноотстоящих разрешенных пиков. Это позволяет определить зарядовое состояние иона, выделить моноизотопный пик и по положению его центроида определить моноизотопную массу молекулярных ионов данного вещества. Соотношения интенсивности пиков изотопного мультиплета несут в себе важную информацию, которая, может быть эффективно использована для определения положения моноизотопного пика, в том числе в условиях наложений нескольких изотопных мультиплетов. В масс-спектрах низкого разрешения изотопный мультиплет фиксируется в виде одного пика, образующегося в результате слияния изотопных пиков. В этом случае в качестве масс-спектрометрической характеристики используют среднеизотопную массу. Моноизотопная масса может быть восстановлена на основе среднеизотопной массы, например, методом, предложенным в [62]. Для анализа масс-спектров высокомолекулярных соединений, регистрируемых с недостаточно высоким разрешением, может использоваться метод аддитивных характеристик, предложенный в работе [63]. Кроме того, разрешение изотопного мультиплета может быть повышено математической обработкой масс-спектра.

Следует отметить, что в современных исследованиях белков с использованием методик, описанных в п.(1.2), используются преимущественно масс-спектрометры, разрешающая способность которых составляет не менее 4-Ю3 и позволяет разрешить пики изотопного мультиплета в исследуемом диапазоне масс (0 - 4000 а.е.м.) более чем на половине интенсивности пика. Об этом свидетельствуют параметры современных коммерческих приборов и тенденции развития масс-спектрометрической техники [16, 17] [22] [64]. Поэтому метод, разрабатываемый в данной работе, ориентирован на обработку масс-спектров высокого разрешения.

Задачи повышения разрешения масс-спектра и разделения сложных фрагментов спектрального сигнала на компоненты составляют отдельное направление в обработке масс-спектрометрических данных. Методы решения данных задач являются во многом общими для различных областей спектрометрии. Известно несколько различных подходов к решению данных задач.

Масштабирование и позиционирование модельного изотопного мультиплета на тестовой группе спектральных пиков

Полученная зависимость позволяет сделать вывод, что при ширине массового окна Am 20 а.е.м. относительные интенсивности пиков изотопного мультиплета среднестатистического пептида отличаются не более чем на 2% суммарной интенсивности, причем с ростом молекулярной массы различие становится еще менее заметным. Таким образом, размер массовых окон для формирования ряда подвыборок можно принять равным 20 а.е.м., при этом действие фактора молекулярной массы внутри каждой подвыборки можно считать пренебрежимо малым.

Для расчета функций распределения относительных интенсивностей пиков изотопного мультиплета в рабочем диапазоне молекулярных масс был выделен ряд массовых окон шириной 20 а.е.м. с шагом 100 а.е.м.

В изотопных мультиплетах пептидов можно выделить два подмножества пиков: 1. Уверенно детектируемая часть мультиплета, которую составляют пики с относительной интенсивностью, превышающей пороговое значение I[k] т. 2. Условно детектируемая часть мультиплета, образованная пиками с низкой относительной интенсивностью 1[к] х, которые в большинстве случаев неразличимы на фоне шума. Для изотопных мультиплетов пептидов характерно наличие убывающего «шлейфа», который образован условно детектируемыми пиками. Поэтому в расчетах целесообразно ограничить размер изотопных мультиплетов несколькими начальными пиками. Для обоснованного ограничения количества пиков был произведен расчет формы изотопных мультиплетов среднестатистического пептида, полученного на основе данных таблицы 2.2. В таблице 2.3 приведены результаты расчета количества пиков изотопного мультиплета, интенсивность которых превышает порог т = 0,001, для ряда значений молекулярных масс. В результате вычислительного эксперимента на подвыборке каждого из массовых окон был произведен расчет плотности распределения пиков изотопного мультиплета по значению относительной интенсивности. Построение плотности распределения производилось в виде гистограмм из 200 столбцов, покрывающих диапазон возможных значений величины / от 0 до 1. Каждая брутто-формула входила в гистограммы с весом, пропорциональным количеству соответствующих ей аминокислотных последовательностей (см. рис.2.3). На рис 2.5А, 2.6А представлены гистограммы плотности распределения относительной интенсивности изотопных пиков пептидов для нескольких массовых окон т = 500±10а.е.м., т = 1500±10 а.е.м., w = 4500±10 а.е.м., т = 6500 ±10 а.е.м. На основе полученных гистограмм были рассчитаны математические ожидания относительной интенсивности 1р, составляющие форму модельного изотопного мультиплета пептида, а также квантили распределений относительной интенсивности порядка 0.01 и 0.99, значения которых ограничивают область наиболее вероятных значений величины /(модель 1, рис. 2.5 Б, 2.6Б). На данных диаграммах приведены также относительные интенсивности пиков модельной молекулы, в которой соотношения индексов химических элементов приняты в соответствии с таблицей 2.2, но все химические элементы, кроме углерода, рассматриваются как моноизотопные (модель 2, рис. 2.5 Б, 2.6Б).

Формы изотопных мультиплетов реальных пептидов имеют сходство с биномиальным распределением (характерным для модели 2). Однако имеется различие (рис. 2.5, 2.6), которое становится все более существенным по мере роста молекулярной массы пептида. Например, для пептида с w = 500 а.е.м. максимальная ошибка при аппроксимации формы изотопного мультиплета биномиальным распределением составляет 4% от интенсивности пика, при т = 4500 а.е.м. ошибка составляет уже 62%, и при т = 6500 а.е.м. превосходит 100%. Таким образом, для точного описания формы изотопного мультиплета пептида необходимо учитывать изотопные распределения химических элементов Н, N, О, S.

В результате данного вычислительного эксперимента были получены таблицы параметров модельного изотопного мультиплета для ряда значений молекулярной массы: тк =(100, 200, ... (100-/)... 7000)а.е.м. , где / = 1...70. Фрагменты таблиц для нескольких характерных значений молекулярной массы приведены в Приложении 1. Данные таблицы используются в алгоритме декомпозиции масс-спектра при расчете формы модельного изотопного мультиплета заданной молекулярной массы. Для расчета параметров в промежуточных значениях молекулярной массы применяется линейная интерполяция. Молекулярные массы пептидов отличаются от целочисленных значений в силу дефекта масс изотопов химических элементов (табл. 2.1). Распределение пептидов по молекулярным массам имеет неравномерный характер. Для исследования закономерностей масс-спектров пептидов, связанных с дефектом масс, на выборке БД SWISS-PROT был произведен расчет плотности распределения пептидов по молекулярной массе. На рис. 2.7 представлена полученная диаграмма, из которой следует, что молекулярные массы пептидов группируются в кластеры, центры которых смещены относительно целочисленных значений. Будем именовать наблюдаемые кластеры массовыми кластерами пептидов. Следует также отметить, что за пределами массовых кластеров плотность распределения равна 0, т.е. на шкале молекулярных масс существуют области значений, для которых пептиды не встречаются.

На рис. 2.8, 2.9 представлены диаграммы зависимости дефекта массы d от молекулярной массы пептида, а также дисперсии молекулярных масс в массовом кластере. Прирост массы пептидов d прекрасно аппроксимируется линейной зависимостью, с величиной достоверности аппроксимации (квадрат смешанной корреляции) равной 0.9984.

В силу линейного роста дефекта массы в масс-спектрах пептидов наблюдаются специфические случаи наложения изотопных мультиплетов различных зарядовых состояний. Специфика заключается в образовании дублетов спектральных пиков, имеющих близкие отношения массы к заряду, разность значений которых лежит за пределами разрешающей способности большинства современных приборов. Для иллюстрации этого эффекта на рис. 4 были сопоставлены плотности распределения изотопных мультиплетов ионов различного зарядового состояния. Анализ данной диаграммы показывает, что для изотопных мультиплетов ионов различного зарядового состояния положения максимумов плотности распределения практически совпадают. Поэтому при наложении, например, изотопного мультиплета с z=2 на изотопный мультиплет с z=l в подавляющем большинстве случаев происходит слияние части спектральных пиков.

Исследование работы алгоритма декомпозиции на модельных масс-спектрах различной сложности

Результаты ВЭЖХ-МС эксперимента представляют собой массив масс-спектров S, регистрируемых периодически в процессе хроматографической элюции компонентов пробы. Период регистрации масс-спектров Atch выбирается с таким расчетом, чтобы за время выхода хроматографического пика компонента пробы было зарегистрировано как минимум 7-10 масс-спектров, что позволяет на хроматограмме данного компонента фиксировать форму хроматографического пика с точностью, достаточной для определения положения центроида.

Сигнал каждого из компонентов пробы распределен между несколькими масс-спектрами, поэтому перед обработкой алгоритмом декомпозиции следует произвести суммирование (либо осреднение) масс-спектров или их фрагментов, относящихся к одинаковым компонентам пробы. Это позволяет повысить соотношение «сигнал/шум» и улучшить качество масс-спектрометрических данных за счет взаимодополнения изотопных мультиплетов. Методы избирательного суммирования, предложенные в работах [59] [60], разрабатывались для обработки масс-спектрометрических данных низкого разрешения. В силу особенностей процедуры определения границ хроматографических пиков, применение этих методов к обработке масс-спектрометрических данных высокого разрешения может вызвать искажение формы изотопных мультиплетов в суммарных масс-спектрах, так как пределы суммирования для изотопных пиков мультиплета могут отличаться.

Указанных недостатков удается избежать при использовании подхода, который основан на «скользящем суммировании» масс-спектров и аналогичен использованному в [81] осреднению масс-спектров. На начальном шаге производится расчет суммы Sz масс-спектров, зарегистрированных на промежутке времени, равном времени выхода хроматографического пика Tx = Tch. Время Tch может быть получено на основе характеристик используемого хроматографа, либо известно из предыдущих экспериментов. Далее осуществляется последовательная обработка массива масс-спектров S, на каждом шаге которой к сумме Sz добавляется масс-спектр, соответствующий времени элюции tch = TZ+Atch -(i + l) и вычитается масс-спектр времени элюции tch = Atch і. Каждый из суммарных масс-спектров Sz[i] обрабатывается алгоритмом декомпозиции, в результате которой формируется список параметров компонентов пробы, элюированных в промежутке времени [Atch-i; Atch-i + Tz). Данная информация включается в массив предварительных результатов обработки С . Поскольку каждый из выделенных компонентов массива С [і] может присутствовать в результатах декомпозиции предшествующих и последующих содержать многократно дублированные результаты по каждому из компонентов пробы. Для устранения этого дублирования на массиве С решается задача кластерного анализа, в результате которой дублирующие друг друга элементы группируются в кластеры, которые будем именовать компонентными. Схема обработки массива ВЭЖХ-МС данных, иллюстрирующая вышеизложенную последовательность операций, представлена на рис.3.8. Рассмотрим задачу поиска компонентных кластеров на множестве элементов массива С , в результате решения которой его элементы группируются по принадлежности к компонентам пробы. Данная задача относится к классу задач кластерного анализа. Компонентные кластеры массива С имеют характер цепочек, элементы которых распределены по времени хроматографической элюции и сгруппированы по молекулярной массе. Минимальное расстояние по молекулярной массе между центрами двух ближайших кластеров ограничено величиной Amin, которая определяется разрешающей способностью масс-спектрометра. При этом дхісперсия молекулярных масс элементов в кластере значительно меньше величины А . Перечисленные особенности позволяют сделать вывод, что для объединения элементов массива С в кластеры может быть применен невзвешенный центроидный метод (описанный, например, в [92]). В данном методе компонент С Щ с молекулярной массой т . присоединяется к кластеру, расстояние до центра которого пгс-т.\ имеет минимальную величину. Присоединение компонента С [і] к кластеру C[j] производится в том случае, если разность соответствующих им молекулярных масс не выходит за пределы, определяемые разрешающей способностью масс-спектрометра R, а разность времени элюции не превышает установленного значения Ттах : Дальнейший процесс обработки массива С заключается в последовательной проверке его элементов на принадлежность к выделенным компонентным кластерам по условию (ЗЛО), либо выделения элементов в самостоятельные кластеры, в случае если условие (ЗЛО) не выполняется. В случае если кластер не пополнялся на протяжении обработки результатов декомпозиции п последовательных суммарных масс-спектров, производится его закрытие. Параметр п вычисляется на основе максимально допустимого расстояния по времени элюции между элементами кластера: Завершенные компонентные кластеры массива С тестируются на предмет достоверности. Кластер признается достоверным, если значения времени элюции Т его элементов покрывают диапазон шириной не менее —, в противном случае кластер отбраковывается. Это позволяет исключить из массива С кластеры, состоящие из неправдоподобно малого количества элементов, подавляющее большинство которых являются ложноположительными результатами.

По завершении обработки массив С составляют достоверные компонентные кластеры, соответствующие сигналам компонентов пробы. Молекулярная масса и среднее время хроматографической элюции компонента пробы определяются методом осреднения соответствующих параметров элементов кластера, с весами, равными суммарной интенсивности сигнала ионов:

Более точные значения среднего времени элюции компонента пробы при необходимости могут быть рассчитаны по масс-фрагментограмме сигнала компонента пробы, методом, предложенным, например, в работах [59] [60].

Работа с массивами масс-спектрометрических данных требует организации хранения и доступа к данным в формате, удобном для отладки и тестирования алгоритма декомпозиции. Для этой цели была разработана реляционная база данных формата Microsoft SQL Server 2000, а также был создан исследовательский комплекс программ, реализующий взаимодействие алгоритмов с БД в операциях загрузки, сохранения, визуализации масс-спектрометрических данных и результатов их обработки.

На рис. 3.9 представлен графический интерфейс программы «Масс-процессор», являющейся центральным приложением программного комплекса. Графический интерфейс реализован на языке Visual С# с использованием компилятора Microsoft Visual Studio 2003. Функциональный модуль, включающий процедуры чтения, записи данных в БД, компрессии масс-спектров, а также алгоритмы обработки данных (в том числе - алгоритм декомпозиции масс-спектра) реализован в виде динамически подключаемой библиотеки (DLL) на языке C++ с использованием компилятора Microsoft Visual C++ 6.0.

Похожие диссертации на Метод извлечения аналитически значимой информации из масс-спектрометрических данных экспериментов протеомики