Содержание к диссертации
Введение
ГЛАВА 1. Методология белковых анализов средствами масс-спектрометрии 10
1.1 Протеомика, как предметная область масс-спектрометрических экспериментов 10
1.2 Метод масс-спектрометрического эксперимента в протеомных исследованиях 12
1.3. МАСС-спектрометрический анализ пептидов 15
1.4 Инструментальное обеспечение масс-спектрометрии белков и пептидов 16
1.5 Образование вторичных ионов при фрагментации пептидов 18
1.6 Регистрация данных масс-спектрометрического эксперимента 21
1.7 Перспективы метода масс-спектрометрии для белковых исследований 23
1.7.1. Эффективность МС-МС анализа 24
1.7.2. Производительность методов разделения 24
1.8 Заключение 25
ГЛАВА 2. Биохимическая интерпретация фрагментных масс-спектров 26
2.1 Подготовка данных масс-спектров для биохимической интерпретации 26
2.2 Метод картирования фрагментов пептидов 28
2.2.1 Крос-корреляционный анализ 29
2.2.3 Белковые базы данных 33
2.2.4 Идентификация пост-трансляционных модификаций 36
2.2.5 Проблема гомологии белков для метода картирования фрагментов 37
2.2.6 Преимущества и недостатки метода картирования пептидных фрагментов 38
2.3 Непосредственное восстановление последовательности пептидов по фрагментному масс-спектру 38
2.3.1 Использование теории графов для секвенирования de novo 39
2.3.2 Использование динамического программирования для секвенирования de novo 40
2.3.4 Преимущества и недостатки метода секвенирования de novo 41
2.4 Частичное восстановление аминокислотной последовательности пептида 42
2.4.1 Современные исследования PST 45
2.4 Верификация данных 48
2.5 Заключение 48
ГЛАВА 3. Разработка метода частичного восстановления последовательности пептида по его фрагментному масс-спектру 51
3.1 Исходные положения исследования 51
3.1.1 Исходные данные для исследования 51
3.1.2 Анализ существа задачи 52
3.1.2.1 Определение графа масс-спектра 52
3.1.2.2 Оценка общего количества гипотез PST в графе спектра 55
3.1.2.3 Определение требований к алгоритму поиска PST в графе спектра 56
3.1.3 Декомпозиция задачи оценки пути в графе масс-спектра 57
3.2 Оценка графа масс-спектра 58
3.2.1 Оценка пиков масс-спектра 58
3.2.2 Статистика значимых пиков в МС-МС спектрах 60
3.2.3 Оценка интервалов 63
3.2.3.1 Неоднозначность интерпретации совпадающих разностей масс 65
3.2.4 Общая оценка гипотезы PST. 66
3.3 Алгоритм crystaltag 66
3.3.1 Подготовка структур данных 67
3.3.2 Алгоритм построение PST. 69
3.3.2.1 Построение всех возможных гипотез 71
3.3.2.2 Отбор неполных гипотез 72
3.3.2.3 Условие выхода 73
3.4 Заключение 73
ГЛАВА 4. Программный комплекс PROTEOS 75
4.1 Общая структура программного комплекса 75
4.2 Реляционная база данных программного комплекса 77
4.3 Подготовка данных для программы crystaltag 79
4.3.1 Утилиты загрузки данных 79
4.3.2 Фильтрация MS/MS спектров при помощи алгоритма IPEX. 79
4.3.3 Программа CrystalStat - статистический анализ спектров и доверяемых результатов их интерпретации 80
4.4 Программа crystaltag 81
4.4.1 Поиск белков-кандидатов в белковой базе данных. 82
4.4.2 О скорости поиска белков-кандидатов в белковых базах данных 83
4.4.3 Оценка достоверности результатов поиска белков-кандидатов 84
4.4.4 Группировка результатов поиска белков-кандидатов 90
4.5 Приложение ms/ms viewer 91
4.6 Заключение 96
ГЛАВА 5 Характеризация алгоритма crystaltag 98
5.1 Основные характеристики алгоритма crystaltag 98
5.1.1 Сопоставление результатов работы алгоритма CrystalTag с доверяемыми данными 99
5.1.2 Оптимизация алгоритма CrystalTag по параметру точности определения масс 101
5.1.3 Временные характеристики работы алгоритма. 103
5.1.4 Эффект оптимизации по числу проверяемых гипотез 104
5.2 Сравнение алгоритма cryataltag с существующими аналогами 105
5.2.1 Сопоставление с наиболее близкими аналогами 105
5.2.2 Сопоставление результатов интерпретации массива масс-спектров средствами Proteos и XITandem У07
5.3 Применение программного комплекса proteos к данным актуальных биологических исследований 109
5.3.1 Повышение достоверности идентификации белков 109
5.3.2 Восстановление последовательности трансмембранных участков белков: ПО
5.4 Заключение 112
Заключение 114
Основные результаты работы 117
Благодарности 117
Список использованных источников
- Инструментальное обеспечение масс-спектрометрии белков и пептидов
- Идентификация пост-трансляционных модификаций
- Оценка общего количества гипотез PST в графе спектра
- Программа CrystalStat - статистический анализ спектров и доверяемых результатов их интерпретации
Введение к работе
Актуальность темы Одной из наиболее динамично развивающихся областей современной молекулярной биологии является протеомика - исследование белкового пула организма (протеома) как единого целого К числу ведущих методологий в протеомных исследованиях относится масс-спектрометрия высокого разрешения с мягкими методами ионизации На нужды протеомики ориентирована, в значительной степени, разработка новых современных тандемных масс-спектрометров Появление новых приборов вызывает необходимость в разработке новых методов обработки информации, получаемой на этих приборах
Как правило, тандемные масс-спектрометры в протеомике используются для анализа смесей белков, представленных продуктами избирательного ферментативної о іидролиза Получаемые масс-спектры представляют собой фрагментные масс-спектры пептидов -продуктов гидролиза Важнейшая задача при обработке получаемых данных - это восстановление аминокислотной последовательности пептида по его фрагментному спектру
Одним из перспективных, но пока недостаточно алгоритмически проработанных подходов к интерпретации фрагментных масс-спектров является частичное восстановление аминокислотной последовательности по наблюдаемым в спектрах сериям основных фрагментов пептида Такая методика интерпретации фрагментных масс-спектров получила в мировой научной литературе название Peptide Sequence Tag (PST) Search Оют подход к интерпретации масс-спектров имеет следующие достоинства
высокая скорость интерпретации,
устойчивость результата интерпретации масс-спектра по отношению к посттрансляционным модификациям, точечным мутациям, неполному и неспецифичному гидролизу,
высокая надежность получаемых результатов интерпретации, обусловленная использованием информации, действительно присутствующей в масс-спектре Преимущества стратегий обработки данных, основанных на методе поиска PST,
обеспечили широкое распространение этого метода интерпретации масс-спектров среди биологов Эти стратегии обеспечивают
более полное использование масс-спектрометрической информации за счет распознавания спектров модифицированных пептидов
идентификацию белков на основе спектров низкого качества, содержащих малое количество информативных сигналов и большое количество шума
идентификацию пост-трансляционных модификаций белка
идентификацию ближайших гомологов исследуемого белка
К сожалению, до последнего времени не существовало удачных реализаций алгоритмов поиска PST и, часто, распознавание PST проходит вручную, порождая большое количество монотонной работы
Только в самое последнее время появились алгоритмы, удачно автоматизирующие частичное восстановление аминокислотной последовательности пептидов Однако, одним из существенных недостатков существующих алгоритмов является то, чю каждый алгоритм разрабатывается для конкретного класса приборов, и не может быть впоследствии адаптирован к приборам другого класса
Целью работы является разработка высокоэффективного адаптивною метода распознавания аминокислотной последовательности пептида во фрагментном масс-спектре
Для достижения этой цели предложен высокопроизводительный алгоритм распознавания аминокислотной последовательности пептида во фрагментном масс-спектре и предложена процедура оценки критериев значимости спектральной информации в фрагментных масс-спектрах
Научная новизна работы
-
Предложена методика численной оценки значимое і и эмпирических критериев для использования масс-спектрометрическои информации при решении задачи распознавания аминокислотной последовательности пептида в его фрагментном масс-спектре
-
Предложен и апробирован метод ранжирования гипотез об аминокислотной последовательности пептида, построенных на основании фрагментного масс-спектра
-
Предложен новый алгоритм распознавания аминокислотной последовательности пептида во фрагментном масс-спектре, оптимизированный по числу проверяемых гипотез
Практическая значимость работы
Разработан высокопроизводительный адаптивный алгоритм распознавания аминокислотной последовательности пептида во фрагментном масс-спектре, названный CrystalTag Этот алгоритм может использоваться для обработки массивов фрагментных масс-спектров пептидов в экспериментах протеомики, проведенных на масс-спектрометрических приборах различных типов
Предложенный алгоритм обладает следующими достоинствами
Быстродействие Благодаря оптимизированному по числу проверяемых гипотез способу анализа масс-спектра, время обработки спектра алгоритмом CrystalTag составляет менее миллисекунды, что намного меньше времени регистрации спектра на существующих тандемных масс-спектрометрах
Качество распознавания Алгоритм дает высокую вероятность наличия достоверной гипотезы среди предложенных гипотез
Адаптивность Предложенная процедура оценки модели фрагментации позволяет использовать алгоритм для масс-спектров, полученных на масс-спектрометрах различной конструкции, использующих разные физические принципы и имеющих различные аналитические характеристики
Расширяемость Байесова модель формирования оценки гипотез позволяет легко вводить новые критерии, значимые для восстановления исходной последовательности пептидов
Алгоритм реализован в составе программного комплекса автоматической обработки данных фрагментных масс-спектров, полученных в экспериментах протеомики Программный комплекс предназначен для получения биологически значимого ответа на основании массива фрагментных масс-спектров
Положения, выносимые на защиту
-
Метод численной оценки значимости эмпирических критериев для использования масс-спектрометрической информации при решении задачи распознавания аминокислотной последовательности пептида во фрагментном масс-спектре
-
Метод ранжирования гипотез об аминокислотной последовательности пептидов, распознанных во фрагментном масс-спектре этих пептидов
-
Алгоритм построения гипотез об аминокислотной последовательности пептидов по фрагментному масс-спектру пептида
Апробация работы Результаты работы были доложены на конференции «Аналитическое приборостроение» (Санкт-Петербург, 2005г ), на II съезде Всероссийского
масс-спектрометрического общссіва (Москва, 2005і ), па III съезде Общества биотсхнологов России (Москва, 2005г ), на международной вьісілвке «Biotcchnica 2005» (Ганновер, 2005г )
Структура її объем диссертации Дпссеріация состоит из введения, обзора литературы, постановки задачи на разработку методов и алгоритма, изложения разработанных методов и алгоритма, описания программною комплекса, содержащего реализацию методов и алгоритма, описания и обсуждения результатов его тестирования, заключения и списка используемых источников Диссертация изложена наЦ?страницах
Инструментальное обеспечение масс-спектрометрии белков и пептидов
Известно, что пептиды и белки относятся к классу термолабильных, нелетучих соединений. Масс-спектрометрический анализ данных соединений требует применения мягких методов ионизации молекул, позволяющих перевести молекулы в газовую фазу без разрушения ковалентных связей.
До конца 70-х годов возможности масс-спектрометрического исследования пептидов были ограничены отсутствием таких методов ионизации. Первые эксперименты по масс-спектрометрическому анализу пептидов проводились при помощи источника ионов с электронным ударом (Electron Impact, EI) с предварительным разделением пептидов при помощи газовой хроматографии. Для проведения такого анализа пептиды переводились в газовую форму за счет предварительной химически модификации [33,34]. Источник ионов EI сам по себе порождает множественные фрагменты пептидов, однако методология интерпретации спектров за счет сравнения спектров с библиотечными образцами, принятая для масс-спектров EI, не позволяет наработать библиотеку спектров для всего разнообразия пептидов, а характер фрагментации в электронном ударе не позволяет выявить значимые фрагменты из масс-спектра.
К числу первых попыток получить метод мягкой ионизации можно отнести метод бомбардировки быстрыми атомами (Fast Atom Bombardment, FAB), исторически первый метод, позволявший получать молекулярные ионы целых пептидов [35]. Однако, наличие в спектре кроме молекулярного иона также фрагментов пептида и ограничения по минимальному количеству образца (не менее 100 пикомоль чистого вещества) препятствовали широкому применению этого источника для биологических проб.
Настоящий прорыв в масс-спектрометрии пептидов наступил в 80-х годах XX века, когда были созданы два метода ионизации, сочетающие чувствительность анализа и неразрушающий характер ионизации. Эти методы наиболее распространенны в настоящее время для анализа пептидов. Выдающееся значение этих разработок подтверждено Нобелевской премией по химии 2002 года.
Источник с ионизацией электрораспылением, электроспрей (ElectroSpray Ionization source- ESI) [35-38] - Образование ионов идет за счет распыления раствора веществ в присутствии сильных электрических полей при атмосферном давлении. Поток анализируемого раствора поступающего в распылитель варьируется в пределах от 5 нанолитров {наноспрей [39]) до 100 микролитров в минуту. Прибор, снабженный таким источником, может быть легко состыкован с жидкостным хроматографом, что позволяет выполнять дополнительное разделение смеси во время эксперимента.
Источник с матирично-ассоциированной лазерной десорбцией/ионизацией (Matrix-assisted laser desorption/ionization - MALDI) [40,41] - При реализации данного метода ионизации анализируемое вещество сокристаллизуется с матрицей, представляющей собой легколетучую слабую органическую кислоту, одновременно являющуюся источником протонов. При облучении полученных кристаллов короткими лазерными импульсами происходит совместный переход образца и матрицы в газообразное ионное состояние.
Получение фрагментных масс-спектров пептидов, как правило, проводится при помощи тандемного масс-спектрометрического анализа. Хорошее определение метода тандемного масс-спектрометрического анализа приведено в обзоре, посвященном тандемной масс-спектрометрии[42]: «Тандемная масс-спектрометрия (МС-МС) используется для структурного анализа и идентификации веществ в составе смесей. Методика МС-МС состоит из следующих операций.
Разделение в первой МС-ступени первичных, или "родительских", ионов и селекция ионов с единственным значением отношения массы к заряду (m/z). Фрагментация этих ионов с образованием разнообразных структурно значимых ионных фрагментов, называемых вторичными, или "дочерними", ионами. Масс-анализ дочерних ионов.» Характеристики фрагментного спектра пептида наибольшим образом зависят от масс-анализатора, в котором производится масс-анализ дочерних ионов. За историю развития масс-спектрометрии были предприняты попытки реализации тандемных приборов практически на всех возможных схемах.
В настоящее время для получения МС-МС-спектров используются масс-анализаторы, которые можно условно разбить на три категории в соответствии с качеством получаемых спектров:
Масс-спектрометры на основе различных радиочастотных ионных ловушек, таких как ловушка Паули или линейная ионная ловушка (Ion Trap, IT-MS) [43]. Компактные приборы сравнительно невысокой стоимости с разрешающей способностью в рутинных анализах до 3000 и точностью определения масс до 30 ррт. Приборы этой архитектуры позволяют проводить все стадии получения фрагментных масс-спектров в одном физическом объеме ионной ловушки. Несмотря на низкое качество спектров, в мире, и особенно в США, существует большой парк таких приборов, и многие усилия по обработке масс-спектрометрической информации связаны с попытками извлечь полезные данные из масс-спектров таких приборов.
Времяпролетные масс-спектрометры (Time Of Flight, TOF-MS), Средняя категория приборов - разрешающая способность 5000-20000, точность определения масс 3-30 ррт. Чаще всего встречаются времяпролетные тандемы с квадрупольным фильтром масс для источника ESI (ESI-QOF MS)[44,45] и времяпролетно-времяпролетные тандемы для источника MALDI (MALDIOFOF MS)[46]. Уникальным преимуществом времяпролетных инструментов является параллельная регистрация всех ионов входного пучка. Это обеспечивает времяпролетной технике высокую чувствительность и динамический диапазон получаемых масс-спектров. — Масс-спектрометры ионно-циклотронного резонанса с преобразованием Фурье (Fourier transform ion cyclotron resonance mass spectrometer, FT-ICR MS, FTMS) [47] и масс-спектрометры на основе электростатической орбитальной ионной ловушки "ОгЫТгар"[48]. Наиболее совершенные и дорогие масс-спектрометры с разрешающей способностью 50 000 и точностью определения масс 3ррт. Разделение и фрагментация ионов происходят, как правило, в линейной ионной ловушке (LIT-FTMS). Динамический диапазон этих масс-спектрометров ограничен эффектами объемного заряда, не позволяющими получать спектры большого ( 1000000) числа ионов. Достижение рекордных значений разрешающей способности требует долгого времени пребывания ионов в масс-анализаторе (1-5 сек.), что несколько ограничивает производительность масс-спектрометров. Кроме перечисленных имеет смысл отметить исторически первые тандемы на основе магнитно-секторных масс-анализаторов.
Идентификация пост-трансляционных модификаций
Информация об аминокислотных последовательностях белков накапливается мировым научным сообществом в базах данных аминокислотных последовательностей белков еще со времен открытия первых методов расшифровки аминокислотных последовательностей, таких как деградация по Эдману[78], равно как и информация о нуклеотидных генетических последовательностях.
Фактически, идентифицировать белок - значит соотнести данные масс-спектрометрического эксперимента с аминокислотной последовательностью белка, одной из многих известных.
В последние 10-15 лет рост объемов этой информации носит лавинообразный характер. За это время были установлены полные генетические последовательности нескольких десятков биологических видов, получены аминокислотные последовательности миллионов белков. Центральный репозитарий генетической информации National Center for Biotechnology Information (www.ncbi.nlm.nih.gov) недавно сообщил о достижении объема публично доступных генетических баз данных в 1011 базовых пар (http://www.nlm.nih.gov/news/press_releases/dna_rna_100_gig.html).
Развитие методов обработки этих данных позволяет говорить о появлении новой научной дисциплины, предметом которой является алгоритмическая обработка информации, содержащейся в биологических объектах -вычислительной молекулярной биологии или биоинформатики.
Сопоставление и интерпретация масс-спектрометрических данных и баз данных составленных из известных биологических последовательностей - одна из направлений исследований в области биоинформатики.
Для анализа белков, в первую очередь, интересны базы данных, содержащие информацию об аминокислотных последовательностях белков. На сегодняшний момент одной из самых надежных считается база данных SWISS-PROT[79] (www.expasy.org/sprot/), курируемая группой Швейцарского Института Биоинформатики. Данные о каждом белке, внесенном в эту базу, тщательно верифицированы, и включают в себя такую информацию как вариации структуры, функции белка в организме, ссылки на публикации, и многое другое. На данный момент база данных SWISS-PROT сравнительно невелика и содержит около 230000 (на 1 октября 2006 года) аминокислотных последовательностей белков.
Другие базы, например, TREMBL и Р1Рч-Р8О[80]содержат информацию о миллионах последовательностей. Такие базы данных составляются автоматически, как правило, из данных, непосредственно предоставленных исследователями. При этом значительную часть базы данных могут составлять гипотетические белки -белки, существование которых предсказано при анализе генетических последовательностей.
Поскольку в настоящее время исследования белков ведутся сразу во многих научных центрах, часто бывает так, что несколько групп исследователей независимо друг от друга размещают в базах данных информацию об одних и тех же белках. Для того, чтобы избежать дублирования информации при передаче в базу данных, последовательность проходит автоматическую проверку и аннотацию. Базы данных, проверенные таким способом называются неизбыточными (non-redundant), и гарантируют, что в базе данных для каждого белка есть только одна последовательность !.]. Хорошим примером такой базы данных, собранной из различных источников, является NCBInr [82], доступная по адресу (ftp.ncbi.nih.gov\blast\db\).
Кроме белковых баз данных при обработке данных масс-спектрометрии могут быть использованы и генетические базы данных. Например, весьма популярны базы данных EST - Expressed Sequence Tags [83], содержащие последовательности, полученные на основе матричных РНК[84].
Также можно использовать информацию, полученную в ходе расшифровки генома человека, быка, крысы и т. д. Теоретически, в полной генетической последовательности зашифрованы все возможные для организма белки, однако идентификация белков по этой информации осложняется неопределенностью рамки считывания, сложным механизмом трансляции белковой последовательности и другими факторами. Поэтому исследователи стараются избегать использования данного вида информации для белковых анализов.
Вопрос выбора базы данных для сопоставления данных масс-спектрометрического эксперимента - это всегда компромисс между надежностью и полнотой информации. Для актуальных исследований чаще всего используется базы данных класса NCBInr. Данные SWISS-Prot надежны, но неполны, - многие белковые последовательности, определенные в последнее время, в этой базе не представлены. При решении специфической задачи могут использоваться и некоторые подмножества генетических баз данных. Полные генетические базы данных используются редко из-за сложности интерпретации результатов и сильной избыточности данных. Наиболее полный список биологических баз данных разного назначения можно найти в электронном каталоге DBCat [85] расположенном на (www.infobiogen.fr/services/dbcat/).
Оценка общего количества гипотез PST в графе спектра
Из структуры графов на рис 3.1 очевидно, что кроме PST, соответствующих истинной аминокислотной последовательности пептида, граф спектра позволяет создать множество ложнопозитивных гипотез PST. Количество ложнопозитиых версий длинной 5 аминокислот для спектра, показанного на рисунке 3.1а достигает примерно 12 000.
Рассмотрим зависимость числа гипотез PST от числа сигналов в спектре, или от числа информативных сигналов. Эти зависимости показаны на рис. 3.2. Рисунок показывает, что число гипотез PST растет примерно экспоненциально как с увеличением общего числа сигналов в спектре, так и с увеличением числа информативных сигналов от фрагментов пептида. Таким образом, наиболее информационно богатые спектры одновременно оказываются наиболее неоднозначно трактуемыми при построении PST.
Поскольку возникающие версии слишком многочисленны, естественным образом возникает вопрос о ранжировании версий, которое можно выполнить за счет взвешивания графа. Для того, чтобы из всего числа возможных гипотез вычленить наиболее вероятные, необходимо выработать адекватный механизм ранжирования гипотез, такой, при котором PST, соответствующие основным сериям ионов будут с высокой вероятностью получать более высокий рейтинг, чем ложнопозитивные результаты.
Вопрос поиска частичного пути в графе не является достаточно проработанным с алгоритмической точки зрения. Обычно для решения этой задачи используют рекурсивный поиск в глубину от каждой вершины графа с ограничением глубины поиска. Однако такой подход приводит к необходимости оценки всех возможных версий PST. На построение и оценку всех версий тратится ресурс компьютера, пропорционально числу оцениваемых гипотез. В случае, если число гипотез измеряется десятками тысяч и имеет экспоненциальную зависимость
от одного из параметров поиска, это может привести к неадекватному времени выполнения задачи.
Оптимизированные по быстродействию алгоритмы поиска лучшего пути в графе, такие как алгоритм Дийкстры [97] или алгоритм A-Star [118], оперируют понятием фиксированной начальной и конечной точек пути. При построении гипотез PST анализе графа спектра краевые точки графа детерминированы, однако в их достижении нет необходимости. Таким образом, классические алгоритмы поиска лучшего пути малоприменимы при построении PST.
Большое число гипотез PST приводит нас к необходимости разработать алгоритм поиска лучшего частичного пути через граф спектра, оптимизированный по числу проверяемых гипотез.
Таким образом, при анализе графа фрагментного масс-спектра пептида для частичного восстановления аминокислотной последовательности можно выделить две основных исследовательских задачи:
1. Построение адекватных оценок для гипотез, обнаруживаемых при анализе графа, должно позволить из множества гипотез с высокой вероятностью выделить верную гипотезу.
2. Алгоритм построения оптимального частичного пути должен быть оптимизирован по отношению к числу проверяемых гипотез, поскольку проверка всех существующих гипотез приводит к потере времени выполнения алгоритма на проверку заведомо неверных гипотез.
Построение любой гипотезы о существовании PST можно представить как набор элементарных предположений. 1. Каждый из пиков вошедших в PST, соответствует сигналу одного из фрагментных ионов серии b или у. 2. Разница между пиками в PST соответствует массе аминокислотного остатка пептида.
Для оценки возможности соотнесения пика масс-спектра сигналу одного из ионов основных серий существует ряд эмпирических критериев, не зависящих от существования других ионов этой же серии. Эти критерии используются при распознавании PST, выполняемом вручную экспертами, и описаны, например, в [28]. Такие критерии позволяют сопоставить каждому узлу графа предварительную оценку, не зависящую от существования путей в графе.
Интервалы между пиками при построении графа должны приблизительно соответствовать массе аминокислотного остатка, однако значимость точности соответствия может сильно различаться для разных масс-спектрометров, в зависимости от точности измерения масс, естественной для данного прибора. Оценку гипотезы о соответствии измеренного расстояния между пиками массе аминокислотного остатка положим в основу оценки ребер графа.
Программа CrystalStat - статистический анализ спектров и доверяемых результатов их интерпретации
В данной работе использован следующий ряд эмпирических критериев для оценки возможности соответствия каждого сигнала масс-спектра иону одной из основных серий у или Ь. Относительная интенсивность пика в его окрестности. Размер окрестности определен в ±50 Да, что обеспечивает отсутствие в этой окрестности других пиков той же серии ионов. Зашумленность спектра вокруг пика в его окрестности ±50 Да. Этот критерий отражает тот факт, что выявить верный пик в зашумленной области сложнее, чем в области с малым количеством шумов. Численно этот критерий выражается как число пиков в окрестности. Наличие в спектре пиков, парных данному по правилам фрагментации пептидов и построения серий ионов при столкновителыюй диссоциации-у - Ь, у - а, х - Ь и т. д. Наличие ионов фрагментов с характерными нейтральными потерями -Н20, -NH2.
В некоторых исследованиях набор эмпирических критериев может меняться, так, например, в работе Зубарева и др. [109] привлекаются такие критерии, как наличие сигналов фрагментных ионов, полученных при использовании различных методов фрагментации, наличие изотопных распределений ионов и, возможно, другие критерии.
Ни один из этих признаков не является определяющим. Для того, чтобы оценить правдоподобие гипотезы о принадлежности пика одной из основных серий ионов требуется комплексная многокритериальная оценка. Для выполнения этой задачи, а также и для оценки степени значимости перечисленных критериев воспользуемся многокритериальной оценкой на основе теоремы Байеса.
Для этого нам потребуется оценить условные вероятности Р(А;Н) выполнения каждого из критериев А; при условии выполнения двух гипотез, образующих полный набор: Н] - пик относится к серии фрагментных ионов b или у. Н2 - пик не относится к серии фрагментных ионов b или у.
Решение о принадлежности или непринадлежности сигнала к серии фрагментных ионов принимается, исходя из восстановления теоретической картины фрагментации для последовательностей пептидов, предложенных в качестве доверяемых данных.
Под выполнением критерия будем подразумевать: наличие пика в соответствующей позиции масс-спектра, для таких критериев как наличие парных пиков и нейтральных потерь. Наличие или отсутствие пика образует полный набор событий возможных при анализе данных критериев. для критериев, относительной интенсивности и зашумленности спектра, значение которых оценивается каким-либо числом, выберем набор интервалов, также покрывающих полный набор событий, после чего вычислим условную вероятность для гипотез Нь Нг для каждого интервала. Для критерия относительной интенсивности выберем п интервалов 1, (0.5;1], (0.25;0.5],...,(2п1;0). Для критерия зашумленности спектра выберем п интервалов 0, 1, (2;3), (4;7), (2n-V).
Такое задание интервалов обусловлено по преимуществу здравым смыслом и тем, что такие интервалы хорошо соответствуют нечетким описаниям, используемым экспертами при ручном распознавании спектров. Например, интервал (0.5; 1] для оценки относительной интенсивности пика, соответствует описанию - «почти самый большой», интервал (16;31) для оценки зашумленности области спектра соответствует описанию «спектр сильно зашумлен» и так далее.
После классификации сигналов спектров на удовлетворяющие гипотезам Нь Н2, и расчета для каждого сигнала полного набора критериев мы получаем полный набор условных вероятностей для каждого из критериев Р(АІНІ), Р(АІ[Н2).
Собранный набор оценок критериев позволяет оценить по Байесу вероятность гипотез Ні для каждого пика спектра в том случае, если мы можем предполагать, что значимость критериев для этого спектра адекватна спектрам, использованным для накопления статистики. Оценку каждого пика мы получаем последовательным применением формулы Байеса для каждого из предварительно оцененных критериев А,.
При первом применении теоремы Байеса в качестве априорной вероятности Р(Нг) используется доля сигналов ионов серий у и b в спектрах пептидов. При последовательной оценке по ряду критериев в качестве априорной вероятности используется апостериорная вероятность, полученная на предыдущем шаге. В качестве итоговой оценки вершины графа Qj масс-спектра используется апостериорная вероятность, полученная после применения всех оцененных критериев.