Содержание к диссертации
Введение
1. Обзор литературы 11
1.1 Инструменты бактериальной протеогеномики с точки зрения биоинформатики 11
1.1.1 Ассемблеры и недостатки аннотации 11
1.1.2 Алгоритмы идентификации белков по масс-спектрам 14
1.1.3 Протеогеномные подходы в аннотации бактериальных и архейных геномов и характеризации микроорганизмов 18
1.1.4 Протеогеномика и минимальная клетка 21
1.2 Геномы микробов 28
1.2.1 Микоплазмы 29
1.2.2 Хеликобактер (разнообразие и организация молекулярной машины)32
1.2.3 Археи (протеогеномная аннотация): что известно и почему это необходимо для науки 33
1.3 Заключение 34
2. Методы 36
2.1 Создание экспериментальной базы данных 36
2.2 Программные пакеты для протеомного анализа и параметры обработки спектров 38
2.3 Программы для сравнения геномов и картирования ридов 38 2.4 Объединение сторонних программ в Автоматизированный программный конвейер 38
2.5 Разработка пользовательских интерфейсов 39
2.6 Статистический анализ 40
2.7 Программирование алгоритмов 40
2.8 Протеомные эксперименты 40
2.9 Получение культур клеток 42
2.10 Геномные эксперименты 42
2.10.1 Методы сборки 43
2.10.2 Аннотация 43
2.11 Источники геномных данных 44
3. Результаты 46
3.1 Разработка эффективных алгоритмов использования данных протеомных экспериментов для протеогеномного профилирования 46
3.1.1 Разработка принципов обработки экспериментальных данных протеомных экспериментов 49
3.1.2 Работа с N-концевыми пептидами 50
3.1.3 Учет неспецифичности трипсина 51
3.1.4 Использование данных геномных экспериментов 52
3.1.5 Обнаружение посттрансляционных модификаций 53
3.1.6 Алгоритм избавления от избыточности 54
3.1.7 Протеогеномное сравнение 55
3.2 Использование алгоритмов для улучшения аннотации геномов Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum и Desulfurococcus kamchatkensis 56
3.2.1 Улучшение аннотации Mycoplasma gallisepticum 56
3.2.2 Улучшение аннотации Acholeplasma laidlawii 57
3.2.3 Улучшение аннотации Spiroplasma Melliferum 57
3.2.4 Улучшение аннотации Desulfurococcus kamchatkensis 58
3.3 Использование алгоритмов и оценка достоверности идентификаций при работе с изолятами и штаммами, для которых геномы не секвенированы или существует только частичная последовательность 60
3.3.1 Работа со штаммами для которых геномы не секвенированы 60
3.3.2 Работа со штаммами, для которых геномы имеют частичную последовательность 65
3.4 Использование алгоритмов для системного анализа на основе сравнения протеогеномных профилей бактерий 67
3.4.1 Протеогеномное сравнение Mycoplasma gallisepticum, Acholeplasma laidlawii, Mycoplasma mobile 67
3.4.2 Протеогеномное сравнение Spiroplasma melliferum и Spiroplasma citri
3.4.3 Протеогеномное сравнение 3 штаммов Helicobacter pylori: J99, A45, 26695 83
4. Обсуждение результатов 87
4.1 Разработанные алгоритмы и их эффективность в протеогеномной аннотации 88
4.2 Протеогеномное сравнение микоплазм 90
4.3 Протеогеномное сравнение спироплазм 93
4.4 Протеогеномное сравнение Helicobacter pylori 96
4.5 Заключение 97
Выводы 98
Список литературы 99
- Протеогеномные подходы в аннотации бактериальных и архейных геномов и характеризации микроорганизмов
- Разработка пользовательских интерфейсов
- Разработка принципов обработки экспериментальных данных протеомных экспериментов
- Протеогеномное сравнение микоплазм
Введение к работе
Актуальность проблемы. Приближение к точке технологической сингулярности (Kurzweil 2005), охватившее сегодня все области человеческих знаний, во многом влияет и на исследования в области молекулярной биологии. Взрывообразное накопление данных в областях геномики, транскриптомики, протеомики и метаболомики не дает возможности перейти от редукционного подхода, направленного на отдельные компоненты, к системному, позволяющему охватить весь набор компонентов и их свойств.
Одной из отправных точек в исследовании живой системы является структура генома и его максимально полное описание - аннотация. Технологии, позволяющие получить геномную последовательность, получили повсеместное распространение и появилась возможность исследовать геном любого живого существа и даже отдельной клетки. При таких возможностях точность, полнота и скорость аннотации становится узким местом в исследованиях. Несмотря на большой арсенал развитых вычислительных методов создания геномных аннотаций, они принципиально являются лишь предсказательными.
Протеогеномика как предложенный в 2008 году набор подходов, основанных на использовании протеомных данных для улучшения геномной аннотации, позволяет существенно улучшить качество аннотации геномов. С учетом разнообразия царств Бактерий и Архей использование протеогеномной аннотации, возможно, является единственным способом получения корректного представления о связи генотипа и фенотипа. Было показано, что синтез наблюдений за относительно просто устроенными бактериальными клетками позволяет не только скорректировать представления о взаимоотношениях генов и их продуктов, но и получить представления о структуре системы в целом. Естественно, что появляющиеся в последнее время работы по созданию синтетической бактериальной клетки могут быть продолжены, только если создаваемая система будет полностью описана и смоделирована. Несмотря на актуальность и с учетом новизны названной области, сегодня не существует единого программного решения, которое бы объединяло все задачи , связанные с совместным использованием геномных и протеогеномных
данных.
Цели исследования
Разработать подходы и алгоритмы протеогеномного профилирования бактериальных геномов, воплотить их в виде программного обеспечения и использовать для профилирования Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum, Desulfurococcus kamchatkensis и Helicobacter pylori.
Задачи исследования
Для достижения названной цели были поставлены следующие задачи:
Разработка эффективных алгоритмов использования данных протеомных экспериментов для протеогеномного профилирования.
Использование алгоритмов для улучшения аннотации геномов Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum и Desulfurococcus kamchatkensis.
3) Использование алгоритмов и оценка достоверности идентификаций при работе с
изолятами и штаммами, для которых геномы не секвенированы или существует
только частичная последовательность.
4) Использование алгоритмов для системного анализа и улучшения
протеогеномной аннотации на основе сравнения протеогеномных профилей
бактерий.
Научная новизна
С использованием современных методов и технологий разработаны оригинальные методики и алгоритмы обработки экспериментальных данных исследования геномов и протеомов бактерий. Комплекс подходов позволил впервые объединить в единое аналитическое пространство разрозненные данные частичного секвенирования ДНК и масс-спектрометрического анализа белков и далее, используя разработанный алгоритм протеогеномного сравнения, выявить межвидовые и межштаммовые различия.
Впервые проведено уточнение геномной аннотации для Mycoplasma gallisepticum S6, Acholeplasma laidlawii PG-8A, Spiroplasma melliferum KC-3 и Desulfurococcus kamchatkensis 122 In. По результатам уточнения удалось аннотировать новые белки, подтвердить или реаннторировать сайты начала транскрипции, проверить ряд предсказанных из строения генома явлений на белковом уровне. Ни для самих указанных штаммов, ни для близкородственных штаммов такие исследования ранее не проводились.
Проведенный с использованием разработанной методики анализ ряда бактерий позволил получить уникальные результаты по более точной оценке минимального функционального ядра молликут, исчерпывающему протеому представителя Архей, предположительным механизмам патогенеза насекомых у спироплазм и возможной особенности проявления вирулентности и способности к трансформации у бактерий вида Helicobacter pylori.
Практическая значимость.
Комплекс протеогеномного профилирования успешно используется в настоящее время в качестве основной информационной платформы в ряде международных и российских проектов, охватывающих как исследования бактериальной направленности (например, Метагеном и метапротеом микробиоты кишечника человека), так и исследования протеомов эукариот.
Предложенная методика протеогеномной аннотации, апробированная на
различных представителях бактериального и архейного царств, может быть
использована для протеогеномной аннотации любого бактериального или
архейного генома. Предложенное использование системы с рядом
дополнительных экспериментальных подходов (обогащение пептидной фракции протеома N-концевыми пептидами) позволит аннотировать большую часть экспрессируемых белков с точки зрения сайта начала транскрипции.
Система позволяет использовать данные современных экспериментальных установок с учетом их индивидуальных особенностей (точность, масштаб получаемых экспериментальных данных и т.п.). Использование любого
современного оборудования возможно за счет применения унифицированных стандартных форматов обмена данными.
Апробация работы.
Результаты работы были представлены на следующих российских и международных конференциях: Итоговая научная конференция НИИ ФХМ2010, Молодежная конференция НИИ ФХМ 2011, BGRS 2010 Novosibirsk, XXII Симпозиум «Современная химическая физика» 2010 г. Туапсе, Постгеномные методы анализа в биологии, лабораторной и клинической медицины - 2010г. Москва, Постгеномные методы анализа в биологии, лабораторной и клинической медицины - 2011г. Новосибирск, Iscb Students council 2011 - Vienna ,HUPO 2011 World Congress - Geneve , MCCMB'l 1 -- Moscow .
Публикации. Материалы диссертационной работы отражены в 5 публикациях в рецензируемых российских и международных журналах и в 2 сборниках трудов конференций.
Структура и объем диссертации.
Протеогеномные подходы в аннотации бактериальных и архейных геномов и характеризации микроорганизмов
Белок-кодирующие гены в геномной ДНК идентифицируются с помощью большого разнообразия вычислительных инструментов - автоматизированных систем аннотации, который используют ab initio предсказательные методики и методики основанные на сравнении. TIGR CMR[Peterson и др., 2001], GenDB[Meyer и др., 2003] and BASys[Domselaar Van и др., 2005], пожалуй, является самыми часто используемыми программами геномной аннотации. В типичной геномной ДНК используются алгоритмы, такие как GLIMMER[Delcher и др., 1999] или CRITICA[Badger, Olsen, 1999] для предсказания возможных белок кодирующих областей. Ab initio предсказание генов использует статистические свойства генов - такие, как GC богатые регионы, использование кодонов или специальные информационные свойства k-меров. Кроме того, последовательность ДНК сравнивается с последовательностями в базах данных существующих белков с использованием алгоритма BLAST[Altschul и др., 1990]. Интеграция результатов работы обоих типов алгоритмов приводит к выявлению набора предсказанных белок-кодирующих генов. Для определения функции белковые последовательности подвергаются серии экспериментов по поиску похожих генов и анализу сиквенсов. Это включает в себя поиски по БД COG[Tatusov, Koonin, Lipman, 1997] для нахождения возможных ортологов в других геномах, поиске относительно баз TIGRFAM[Haft и др., 2001] и PFAM[Pimta и др., 2011] для определения семейств белков, базы PROSITE[Hulo и др., 2004]для анализа мотивов и использование программ предсказания локализации белка, таких, как PSORT[Nakai, Horton, 1999]. Кроме того, используются алгоритмы предсказания сигнальных последовательностей SignalIP[Nielsen и др., 1997], алгоритм TMHMM[Sonnhammer, Heijne von, Krogh, 1998] для определения альфа-спиральных транс-мембранных регионов и PSIPRED[McGuffm, Bryson, Jones, 2000] для предсказания вторичной структуры. Несмотря на большие успехи в аннотации прокаритоических геномов, аннотация архей программными способами не достигла такого высокого уровня точности, и разные программные пакеты могут интерпретировать один и тот же геном по разному[Вакке и др., 2009], в первую очередь, это происходит из-за большого разнообразия способов геномной организации у архей.
При том, что программы предсказания генов de novo показали свою пригодность в аннотации эукариотических геномов, например, в случае генома человека они могут предсказать верно структуры генов только в 50% cny4aeB[Guigo и др., 2006]. В свете этого необходимость проверки предсказания кодирующих генов при аннотации эукариотических геномов очевидна. В сравнении с эукариотами геномы прокариот являются более простой задачей для программ предсказания из-за отсутствия интронов и высокой плотности генов в прокариотическмх геномах. Тем не менее, сложности с определением точных мест начала и окончания гена, аннотацией коротких генов и прочие все еще остаются. В недавнем анализе Нильсена и Крога[А11еп, Pertea, Salzberg, 2004] было показано, что для 143 рассмотренных геномов старт кодоны были неверно определены в 60% случаев, в особенности при аннотации ГЦ-богатых геномов.
Они также показали, что значительная часть геномов была аннотирована избыточно из-за отсутствия возможности различать случайные короткие рамки и короткие белки. В результате возникает цепная реакция ошибок, вызванная тем, что уже находящиеся в базе данных неверные аннотации становятся основой для аннотации на основе гомологии, особенно опасна эта ситуация в связи со взрывным увеличениям количества геномов.
Экспериментальные подходы масс-спектрометрии в области протеомного анализа позволяют напрямую идентифицировать пептиды экспрессирующихся белков, что в свою очередь дает возможность напрямую подтверждать кодирующие регионы геномных последовательностей. Соотнесение масс-спектра и аминокислотной последовательности является задачей алгоритма идентификации. На сегодняшний день существуют высокоэффективные программные пакеты, как с открытым алгоритмом, так и с проприетарным. Выбор аминокислотной последовательности, соответствующей масс-спектру, может осуществляться из ограниченного списка структур (например, всего генома организма) - т.н. «алгоритм поиска по базе данных», либо выбор осуществляется из всех возможных первичных структур (комбинаций аминокислот и их модификаций) - такой алгоритм называется «секвенирование de novo». В любом случае мерой соответствия структуры спектру является числовая оценка, соответствующая вероятности случайного совпадения или некоторому количеству баллов, отражающих полноту соответствия ряда структур спектру и позволяющих выбрать наиболее подходящую для спектра структуру.
Стандартными параметрами при такой оценке становятся точность соответствия пиков теоретического спектра предполагаемой структуры и пиков в экспериментальном масс-спектре, наличие или отсутствие пиков, не предсказанных модельной структурой, относительная интенсивность пиков.
Основной проблемой при идентификации является отсутствие теории, объясняющей фрагментацию полипептидных цепей количественно. Все используемые алгоритмы по сути своей основываются на эмпирически подобранных наборах весовых коэффициентов, учитывающих большой набор данных, использованных для обучения алгоритма.
Несмотря на отсутствие четкой теории, использование стандартных предположений о наиболее вероятных точках разрыва полипептидных цепей позволяет реконструировать ограниченный набор предполагаемых пептидов-кандидатов.
Алгортимы оценки соответствия масс-спектров и пептидных последовательностей можно разделить на две категории. К первой категории, эвристической, относятся алгоритмы, соотносящие полученные спектры с теоретическими спектрами пептидов и рассчитывающие степень соответствия между ними. Эти поисковые алгоритмы часто используют меру «количество общих пиков» (КОП), которая просто соответствует количеству пиков, присутствующих в обоих спектрах. К числу эвристических относятся SEQUEST, Spectrum Mill, X!Tandem, and Sonar. Вероятностные алгоритмы, относящиеся ко второй категории, воспроизводят в некоторой степени процесс пептидной фрагментации и рассчитывают вероятность того, что указанный пептид дал выбранный спектр случайно.
Одним из наиболее распространенных вероятностных алгоритмов является алгоритм Mascot, использующий базу данных всевозможных белков в образце для сопоставления пептидной последовательности и спектра. Мерой соответствия спектра и последовательности является количество баллов. Кроме того, для каждого варианта поиска алгоритм рассчитывает порог идентичности, основанный на вероятностных распределениях. Количество баллов, превышающее такой порог считается значимым соответствием спектра и пептидной структуры. Порог определяется формулой:
Для пептидной структуры с количеством баллов, равным пороговой, величина математического ожидания случайного совпадения (E-value) равняется 0,05. Превышение порогового значения на 10 баллов соответствует уменьшению E-value на порядок. Таким образом, пороговые значения являются характеристикой базы данных поиска и параметров поиска (точность, посттрансляционные изменения и количество белков).
Разработка пользовательских интерфейсов
На основе собственных исследований, направленных на оптимизацию цикла обработки экспериментальных данных, мы предложили следующий путь обработки данных, используемый в АПК. Сначала данные протеомных экспериментов проходят обработку в прибор-специфичной программе обработки спектров (Data Analysis, Mass Hunter и т.д.), далее формируются списки пиков распада, организованные в масс-листы и содержащие информацию о времени выхода компонента, массе родительского иона, а также о спектре его распада. Далее эти файлы подаются на вход программ расчета спектров - Mascot или Xltandem. Одновременно эти программы используют и базы возможных белковых последовательностей , которые выбираются в зависимости от задачи, решаемой на данном шаге работы. После обработки данных результаты автоматически загружаются в экспериментальную БД и становятся доступными для анализа с помощью языка запросов и просмотра с использованием пользовательского интерфейса.
Для обнаружения новых белков используется полногеномная база данных с учетом трансляции во всех 6 рамках с учетом всех рамок, длина которых превышает 100 нуклеотидов (небольшая длина рамок используется для обнаружения возможных ошибок сиквенса, приводящих к появлению стоп-кодона). После загрузки результатов в экспериментальную БД происходит отбор тех рамок, количество пептидов в которых 2 и более, с учетом разделения по полосам в геле. Полученные таким образом кандидаты могут быть рассмотрены при аннотации и при отсутствии конфликтов использованы для аннотации части генома. 3.1.2 Работа с N-концевыми пептидами.
С использованием методических рекомендаций в научной литературе мы разработали собственный алгоритм обнаружения N-концевых пептидов. Решение такой задачи в общем массиве протеомных данных вызывает сложности - в первую очередь, это связано с тем, что N-концевые пептиды составляют от 5 до 10% от общего числа триптических пептидов, попадающих в диапазон масс 500-3000 Да (именно в этом диапазоне масс точность измерения современных масс-спектрометров, используемых в протеомике, максимальна), также статистически «способность к ионизации» концевых пептидов в среднем меньше. Зачастую улучшить обнаружение можно с помощью предварительного обогащения смеси N-концевыми пептидами, либо мечением N-концевых пептидов с использованием меток, повышающих «способность к ионизации». Однако кроме экспериментальной сложности обнаружение N-концевых пептидов является и достаточно интересной вычислительной задачей.
Принципиальная схема обнаружения альтернативного старта транскрипции. В протеомных данных находятся свидетельства стартов трансляции - противоречащих указанному в аннотации старту. В первую очередь отсеиваются те N-концевые пептиды, которые найдены согласно предварительной или имеющейся аннотации. Затем в рассмотрение берутся те белки, которые были найдены но одному и более пептиду. Таким образом, при обнаружении N-концевого пептида, эти белки будут удовлетворять требованию один и более пептид на белок). Далее учитывается факт того, что в организме может быть найден нестандартный стоп кодон, и подготавливается подбаза для поиска концевых пептидов, состоящая из всевозможных концевых пептидов, начинающихся с различных кодонов в той же рамке и с учетом обязательной трансляции первого кодона в Met. Такая подбаза используется для поиска. Далее результаты загружаются в экспериментальную БД и осуществляется фильтрование альтернативных старт кодонов с учетом условия на количество белков в полосе.
Нами была предложена оригинальная методика учета иеспецифичности преотеолитических ферментов (на примере трипсина). При работе с полными протеомами и большим количеством белков возникает ситуация, когда неспецифичность трипсина (оцениваемая в размере до 5%) может вносить весомый вклад в появление ложноположительных идентификаций[Рісоиі, Aebersold, Domon, 2007]. Даже при малом проценте неспецифики, неспецифичный протеолиз, проявляется в появлении пептидов не соответсвующих мотивам протеиназ (получившихся в результате двух протеолитических событий, одно из которых специфично для активности протеииазы, а другое - нет). Для наиболее представленных белков это появлению таких «неспецифических» пептидов в концентрации достаточной для регистрации сигнала, превосходящего уровень шума в масс-спектре, а, следовательно, и к оценке таких спектров поисковыми машинами, которые будут подбирать к такому спектру только специфические варианты. Для устранения этого эффекта в автоматизированной системе мы предложили использовать дополнительный поиск полутриптических пептидов, используя настройки поисковых машин. Далее результаты, загруженные в экспериментальную БД, сравниваются с результатами поиска без учета неспецифики следующим образом: выбираются спектры, которые в нетриптическом варианте поиска набрали больше баллов, чем в триптическом; далее проверяется, существует ли триптический пептид от того же белка, что и нетриптический в данной полосе геля. В случае его наличия спектр считается относящимся к нетриптическому пептиду, а данные для белка, к которому относился триптический пептид с меньшим количеством баллов, перерасчитываются. Оригинальная методика учета неспецифичных протеолитических событий, предложенная нами, позволяет учесть эффект неспецифичности, дающий до 5% ложноположительных идентификаций.
Нами был разработан ряд методических подходов к использованию результатов геномных экспериментов. В зависимости от метода секвенироваиия или наличия близкородственных штаммов геномные прочтения (риды) используются для сборки генома или для картирования. В случае сборки генома проводится предварительная аннотация и контиги используются как база для работы с протеомными данными. Если происходит картирование, то для работы выбираются покрытые области рефернтиого генома и создается подбаза белков и подбаза целевого генома с учетом полиморфизмов, обнаруженных при картировании (рис. 10). Также, в случае наличия генома близкородственного штамма, возможно и картирование контигов, полученных в результате сборки, и создание подбаз с белками и целевым геномом по описанной выше схеме. Разница заключается только в использовании алгоритмов для картирования ридов и контигов: при картировании ридов используются алгоритмы для точного картирования, при картировании контигов - алгоритмы для менее точного картирования, более похожие на выравнивание контигов на референтные геномы. Выбор между аннотацией и картированием контигов производится сообразно
Разработка принципов обработки экспериментальных данных протеомных экспериментов
В целом составе генома S. melliferwn КСЗ нами обнаружены 32 укороченных с С- и/или N-конца по сравнению с референтными генами ОРС, 17 из которых относятся к числу гомологов плектовирусных белков. Всего 4 из них найдены в виде белковых продуктов в составе протеома S. melliferum КСЗ, что вызывает интерес с точки зрения рассмотрения механизма регуляции их экспрессии. Маловероятно, что экспрессия белков прекратилась исключительно в результате укорачивания кодирующих их генов. Наиболее логичным выглядит предположение, что укорачиванию подверглись белки, которые не были уже на тот момент функционально активны, а белки, которые, несмотря на укорачивание, присутствуют в составе протеома, сохранили свою значимость. Аналогичные «обрезанные» гены присутствуют в геноме S. citri GII37, однако их количество значительно больше - до 21% от общего числа аннотированных ОРС. Большая часть из них также приходится на ОРС плектовирусной природы либо белки с неизвестной функцией. Интересно, что как минимум два из числа «обрезанных» генов белков домашнего хозяйства, а именно RecA и DNA polymerase IV protein -для S. melliferum КСЗ и S. citri GII3, совпадают. При этом обращает на себя внимание тот факт, что для S. melliferum RecA - единственный белок, укороченный в результате вставки стоп-кодона в последовательности кодирующего его гена. Гены прочих укороченных белков разрушены в результате процессов транспозиции либо рекомбинации. Интересно, что ранее при транспозиции или рекомбинации было показано разрушение гесА и его неактивность (в т.ч. отсутсвие репаративной активпости[МагаІ5, Bove, Renaudin, 1996J ).Таким образом, нами показано, что разрушение гесА у S. citri и S. melliferum КСЗ произошло различными путями и независимо друг от друга..
Кроме того многие гены в составе генома представлены в виде нескольких копий. Так, например, сравнивая копийность гомологичных белков в геномах и протеомах A.laidlawii и S.melliferum (рис.23), можно обнаружить, что количество повторяющихся белков в геноме и протеоме S.melliferum превосходит таковое в A.laidlawii. В первую очередь это вызвано наличием мобильных элементов (повторяются 9-16 раз), но, кроме того, в спироплазме присутсвуют и белки с умеренным количеством повторов (4-8 раз) и их количество так же выше, чем в А. laidlawii - эту группу в основном составляют гипотетические и трансмембранные белки, что, возможно, обусловлено высокой вариабельностью поверхностных белков, создающих механизм вирулентности и адгезии в определенном репертуаре хозяев.
Рисунок 23 Экспрессия повторяющихся белков. График показывает количество белков имеющих соответствующее количество гомологов (ось х) для геномов и протеомов S. melliferum КСЗ (spiro repetitive для генома, и spiro rep expressed для протеома) и A. laidlawii PG-8A (achole repetitive для генома и achole rep expressed для протеома).
Для определения такого большого разнообразия гомологичных белков нами был использован алгоритм, позволяющий учитывать избыточность при белковой идентификации. После применения алгоритма из 68 наборов неоднозначно определенных белков удалось выделить 57 белков, для которых за счет наличия уникального пептида идентификация проведена однозначно. Всего 11 белков остались неоднозначно определены.
В настоящий момент очень мало что известно собственно о механизмах взаимодействия S. melliferwn с пчелами на разных стадиях инфекционного цикла бактерии. В то же время, большинство из известных на сегодняшний день факторов патогенности S. citri тем или иным образом оказывают влияние на способность данного микроорганизма инфицировать насекомое-переносчик, но они не относятся к числу повреждающих факторов на стадии взаимодействия с растением-хозяином аэрапсп, 2010]. Соответственно, наличие в геноме и, тем более, протеоме S. melliferum КСЗ аналогичных генов и их продуктов может оказаться ключом к пониманию механизмов развития спироплазмоза у медоносной пчелы.
Из числа известных для S. citri факторов патогенности в геноме S. melliferum КСЗ обнаружены ОРС, соответствующие генам, p58[Ye, Melcher, Fletcher, 1997J, р18, р123, p54[FIetcher и др., 1998; Ye и др., 1996] предполагаемый ЛВС-транспортер sc76 и основной мембранный белок спиралин. Из них в протеоме S. melliferum КСЗ нами обнаружены четыре белка, три из них - sc76, р 18, р 123 -принадлежат мембранной фракции в составе протеома. Спиралин, составляющий 30% от числа мембранных белков S. melliferum КСЗ, обнаруживался в обеих фракциях. В составе плазмидных контигов S. melliferum КСЗ нами обнаружены ОРС, кодирующие белки гомологичные белкам семейства ScARP S. citri и SkARPl 5. kunkelii , вовлеченным в обеспечение процесса инвазии бактерии в ткани насекомого-переносчика. Данные белки имеют в своем составе высококонсервативный сигнальный пептид, который должен отщепляться после аланина в 23 позиции, и гидрофобный трансмембранпый домен, располагающийся в непосредственной близости к С-концу белка .
Среди генов, уникальных для S. melliferum КСЗ по отношению к геному S.citri (табл. 4), обнаружена ОРС, кодирующая ген хитин деацетилазы. Данный ген является гомологом соответствующего фермента у Mesoplasma florum, в его составе с помощью программы Pfam обнаруживается полисахарид деацетилазный домен, занимающий 50% белка. Так же обращает на себя внимание наличие гена хитиназы А, в составе которого с помощью Pfam обнаруживается классический гликозил-гидролазный домен, а с помощью Prosite предсказывается наличие хитиназного активного центра. Возможно, с помощью данных ферментов осуществляется проникновение S. melliferum КСЗ через эпителиальный барьер кишки насекомого-хозяина либо хитин используется в качестве энергетического субстрата в процессе развития инфекции
Для трех штаммов было произведено полное протсомное профилирование. Для получения протеома штамма А45 были применены процедуры, описанные выше.
В итоге для штамма J99 было идентифицировано 490 белков, для штамма 26695 - 542 белка, для штамма А45 -495 белка.
Кроме того, для случая трех штаммов возможно было применить алгоритм улучшения идентификаций белков по 1 пептиду. Производился поиск для всех комбинаций пар трех штаммов H.pylori, где рассматривались все белки, идентифицированные по 1 пептиду у одной бактерии и более чем по одному - у другой, далее, если единственный пептид так же был найден у второй бактерии и при этом спектры пептидов совпадали - это являлось достаточным основанием полагать, что пептид, а с ним и белок, идентифицированы верно. Таким образом, было получено 65 достоверных идентификаций по 1 пептиду.
Протеогеномное сравнение микоплазм
Более того переферическая часть комплексов, связанная с поверхностными белками уникальными для каждого вида (см. рис. 18 - белки мембран), позволяет тонко настраивать расположение последовательности комплексов. Во-первых, у разных видов присутствуют разные поверхностные белки, связывающиеся с разными компонентами основного ядра, во-вторых, дифференциальная экспрессия поверхностных белков для одного вида так же влияет на переориентацию комплексов во внутренним пространстве. Второй факт примечателен как способ реакции (в т.ч. и экспрессионного ответа) организма на условия среды в случае отсутствия регуляторных и сигнальных систем (что свойственно микоплазмам).
В таком свете минимальный геном переходит из плоскости необходимых для жизни функций в плоскость необходимой для жизни структуры (в т.ч. и пространственной), обладающей, с одной стороны, внутренней целостностью, постоянством и компактностью, а с другой - потенциями к связыванию по периферии и изменению конфигурации и составу.
Большой вклад внесли протеогеномные методы аннотации и сравнения в изучение генетических основ взаимодействия спироплазм с растениями и насекомыми, которое существенно ограничивается скудным набором молекулярно-биологических методов, позволяющих осуществлять сайт-направленный мутагенез и комплементацию мутаций у молликут[Бше1 и др., 1999]. Соответственно, одним из наиболее доступных подходов к выявлению факторов патогенности у S. melliferum КСЗ, с учетом небольшого количества информации о физиологии данного микроорганизма может оказаться поиск уже известных генов и белков, вовлеченных в реализацию процессов взаимодействия бактерий с организмом-хозяином в составе ее генома и протеома. При этом ближайшим объектом для сравнения оказывается S. citri GII3, чей частичный геном был опубликован в 2010 году [Carle и др., 2010]. Предполагается, что инвазия S. citri и S. кипкеШ сквозь эпителиальный барьер кишечной трубки насекомого-переносчика осуществляется путем рецептор-опосредованного эндоцитоза[Аттаг и др., 2004; Kwon, Wayadande, Fletcher, 1999; Ozbek и др., 2003] с вовлечением в процесс поверхностных бактериальных белков, и в первую очередь - белка Р89 (SARP)[Yu, Wayadande, Fletcher, 2000]. Так же кандидатами на роль распознаваемых рецепторами кишечного эпителия бактериальных белков считаются экспериментально обнаруженные спиралин[Бш и др., 2003], P58[Ye, Melcher, Fletcher, 1997] , sc76[Boutareaud и др., 2004] и P32[Killiny и др., 2006]. В частности, инактивация гена sc76, кодирующего белок в составе предполагаемого ABC-транспортера, в тридцать раз снижает содержание S. citri в слюнных железах насекомого-переносчика. Аналогичным образом, инактивация гена спиралина, кодирующего основной липопротеин клеточной оболочки S. citri, приводит к стократному снижению эффективности передачи бактерии от насекомых к растениям.
В ходе протеогеномной аннотации в составе генома S. melliferum КСЗ нами обнаружено несколько ОРС, кодирующих белки, гомологичные перечисленным факторам патогенности для S. citri (табл.4). Как известно, спиралин этих двух микроорганизмов характеризуется высокой степенью гомологии[С1іеуаНег, Saillard, Bove, 1990], что позволяет предположить выполнение сходных функций и равную значимость для жизнедеятельности бактерий. Sc76 обнаруживается в составе мембранной фракции протеома S. melliferum КСЗ, так же, как белки р18, р58 и р118. Присутствие этих белков в составе протеома при условии выращивания S. melliferum КСЗ на богатой питательной среде в благоприятных условиях предполагает, что их гены относятся к числу конститутивных, а сами они важны для физиологии данной спироплазмы. Ген, кодирующий гомолог белка Р89 (SARP), в геноме S. melliferum КСЗ отсутствует, однако его гомологи, кодирующие ScARP-подобные белки, обнаруживаются в составе плазмидных контигов, как и у
S. citri GIB. Еще одним возможным подходом поиска потенциальных факторов патогенно сти у S. melliferum КСЗ может служить подход, ранее реализованный для еще одного представителя патогенных для растений молликут [Awa, 2008]. Исходя из гипотезы, что к числу факторов патогенности, в первую очередь, относятся мембранные и секретируемые белки, в результате компьютерного анализа известных геномов фитоплазм было отобрано 76 потенциальных ОРС, в которых при протеогеномной аннотации были обнаружены соответствующие N-концевые сигнальные пептиды, а так же потенциальные трансмембранные домены, необходимые для фиксации белка на поверхности бактериальной клетки.
Нам кажется заслуживающим внимания обнаружение в геноме и протеоме S.melUferum генов хитиназы и деацетилазы хитина, которые отсутствуют в геноме S. citri GIB. Данный факт особенно интересен с учетом особенностей строения пищеварителной системы насекомых, в частности, медоносной пчелы.
В пищеварительном тракте большинства насекомых имеется неклеточный слой, отделяющий эпителиальные клетки кишки от поглощаемой пищи. Этот слой принято называть перитрофическим матриксом[Мо8ка1ук, Оо, Jacobs-Lorena, 1996]. Перитрофический матрикс рассматривают в качестве физиологического и механического барьера, отделяющего область полостного пищеварения, обладающего избирательной проницаемостью, а также предохраняющего кишечный эпителий от повреждений частицами nnnni[Wang, Granados, 2001]. Перитрофический матрикс состоит из регулярно организованных микрофибрилл хитина, (3-13% состава)и специфических для каждого вида насекомых белков (20-55%)[. Peters, W., Heitmann, S. and D Haese, 1979] .