Содержание к диссертации
Введение
1. Обзор литературы 13
1.1. Микробные сообщества и методы изучения их состава 13
1.1.1. Разнообразие микробных сообществ и их основные члены 13
1.1.2. Традиционные методы исследования 14
1.1.3. Современные молекулярные методы изучения микробиоты
1.2. Высокопроизводительное метагеномное секвенирование 17
1.3. Базовый анализ метагеномных данных
1.3.1. Форматы метагеномных данных и их предобработка 29
1.3.2. Данные по секвенированию последовательности гена 16S рРНК...32
1.3.3. Данные полногеномного секвенирования 39
1.4. Статистический анализ и моделирование в метагеномике 44
1.5. Микробиота кишечника человека 50
1.6. Антибиотикорезистентность 55
2. Материалы и методы 58
2.1. Сбор образцов 58
2.1.1. Контрольная группа 58
2.1.2. Группы пациентов
2.2. Пробоподготовка 60
2.3. Секвенирование 60
2.4. Внешние источники метагеномных данных 61
2.5. Программные пакеты для картирования ридов 61
2.6. Предобработка ридов 62
2.7. Определение функционального состава 62
2.8. Статистический анализ и визуализация 63
2.9. Аппаратные и программные средства, использованные вычислительным конвейером для анализа метагеномных данных
2.10. Сборка de novo метагеномных ридов и выявление генов, не входящих в референсный каталог генов 65
2.11. Расширение референсного каталога геномов путем идентификации неизвестных компонент с помощью дополнительных методов 66
2.12. Расширение каталога генов путем добавления генов из специфических геномов
2.13. Профилирование уровней генов антибиотикорезистентности 68
3. Результаты 70
3.1. Полногеномное секвенирование образцов микробиоты кишечника 70
3.2. Разработка алгоритма для профилирования функционального состава70
3.3. Реализация алгоритма в виде программного комплекса на параллельной вычислительной системе 73
3.4. Разработка Интернет-ресурса для анализа метагеномных данных по микробиоте кишечника 81
3.5. Определение влияния глубины секвенирования на оценку функционального состава 84
3.6. Функциональный состав микробиоты населения РФ
3.6.1. Контрольная группа 86
3.6.2. Воспалительные заболевания кишечника 92
3.6.3. Хроническая обструктивная болезнь легких
4. Обсуждение 103
5. Заключение 113
6. Выводы 113
7. Список литературы
- Высокопроизводительное метагеномное секвенирование
- Пробоподготовка
- Расширение референсного каталога геномов путем идентификации неизвестных компонент с помощью дополнительных методов
- Разработка Интернет-ресурса для анализа метагеномных данных по микробиоте кишечника
Высокопроизводительное метагеномное секвенирование
В конце 17 века Антони ван Левенгук впервые пронаблюдал бактерии с помощью оптического микроскопа, положив тем самым начало эпохе изучения микробов и их сообществ. Важным этапом развития инструментария микробиологии стали методы, основанные на изолировании бактерии на селективной среде, получении штамма и его культивировании. Дальнейшее описание микроба производится как путем выявления морфологических характеристик (форма клетки, устройство стенки, характер движения, окрашивание по Граму, наличие жгутика и т.п.), так и биохимическими методами (такими, как анализ фосфолипидного состава) [11].
При том, что данные методы позволили описать особенности фенотипа изолированной бактерии, они имеют принципиальное ограничение при анализе бактериального сообщества. В то время как редукция задачи от изучения сложного объекта (микробиота) к изучению простому (изолят) является разумным научным подходом, изоляция - трудоемкий процесс и, как оценивается, более 99% видов на Земле не поддаются культивированию. Среди последних технологических новшеств в области культуральных методов - микропанели для культивирования бактерий и гелевые микрокапли; их использование позволяет увеличить производительность эксперимента и культивировать ранее не поддававшиеся культивации виды. Однако все равно при изоляции обрываются сложные метаболические взаимосвязи целевой бактерии с другими членами сообщества, что ограничивает применимость новых методов.
Современные молекулярные методы изучения микробиоты С 1990-х гг. существенно расширить понимание филогенетического состава микробиоты, в том числе количественного, позволило развитие молекулярных методов изучения бактерий, опирающихся на их генетическую информацию. Успешность применения молекулярных методов не зависит от того, насколько хорошо каждый вид сообщества поддается культивированию, исходя из современного микробиологического арсенала; при этом они позволяют проводить анализ всего микробного сообщества.
Одним из первых молекулярных подходов стало изучение молярной доли G+C состава тотальной ДНК сообщества - он является количественным и охватывает низкопредставленные виды сообщества, но при этом обладает низким разрешением. Для оценки разнообразия сообщества значительно эффективнее использовать не совокупную генетическую информацию сообщества, а избранные фиксированные гены как носители филогенетического сигнала. Полимеразная цепная реакция (ПЦР) - широко используемый метод для избирательного увеличения концентрации фрагментов ДНК с помощью фермента ДНК-полимеразы и специфичных праймеров (олигонуклеотидов, комплементарных концам целевого фрагмента). В то время как в качестве маркера с учетом специфики состава сообщества могут быть выбраны различные гены (например, тег А - для метаногенных архей), наиболее универсальным и часто используемым целевым геном является ген 16S рРНК, поскольку он присутствует во всех бактериях и его последовательность содержит как высококонсервативные участки (что обеспечивает специфичности ПЦР), так и вариабельные области (что позволяет использовать как "эволюционные часы").
Анализ последовательностей генов позволяет количественно оценить представленность как отдельных бактериальных видов, так и всех членов сообщества. Так, с помощью метода ПЦР реального времени (англ. realime PCR, qPCR) можно определить уровень представленности бактерий одного или близких видов за счет таксон-специфичных праймеров, при этом он является наиболее точным методом для определения общей концентрации бактерий в образце.
Переходя к тотальному анализу сообщества, ДНК-дактилоскопия сообщества (англ. community fingerprinting) дает полуколичественную оценку общего разнообразия бактериального сообщества исходя из того, сколько различных вариантов избранного гена присутствует в образце. К семейству ДНК-дактилоскопии относятся такие методы, как изучение полиморфизма длин терминальных фрагментов рестрикции (T-RFLP), а также денатурирующий и температурный градиентный гель-электрофорез (DGGE, TGGE). Хотя эти методы позволяют провести эксперимент по сравнению сообществ дешево и за короткое время, в целом ДНК-дактилоскопия является скорее качественным, нежели количественным методом: она не позволяют детектировать конкретные бактерии в образце, подвержена неравномерности ПЦР амплификации, при этом обладая ограниченной чувствительностью к низкопредставленным компонентам сообщества [12].
Более точные методы для количественной характеризации филогенетического состава сообщества основаны на ДНК-гибридизации, при которой специфичные олигонуклеотидные зонды, комплементарные к избранным бактериальным таксонам, связываются с целевыми последовательностями бактериальной ДНК. При флюоресцентной гибридизации in situ (англ. FISH), зонды соединены с флюоресцентными метками; свечение, происходящее вследствие гибридизации, детектируется с помощью проточной цитометрии, что позволяет идентифицировать целевые бактериальные виды. Хотя это полуколичественный подход достаточно быстр, его недостаток в том, что он не позволяет детектировать неизвестные виды [13]. Более высокопроизводительным и точным является применение гибридизационных ДНК панелей (англ. DNA microarrays): на панели закреплено порядка 10 олигонуклеотидных зондов, которые позволяют проводить высокоточное филогенетическое профилирование микробиоты (точность до 10"4 %). Однако, среди недостатков данных панелей стоит отметить возможность кросс-гибридизации (связывание зондов с последовательностью ДНК, отличной от целевой), неспособность детектировать неизвестные виды и необходимость разрабатывать и отлаживать свой специфичный профиль зондов для каждого типа среды (например, существуют специализированные ДНК-панели для изучения микробиоты почвы, кишечника, детекции патогенов и другие [14]).
Пробоподготовка
Генная структура микробиоты кишечника здорового взрослого человека была охарактеризована в рамках проекта MetaHIT, в котором было проведено полногеномное секвенирование для образцов кала от 124 жителей Западной Европы [61]. Инвентаризация генного репертуара позволила собрать каталог генов микробиоты, содержащий 3,3 млн. генов. Оказалось, что по генному составу микробиота сильно пересекается между людьми (в среднем у каждого участника исследования были идентифицированы 540 тысяч генов), но в то же время обладает значительной индивидуальной компонентой (две трети генов каталога представлены лишь у 20% людей). Благодаря своей представительности каталог стал де факто стандартным референсом для метагеномных исследований. Хотя недавно была опубликована его расширенная версия, содержащая более 9 млн. генов [90], расширение произошло в основном за счет редких генов.
В изучении таксономического разнообразия микробиоты кишечника наиболее известным стало открытие в 2011 г. энтеротипов - дискретных типов состава микробиоты, или, более детально, "плотно заселенных областей в многомерном пространстве состава микробиоты" [91]. В целом, первый энтеротип характеризовался преобладанием рода Bacteroides, второй - Prevotella, третий -Ruminococcus и ряда других. В то время как устойчивость концепции энтеротипов является предметом дискуссий [92], их практическая польза может заключаться в использовании для стратификации населения в рамках персонализованной медицины для лечения и профилактики заболеваний. Параллельно с проектом MetaHIT, в рамках проекта Human Microbiome Project с применением полногеномного секвенирования была описана структура и функции микробиоты различных частей тела человека [77]. Дальнейшие метагеномные исследования микробиоты кишечника населения стран мира показали, что составу микробиоты свойственна временная стабильность [93; 94], при этом среди факторов, оказывающих наибольшее влияние на него - диета и стиль жизни [89; 95; 96], прием антибиотиков [97].
Метагеномика стала важным инструментом для выяснения связи между микробиотой и заболеваниями человека, позволив детально изучить ассоциацию отдельных таксонов и функциональных групп генов с клиническим статусом пациента. Первым стало исследование микробиоты при ожирении [98]. Изучение воспалительных заболеваний кишечника [5; 7; 99] показало пониженное разнообразие и ряд функциональных смещений в микробиоте пациентов, но пока не дало полную картину патогенеза. В двух крупных исследованиях микробиоты при диабете 2 типа были выявлены микробиотные биомаркеры заболевания, причем они различались между китайской и европейской когортами [3; 4]. Анализ микробиоты при атеросклерозе показал как таксономические (пониженный уровень ряда Firmicutes), так и функциональные (повышенный синтез пептидогликана) отличия пациентов от нормы [2]. Было показано, что метаболический синдром и низкая успешность лечебной диеты ассоциированы с низким богатством генного репертуара микробиоты, выражаемого как число генов с ненулевой представленностью [6; 100]. Обширные исследования выявляют все новые ассоциативные связи между отдельными характеристиками микробиоты и различными заболеваниями. Однако центральным для медицинской метагеномики остается вопрос: вызывает ли микробиота заболевание, потому что она "ненормальна", или же, напротив, вследствие заболевания состав микробиоты изменяется определенным образом. Ответ на этот вопрос дадут лонгитюдные исследования. В последнее время исследователи склоняются к мнению, что оба эти эффекта формируют замкнутый круг, где патогенез разворачивается, стимулируемый неблагоприятными факторами (диета, стресс, генетическая предрасположенность и т.п.). 1.6. Антибиотикорезистентность
Устойчивость бактерий-возбудителей инфекций к действию антибиотиков глобальная общечеловеческая проблема. Как указывается в докладе Всемирной Ассоциации Здравоохранения 2014 г., "эта серьезная угроза не является прогнозом на будущее, она присутствует уже сейчас в каждом уголке мира и потенциально затронет каждого человека, вне зависимости от возраста и страны проживания. Антибиотикорезистентность - когда бактерии изменяются так, что антибиотики больше не помогают людям, которым они нужны, чтобы излечиться от инфекций - является первостепенной угрозой общественному здоровью" [1]. Особенно серьезную опасность представляют собой патогены с мульти- и суперрезистентностью - множественной устойчивостью к лекарственным препаратам. По оценкам Centers for Disease Control and Prevention, к числу социально наиболее опасных резистентных возбудителей относятся Clostridium difficile, устойчивые к карбапенемам Enterobacteriaceae (CRE), Neisseria gonorrhoeae, мультирезистентный Acinetobacter, Mycobacterium tuberculosis, устойчивые к ванкомицину Enterococcus (VRE) и другие; АР становится причиной 23 тысячи смертей ежегодно в США [101]. В России, суперустойчивость к антибиотикотерапии выявлена в каждом десятом случае туберкулеза.
Расширение референсного каталога геномов путем идентификации неизвестных компонент с помощью дополнительных методов
С целью выявления географической вариации состава микробиоты здоровых людей, было проведено сравнение функционального состава у контрольной группы с тремя крупными наборами метагеномов микробиоты кишечника населения Дании [61], США [77] и Китая [3]. Для того, чтобы определить наиболее масштабные различия в метаболизме, значимые различия в относительной насыщенности метаболических путей были идентифицированы с помощью пакета piano. Большая часть путей, которые были насыщены в российских метагеномах по сравнению с группами из США и Дании, совпадали с наблюдаемыми изменениями в соотношении численности бактерий отделов Bacteroidetes и Firmicutes (в Приложении табл. 4). Обогащенность следующих путей, очевидно, была связана с повышенным присутствием Firmicutes [116; 117]: фосфотрансферазной системы и сборки жгутиков (РФ в сравнении с Западом). Относительная перепредставленность пути фосфотрансферазной системы в метагеномах РФ (рис. 15) соответствует тому факту, что бактерии отдела Firmicutes более специализированы на олигосахаридах, чем Bacteroidetes, обладающие репертуаром ферментов для разложения широкого спектра углеводов [118]. С другой стороны, группы с преобладанием Bacteroidetes имели повышенный уровень путей разложения гликозаминогликанов, метаболизма аминосахаров и нуклеозидов (США, Дания и Китай по сравнению с РФ) и биосинтеза липополисахаридов (Китай по сравнению с РФ). Эти эффекты отражают богатство генов, кодирующих ферменты разложения гликозаминогликанов, в геномах грамотрицательных бактерий рода Bacteroides [118; 119].
Перепредставленность генов фосфотрансферазной системы в метагеномах РФ по сравнению с группами из США и Дании. Перепредставленные метаболические пути были идентифицированы с помощью одностороннего теста Манна-Уитни с поправкой на множественное сравнение методом Бенджамини-Хохберга (см. Методы). Группы КО, значимо различающиеся между группами по представленности, помечены цветом.
Небольшое число значимо различающихся по представленности метаболических путей, найденных между таксономически различными группами, указывает на то, что хотя набор доминирующих бактерий существенно варьирует, совокупно микробиота пребывает в функциональном гомеостазе. Этот вывод подкрепляется высоким функциональным сходством метагеномов контрольной группы (попарная корреляция по Спирмену между метагеномами по уровням КО 0,92 ± 0,03) на фоне наблюдаемого таксономического разнообразия состава (попарная корреляция родового состава 0,77 ± 0,08). Это наблюдение метаболического гомеостаза согласуется с ранее опубликованными результатами [61; 77].
С целью описания новых генов микробиоты кишечника населения РФ (не идентифицируемых с помощью картирования на референсный каталог генов), была проведена сборка de novo ридов каждого образца. Были получены контиги общей длиной 3,4 млрд. п.н. (35,8 ± 15,8 млн. п.н. на образец, п = 95). Сборка для одного из образцов не удалась ввиду нехватки объема ОЗУ. После добавления контигов, собранных из ридов, не отобразившихся на каталог генов, в полученных контигах были найдены 41474 последовательности генов без близких сходств в каталоге (см. Методы). Таким образом, новые гены составили 1,26% от общего числа генов в каталоге.
Для новых генов была проведена функциональная аннотация в номенклатуре КО с помощью Интернет-ресурса KAAS (KEGG Automated Annotation Server, http://www.genome.jp/kegg/kaas/X120], по базе последовательностей прокариот с классификацией по однонаправленному лучшему совпадению (англ. single-directional best hit). Процент идентификаций был невысок: группы КО удалось определить только для 231 гена (0,6%). Всего было найдено 166 групп. Около половины из них (79 шт.) не входят в референсный каталог генов. Примечательно, что среди данных генов значительно представлены гены различных протеобактерий (родов Escherichia, Enterococcus, Citrobacter). Были обнаружены гены, классифицировавшиеся как гены Morganella morganii - бактерии, не включенной в референсный каталог геномов. Несколько генов входят в метаболические пути, присущие эукариотам, и при поиске по базе NCBI пг классифицируются как принадлежащие к Blastocystis hominis - простейшему, населяющему кишечник человека. Очевидно, данные по перечисленным микроорганизмам не вошли в референсный каталог генов из-за своей низкой представленности в МК когорт населения Дании и Испании.
Функциональная классификация генов альтернативным методом, учитывающим не только гены ферментов, а все гены - Blast2GO [121], который выравнивает последовательности на базу NCBI пг с помощью алгоритма BLAST -не позволила значительно улучшить процент идентификации: практически для всех генов либо не было найдено сходств, либо они были идентифицированы как гены белков с неизвестными функциями (англ. hypothetical protein, uncharacterized protein).
Воспалительные заболевания кишечника Сравнение функционального состава МК между группами контроля и ВЗК на уровне метаболических путей KEGG (см. Материалы и методы) выявило 17 путей, уровень генов которых значимо перепредставлен у группы ВЗК, и, с другой стороны, 5 путей, перепредставленных у контрольной группы (табл. 2). Таблица 2. Метаболические пути по номенклатуре KEGG, значимо различающиеся по относительной насыщенности между группами контроля и ВЗК. В колонках "Число повышенных генов" и "Число пониженных генов" указано количество генов данного пути, относительная представленность которых повышена и понижена в группе ВЗК по сравнению с группой контроля, соответственно. А) Пути, перепредставленные у группы ВЗК; Б) пути, перепредставленные у группы контроля.
Разработка Интернет-ресурса для анализа метагеномных данных по микробиоте кишечника
Особенностью, которая может быть связана с воспалением, но не обнаружена в работе Morgan с соавторами, является повышение некоторых частей пути двухкомпонентной системы (96 из 322), в частности, транспорта нитратов и нитритов. Потенциально, это связано с увеличением концентрации реактивных соединений азота, присущее активной форме ВЗК; возможность утилизировать нитрат дает преимущество в росте протеобактериям [129]. Другое открытие -повышение насыщенности пути биосинтеза фолиевой кислоты (11 из 24 генов). Организм человека не способен производить витамин В9, в отличие от микробиоты кишечника. Известно, что у пациентов с ВЗК наблюдается недостаточность фолата, причем при болезни Крона сильнее, чем при язвенном колите [130; 131]; высказывалось предположение о связи патогенеза ВЗК с нехваткой фолата [132]. В связи с этим интересной представляется гипотеза, что насыщенность данного пути у пациентов отражает некий компенсаторный механизм отбора организмом-хозяином микробиоты с увеличенным потенциалом синтеза фолата в условиях, когда хозяину данного вещества не хватает.
Следует отметить, что данный анализ функционального состава проведен для разнородных типов образцов в группе ВЗК (кал и содержимое подвздошной кишки) ввиду низкого количества каждого из типов в отдельности. Однако даже это ограничение не помешало обнаружить пересечение с имеющимися результатами других исследований, а также выявить некоторые новые наблюдения, которые в будущем интересно проверить на более многочисленной и однородной группе образцов. Из всех типов материала наиболее ценным с точки зрения прояснения роли микробиоты в патогенезе представляется биопсийный материал. Однако, помимо этических нюансов, связанных с забором образца, методическая сложность для полногеномного исследования заключается в высоком содержании ДНК человека. По этой причине даже последние крупные исследования микробиоты при ВЗК по биопсиям опираются на секвенирование 16S рРНК и последующую реконструкцию функционального состава по этим данным [99].
Для группы ХОБЛ, отличия в насыщенности путей от контрольной группы были сопоставлены с результатами наиболее крупных имеющихся исследований функционального состава микробиоты при заболеваниях - ВЗК [5] и метаболическими заболеваниями [2-4]. Мета-анализ показал, что, с одной стороны, среди функций, повышенных в микробиоте относительно контрольной группы, присутствуют некоторые черты микробиоты ВЗК - например, повышение пути бактериальной секреции (45 из 74 генов), в частности, системы секреции II типа, участвующей в выделении токсинов и присущая адгезивно-инвазивной Е. coli (AEIC), ассоциированной с болезнью Крона [133]. Это подкрепляется повышенным уровнем рода Escherichia/Shigella у группы ХОБЛ (11,5 ± 25,6% от общей представленности бактерий, среднее ± стандартное отклонение). Еще одна черта от ВЗК-микробиоты - пониженный уровень путей синтеза аминокислот: валина, лейцина и изолейцина (16 из 22 генов), лизина (19 из 40); пуринов и пиримидинов - что связывается с доступностью этих веществ бактериям ввиду разрушения тканей стенки кишечника при воспалении и, следовательно, с ростом ауксотрофных бактерий [5]. С другой стороны, интересно, что изменения микробиоты при ХОБЛ оказались противоположными основным признакам микробиоты при метаболических заболеваниях: понижены уровни путей синтеза пептидогликана (19 из 37 генов) (в противоположность микробиоте при атеросклерозе [2]), метаболизма глицеролипидов и метана (в отличие от диабета 2 типа [3; 4]).
В целом, анализ насыщенности метаболических путей позволил охарактеризовать на высоком уровне особенности функционального состава микробиоты групп пациентов. Были обнаружены значимые отличия от контрольной группы, они биологически осмысленны и специфичны для каждой когорты. В то время как наблюдения во многом перекликаются с результатами ранее опубликованных исследований, новые особенности задают перспективные цели для выяснения роли микробиоты в патогенезе заболеваний по более многочисленным группам пациентов. В расширенных исследованиях представляется перспективным использование более мелкого уровня иерархии метаболических путей вместо путей KEGG - таких, как модули KEGG или пути базы MetaCyc.
Расширение каталога генов за счет геномов, детектируемых при таксономическом анализе метагенома, показал себя эффективным методом для увеличения процента идентификации и уточнения функционального состава. В отличие от ожиданий, для группы ВЗК эффект от расширения каталога генов оказался не столь сильным. Интересно, что процент картирования значительно увеличился лишь для образца К55, из которого и был изолирован соответствующий штамм - но не для остальных больных болезнью Крона. По-видимому, гены, определяющие патогенность штаммов из других не вошли в состав генома этого штамма. Это соотносится с наблюдениями значительного геномного разнообразия бактерии Е. соїі от пациента к пациенту с ВЗК [122]. Предположительно, роль бактерии в патогенезе может обуславливаться не столь наличием одного или нескольких конкретных генов, а самыми разнообразными функциями - такими, как способность к формированию биопленки, утилизации нитрата и т.п. - для которых не существует единого ядра генов, но каждая из них позволяет при подходящих условиях занять доминирующую позицию в микробном сообществе.
В то время как между контрольной группой и каждой из групп пациентов были выявлены достоверные различия функционального состава, дискуссионным является базовый вопрос: что является эталоном здоровой микробиоты? Как наше, так и ряд опубликованных сравнительных исследований указали на различия в составе микробиоты здоровых людей и пациентов, иногда позволив выявить метагеномные маркеры заболевания. Однако в данном сравнении контрольная группа является весьма абстрактно "здоровыми", поскольку выборка была произведена из той же самой популяции и поэтому их микробиота была подвержена тому же самому сложному набору внешних воздействий, свойственному образу жизни в постиндустриальных странах. Эти условно здоровые люди могут сами иметь повышенный риск того же заболевания - просто еще не сошлись условия для проявления его симптомов. Таким образом, подлинный контроль - индивид, который никогда не разовьет данное заболевание благодаря своему образу жизни или протективному характеру собственной микробиоты. Потенциальным кандидатом мог бы стать здоровый житель сельской местности, употребляющий натуральные продукты и минимум антибиотиков.