Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Полногеномный анализ системы белков теплового шока у экстремофильных комаров-звонцов семейства Chironomidae Козлова Ольга Сергеевна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Козлова Ольга Сергеевна. Полногеномный анализ системы белков теплового шока у экстремофильных комаров-звонцов семейства Chironomidae: диссертация ... кандидата Биологических наук: 03.01.03 / Козлова Ольга Сергеевна;[Место защиты: ФГБУН Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук], 2019.- 186 с.

Содержание к диссертации

Введение

1. Обзор литературы 17

1.1 Базовая характеристика белков теплового шока 17

1.1.1 Малые белки теплового шока 22

1.1.2 Семейство белков HSP70 24

1.1.3 Семейство белков HSP90 27

1.1.4 Шаперонины 29

1.2 Значение белков теплового шока для адаптации 31

1.2.1 Адаптация к изменениям температурного режима 31

1.2.2 Адаптация к окислительному стрессу 34

1.2.3 Ангидробиоз 37

1.3 Семейство Chironomidae и устойчивость к абиотическим стрессам 43

1.3.1 Ангидробионт Polypedilum vanderplanki 45

1.3.2 Paraborniella tonnoiri и устойчивость к обезвоживанию 47

1.3.3 Псаммореобионтный вид «Orthocladiinae acuticauda» 49

1.3.4 Chironomidae и устойчивость к кислотности 51

1.4 Полногеномное секвенирование ДНК и РНК в изучении немодельных организмов 53

1.5 Заключение 61

2. Материалы и методы 63

2.1 Материалы и молекулярно-биологические методы 63

2.1.1 Объекты исследования 63

2.1.2 Выделение ДНК 64

2.1.3 Подготовка библиотек и секвенирование ДНК 64

2.1.4 Проведение экспериментов с воздействием различных видов стрессов 65

2.1.5 Выделение мРНК 66

2.1.6 Подготовка библиотек и секвенирование мРНК 67

2.2 Биоинформатические методы 67

2.2.1 Библиотеки прочтений ДНК и мРНК, используемые в работе 67

2.2.2 Контроль качества исходных прочтений и их предварительная обработка 71

2.2.3 Анализ распределения кратности k-меров 71

2.2.4 Методы сборки геномов 72

2.2.4.1 Получение первичных скаффолдов 72

2.2.4.2 Получение метасборки генома P. vanderplanki 73

2.2.4.3 Методы скаффолдинга 73

2.2.4.4 Оценка качества геномных сборок 74

2.2.4.5 Постобработка геномных сборок P. tonnoiri и P. cf. tamanigrum 75

2.2.5 Поиск и маркировка геномных повторов 76

2.2.6 Аннотация генома 76

2.2.7 Поиск ортологов и паралогов 78

2.2.8 Анализ изменения экспрессии генов 79

2.2.9 Поиск сайтов связывания фактора теплового шока 80

3. Результаты 81

3.1 Результаты выделения и секвенирования НК 81

3.2 Геномика комаров-звонцов Chironomidae 83

3.2.1 Оценка покрытия и размеров геномов 83

3.2.2 Сборка геномов 86

3.2.2.1 Промежуточные стадии 86

3.2.2.2 Характеристики финальных вариантов геномных сборок 91

3.2.3 Структурная и функциональная аннотация геномов 93

3.3 Анализ дифференциальной экспрессии генов под воздействием абиотических стрессов 100

3.3.1 Кластеризация образцов 100

3.3.2 Сравнительный анализ масштабов изменения экспрессии генов в ответ на абиотический стресс 105

3.3.3 Анализ пересечений групп дифференциально экспрессируемых генов 110

3.3.4 Сравнительно-функциональный анализ дифференциально экспрессируемых генов 114

3.3.5 Видоспецифичные гены как составляющая ответа на абиотический стресс 126

3.4 Гены белков теплового шока 130

3.4.1 Уточнение структур генов, кодирующих белки теплового шока Polypedilum vanderplanki 130

3.4.2 Гены малых белков теплового шока 132

3.4.3 Гены, кодирующие HSP70 136

3.4.4 Гены, кодирующие шаперонины 139

3.4.5 Гены, кодирующие HSP90 140

3.4.6 Регуляция экспрессии генов БТШ 142

4. Обсуждение 144

Выводы 153

Список использованных источников 154

Базовая характеристика белков теплового шока

С самого зарождения клеточных форм жизни, всё живое в мире находится в постоянном взаимодействии с изменяющимися условиями среды. Способность организма успешно адаптироваться к неблагоприятным факторам его экологической ниши имеет решающее значение для выживания вида и, вероятно, представляет собой неотъемлемую движущую силу эволюции. Молекулярные шапероны, к которым относятся белки теплового шока (БТШ), – весьма многочисленная и разнообразная группа белков, большинство функций которых у прокариот и эукариот направлено на реализацию универсальных защитных механизмов поддержания функционирования и гомеостаза клеток. БТШ присутствуют почти во всех живых организмах и почти во всех внутриклеточных компонентах, а по своим аминокислотным последовательностям являются высоко консервативными полипептидами, хотя и различаются количеством копий между разными видами. Это позволяет использовать БТШ в качестве хорошей модели изучения эволюционной истории и сравнения реакции на абиотический стресс у близкородственных видов (Kozlova et al., 2016).

Так, изучение роли БТШ в долгосрочных адаптациях к изменениям окружающей среды у беспозвоночных давно является активно развивающимся направлением исследований, и вовлеченность белков этого класса в различные гипометаболические процессы (например, диапаузу) уже была экспериментально подтверждена на ряде видов насекомых (King, MacRae, 2015). Показательно, что сама история исследования БТШ началась с модельного организма Drosophila melanogaster, когда после воздействия высоких температур на его хромосомах были обнаружены вздутия. Впоследствии в этих участках хромосом была выявлена деспирализация, ассоциированная с повышением уровня экспрессии генов, кодирующих особые белки, названные белками теплового шока. И, хотя позже было установлено, что синтез таких белков индуцируется далеко не только при повышении температуры, но и при широком спектре абиотических воздействий (например, добавлении к клеткам ионов тяжёлых металлов, органических растворителей, сильных оксидантов), название этого семейства белков сохранилось (Myers et al., 2000).

Поскольку было экспериментально показано, что при тепловом стрессе в клетке запускается синтез белков, делящихся, в зависимости от своей молекулярной массы, на несколько дискретных фракций, консервативных у разных организмов, для классификации белков класса БТШ на семейства была предложена естественная номенклатура, основанная на молекулярной массе (Feder, Hofmann, 1999). Несмотря на то, что в качестве разброса значений молекулярных масс БТШ фигурирует широкий диапазон от 8 до 150 кДа (Ghosh et al., 2018), общепринятая классификация БТШ включает всего семь семейств, белки в которых объединяет не только сходная молекулярная масса, но и определённые структурно-функциональные особенности. Итак, согласно общепринятой классификации, БТШ делятся на малые (низкомолекулярные sHSP, от «small HSP») с молекулярной массой до 30 и даже до 43 кДа (Панасенко с соавт., 2003), БТШ40, БТШ60, также называемые шаперонинами, БТШ70 (68-78 кДа), БТШ90 (82-96 кДа), БТШ100 и БТШ110 – высокомолекулярные белки с большой вариабельностью молекулярных масс (Schlesinger, 1990; Kampinga et al., 2009). Высокомолекулярные БТШ высокой консервативности (БТШ60, БТШ70, БТШ90 и БТШ100) также называют АТФ-зависимыми, а малые – АТФ-независимыми (Nesmelov et al., 2018).

В зависимости от степени своей вовлеченности в процессы стресс-ответа, БТШ также делятся на конститутивные и индуцируемые. Синтез конститутивных белков происходит в клетке постоянно и практически не увеличивается при стрессовом воздействии, в то время индуцируемые белки в норме почти не синтезируются, и уровень их экспрессии начинает увеличиваться только после того, как клетка претерпевает биотический или абиотический стресс – воспалительный, токсический, температурный или оксидантный. В англоязычной литературе конститутивные БТШ также принято называть когнатами (HSC, от «heat-shock cognate»).

Регуляция транскрипции генов, кодирующих БТШ, осуществляется посредством транскрипционного фактора HSF (Morimoto, 1993). Этот активатор специфически связывается с консенсусной высоко консервативной последовательностью ДНК, представляющей собой тандемный массив из трёх противоположно ориентированных мотивов AGAAN или его вариации (Guertin, Lis, 2010). В клетке, не подверженной воздействию стресс факторов, HSF ингибируются за счёт связи с белками теплового шока, однако при стрессовом воздействии последние начинают активно связываться со своими субстратами и таким образом высвобождают HSF. Будучи мономерами при нормальных условиях существования клетки, высвобожденные транскрипционные факторы формируют тримеры, переносятся в ядро и активируют транскрипцию генов, перед которыми располагаются соответствующие сайты связывания (Prahlad, Morimoto, 2008).

Несмотря на то, что традиционно в роли этих генов выступают гены БТШ, недавно было показано, что в геноме ангидробионта Polypedilum vanderplanki мотив TCTAGAA, аналогичный мотиву связывания HSF у Drosophila melanogaster, значительно обогащён в промоторных участках не только БТШ-кодирующих генов, но также многих генов, специфически связанных с процессом ангидробиоза, – таких, как гены, кодирующие LEA-белки, тиоредоксины и гены метаболизма трегалозы. В геноме близкородственного, но чувствительного к обезвоживанию вида Polypedilum nubifer такого обогащения не наблюдалось (Mazin et al., 2018) (впрочем, как и специфического расширения состава генов, ассоциированных с ангидробиозом (Gusev et al., 2014)). Более того, два сайта TCTAGAA было найдено и перед самим геном, кодирующим HSF, что, вероятно, отражает необходимость более сильной активации транскрипционного фактора при обезвоживании, по сравнению с Polypedilum nubifer (Mazin et al., 2018). В тех организмах, в которых было найдено несколько копий HSF, также была выявлена и их значительная специализация. Так, среди четырёх HSF в геномах позвоночных белки HSF1 и HSF3 функционируют как активаторы стрессового ответа (Tanabe et al., 1998), в то время как HSF2 активируется во время эмбрионального развития и дифференцировки (Schuetz et al., 1991; Sistonen et al., 1992). Наблюдается и тканеспецифичность: было показано, что белок человека HSF4 в большей степени экспрессируется в сердце, головном мозге, скелетных мышцах и поджелудочной железе (Nakai et al., 1997).

Белки теплового шока (также их называют стресс-белками) функционируют как внутриклеточные шапероны, принимающие участие в созревании и правильном фолдинге большей части протеома. Фактически, они играют особо важную роль при формировании трёхмерной структуры транслированной полипептидной цепи для достижения ею функциональной конформации. Распознавая не-нативную конформацию полипептида, БТШ связываются с его гидрофобными остатками, оказавшимися на поверхности в ходе денатурации, вызванной стрессом, и, препятствуя агрегации неправильно свёрнутых полипептидов друг с другом, создают благоприятные условия для рефолдинга (Hartl et al., 2011). Кроме фолдинга полипептидов и сборки олигомерных белковых комплексов, БТШ принимают участие с убиквитин-опосредованной протеасомальной деградации аномальных белков нестабильной конформации, которые могут быть токсичными для клетки (Маргулис, Гужова, 2009), и опосредуют транслокацию белка через мембраны органелл (Rao et al., 2018).

Вышеуказанные механизмы функционирования БТШ не равномерно распределены между различными семействами данного класса: так, можно проследить некоторую специфичность действия белков в зависимости от их молекулярной массы и АТФ-зависимости, и, тем самым, классификация БТШ на «большие» и «малые» будет иметь не только формальный, но и функционально-обоснованный характер. Итак, высокомолекулярные АТФ-20 зависимые БТШ функционируют в комплексе с другими белками и способствуют правильному сворачиванию вновь синтезированных белков, как и рефолдингу денатурированных, и, в этом смысле, их можно охарактеризовать как «фолдазы» (Richter et al., 2010). Ещё один интересный механизм действия АТФ-зависимых БТШ заключается в неразрушающем разложении белковых агрегатов, в котором задействованы БТШ сразу трёх семейств – БТШ100, БТШ70 и БТШ40, и такие комплексы можно назвать «дезагрегазными» (Barends et al., 2010). Специфической функцией высокомолекулярных БТШ также является деградация белка (Arndt et al., 2007).

В отличие от АТФ-зависимых БТШ, представители низкомолекулярного семейства образуют олигомерные комплексы, которые связывают и инактивируют неправильно собранные белки, препятствуя их агрегации и функционируя как «холдазы». Таким образом, действуя совместно с высокомолекулярными белками, АТФ-независимые БТШ обеспечивают им успешный рефолдинг неправильно свёрнутых белков. Как правило, «холдазы» имеют тенденцию экспрессироваться только под воздействием стрессовых факторов, в то время как такие «фолдазы», как БТШ70 и БТШ90, представлены в протеоме как индуцируемой, так и конститутивной формами (Richter et al., 2010). Многообразие функций БТШ подчёркивает тот факт, что один и тот же белок может иметь разный механизм действия в контрольных и стрессовых условиях: например, в условиях повышенной температуры кофактор «фолдазы» E. coli DnaK – фактор обмена нуклеотидов GrpE (малый белок теплового шока) – изменяет механизм её действия на «холдазу» (Groemping, Reinstein, 2001).

Полногеномное секвенирование ДНК и РНК в изучении немодельных организмов

Высокопроизводительное секвенирование, которое до сих пор называют «секвенированием нового поколения» (несмотря на появление ещё более нового поколения технологий), занимает важное место в широком спектре биологических исследований, особенно в области эволюционной биологии. Со времён сборки первой полногеномной последовательности с использованием капиллярного секвенирования по Сэнгеру в 1977 году (Sanger et al., 1977), технология секвенирования претерпела глобальные технологические усовершенствования и обзавелась множеством методов – как получения данных, так и их обработки. Большинство таких усовершенствований было направлено на увеличение производительности секвенирования, улучшение качества и рост длины чтений, а также сокращение стоимости и длительности процесса секвенирования с тем, чтобы для решения практически любой биологической задачи можно было бы обеспечить достаточный объём данных (da Fonseca et al., 2016).

В истории эволюционной биологии традиционно доминировали модельные виды – такие, как млекопитающие и дрозофилы, для которых с течением времени большими консорциумами учёных были получены полностью секвенированные и хорошо аннотированные геномы. Сравнительно недавнее появление высокопроизводительного секвенирования открывает неограниченные возможности для использования геномных подходов в изучении немодельных организмов, благодаря чему можно обобщать полученные ранее знания на более широкий круг видов и решать многочисленные исследовательские задачи в областях, связанных с эволюционной биологией, например, в филогеномике и геномике популяций (da Fonseca et al., 2016).

Вместе со всеми преимуществами и широчайшими возможностями, которые предлагает биологии эра высокопроизводительного секвенирования, она предъявляет исследователям и довольно строгие требования к исходным материалам для секвенирования, поскольку тип, качество и количество образцов, используемых в геномных проектах, оказывают большое влияние на конечные результаты, и это касается не только количества и качества чтений, но и, в конечном итоге, достоверности сделанных выводов. Большинство высокопроизводительных подходов основано на использовании образцов с высокомолекулярной ДНК или РНК, а это возможно только в том случае, если для изоляции нуклеиновых кислот использовались свежие или тщательно сохранённые биологические материалы. Для некоторых видов (млекопитающих, птиц, рыб) хорошим источником ДНК может стать кровь или мышечная ткань, в то время как если необходимо секвенировать животное малого размера (скажем, небольшое беспозвоночное), потребуется вся особь (или даже пул особей) для того, чтобы получить достаточное количество генетического материала для последующего анализа. Идеальная методика сбора полевых образцов подразумевает их немедленную фиксацию либо в жидком азоте, либо при пониженной температуре с использованием морозильника или сухого льда, либо в химическом консерванте – растворе типа RNAlater, который быстро пропитывает ткани и защищает клеточные нуклеиновые кислоты в незамороженных биоматериалах от деградации.

Образцы тканей, хранящиеся в этаноле, засушенные образцы, образцы, полученные из чучел или хранящиеся в замороженном виде в банках тканей, могут использоваться в качестве альтернативы свежесобранным образцам, однако ДНК, выделенная из такого биоматериала, обычно имеет менее удовлетворительное качество (пониженные концентрацию и молекулярный вес), а также повышенную долю внешних контаминаций. Существенным для получения высокомолекулярной ДНК является также способ выделения нуклеиновых кислот, который должен соответствовать типу ткани и технологии её сохранения (Campos et al., 2009).

В настоящее время рекордные результаты по производительности демонстрируют решения компании Illumina, что, в сочетании с доступным программным обеспечением, делает секвенирование на этой платформе предпочтительным для большинства геномных проектов. Тем не менее, эволюция технологий секвенирования стремительно движется в сторону получения длинных чтений с одной молекулы нуклеиновых кислот – к таким технологиям «секвенирования третьего поколения» относятся Pacific Biosciences (Eid et al., 2009) и Oxford Nanopore (Cherf et al., 2012). Тем не менее, высокий уровень ошибок и пока ещё низкая доступность программного обеспечения для обработки данных секвенирования единичной молекулы не позволяют таким технологиям выбиться в лидеры, хотя, возможно, будущее за комбинацией технологий секвенирования коротких и длинных чтений, а не за доминированием какой-либо из них (Madoui et al., 2015).

Большинство научных проектов по секвенированию немодельных организмов начинается со сборки их геномов (для видов, которые ранее не были секвенированы, это, как правило, сборка de-novo, то есть получение нуклеотидных последовательностей в отсутствие какого бы то ни было референса). Данный процесс заключается в объединении чтений в более протяжённые последовательности с использованием определённых математических алгоритмов, например, основанных на графах де Брюйна (Compeau et al., 2011). Парные чтения для сборки генома de-novo гораздо предпочтительней одноконцевых, поскольку они дают возможность получать информацию о фрагментах ДНК, находящихся на хромосоме на значительном удалении друг от друга (Collins, Weissman, 1984). Таким образом, для высококачественной сборки генома желательны парноконцевые чтения с различными длинами вставки (например, 170 п.о., 500 п.о. и 800 п.о.), а также парноконцевые чтения с длинной вставкой, полученные по технологии mate-paired, благодаря которой можно получать пары геномных последовательностей, располагающихся друг от друга на расстоянии 2, 5, 10 килобаз (тысяч п.о.) и даже больше (Gnerre et al., 2011; Geng et al., 2012).

Наличие длинных чтений «третьего поколения» предоставляет ещё больше возможностей по сборке генома de-novo, при этом важно максимально продуктивно использовать такие данные. В случае чтений, полученных на платформе Pacific Biosciences (PacBio), всё многообразие способов применения длинных чтений для de-novo сборок и улучшения существующих сборок геномов сводится к трём базовым концепциям:

1) Сборка генома de-novo исключительно с использованием чтений PacBio. Наиболее успешно реализующим эту концепцию считается семейство программ HGAP (Chin et al., 2013);

2) Гибридная сборка de-novo, в рамках которой на разных этапах сборки короткие и длинные чтения используются совместно. Этот подход может быть реализован как в качестве дополнительного модуля к уже существующим приложениям (например, Spades (Bankevich et al., 2012)) или же представлять особый программный продукт (например, DBG2OLC (Chengxi et al., 2016));

3) Скаффолдинг (объединение последовательностей в более крупные) и закрытие гэпов (замена неизвестных нуклеотидов известными) в контигах (скаффолдах), полученных на основе коротких чтений, с помощью чтений платформы PacBio. Пример – программный конвейер PBJelly (English et al., 2012).

Название программы-сборщика DBG2OLC (подобные продукты также называют ассемблерами) отражает два базовых подхода к процессу геномной сборки в целом: это построение графов де Брюйна (de Bruijn graph, DBG) и консенсус по перекрытию (overlap layout consensus, OLC). При этом первый подход более эффективен для работы с большим количеством коротких прочтений, а второй – с более ограниченным объёмом длинных прочтений.

Таким образом, ассемблер DBG2OLC состоит из двух основных модулей, в рамках первого из которых прочтения Illumina используются для генерации коротких, но высокоточных контигов с помощью построения и обхода графа де Брюйна, а затем сгенерированные контиги используются для построения графа перекрытий, при этом среди длинных чтений PacBio используются только те, которые не содержатся внутри контигов, построенных при помощи графа де Брюйна (Chengxi et al., 2016).

Основные причины фрагментации геномной сборки (например, выраженной в большом количестве коротких неупорядоченных и несвязанных геномных последовательностей) – это такие особенности эукариотических геномов, как повторяющиеся теломерные и центромерные участки, сегментные дупликации, плоидность и GC-состав, к которому могут быть чувствительны протоколы секвенирования. Особенно большие трудности для сборки представляют полиплоидные организмы или виды с недавней полногеномной дупликацией. Нельзя недооценивать степень влияния качества сборки генома на результаты последующего анализа, например, на функциональную аннотацию генов, что было показано на примере вида Bos taurus (Florea et al., 2011). Однако, в зависимости от целей исследования, возможно достичь хороших результатов даже на высоко фрагментированной, но достаточно полной геномной сборке.

Структурная и функциональная аннотация геномов

В таблице 12 представлена общая статистика предсказанных структурных элементов в скаффолдах четырёх видах комаров-звонцов, а также общие характеристики их функциональной аннотации. Можно предположить, что вариабельность размеров геномов достигается за счёт изменения процентного содержания диспергированных повторов, а также удлинения и укорачивания интронов. Дупликация кодирующих последовательностей, скорее всего, имеет меньшее значение, поскольку максимальное и минимальное число белок-кодирующих генов принадлежит видам, размеры геномов которых отличаются незначительно.

Геном японского вида P. cf. tamanigrum имеет наименьшую длину интронов и наименьшее процентное содержание повторов при наибольшем количестве предсказанных генов, то есть можно назвать его наиболее «компактным» из четырёх. Этот же вид обладает наиболее высоким GC-составом из четырёх. Подавляющее большинство транскриптов было функционально проаннотировано, что означает, что хотя бы в одной из баз данных, используемых Interproscan, для них были найдены записи.

Для того чтобы с уверенностью сравнивать особенности ответа на абиотические стрессы в разных видах, необходимо убедиться, что распределение GO-категорий в их наборах белковых последовательностей примерно одинаково. Распределение предсказанных белок-кодирующих последовательностей по GO-категориям представлено на рисунке 5 (А1, Б1). Для сравнения в каждом из трёх классов были выбраны GO-категории второго уровня, которые хотя бы для одного из организмов приписаны как минимум к 2% белков (в случае, если были найдены статистически значимые различия между представленностью категории в разных видах, брались и статистически значимо представленные категории на уровень ниже). Большинство категорий оказалось приписано к статистически одинаковому проценту белков: лишь категории клеточных компонент, относящихся к внутриклеточным органеллам («cell part», «intracellular part», «intracellular», «organelle», «intracellular organelle», «membrane-bounded organelle») и три категории биологических процессов («cellular process», «multicellular organismal process», «system process») оказались представлены статистически значимо по-разному на уровне значимости p 0.001. Для большинства из этих категорий наибольший процент белков принадлежит «O. acuticauda» (звёздочки красного цвета). Не было выявлено статистически значимых различий в представленности между видами GO-категорий, относящихся к классу молекулярных функций. Уровни статистической значимости GO-категорий, представленность которых достоверно различается хотя бы у одной пары видов, визуализированы на рисунке 5 А2, Б2.

В результате поиска ортологичных/паралогичных групп белков 189 509 белков (86.4% от суммарного количества в наборе белков 11 видов) было кластеризовано в 14 905 ортогрупп, из которых 310 групп, содержащих 1317 белков, оказались видоспецифичными. 5126 ортогрупп, в которых присутствовали белки всех 11 видов, были использованы для построения дерева видов (рисунок 6). Очевидно, что полученное дерево полностью отражает реальную филогению рассматриваемых насекомых, поскольку Paraborniella, Robackia и Polypedilum – рода подсемейства Chironominae, трибы Chironomini, а Clunio marinus и «O. acuticauda» - представители подсемейства Orthocladiinae. Culex pipiens и Aedes aegypti принадлежат подсемейству Culicinae в семействе Culicidae, как и Anopheles gambiae (подсемейство Anophelinae). Семейства Culicidae и Chironomidae разделены, а виды Drosophila melanogaster и Musca domestica представляют собой аутгруппу, что естественно, поскольку таксон наименьшего ранга, общий для них и остальных видов, - это подотряд.

Однако если брать в рассмотрение все ортогруппы, удалив их них те, в которых количество белков абсолютно одинаково в наборах аминокислотных последовательностей всех видов (таких групп порядка 500), можно построить тепловую карту с кластеризацией видов, выстраивающей их взаимное расположение исходя из копийности генов, а не выравнивания аминокислотных последовательностей. Полученный результат не соответствует приведённому выше и, скорее, отражает особенности экологии Chironomidae, нежели их филогенетическое родство (рисунок 7). Интересно, что виды, которые в природе сталкиваются с наиболее экстремальными условиями, кластеризованы отдельно от всех остальных, что может указывать на наличие у них новых генов (или новых копий генов), появившихся в ходе эволюции независимо друг от друга, но как-то задействованных в адаптации.

В качестве примера приведём ортогруппу, содержащую белки с анкириновыми повторами. Данная ортогруппа отличается удивительно мощным расширением генов в геномах P. vanderplanki (58 копий), P. tonnoiri (46 копий) и особенно в геноме P. cf. tamanigrum (100 копий), в то время как в геномах остальных видов этого семейства количество ортологичных генов гораздо меньше (даже в геноме Robackia demeijeri – вида, принадлежащего тому же подсемейству, - выявлено только 3 ортолога). Вид Clunio marinus представлен в группе всего одним геном, кодирующим ионный канал NOMPC, играющий важную роль в механорецепции. Схематичная кладограмма ортогруппы представлена на рисунке 8

Гены малых белков теплового шока

Согласно предсказанию функций Interproscan, в геномах рассматриваемых представителей семейства Chironomidae было выявлено следующее количество генов, кодирующих малые белки теплового шока БТШ20: 13 генов – в геномах «O. acuticauda» и P. tonnoiri, 15 генов – в геноме P. vanderplanki и наименьшее количество генов, 10 – в геноме P. cf. tamanigrum.

После проведения множественного выравнивания белковых последовательностей и, независимо, согласно анализу программой OrthoMCL, они были кластеризованы в 8 групп, и соответствующая кладограмма представлена на рисунке 22 А. Среди выявленных генов, кодирующих БТШ20, далеко не все отличались увеличением экспрессии, и особенно примечателен в этом отношении вид P. cf. tamanigrum, ни у одного из генов которого не было отмечено повышения экспрессии ни при тепловом шоке, ни при экспозиции в пресной воде. Более того, экспрессия одного из генов (Ptamg4928) даже уменьшалась при тепловом шоке (logFC=-1.96).

Среди остальных видов наиболее заметный ответ на абиотический стресс демонстрировали гены БТШ20 «O. acuticauda» и P. vanderplanki (по 7 генов с увеличением экспрессии более чем в 2 раза), в то время как только 4 гена P. tonnoiri демонстрировали подобное увеличение экспрессии.

Среди всех генов, кодирующих БТШ20, можно выделить кластер «универсального» ответа (на рисунке 22 А обозначен красным; степени увеличения экспрессии приведены на рисунке 22 Б3), поскольку абсолютно для всех генов, входящих в него (кроме генов японского вида), обнаружено резкое повышение экспрессии в ответ на тот или иной абиотический стресс. Именно к этому кластеру относится уникальный ген Pvg17503, продукт которого представляет собой нетипично протяжённую аминокислотную последовательность с предсказанной молекулярной массой 82 кДа, которая, тем не менее, имеет характерный для БТШ20 альфа-кристаллиновый домен на C-конце и полностью содержит в себе последовательность аминокислот БТШ20 из того же кластера. Кроме того, этот ген вообще является одним из самых экспрессируемых среди транскриптома P. vanderplanki (как в контрольных условиях, так и при обезвоживании), поскольку показатель CPM для него достигает 75000 в образце D48.

Единственный ген БТШ P. cf. tamanigrum, демонстрирующий статистически значимое изменение экспрессии (уменьшение), также принадлежит к этому кластеру.

Помимо «универсального» кластера, можно выделить кластеры, отличающиеся увеличением числа копий в определённых видах, и именно эти, потенциально видоспецифичные гены, демонстрируют резкое увеличение экспрессии в ответ на стресс. Так, в группе, выделенной зелёным, два вида Polypedilum представлены одной копией белков, и соответствующий ген P. vanderplanki, хоть и увеличивает экспрессию в образцах D48 и R24 (logFC=1.6 и 1.21, соответственно), но такую степень увеличения можно назвать относительно средней, поскольку гены двух других видов, представленные в двух экземплярах, имеют показатели logFC от 2.6 до 8.7 (рисунок 22 Б1).

То же можно сказать и о кластере, выделенном синим, в котором каждый из видов представлен двумя копиями белков, в то время как геном P. vanderplanki дополнительно имеет 3 ортологичных гена, экспрессия которых увеличивается с показателем logFC до 5.7 при 48-ми часовом обезвоживании (рисунок 22 Б2). Экспрессия генов «O. acuticauda» также возрастает на раннем этапе восстановления после теплового шока, а гены P. tonnoiri просто демонстрируют относительно высокую, стабильную экспрессию.

Таким образом, можно заключить, что увеличение экспрессии генов, кодирующих малые белки теплового шока, являются важным аспектом адаптации комаров-звонцов к экстремальным условиям.

Помимо увеличения экспрессии, консервативной характеристикой генов, кодирующих низкомолекулярные БТШ, является компактность расположения в геноме, то есть, в зависимости от степени целостности сборок, для каждого вида можно выделить от одного до трёх кластеров, состоящих из 2-4 генов, локализованных на очень коротком участке генома.

Например, для генов «красного» кластера можно утверждать, что три гена P. vanderplanki, 2 гена P. cf. tamanigrum и «O. acuticauda» расположены друг за другом на расстоянии менее 5 тысяч п. о. (для двух последних видов) и на расстоянии менее 10 тысяч п. о. в геноме P. vanderplanki (ген с нестандартно большим белковым продуктом расположен между консервативными генами). Для двух видов Polypedilum совпадает также окружение генов, что значит, что они находятся в одном синтенном сегменте. Гены P. tonnoiri расположены в разных скаффолдах по краям, так что, вполне возможно, в истинной геномной последовательности они также находятся рядом. На геномном интервале в 7 тысяч п. о. находятся компактные кластеры из 4 генов «O. acuticauda» (g2960-g2963) и P. vanderplanki (g1046-1049), при этом в обоих видах первая пара генов принадлежит к кластеру 8, а второй и третий – к кластерам 5 и 3, соответственно (у другого вида Polypedilum гены из кластеров 5 и 3 (g4321-g4322) также идут следом друг за другом). Соблюдается последовательность кластеров 8-5-3 и для трёх генов P. tonnoiri (g4573-g4575). Наконец, удвоенные копии генов также расположены в геноме последовательно (гены P. vanderplanki g11124-g11125 из «синего» кластера и гены «O. acuticauda» g5272 и g5275 из «зелёного»).

Всё это прямо указывает на возможность совместной регуляции их экспрессии.