Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Транскриптом и протеом хромосомы 18: экстраполяция результатов анализа на геномы человека и модельных объектов Пономаренко Елена Александровна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Пономаренко Елена Александровна. Транскриптом и протеом хромосомы 18: экстраполяция результатов анализа на геномы человека и модельных объектов: диссертация ... доктора Биологических наук: 03.01.09 / Пономаренко Елена Александровна;[Место защиты: ФГБНУ Научно-исследовательский институт биомедицинской химии имени В.Н. Ореховича], 2017.- 270 с.

Содержание к диссертации

Введение

ГЛАВА 1. Обзор литературы 11

1.1. Молекулярный образ человека: от генома к протеому 11

1.1.1. Проект «Протеом человека» 16

1.1.2. «Белые пятна» генома и протеома 19

1.1.3. Необнаруженные («missing») белки: функция качества протеомных данных 24

1.1.4. Многообразие протеоформ: протеомный айсберг 33

1.1.5. Протеоформы в контексте молекулярной эволюции

1.2. Информационные ресурсы и геноцентричная интеграция данных 52

1.3. Панорамный и направленный анализ транскриптома и протеома 1.3.1. Панорамный анализ 68

1.3.2. Направленный анализ 71

1.3.3. Взаимосвязь между транскриптомом и протеомом 75

1.4. Постгеномные технологии: сохранение здоровья человека 80

глава 2. Исходные данные и методы обработки 92

2.1. Исследуемые объекты и их характеристики 92

2.2. Источники данных и поисковые запросы 99

2.3. Сопоставление информационных профилей хромосом человека 101

2.4. Дизайн хромосомоцентричного исследования 104

2.5. Анализ транскриптомных и протеомных данных 105

2.5. Оценка количества протеоформ человека и модельных объектов 109

ГЛАВА 3. Результаты и обсуждение 115

3.1. Сравнительный анализ хромосом человека 115

3.1.1. Хромосомоцентричный анализ вариабельности белков 116

3.1.2. Постгеномные аннотации: динамика накопления в NeXtProt и UniProt 120

3.1.3. Мета-анализ данных о транскриптоме и протеоме 126

3.1.4. Анализ текстов публикаций: индекс изученности генов 130

3.1.5. Хромосомоцентричный и полногеномный информационные профили 136

3.2. Транскрипты и белки хромосомы 18 человека 146

3.2.1. Транскриптомный анализ клеток линии HepG2 и ткани печени человека 146

3.2.2. Протеомный анализ клеток линии HepG2, ткани печени и плазмы крови 153

3.2.3. Сопоставление транскриптома и протеома для хромосомы 18 160

3.2.4. Необнаруженные белки хромосомы 18 человека 172

3.3. Протеоформы человека 177

3.3.1. Индивидуальный и популяционный протеомы 178

3.3.2. Влияние количества образцов и типа биоматериала 186

3.4. Многообразие протеоформ бактерий, растений и животных 197

3.4.1. Степень изученности геномов модельных объектов 198

3.4.2. Протеоформы организмов различных царств 208

Заключение 218

Выводы 223

Список сокращений и условных обозначений 225

Список используемой литературы 227

Список работ 258

Введение к работе

Актуальность проблемы. Выполнение проекта «Геном человека» способствовало развитию методических подходов к исследованию человеческого генома и позволило лучше понять эволюционные отношения между человеком и другими видами. В ходе секвенирования генома (International Human Genome Sequencing Consortium, 2004) были идентифицированы тысячи нуклеотидных последовательностей белок-кодирующих генов. Проект «Геном человека» позволил систематизировать знания о структуре генома, в то время как состав протеома человека до сих пор остается неизвестным (Legrain et al., 2011). Открытым остается вопрос, какое количество генов действительно реализует свою информацию в виде белкового продукта в конкретной клетке, ткани, органе, в организме человека и даже в масштабе всей популяции.

Если предположить, что каждый ген кодирует минимум один белок, то протеом человека должен содержать по крайней мере 20 тыс. немодифицированных (канонических) белков, согласно количеству белок-кодирующих генов в геноме. Количество различных видов белков (далее протеоформ, Smith et al., 2013) является следствием альтернативного сплайсинга, реализации в виде одноаминокислотных полиморфизмов единичных нуклеотидных замен в геноме и посттрансляционных модификаций (Roth et al., 2005). За счет комбинации этих и других типов молекулярных событий количество протеоформ существенно превышает число генов в геноме. По некоторым данным, однонуклеотидные замены и альтернативный сплайсинг приводят к образованию до нескольких сотен тысяч различных транскриптов (Altme et al., 2014). Наличие посттрансляционных модификаций на протеомном уровне еще больше увеличивает разнообразие белков. Для сравнения, метаболом человека (совокупность низкомолекулярных соединений) состоит всего из нескольких тысяч метаболитов (Botros et al., 2008).

Тематика исследования протеома человека признана актуальной на международном уровне. В 2010 году был начат крупнейший проект «Протеом человека», в котором Россия принимает активное участие. Целью проекта является исследование продуктов экспрессии генов – транскриптов и белков – в хромосомоцентричном формате. Российская часть проекта заключается в исследовании транскриптов и белков, кодируемых хромосомой 18 человека.

В отличие от генома состав протеома не постоянен во времени, меняется в зависимости от внешних факторов и отличается в различных типах биологического материала. Изменения затрагивают как разницу в типах протеоформ, так и концентрацию каждой формы (Kopylov et al., 2016). Многообразие протеоформ может быть обозначено как ширина протеома, а количественное содержание каждой протеоформы в образце – как его глубина (Ponomarenko et al., 2016).

В 2014 году были опубликованы работы с результатами предварительного анализа полного протеома человека (Wilhelm et al., 2014; Kim et al., 2014). В этих работах протеом представлен в форме каталога – перечня детектированных белков без указания количественного содержания в биоматериале. Отсутствие информации о количестве белков и их концентрации в образце затрудняет интерпретацию протеомных данных и препятствует использованию этих данных в области постгеномной медицины.

Исследователи возлагали на протеомику большие надежды в области использования результатов для диагностики (Ozdemir et al., 2017) и поиска специфичных для заболеваний биологических маркеров – белков. Однако за 15 лет развития постгеномных методов практических результатов в области медицины и диагностики не так много (Veenstra, 2011). Сам подход поиска биологических маркеров заболеваний в протеомном поле служит предметом множества дискуссий (Kondo, 2014; Anderson, 2010). Несмотря на то что показана взаимосвязь между развитием заболеваний и генами (Hall et al., 2010), практическое применение полученных данных остается ограниченным ввиду отсутствия функциональной информации о кодируемых белках (Lek et al., 2016; Lewis et al., 2015). Возможно, ограничения протеомики с точки зрения диагностики заболеваний связаны с отсутствием универсального методического решения для измерения всего многообразия белков. В тоже время динамическая природа протеома и существование протеоформ открывают перспективу исследования протеома человека c учетом многообразия белков.

Цель работы. На примере белков, кодируемых хромосомой 18 человека, создать информационно-аналитическую модель протеома для оценки количества протеоформ с учетом взаимосвязей между геномным, транскриптомным и протеомным уровнями организации, текущего уровня развития аналитических методов и баз данных.

Задачи исследования:

  1. выбрать дескрипторы для описания хромосом человека, генома человека и геномов модельных организмов в виде информационных профилей;

  2. рассчитать информационные профили и провести сравнительный мета-анализ хромосом человека на основе сведений, предоставляемых молекулярно-биологическими интернет-ресурсами с учетом динамики их наполнения в период с 2011 года;

  3. на основе результатов транскриптомных и протеомных экспериментов, выполненных на образцах ткани печени человека и клеточной линии гепатоцитов HepG2, провести анализ корреляции между количественным содержанием транскриптов и белков в образце (оценка глубины протеома человека);

  4. предложить расчетные модели и оценить многообразие протеоформ, образующихся в результате альтернативного сплайсинга мРНК, реализации на протеомном уровне несинонимичных замен нуклеотидных остатков в геноме и/или вследствие посттрансляционных модификаций (оценка ширины протеома человека и модельных объектов);

  1. определить условия применимости предложенных расчетных моделей для оценки количества протеоформ путем сопоставления аннотаций генов человека и аннотаций наиболее популярных модельных объектов исследования – представителей разных царств живой природы;

  2. предложить количественный способ оценки результатов протеомного анализа и определить показатели чувствительности, специфичности и точности аналитических методов, применяемых для обнаружения (детекции), идентификации и количественного анализа белков в составе протеома человека.

Научная новизна. В данной работе впервые проведен сравнительный анализ хромосом человека на основе накопленных геномных аннотаций. Результаты позволили обосновать выбор хромосомы 18 для российской части международного проекта «Протеом человека» (Ponomarenko et al., 2012), как оптимальной по соотношению количества белок-кодирующих генов и их медицинской значимости. Впервые показано, что информационный профиль выборки случайным образом отобранных генов человека совпадает с полногеномным.

В хромосомоцентричном формате проведено сопоставление экспериментальных результатов направленного и панорамного транскриптомного и протеомного исследований биологических образцов и показано отсутствие количественной взаимосвязи между транскриптами и белками, кодируемыми генами одной хромосомы. Впервые предложен способ количественной оценки результатов протеомного анализа на основе показателей чувствительности, специфичности и точности (по аналогии с показателями диагностических тестов).

Для оценки многообразия протеоформ в составе протеома предложены методы
расчета, позволяющие предсказать количество видов белков (в конкретном образце
ткани, организме или в масштабе всей популяции) и возможность экспериментальной
детекции протеоформы c учетом ранее накопленных в молекулярно-биологических
интернет-ресурсах знаний. Проведенная работа позволяет по-новому взглянуть на
аналитическую биохимию, как на совокупность технологий обнаружения,

идентификации и количественного анализа белков с учетом многообразия их протеоформ.

Основные положения, выносимые на защиту:

1. Хромосомы человека тождественны по информационному профилю, за
исключением наиболее коротких хромосом – Y и митохондриальной. Информационный
профиль
выборки, содержащей двести и более случайным образом отобранных генов
человека, совпадает с полногеномным.

2. Результаты транскриптомного анализа могут применяться в качестве стандарта
для оценки чувствительности, специфичности и точности метода протеомного анализа.
Для этого в геноцентричном формате количество копий белков необходимо сопоставлять

с количеством копий транскриптов, измеренных в том же образце методами со сравнимой аналитической чувствительностью.

3. Для оценки количества протеоформ может быть использована информационная модель и соответствующая расчетная формула, согласно которой события альтернативного сплайсинга, возникновение одноаминокислотных полиморфизмов и посттрансляционных модификаций являются независимыми. Для оценки ширины популяционного протеома могут быть использованы частоты таких событий из протеомных баз данных, при оценке индивидуального протеома – из результатов транскриптомного анализа образца биоматериала конкретного индивидуума.

Научно-практическая значимость работы. Работа открывает новый этап использования протеомики и постгеномных технологий для молекулярного профилирования человека и поиска биологических маркеров. В перспективе для оценки адаптационного потенциала человека может применяться мониторинг стабильности во времени индивидуального набора протеоформ человека при заданном уровне глубины, доступном для анализа высокопроизводительными аналитическими методами. Прикладным аспектом оценки многообразия протеоформ является создание специализированных библиотек аминокислотных последовательностей, используемых при интерпретации масс-спектрометрических данных.

Результаты работы обеспечивают современную методологию обработки молекулярно-биологической информации, способы интеграции данных и проекции данных на персонализированный молекулярный профиль индивидуума. В работе продемонстрирована возможность перехода от популяционного уровня обобщения данных к спектру специфичных для конкретного организма молекулярных изменений первичной структуры белков. Практическое значение заключается в характеристике ширины и глубины протеомов человека и других организмов.

Личный вклад автора. Автором разработан дизайн хромосомоцентричного исследования транскриптома и протеома хромосомы 18 (в рамках международного проекта «Протеом человека»), обеспечено планирование экспериментальных работ и обработка полученных данных. Также автором предложена система описания набора генов с учетом текущего уровня знаний, отраженного в постгеномных информационных ресурсах. В геноцентричном режиме на основе сопоставления экспериментальных результатов и опубликованных данных формируется интегральная характеристика выборки генов – информационный профиль, совпадающий для случайным образом отобранной группы генов и полного генома человека. Для оценки количества протеоформ предложено три информационные модели, а также соответствующие моделям расчетные формулы, учитывающие частоты молекулярных событий, источник данных и тип биологического материала. На основе предложенных моделей автором проведена оценка

количества протеоформ, составляющих протеомы модельных объектов, хромосом человека, ткани печени и клеточной линии HepG2.

Апробация работы. Основные результаты работы доложены и обсуждены на ежегодных итоговых конференциях и конгрессах «Мир биотехнологий» (Москва, 2017), HUPO (Taipei, 2016), HUPO (Vancouver, 2015), EUPA (Milano, 2015), 7th AOHUPO Congress and 9th International Symposium of the Protein Society of Thailand (Bangkok, 2014), HUPO (Madrid, 2014) и др. Результаты работы доложены и обсуждены на заседании Бюро секции медико-биологических наук отделения медицинских наук Российской академии наук 20 декабря 2016 года.

Публикации. Материалы диссертационной работы отражены в 76 публикациях: в 34 статьях (в 13 российских и 21 международных научных журналах), 42 материалах российских и международных научных конференций. Индекс Хирша соискателя ученой степени составляет 10 по данным системы Scopus.

Объем и структура диссертации. Диссертационная работа изложена на 270 страницах машинописного текста, включая 18 таблиц, 29 рисунков. Состоит из введения, обзора литературы, описания исходных данных и методов обработки, результатов и обсуждения, заключения, выводов и списка литературы, включающего 345 источников.

«Белые пятна» генома и протеома

Окончание международного проекта «Геном человека» в 2001 году (Lander et al., 2001; Venter et al., 2001) стало переломным моментом в молекулярной биологии XXI века и послужило началом «омикс»-эры (Weinstein, 2001) - эры развития областей молекулярной биологии, использующих высокопроизводительные методы для исследований. Среди «омикс»-наук – геномика (оценка изменений в нуклеотидной последовательности ДНК), транскриптомика (оценка уровня экспрессии и количественного содержания РНК (мРНК)), протеомика (анализ состава и количественного содержания белков) и метаболомика (изучение процессов, происходящих с метаболитами). Дополнительно к этим «омикс»-наукам формируются и новые: липидомика, интерактомика, эпигеномика и другие.

Проект «Геном человека» способствовал развитию методических подходов к исследованию генетической информации и позволил понять эволюционные отношения между человеком и другими организмами. В ходе секвенирования генома (International Human Genome Sequencing Consortium, 2004) были идентифицированы тысячи нуклеотидных последовательностей белок-кодирующих генов. Проект «Геном человека» предоставил знания о структуре генома человека, в то время как состав протеома человека до сих пор остается неизвестным (Legrain et al., 2011).

Если каждый ген кодирует один белок, то протеом человека должен содержать по крайней мере 20 тыс. немодифицированных (канонических) белков, согласно количеству белок-кодирующих генов в геноме. Однако, такого не наблюдалось ни в одном протеомном эксперименте. Количество форм белков (далее – «протеоформ» (Smith et al., 2013) значительно превышает количество белок-кодирующих генов в геноме, поскольку один ген может кодировать различные белки (Altme et al., 2014).

Часть белков различны из-за процесса альтернативного сплайсинга транскриптов, единичные нуклеотидные замены в геноме реализуются на протеомном уровне в виде одноаминокислотных полиморфизмов. Многообразие белков увеличивается также вследствие наличия посттрансляционных модификаций (Roth et al., 2005). Это основные молекулярные события, увеличивающие количество протеоформ, общее количество которых до сих пор не определено.

По некоторым данным, на транскриптомном уровне, вследствие наличия однонуклеотидных замен в геноме и процессов альтернативного сплайсинга, может образовываться до нескольких сотен тысяч транскриптов (Altme et al., 2014). Для сравнения, метаболом человека (совокупность низкомолекулярных соединений, масса которых менее 1 kDa, (Samuelsson, Larsson, 2008)) состоит всего из нескольких тысяч метаболитов (Botros et al., 2008).

При экспериментальной оценке белкового состава протеома возникают фундаментальные препятствия. Аналитическая чувствительность протеомных технологий не позволяет обнаруживать редкие протеоформы, количество копий молекул которых в образце недостаточно для достоверного детектирования. Это ограничение является следствием фундаментальных различий между геномикой и протеомикой (Archakov et al., 2012): методы исследования генома базируются на полимеразной цепной реакции, ПЦР (Saiki et al., 1988), предназначенной для амплификации молекул ДНК или РНК в биологическом образце до достаточных для детекции концентраций. В области протеомики не существует аналогичной технологии для обнаружения белков, присутствующих в образце в количестве нескольких копий молекул (Archakov et al., 2012).

В отличие от генома, протеом является контекстно-зависимым (Archakov et al., 2012). Состав протеома не постоянен во времени и меняется в зависимости от внешних факторов и функции тканей. Из этого следует, что исследование протеома должно проводиться в двух направлениях. Одним направлением является определение количества различных типов протеоформ, вторым – измерение концентрации (количества копий) каждой протеоформы в биологическом материале (Ponomarenko et al., 2016). Представляя протеом человека как совокупность всех белков тканей и органов, можно рассматривать многообразие протеоформ как «ширину» протеома, а количественное содержание каждой протеоформы – как его «глубину». Таким образом, исследование протеома человека включает определение «ширины» и «глубины» для разных типов биологического материала. Совокупность «ширины» и «глубины» протеома составляет его размер (Ponomarenko et al., 2016).

В 2014 году были опубликованы работы с результатами предварительного анализа протеома человека (Wilhelm et al., 2014; Kim et al., 2014). Группа под руководством проф. А. Пандея (Kim et al., 2014) предложила черновой вариант протеомной карты человека, построенный на основе результатов исследования 30 нормальных образцов тканей здорового человека масс-спектрометрическим методом. Объединенные по всем образцам результаты анализа показали наличие белков для 17.3 тыс. белок-кодирующих генов, т. е. примерно для 84 % от общего количества белок-кодирующих генов в геноме человека. Проф. Кустер (Wilhelm et al., 2014) предложил использовать для создания «черновика» протеома человека биоинформатический подход. Под его руководством была создана база данных ProteomicsDB (Zolg et al., 2017), объединяющая результаты масс cпектрометрического протеомного анализа тканей человека, клеточных линий и биологических жидкостей. Несмотря на разницу подходов, в обеих указанных работах протеом человека представлен в форме каталога – перечня детектированных белков (идентификаторов) без указания количественного содержания в конкретном типе биологического материала. Это является не вполне корректным, принимая во внимание динамичную природу протеома (Chen et al., 2012).

Исследователи возлагают на протеомику большие надежды в области использования результатов для диагностики (Ozdemir et al., 2017) и поиска специфичных для заболевания биологических маркеров – белков. За 15 лет развития постгеномных методов практических результатов в области медицины и диагностики не так много (Veenstra, 2011). Сам подход поиска биологических маркеров заболеваний в протеомном поле служит предметом множества дискуссий (Kondo, 2014, Anderson, 2010). Несмотря на то, что показана взаимосвязь между развитием заболеваний и генами (Hall et al., 2010), ввиду отсутствия функциональной информации о кодируемых белках практическое применение получаемых данных о протеоме человека остается ограниченным (Lek et al., 2016; Lewis et al., 2015).

Взаимосвязь между транскриптомом и протеомом

Разработчики протеомной базы данных UniProt (Bairoch et al., 2004), представляющей пример интегрального ресурса в области протеомики, также задавались вопросом о многообразии протеоформ человека. Предложенная этим коллективом оценка базируется на накопленной в UniProt информации о количестве белок-кодирующих последовательностей, вариантах альтернативного сплайсинга, мутациях и модификациях белков. Показано, что на транскриптомном уровне наблюдается 2–5-кратное увеличение количества белок-кодирующих последовательностей вследствие наличия альтернативного сплайсинга. Принимая количество белок-кодирующих генов человека равным 20 тыс., следует ожидать экспрессии около 100 тыс. различных транскриптов (Pruitt et al., 2007). Наличие посттрансляционных модификаций увеличивает многообразие протеоформ в 50 или даже в 100 раз, поэтому суммарно в протеоме человека можно предполагать около 5 млн различных протеоформ. Предложенный вариант оценки учитывает изменения, возникающие на уровне процессирования РНК и в ходе трансляционной вариабельности (альтернативная иницииация, сдвиг рамки считывания при трансляции и др.), но не учитывает реализацию на протеомном уровне однонуклеотидных полиморфизмов (nsSNP). Реализованные в виде одноаминокислотных замен мутации, во многих случаях являются причиной изменения как функциональных, так и структурных свойств белков.

Помимо комбинаторной оценки вариантов белков требуется учитывать и конформационные ограничения для существования протеоформ. Далеко не все возможные варианты аминокислотных последовательностей реализуются в функциональные белки.

Встречающиеся в природе белки подразделяют на семейства на основе сходства их аминокислотных последовательностей (гомологии). Белки группируются в многомерном пространстве белковых последовательностей определенным образом, формируя кластеры последовательностей белков одного семейства (Nishikawa, 2002). В работе (Chothia, 1992) указано, что в общей сложности существует около 1000 белковых семейств, внутри которых различия в последовательностях минимальны. Белки одного семейства гомологичны друг другу и имеют общее эволюционное происхождение, т. е. имеют общего предка, формируя «остров» в многомерном пространстве последовательностей. Распределение белков на основе их физико-химических характеристик неравномерно и прерывисто, что нашло отражение в литературе как «островная модель» белковых конформаций.

Согласно «островной модели» (Nishikawa, 1993), гомологичные последовательности формируют «острова», а пространства между семействами условно сопоставлены «морю». «Острова» соответствуют семействам существующих в природе белков, характеризующихся определенной трехмерной структурой – фолдом. С другой стороны, аминокислотные последовательности находящихся в «море» белков обладают сочетанием физико-химических характеристик, препятствующих образованию трехмерной структуры (фолдингу) (Sali et al., 1994; Dill et al., 1995).

«Островная модель» связывает аминокислотную последовательность белка и его трехмерную структуру, а также объясняет и многие характеристики белков. Например, эволюционные изменения в белковых последовательностях, не изменяющие существенно трехмерную структуру, могут означать движения в пределах «острова». Кроме того, разделение «островов» морскими зонами ограничивает миграцию белков, переход от одного «острова» к другому. Встречающиеся в природе белки находятся в соответствующих «островах» на протяжении эволюции. Скорее всего, это справедливо и для протеоформ. Небольшие изменения аминокислотной последовательности протеоформ, кодируемых одним геном (следствие мутаций в геноме), могут быть образно сопоставлены с идиоадаптацией в эволюции, небольшими изменениями при сохранении общей структуры. В этом случае, все протеоформы достаточно гомологичны, и функционально возможные варианты протеоформ принадлежат одному «острову». Существенное изменение аминокислотного состава означает движение протеоформ между «островами», своего рода ароморфозам, позволяющим добиться усложнения, если изменения аминосилотной последовательности критически не отразятся на определенных физико-химических характеристиках белковой молекулы, способной к фолдингу.

Введение искусственных мутаций в природные белки зачастую показывает неспособность мутантных протеоформ к фолдингу – они тонут в «море», как нестабильные, нефункциональные молекулы (Kawabata et al., 1999). Это происходит за счет сходных механизмов с денатурацией белка под воздействием, например, высоких температур.

Занятая «морем» площадь, по оценкам превышает суммарную площадь «островов»: большинство искусственно созданных мутантных белков не способны к фолдингу, Isogai et al., 2000. Таким образом, для образования функционирующей белковой молекулы требуется определенное сочетание условий. Границы между «островами» и «морем» определяют аминокислотная последовательность (информационная составляющая) и внешние условия: например, в суровых условиях окружающей среды (термофильные бактерии) уровень «моря» поднимается, расширяясь за счет «островов». Информация представляет собой объективные и управляемые «условия системы» и контролирует состояние системы. Граничные условия определяют состояние системы извне, в то время как информационная составляющая системы определяет ее функционирование.

Интерактомные взаимодействия между белковыми молекулами, при которых функция белкового комплекса существенно отличается от функции входящих в его состав белковых молекул, также могут вносить существенный вклад в ходе эволюции. Это наблюдение характерно как для метаболических (Fell et al., 2000, Jeong et al., 2000), так и для сигнальных (Szathmry et al., 2001) путей. Иллюстрацией является сопоставление нематоды и человека, показывающее, как при скромном увеличении количества белок-кодирующих генов достигается существенное усложнение организма.

Сложность организма может быть сопоставлена с функциональными свойствами белков, выраженными через количество бинарных взаимодействий по данным интерактомной базы знаний STRINGdb (Jeanquartier et al., 2015). Было показано, что сложность не коррелирует ни с общим количеством описанных взаимодействий, ни со средним количеством белков-партнеров для одного белка (Schad et al., 2011).

После расшифровки генома человека в 2001 году высокоэффективные методы анализа генома, транскриптома и протеома привели к существенному увеличению количества общедоступных экспериментальных результатов. Это, в свою очередь, создавало предпосылки для создания гипотез и оценки потенциального многообразия белков в составе протеома. Подходы предсказания состава протеома основаны на оценке разнообразия аминокислотных последовательностей, возникающих в результате альтернативного сплайсинга и посттрансляционных модификаций. Дополнительно, комбинаторно полученные варианты предсказанных аминокислотных последовательностей могут быть ранжированы в соответствии с потенциальной стабильностью трехмерной структуры белка и сохранностью его функциональных свойств.

По мнению ряда исследователей, (Amos Bairoch, UniProt Consortium), за последние десятилетия области наук о жизни претерпели существенное изменение. Раньше было множество гипотез, умеренное количество знаний и совсем небольшое количество данных. Сейчас ситуация изменилась: у исследователей есть океан данных («ocean of data») и сравнительно небольшое количество гипотез. Скорее всего, количество знаний осталось все также умеренным. Несмотря на экспоненциальный прогресс высокопроизводительных «омикс»-технологий, на рубеже XX-XXI веков аналогичного роста знаний о живых системах не наблюдается. Во многом, данная работа посвящена глубокому исследованию этого феномена.

Анализ транскриптомных и протеомных данных

Для хранения, визуализации и обработки данных использовали систему менеджмента контента GenoCMS, разработанную совместно с базой знаний по хромосоме 18 человека kb18.ru (Poverennaya et al., 2014). Система GenoCMS позволяет визуализировать сведения о различных объектах и их характеристиках (дескрипторах) в виде таблицы или в форме тепловой карты (Paik et al., 2012), на которой цветом закодированы количественные характеристики объекта.

Мета-анализ постгеномных данных проводили для трех различных уровней организации молекулярной информации – на уровне геномов, отдельных хромосом и белок-кодирующих генов. Объектами исследования были, соответственно, геномы человека и 18 модельных объектов, 25 хромосом человека и 275 белок-кодирующих генов хромосомы 18 человека. В работе использовали три выборки данных – геномо-центричную (объекты – геномы 19 видов организмов), хромосомоцентричную (объекты – 25 хромосом человека) и геноцентричную (объекты – 275 белок-кодирующих генов хромосомы 18 человека). При анализе использовали встроенные процедуры сортировки и группировки объектов, корреляционный анализ количественных признаков, значимость различий между группами.

Для каждого объекта (гена, хромосомы или вида организма) в системе GenoCMS формировали перечень характеристик (дескрипторов), на основе сопоставления которых проводили сравнительный анализ объектов. Значения дескрипторов загружали из специализированных открытых информационных ресурсов. Дополнительно оценивали изменение значений дескрипторов во времени – насколько динамично увеличивается уровень знаний об объекте в зависимости от версии источника данных. Перечень информационных ресурсов и поисковых запросов, которые использовали при вычислении дескрипторов объектов, приводится далее. На рисунке 6 представлены экранные формы системы GenoCMS, специально адаптированной для работы с генами, дескрипторами и выборками. Примеры отображения объектов и соответствующих им наборов дескрипторов приведены для случая, когда сопоставляли характеристики хромосом человека (рисунок 6 (а) и дескрипторы 275 генов хромосомы 18 (рисунок 6 (б)).

С использованием системы менеджмента контента GenoCMS сопоставляли уровень аннотации геномов человека и 18 видов модельных объектов. Перечень отобранных для анализа видов приведен в таблице 2. Выбирали организмы, названия которых наиболее часто встречаются в текстах научных публикаций согласно данным биомедицинской библиотеки PubMed/MEDLINE (NCBI Resource Coordinators, 2014) и для которых секвенирован полный геном. Для каждого организма подсчитывали количество генов-ортологов с генами человека. Геном каждого из отобранных для анализа организмов характеризовали с использованием набора следующих дескрипторов: [N] – количество генов в геноме; [N_SwissProt] – количество генов, прошедших экспертную аннотацию и депонированных в разделе SwissProt базы знаний UniProt; [N_TrEMBL] – количество генов, найденных в ходе высокопроизводительных экспериментов по секвенированию и депонированных в разделе TrEMBL базы знаний UniProt (Boutet et al., 2016).

Для характеристики количества вариантов аминокислотных последовательностей, кодируемых геномом, использовали дескрипторы: [ASg] ([SAPg], [PTMg]) – количество генов в геноме, аннотации которых содержат информацию о кодируемом этим геном сплайс-варианте. В круглых скобках приводятся обозначения таких же данных о белке, содержащем одноаминокислотные замены или пострансляционнные модификации; [AS], ([SAP], [PTM]) – количество аминокислотных последовательностей, предполагаемых исходя из данных об альтернативном сплайсинге мРНК (содержащих одноаминокислотные замены или посттрансляционнные модификации); Рисунок 6. Примеры экранных форм системы менеджмента контента GenoCMS (Poverennaya et al., 2014), используемой в работе для (а) сопоставления информационных характеристик хромосом человека и (б) сравнительного анализа ранее накопленных знаний и экспериментально полученных данных о транскриптах и белках, кодируемых на хромосоме 18 человека. AC – идентификатор, используемый базой UniProt для обозначения белковых продуктов, кодируемых геном. Дескрипторы показаны выборочно, полный список используемых дескрипторов и их описание приводится в тексте [ASd], ([SAPd], [PTMd]) – доля генов в геноме, кодирующих подвергающиеся альтернативному сплайсингу белки (белки, содержащие одноаминокислотные замены или посттрансляционные модификации). Рассчитывается, как отношение количества генов в геноме, аннотации к которым содержат исследуемые события ([ASg], [SAPg], [PTMg]), к общему количеству генов в геноме организма ([N]).

На хромосомном уровне сопоставляли характеристики хромосом человека, включающие 22 соматических хромосомы, половые хромосомы – Y и Х, и митоходриальную хромосому. Для каждой хромосомы загружали набор дескрипторов (см. рисунок 6 (б)). Кроме дескрипторов, которые использовали для характеристики геномов и описание которых приведено выше ([N], [ASg], [AS], [ASd], [SAPg], [SAP], [SAPd], [PTMg], [PTM], [PTMg]), для хромосом человека сопоставляли также: [ASav], ([SAPav], [PTMav]) – количество кодируемых одним геном вариантов аминокислотных последовательностей, образованных в результате альтернативного сплайсинга (наличия одноаминокислотных замен или посттрансляционных модификаций); дескриптор рассчитывается как отношение [AS] ([SAP], [PTM]) к [N] .

Уровень знаний об экспериментально исследованных транскриптах и белках каждой хромосомы оценивали на основе сведений постгеномных баз данных и обозначали дескрипторами, отражающими количество генов на хромосоме, для которых: [GTEX] – экспериментально детектированы транскрипты методом секвенирования нового поколения (РНКсек); [PeptideAtlas] – белки, детектируемые масс-спектрометрическими методами; [PPDb] – измерено содержание кодируемых белков в плазме крови человека направленным масс-спектрометрическим методом мониторинга множественных реакций (ММР); [MalaCards] – согласно ресурсу MalaCards (Rappaport et al., 2016) показана взаимосвязь с развитием патологических процессов; [PubMed] – названия гена/белка или синонимов встречается в текстах научных публикаций в системе PubMed/MEDLINE (NCBI Resource Coordinators, 2014); отражает исследовательский интерес к гену и/или продуктам его экспрессии.

Для анализа постгеномных данных, накопленных в отношении хромосомы 18 человека, в систему менеджмента контента GenoCMS загружали дополнительно сведения о результатах экспериментального количественного анализа транскриптов и белков, кодируемых каждым из 275 генов (см. рисунок 6 (б)). Экспериментальные данные о содержании транскриптов и белков хромосомы 18 клетках ткани печени человека, клеток линии HepG2, а также результаты масс-спектрометрического анализа плазмы крови человека загружали из дополнительных материалов к публикациям, представленным в таблице 3.

Протеомный анализ клеток линии HepG2, ткани печени и плазмы крови

Использование метода РНКсек позволяет не только оценить уровень экспрессии каждого гена в образце, но и получить информацию о наличии модифицированных участков в последовательности мРНК, что необходимо при исследовании модифицированных вариантов белков – протеоформ. На основе информации об однонуклеотидных заменах в геноме, которые реализуются на уровне транскриптов, а также вариантов последовательности, полученной в результате альтернативного сплайсинга, может быть создана специфичная для конкретного образца библиотека возможных вариантов аминокислотных последовательностей (включающая модифицированные варианты). Созданную библиотеку применяют для обработки результатов исследования образца панорамным масс-спетрометрическим методом (МС/МС). Полученные в экперименте хромато-масс-спектры сопоставляются со сформированной на основе транскриптомного профилирования библиотекой пептидных фрагментов для конкретного биологического материала (Nesvizhskii, 2014).

Термин «протеоформы» обозначает многообразие белковых продуктов, продуцируемых одним геном и имеющих канонические последовательности либо образованных в результате альтернативного сплайсинга или содержащих одноаминокислотные замены и посттрансляционные модификации. Совокупность протеоформ определяет такое свойство протеома, как «ширина» (Archakov et al., 2015, Percy et al., 2014). Согласно предлагаемой в данной работе концепции, экспериментальное определение «ширины» протеома (т. е. количества детектируемых в рамках одного эксперимента протеоформ) зависит от чувствительности и специфичности аналитического метода. Вследствие технических ограничений экспериментальных методов в протеомике, невозможна оценка «ширины» протеома без использования методов биоинформатики и данных информационных ресурсов. Предполагают, что «ширина» протеома составляет от десяти тысяч (Adkins et al., 2002) до миллиарда (Smith et al., 2013, Kelleher, 2012) различных протеоформ.

Далее будет рассмотрено, какие молекулярные события вносят основной вклад в «ширину» протеома и какое количество видов протеоформ можно предполагать для протеома человека.

Состав протеома индивидуален и уникален для конкретного человека и специфичен в конкретном органе или ткани. Это является одной из существенных сложностей при проведении протеомного анализа (Archakov et al., 2012), но, в то же время, делает протеомные аналитические тесты наиболее перспективными в сравнении с геномными, поскольку протеом более динамичен и является более объективным отражением текущего состояния системы (организма). Необходимо представлять возможное многообразие протеоформ для грамотного планирования протеомного эксперимента и анализа полученных результатов. Термином «протеоформы» в контексте данной работы обозначены формы белков, кодируемые одним геном, но различающиеся вследствие альтернативного сплайсинга мРНК (далее – АС), наличия мутаций в геноме, которые реализуются в одноаминокислотные полиморфизмы (далее – ОАП) или наличия посттрансляционных модификаций (ПТМ).

В нашей работе для предсказания многообразия протеоформ, кодируемых хромосомой 18, мы использовали результаты, полученные при исследовании транскриптома методом РНК-секвенирования (РНКсек, анализ проводился в трех технических повторах для каждого образца). Оценивали многообразие протеоформ для ткани печени и клеток линии HepG2. Посчитывали частоту встречаемости событий – сплайс-вариантов и реализованных на уровне транскриптома однонуклеотидных замен (nsSNP) на основе результатов РНКсек. Полученные частоты сопоставляли с данными протеомной базы знаний NeXtProt. Полученные результаты представлены в Таблице 15. Частоты встречаемости сплайс-вариантов (АС) транскриптов и последовательностей с реализованными на уровне транскриптома несинонимичными однонуклеотидными полиморфизмами (ОП) указаны в расчете на один ген. Приведены данные по всем хромосомам и отдельно для хромосомы 18 человека. По данным РНКсек, среднее количество обнаруженных сплайс-вариантов в ткани печени составило 1,3 на ген (таблица 15) при расчете на весь геном человека, или 1,4 – для одного гена хромосомы 18. Данные хорошо соотносятся с информацией NeXtProt, согласно которым количество сплайс-вариантов в среднем для генома человека составляет 2,1. Частоты встречаемости последовательностей с несинонимичными однонуклеотидными полиморфизмами существенно различаются по результатам РНКсек и данным NeXtProt как в среднем по геному, так и для белков, кодируемых на хромосоме 18 (см. таблицу 15). Транскрипты с заменами в последовательности обнаружены в исследуемом образце ткани печени в среднем с частотой 1,4 варианта на один белок-кодирующий ген. Согласно данным NeXtProt, в среднем можно ожидать, что один ген кодирует до 25 вариантов последовательностей с заменами, (обобщенные сведения по всем типам биологического материала).