Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов Ивлиев, Александр Евгеньевич

Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов
<
Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ивлиев, Александр Евгеньевич. Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов : диссертация ... кандидата биологических наук : 03.01.09 / Ивлиев Александр Евгеньевич; [Место защиты: Ин-т проблем передачи информации им. А.А. Харкевича РАН].- Москва, 2011.- 117 с.: ил. РГБ ОД, 61 12-3/23

Содержание к диссертации

Введение

ГЛАВА 1. Обзор литературы 8

1.1. Транскриптомика и экспрессионные микрочипы 8

1.1.1. Экспрессионные микрочипы 8

1.1.2. Экспрессионные микрочипы и РНК-секвенирование 9

1.1.3. Накопление данных в базах 11

1.2. Генные сети коэкспрессии

1.2.1. Методы анализа генных сетей коэкспрессии 14

1.2.2. Актуальные методические проблемы анализа коэкспрессии

1.2.2.1. Анализ коэкспрессии в полногеномном масштабе 18

1.2.2.2. Верификация предсказаний функций генов 20

1.3. Анализ транскриптома при исследовании опухолевых заболеваний 23

1.3.1. Полногеномные данные в онкологии 23

1.3.2. Анализ коэкспрессии генов в исследованиях и лечении рака 25

1.3.3. Глиальные опухоли мозга

1.3.3.1. Общая характеристика глиом 30

1.3.3.2. Задача понимания гетерогенности глиом 32

1.3.3.3. Задача изучения регуляции сигнальных путей Гі 39

1.3.3.4. Задача поиска потенциальных терапевтических мишеней 41

ГЛАВА 2. Методы 45

Глава 3. Результаты и обсуждение 52

3.1. Решение методических проблем в области работы с экспрессионными данными 52

3.1.1. Создание программы поиска и загрузки данных 52

3.1.2. Разработка метода полногеномного анализа коэкспрессии 55

3.2. Проверка возможности верификации экспрессионных предсказаний с помощью протсомной базы Human Protein Atlas 64

3.2.1. Поиск модуля, связанного с ресничками, в транскриптоме человека 64

3.2.2. Определение консенсусного генного состава модуля 66

3.2.3. Предсказание новых генов, функционально связанных с ресничками Л .

3.2.4. Верификация предсказаний с помощью Human Protein Atlas 69

3.3. Изучение биологии глиом методами генных сетей коэкспрессии 73

3.3.1. Общая характеристика структуры транскриптома глиом 73

3.3.1.1. Поиск модулей коэкспрессирующихся генов 74

3.3.1.2. Проверка воспроизводимости модулей 75 .

3.3.1.3. Биологическая аннотация модулей 78

3.3.1.4. Характеристика взаимосвязей между модулями 78

3.3.2. Обнаружение проастроцитарного экспрессионного класса глиом 81

3.3.2.1. Определение проастроцитарного класса опухолей 82

3.3.2.2. Проастроцитарный класс характеризуется благоприятным прогнозом 82

3.3.2.3. Связь проастроцитарного класса с пронейральным 85

3.3.2.4. Сравнение схемы классификации глиом с предложенными ранее 86

3.3.2.5. Потенциальное прикладное значение проастроцитарных маркеров

3.3.3. Предсказание участия белков Sprouty в регуляции пути EGFR в глиомах 88

3.3.4. Поиск потенциальных терапевтических мишеней в глиомах

3.3.4.1. Изучение расположения известных мишеней в модулях коэкспрессии 91

3.3.4.2. Поиск новых потенциальных мишеней 94

Выводы 100

Список литературы

Введение к работе

Актуальность темы

Технологические достижения последнего десятилетия сделали возможным исследование живых организмов на уровне генетических последовательностей, экспрессии мРНК и белков в полногеномном масштабе. Важное место в полногеномных исследованиях занимает анализ уровней экспрессии генов. Получаемая при таком анализе информация используется для изучения молекулярных механизмов заболеваний, сравнения типов клеток, поиска функций генов и решения других задач биологии и медицины. Возможность подходить к решению актуальных задач на полногеномном уровне привела к созданию ряда проектов в Европе и США по измерению уровней экспрессии большинства известных генов в тканях человека в норме и при различных заболеваниях. К настоящему времени в открытом доступе имеются массивы данных по многим тысячам разнообразных образцов.

Ключевым инструментом анализа полногеномных данных по экспрессии генов являются генные сети коэкспрессии. Этот метод осуществляет поиск групп (модулей) генов, согласованно экспрессирующихся в эксперименте или наборе клинических образцов. Выделение модулей коэкспрессирующихся генов широко применяется для решения задач двух типов: выявление структуры транскриптомных данных и предсказание функций индивидуальных генов. Первый тип задач, как правило, связан с изучением биологии гетерогенных заболеваний, таких как опухоли. В области изучения рака груди и различных видов лейкемии такие исследования открыли новые возможности для диагностики и разработки подходов химиотерапии. Второй тип задач распространен в фундаментальных исследованиях функции генов и аннотации геномов. В данной работе мы применили генные сети коэкспрессии как инструмент для изучения биологии одного из наиболее гетерогенных групп опухолей - глиальных опухолей мозга (задача первого типа), и предложили новый способ верификации результатов, получаемых в экспрессионных работах по предсказанию функций генов (задачи второго типа).

Актуальность исследования глиальных опухолей мозга (глиом) обусловлена двумя причинами. Во-первых, глиомы относятся к наиболее агрессивным и трудно излечимым видам опухолей. Эффективных методов химиотерапии глиом пока не разработано. Продолжительность жизни пациентов с наиболее распространенным типом глиомы (глиобластомой) составляет в среднем один год. Во-вторых, определение типа глиом в клинической практике основано на гистологических методах, известных своей субъективностью. В связи с этим в клиниках ряда стран активно ведутся работы по изучению биологии глиом на основе транскриптомных данных и поиску мРНК-маркеров для объективной диагностики подтипа глиом. При этом ключевой проблемой является сложность структуры транскриптома глиом: уровни экспрессии ~20 000 генов формируются под действием большого количества разнородных факторов. Это является

препятствием к формированию общего взгляда на молекулярные основы агрессивности и разнообразие экспрессионных классов этих опухолей. Мы предположили, что детальная характеристика структуры транскриптома глиом с помощью генных сетей коэкспрессии позволит сделать новые наблюдения в различных аспектах изучения этих опухолей.

Вторая возможность, которую дают генные сети коэкспрессии, заключается в предсказании функции генов. Поиск функциональной связи генов с клеточными процессами, органеллами, метаболическими и сигнальными путями ведется применительно к широкому спектру живых организмов, включая человека. Ключевой проблемой при этом является верификация экспрессионных предсказаний независимыми методами. В последнее время, благодаря развитию разнообразных (в том числе протеомных) баз данных, появляется возможность верификации предсказаний без проведения направленных экспериментов. Поиск таких подходов может существенно улучшить возможности для верификации. В данной работе мы проверили применимость быстро растущей протеомной базы данных Human Protein Atlas к задаче верификации функциональных предсказаний, сделанных методами генных сетей коэкспрессии.

Для решения этих биологических задач мы также провели методические усовершенствования в нескольких направлениях. Во-первых, большой объем экспрессионных данных, накопленный в электронных базах, требует обеспечения интегрированного доступа к этим базам данных. Во-вторых, по вычислительным причинам анализ генных сетей коэкспрессии трудно реализуем в масштабе всего генома. В связи с этим, на практике исследователи часто используют ограниченные выборки генов, что снижает биологическую ценность анализа. В данной работе мы обратились к решению этих методических проблем.

Цель и задачи исследования

Цель работы - развитие методов анализа экспрессионных данных и их применение для изучения биологии глиом и предсказания функций генов.

В работе были поставлены следующие задачи:

  1. Создать доступную через веб-сервер программу, упрощающую процесс поиска и загрузки транскриптомных данных из открытых электронных баз

  2. Разработать эвристический метод, позволяющий в короткие сроки проводить анализ коэкспрессии применительно к полному набору генов в геноме (20 000 и более профилей экспрессии)

  3. Оценить возможность использования новой крупной протеомной базы данных Human Protein Atlas для верификации функциональных предсказаний, сделанных методом генных сетей коэкспрессии

  1. Детально охарактеризовать структуру транскриптома глиальных опухолей мозга методом генных сетей коэкспрессии

  2. Применить информацию о структуре транскриптома глиом для развития системы экспрессионной классификации этих опухолей, реконструкции сигнальных путей и поиска потенциальных терапевтических мишеней в глиомах

Научная новизна и практическое значение работы

Впервые детально охарактеризована структура транскриптома глиомы: выделено 20 модулей коэкспрессии, описаны их связи друг с другом и с клиническими характеристиками опухолей. В дополнение к трем известным экспрессионным классам глиомы (мезенхимальному, пролиферативному и пронейральному) показано существование еще одного экспрессионного класса с четкой функциональной интерпретацией - проастроцитарного. Впервые определен список мРНК-маркеров опухолей данного класса: АРОЕ, DAAM2, ID4, А4АР4, TJP2 и др. (всего 185 генов). Эти маркеры потенциально могут быть использованы для определения соответствующего класса глиом молекулярными методами (например, ОТ-ПЦР в реальном времени), для которых доступен более высокий уровень стандартизации, чем для принятых в диагностике субъективных гистологических методов.

Предсказано, что в регуляцию одного из ключевых онкогенных сигнальных путей в глиомах, активируемого рецептором эпидермального фактора роста (EGFR), вовлечены белки семейства Sprouty (SPRY1, SPRY2, SPRY4). Этот сигнальный путь известен своей повышенной активностью в наиболее агрессивном типе глиом (глиобластомах). Предсказанный механизм его регуляции важен для понимания биологии этого вида опухолей.

Показано, что существуют статистические закономерности распределения мишеней разрешенных к применению противоопухолевых лекарств в генной сети коэкспрессии в глиоме. По результатам анализа, центральные гены модулей, вовлеченных в патогенез глиом, рекомендованы для дальнейшего изучения в качестве потенциальных новых противоопухолевых мишеней.

На примере изучения эукариотической клеточной органеллы - реснички, показана возможность использования протеомной базы данных Human Protein Atlas для подтверждения экспрессионных предсказаний функций генов. Применение Human Protein Atlas может помочь в задачах предсказания широкого спектра генных функций, которые ассоциированы с неравномерным пространственным распределением соответствующих белков в тканях и клетках человека.

Для 74 генов человека впервые предсказана функциональная связь с клеточной органеллой ресничкой. Согласно результатам анализа данных Human Protein Atlas, около 50% этих экспрессионных предсказаний проходят верификацию на белковом уровне. Идентификация этих

белков, функционально связанных с ресничками, расширяет основу для исследований молекулярных механизмов функционирования этой клеточной органеллы.

Научную новизну и практическую значимость также имеет предложенный в работе эвристический метод, позволяющий многократно ускорить анализ генной коэкспрессии и делающий доступным такой анализ в полногеномном масштабе. Создана программа Microarray Retriever, обеспечивающая интегрированный доступ к существующим экспрессионным базам данных (GEO и ArrayExpress) и упрощающая процесс поиска и загрузки данных.

Апробация работы. Результаты диссертационной работы были представлены на международной конференции Moscow Conference on Computational Biology and Bioinformatics (Москва, 21-24 июля, 2011); на международной конференции 19і International Conference on Intelligent Systems for Molecular Biology & 10th European Conference on Computational Biology (Вена, 17-19 июля, 2011); на международной конференции European Human Genetics Conference 2011 (Амстердам, 28-31 мая, 2011); на XVIII международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов» (Москва, 11-15 апреля, 2011); на I международной научно-практической конференции «Постгеномные методы анализа в биологии, лабораторной и клинической медицине» (Москва, 17-19 ноября, 2010); на XVII международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов» (Москва, 12-15 апреля, 2010); на Всероссийской научной школе для молодежи «Горизонты нанобиотехнологии» (Москва, 12-16 октября, 2009); на XVI международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов» (Москва, 13-18 апреля, 2009).

Публикации. По материалам диссертации опубликовано 13 печатных работ. Из них статей -3, тезисов устных и стендовых сообщений на конференциях - 10.

Структура и объем работы. Диссертация изложена на 117 страницах, включает 15 таблиц, 20 рисунков, 3 приложения; состоит из введения, обзора литературы, методов, результатов и их обсуждения, выводов и списка литературы, включающего 175 источников.

Накопление данных в базах

ДНК-микрочип (от англ. «DNA microarray») — небольшая поверхность, на которую с высокой плотностью в определенном порядке нанесены фрагменты одноцепочечной ДНК с известной последовательностью (Dufva 2009). Эти фрагменты (пробы) выступают в роли зондов, с которыми гибридизуются комплементарные им цепи нуклеиновой кислоты (кРНК или кДНК) из исследуемого образца, меченные флуоресцентным красителем или биотином для детектирования. Чем больше образец содержит молекул нуклеиновой кислоты с определенной последовательностью, тем большее их количество, связывается с комплементарной пробой. После гибридизации поверхность микрочипа сканируют, в результате чего каждой последовательности ДНК на микрочипе ставится в соответствие измеренный уровень сигнала, пропорциональный числу молекул нуклеиновой кислоты с данной последовательностью в смеси (Dufva 2009). Технология ДНК-микрочипов используется для определения профилей экспрессии генов, сравнения количества копий геномной ДНК, генотипирования однонуклеотидных полиморфизмов и решения других задач (Grant and Hakonarson 2008; Ruano et al. 2010). Далее будет рассматриваться только аспект применения ДНК-микрочипов для определения профилей экспрессии генов.

Исторически технология ДНК-микрочипов выросла из метода Саузерн-блот, в котором фрагментированную ДНК прикрепляют к подложке и затем проверяют на способность гибридизации с меченой пробой известной последовательности. Впервые сообщение о создании и использовании ДНК-микрочипов для высоко-поточного определения профилей экспрессии генов было сделано в 1995 году (Schena et al. 1995). Первые ДНК микрочипы с пробами на почти полный набор генов организма (дрожжи Saccharomyces cerevisiae) были созданы в 1997 году (Lashkari et al. 1997).

В настоящее время ДНК-микрочипы, позволяющие измерять уровни экспрессии генов в полногеномном масштабе, разработаны для широкого спектра организмов, в том числе человека. Наибольшее распространение получили ДНК-микрочипы компании Affymetrix. Эти микрочипы являются одноканальными (т.е. на один микрочип в эксперименте наносится один анализируемый образец) и производятся с использованием технологии фотолитографии (Dufva 2009). Такая технология обеспечивает нанесение проб с высокой плотностью, что позволяет разместить на одном микрочипе около десяти проб с различными последовательностями для каждого гена и таким образом повысить точность измерений (Irizarry et al. 2003, Irizarry et al. 2005). Также, сравнительно широко используются экспрессионные ДНК-микрочипы компаний Illumina и Agilent. Развитие технологий ДНК-микрочипов сделали этот метод одним из стандартных в фундаментальных и медицинских исследованиях экспрессии генов в полногеномном масштабе.

В последние годы появилась новая группа1 высокопроизводительных методов, позволяющих измерять уровни экспрессии генов — «РНК-секвенирование» (от англ. «RNA-seq») (Wang et al. 2009). Эти методы основаны на подсчете количествамолекул мРНК с помощью технологий секвенирования нового поколения. В отличие от классического метода секвенирования по Зангеру, при котором в реакционной смеси возможно прочтение только одной последовательности нуклеиновой кислоты, технологии секвенирования нового поколения позволяют осуществлять параллельное прочтение практически неограниченного числа разных последовательностей без предварительного разделения смеси (Shendure and Ji 2008). Кроме того, эти технологии генерируют данные «цифровой» природы, т.е. для каждой- последовательности. определяется точное количество копий, прошедших процедуру секвенирования (Shendure and Ji 2008). В настоящее время существуют три лидирующие технологии секвенирования нового поколения: Illumina Genome Analyzer (от компании Illumina), SOLID (от компании Applied Biosystems) и 454 (от компании Roche). Полногеномные методы измерения уровней экспрессии генов на основе технологий секвенировапия имеют ряд преимуществ перед технологией ДНК-микрочипов (Ozsolak and Milos 2011). К таким преимуществам относятся более высокая точность измерений, повышенная воспроизводимость, а также возможность решать новые классы задач, таких как поиск точечных мутаций в экспрессирующихся транскриптах, обнаружение химерных транскриптов, выявление новых изоформ транскриптов и др. (Ozsolak and Milos 2011). В связи с этими преимуществами, методы РНК-секвенирования приобретают широкое распространение для решения задач транскриптомики.

Существующие проблемы в области РНК-секвенирования приводят к тому, что ДНК-микрочипы продолжают широко использоваться в фундаментальных и медицинских исследованиях. Например, в крупнейшем международном онкологическом проекте International Cancer Genome Consortium измерение уровней экспрессии генов проводится с помощью ДНК-микрочипов (Bell 2011, Hudson et al. 2010). Также следует отметить, что ряд методических проблем, связанных ; анализом экспрессионных данных после их технической подготовки (например, анализ генных сетей коэкспрессии в полногеномном масштабе) являются общими для экспериментальных технологий. Таким образом, ДНК-микрочипы, по-видимому, в течение еще долгого времени будут иметь широкое применение (Malone and Oliver 2011), а развитие методов биологического анализа экспрессионных данных является актуальным вне зависимости от способа их получения.

Возможность подходить к решению фундаментальных и медицинских задач на уровне транскриптома привела к проведению разнообразных биологических экспериментов с использованием ДНК-микрочипов в лабораториях по всему миру. В результате этих исследований, к настоящему времени в открытом доступе имеются массивы данныхпо многим тысячам разнообразных образцов.

Существуют две основные базы экспрессионных данных, получаемых с помощью ДНК-микрочипов: Gene Expression Omnibus (сокращенно GEO) (Barrett et al. 2009) и ArrayExpress (Parkinson et al. 2009). База GEO создана в рамках американского биотехнологического центра NCBI" (National Center for Biotechnology Information; http://vwvw.ncbi.nlm.nih.gov/geo/), тогда как ArrayExpress — при Европейском биоинформатическом институте (European Bioinformatics Institute; http://www.ebi.ac.uk/microarrav-as/aer/ ).- В последние годы наблюдается быстрый рост этих баз данных. Так, база GEO, содержавшая в 2005 году около 60 тысяч образцов, в настоящее время содержит более 600 тысяч образцов (информация на сентябрь 2011 года, рис. 1). Указанные образцы, составляющие текущее содержание базы, были получены в 26 тысячах экспериментов на более, чем 1000 различных организмах (Barrett et al. 2009). База ArrayExpress в настоящее время содержит результаты из около 25 тысяч экспериментов.

Задача понимания гетерогенности глиом

Ключевой проблемой при изучении и лечении онкологических заболеваний является их гетерогенность: различия по спектру генетических и функциональных нарушений между опухолями приводят к различиям в клиническом течении заболевания (Stratton et al. 2009). Опухоли, развивающиеся в одном и том же органе, различаются по скорости роста, инвазивности, направлению дифференцировки клеток, взаимодействию с иммунитетом, ответу на применение лекарств и другим признакам, что в конечном счете приводит к различиям в эффективности лечения больных (Freedman et al. 2011, Harbeck et al. 2010). Это приводит к необходимости развития методов определения типа опухоли при диагностике. Множество исследований направлено на поиск новых подтипов опухолей, усовершенствование методов диагностики уже известных подтипов, а также поиск маркеров, обладающих прогностической ценностью. Одним из подходов к решению этих задач является анализ генных сетей коэкспрессии.

При решении указанных задач на основе транскриптомных данных одно из препятствий заключается в биологической сложности массивов экспрессионных данных (Li et al. 2009, Wirapati et al. 2008). Так, типичный транскриптомный хмассив содержит информацию об активности десятков тысяч-генов. При этом на экспрессию генов может оказывать влияние множество факторов, на которых основана гетерогенность опухолей — начиная» от гистологического состава ткани и заканчивая процессами в отдельных клетках (Freedman et al. 2011, Harbeck et al. 2010). Анализ генных сетей коэкспрессии позволяет естественным образом снизить размерность анализируемого массива данных и определить спектр действующих в нем биологических факторов путем характеристики структуры массива (Oldham et al. 2008). Под структурой в данном контексте понимается совокупность модулей коэкспрессии и информация о соответствии генов модулям (к дополнительным характеристикам структуры хможно отнести расстояния генов внутри каждого модуля до его центра, корреляцию между профилями экспрессии модулей и другие параметры) (Zhang and Horvath 2005). Возникновение каждого модуля указывает на наличие единого доминирующего биологического фактора, под действием которого сформировались профили экспрессии генов, входящих в его состав (Lee et al. 2004). К таким факторам могут относиться дифференцировка опухолевых клеток по различным путям, наличие в клетках специфических геномных перестроек, активность сигнальных путей и т.д. (Lacroix et al. 2008, Vitucci et al. 2011, Weigelt et al. 2010). Движущие факторы могут быть определены на основе анализа генного состава модулей. Благодаря этому, генные сети коэкспрессии дают возможность выявить спектр действующих факторов в эксперименте, определить гены-маркеры для каждого фактора и изучить связь факторов с клиническими характеристиками образцов (Langfelder and Horvath 2008). Указанные возможности используются для преодоления проблем гетерогенности опухолей при диагностике и для изучения патогенеза опухолей на молекулярном уровне с целью развития методов химиотерапии.

Одним из направлений изучения гетерогенности опухолей является поиск их новых подтипов. Данное направление можно проиллюстрировать на примере лимфом (твердые опухоли лимфоидного происхождения) (Iqbal et al. 2009). Так, диффузные В-крупноклеточные лимфомы (ДБКЛ) представляют собой клинически гетерогенное заболевание, в котором отсутствие выраженного разделения гистологических признаков долгое время1- не позволяло найти дискретные подклассы заболевания. Анализ генных сетей, коэкспрессии впервые выявил среди этих опухолей два выраженных подкласса, каждый из которых характеризовался повышенным уровнем экспрессии одного из двух модулей-маркеров (Alizadehe/1 al. 2000). По дклассы резко различались между собой по доле пациентов, поддающихся успешному лечению (Alizadeh et al. 2000). Дальнейшие исследования установили-различия подклассов по спектру мутаций и активности сигнальных путей, что позволило начать разработку специфических к подклассам методов химиотерапии (Iqbal et al. 2009). Исследования в сходном направлении также ведутся применительно к меланомам (Bittner et al. 2000, Freedman et al. 2011) и лейкемии (Soulier et al. 2005).

Наряду с поиском новых подтипов, значимой задачей является усовершенствование методов диагностики уже известных подтипов. В ряде видов рака, такая диагностика затруднена субъективностью стандартных методов, таких как гистологическое исследование (van den Bent 2010, Bacher et al. 2010)), а также необходимостью одновременного получения широкого спектра независимых типов информации для определения типа опухоли у одного пациента (Sabattini et al. 2010). Применение методов транскриптомики для решения этой проблемы можно проиллюстрировать на примере лейкемии (рак крови). В клинической практике различают более 20 подтипов этого рака, и их диагностика требует совместного применения методов цитоморфологии, кариотипирования, иммунофенотипирования и флуоресцентной гибридизации олигонуклеотидных проб in situ (Sabattini et al. 2010). Это приводит к высокой стоимости диагностики, сложности принятия решения экспертом на основе разнородных параметров, а также недостаточной воспроизводимости результатов между экспертами и клиническими центрами (Bacher et al. 2009). За последние годы была показана возможность различать большинство известных подтипов лейкемии на основе экспрессионных маркеров (Bacher et al. 2010). В работе, обобщающей результаты предыдущих исследований, были измерены уровни экспрессии генов в злокачественных клетках 2 143 больных лейкемией с помощью микрочипов Affymeti x U133A (Haferlach et al. 2010). В измерении уровней экспрессии генов принимали участие 11 лабораторий из стран Европы, Азии и США, в рамках проекта Microarray Innovations in Leukemia (MILE) (Haferlach et al. 2010). Исследование показало возможность различать 17 подтипов лейкемии, принятых в клинической практике, на основе экспрессионных данных со средней точностью 88% (оценка получена на независимой выборке из 1 152 больных) (Haferlach et al. 2010). Такая точность и воспроизводимость между медицинскими центрами не уступают аналогичным показателям принятой в клинической практике многоуровневой процедуры. Это показывает, что единышметод принципиально способен провести диагностику с той же точностью, что и комплекс принятых в настоящее время методов, причем его применение доступно автоматизации (Haferlach et al 2009).

Еще одной задачей, связанной с диагностикой, является поиск прогностических маркеров. Такие маркеры позволяют предсказать ход развития заболевания, что может быть использовано для принятия терапевтических решений. Например, при раке молочной железы, в связи с недостаточной точностью существующих прогностических критериев, большинство больных после операции проходят химиотерапию (Harbeck et al. 2010). При этом, по-видимому, лишь часть этих пациентов действительно нуждается в ней (Harbeck et al. 2010). Чтобы сократить долю пациентов, подвергающихся токсическим эффектам химиотерапии, ведется поиск прогностических маркеров, позволяющих распознать пациентов, для которых операция привела к полному выздоровлению и дополнительного лечения не требуется. В работах по изучению транскриптома рака молочной железы было показано, что уровень экспрессии генов модуля, соответствующего процессу пролиферации клеток, позволяет распознавать пациентов, у которых в течение длительного времени не возникает рецидива, с более высокой точностью, чем принятая в клинической практике прогностическая классификация (Perou et al. 2000, van t Veer et al. 2002). На основе этих генов были созданы два прогностических теста: Oncotype DX (измеряет уровни экспрессии 21 гена с помощью метода ОТ-ПЦР) и MammaPrint (измеряет уровни экспрессии 70 генов с помощью технологии ДНК-микрочипов).

Проверка возможности верификации экспрессионных предсказаний с помощью протсомной базы Human Protein Atlas

Нормализацию данных, полученных с помощью ДНК-микрочипов компании Affymetrix, мы проводили согласно ранее описанной схеме (Oldham et al. 2008). В соответствии с этой схемой, применялись- обновленные файлы соответствия олигонуклеотидных проб генам (файлы CDF), загруженные с сайта http://masker.nci.nih.gov/ev/ (Zhang et al. 2005). В этих файлах исключены пробы с низкой специфичностью, а также исправлено значительное число ошибок картирования проб к генам. Другая особенность этих файлов CDF заключается в том, что каждому гену в них соответствует только одна группа зондов (от англ. «probeset»), т.е. объединены стандартные «фирменные» группы зондов, соответствующие одному и тому же гену (Zhang et al. 2005). Поскольку экспрессионные микрочипы использованных моделей не предназначены для детального изучения альтернативного сплайсинга, такое объединение не ведет к резкой потере информации, но при этом позволяет не допустить избыточности данных.

Нормализация данных проводилась в статистической среде R (http://cran.r-project.org/) с использованием библиотеки "affy", являющейся частью проекта Bioconductor (http://w\vw.bioconductor.org/). Значения генной- экспрессии генерировались с помощью алгоритма MAS5 (функция "expresso" с выбором режима "mas"). Эффективность этого алгоритма для подготовки данных к анализу генных сетей коэкспрессии была показана ранее (Lim et al. 2007). Значения экспрессии в каждом образце были масштабированы так, чтобы средний уровень экспрессии всех генов был одинаковым во всех образцах. Наконец, образцы были дополнительно нормализованы между собой с помощью метода квантилей (библиотека "DNAMR" в среде R).

Анализ проводился с помощью библиотеки WGCNA в статистической среде R (Langfelder and Horvath 2008). Для построения сетей коэкспрессии использовались выборки генов размером не более 4000. При построении сети, сначала вычислялись коэффициенты корреляции Пирсона между всеми возможными парами профилей экспрессии анализируемых генов. Далее, для получения так называемой «взвешенной» сети коэкспрессии к исходной сети корреляций применялась процедура «мягкого» проведения порога (от англ. «soft threshold», см. Литературный обзор, п. 1.2.1.2) (Zhang and Horvath 2005). В рамках этой процедуры, значение каждой ячейки в матрице коэффициентов корреляции возводилось в степень Р (взвешенный коэффициелт корреляции = коэффициент корреляции ). Значение параметра р выбиралось таким образом, чтобы топология взвешенной сети коэкспрессии была свободной от масштаба (ранее предложенный способ выбора значения параметра Р) (Zhang and Horvath 2005). Далее, взвешенная сеть коэффициентов корреляции трансформировалась в сеть топологического сходства (ТС) согласно алгоритму WGCNA (см. Литературный обзор, п. 1.2.1.2) (Zhang and Horvath 2005). Наконец, к этой сети применялась иерархическая кластеризация в режиме вычисления расстояний между кластерами методом средней связи (от англ. «average linkage»). Поиск модулей коэкспрессии проводился по дендрограмме кластеризации с помощью динамического алгоритма Dynamic Tree Cut со следующими параметрами: режим высокой чувствительности, минимальный возможный размер модуля — 10 генов (Langfelder et al. 2008).

В каждом модуле, гены были ранжированы по их связности, которая вычислялась как среднее значение топологического сходства (ТС) гена со всеми остальными генами, принадлежащими этому модулю (Langfelder and Horvath 2008). По определению, гены с высокой, связностью («хабы») имеют наиболее типичные профили экспрессии для данного модуля. В каждом модуле, профили экспрессии 10 генов с наиболее высокими значениями связности объединялись в характеристический профиль экспрессии (ХПЭ) данного модуля. На этапе разработки метода также тестировался режим, при котором для вычисления ХПЭ использовались все гены модуля (см. Результаты и обсуждение, п. 3.1.2). Характеристический профиль вычислялся как первая принципиальная компонента профилей экспрессии анализируемых генов (Zhang and Horvath 2005).

Чтобы переопределить генный состав модулей в полногеномном масштабе, для каждого гена в полном массиве данных вычислялись коэффициенты корреляции Пирсона между профилем экспрессии гена и ХПЭ каждого модуля. Ген причислялся к тому модулю, ХПЭ которого сильнее других коррелировал в профилем экспрессии гена (при дополнительном условии, что соответствующее значение коэффициента корреляции было не менее 0.5). Гены, профили экспрессии которых слабо коррелировали с ХПЭ всех модулей (т.е. не имели значений, удовлетворяющих этому порогу), не причислялись ни к одному из модулей.

Для оценки надежности консенсусных модулей мы определяли количество генов, которые могли попасть в консенсусные модули в результате случайных совпадений. Для этого, гены случайным образом перемешивались между исходными модулями в каждом массиве данных (размер модулей при этом оставался неизменным). Далее, на основе этих «случайных» модулей определялись контрольные консенсусные модули. Среднее значение отношения размера контрольных консенсусных модулей к размеру реальных консенсусных модулей (усреднение проводилось по 20 модулям и 1000 итерациям) служило искомой оценкой надежности консенсусных модулей (FDR, от англ. «False Discovery Rate»).

Сравнение консенсусного мерцательного модуля с ранее опубликованными списками генов, функционально связанных с ресничками, проводилось с помощью базы данных CilDB версии 2.0 (Arnaiz et al. 2009). Из базы были извлечены списки генов, соответствующие каждому исследованию. Списки, которые изначально были получены в исследованиях на модельных организмах, были трансформированы в списки соответствующих ортологов человеках помощью карт гомологии в базе CilDB (Arnaiz et al. 2009). Сравнение консенсусного мерцательного модуля, со списком из каждого исследования проводилось с помощью точного теста Фишера (статистическая значимость оценивалась относительно общего количества ортологов между модельным организмом и человеком).

Разделение модуля на категории новизны проводилось согласно указанным в базе уровням достоверности экспериментальных данных (Arnaiz et al. 2009). При этом были определены 3 категории! новизны: (1) «известные гены» — высокий уровень достоверности хотя бы ВІ одном исследовании или средний уровень достоверности более, чем в одном исследовании; (II) «опубликованные предсказания» — средний или низкий уровень достоверности хотя бы в одном исследовании; (III) «новые предсказания» — отсутствие гена в опубликованных списках.

Проастроцитарный класс характеризуется благоприятным прогнозом

Среди белков категорий II и III (функциональная связь с ресничками не является достоверно установленной) также присутствовали белки, относящиеся к классам А и Б (рис. 8). Так, из 34 белков категории И, присутствовавших в базе Human Protein Atlas, к этим классам относилось суммарно 62% белков (табл. 4). Следовательно, результаты анализа иммуногистохимических данных позволяют оценить, что более, чем половина ранее опубликованных предсказаний, являются правильными. Среди присутствующих в базе белков категории III (новые предсказания) 42% относились к классу А и 10% - к классу Б (табл. 4). Для этих белков, данные из Human Protein Atlas предоставляют методически независимую поддержку экспрессионному предсказанию функциональной связи этих белков с ресничками.

Предсказания (белки из категорий II и III), получившие поддержку данными из Human Protein Atlas, представляют интерес для понимания биологии ресничек. Например, CIB1 и DCDC5 (категория I), согласно литературным данным, вовлечены в функционирование микротрубочек в клетке (Naik and Naik 2011). Это указывает на их возможную цитоскелетную роль в ресничках, поскольку структурную основу этой органеллы составляют микротрубочки. Для фосфолипазы PLCH1 (категория II) можно предположить участие в регуляции механического движения ресничек, поскольку этот фермент продуцирует вторичный мессенджер инозитолтрифосфат, который вовлечен в, контроль частоты биения этой органеллы (Barrera et al. 2004). Другой фермент — рибокиназа R.BKS (категория II) - который, согласно данным Human Protein Atlas, локализуется в цитоплазме мерцательных клеток и практически отсутствует в обычных эпителиальных клетках, может играть роль в обеспечении ресничек энергией для движения, поскольку он вовлечен в метаболизм Сахаров (Park et al. 2007). Выявление в нашей работе этих и других белков как вероятно участвующих в работе ресничек расширяет основу для дальнейшего изучения механизмов функционирования этой органеллы и ее дисфункции при заболеваниях.

Также следует отметить, что некоторые из белков категории III (например, С11 orf63 и Clorfl29), не имеют никаких аннотированных функций в геномных базах данных и не охарактеризованы в литературе. Для таких белков предсказание функциональной связи с ресничками может служить первичной функциональной аннотацией. Таким образом, анализ данных на уровне белков подтверждает существенную часть наших предсказаний, сделанных с помощью методов транскриптомики (список белков из категорий II и III и результаты их характеристики с помощью Human Protein Atlas приведены в Приложении 1). Идентификация этих белков как функционально связанных с ресничками расширяет основу для детального понимания молекулярных механизмов функционирования и биогенеза этой клеточной органеллы.

Проведенное исследование было предпринято нами, чтобы оценить возможность использования базы Human Protein Atlas для верификации предсказаний функций генов, сделанных на основе транскриптомных данных. Полученные результаты позволяют заключить, что Human Protein Atlas является эффективным инструментом верификации таких предсказаний. Ее применение может помочь в задачах предсказания широкого спектра генных функций, которые ассоциированы с неравномерным пространственным распределением соответствующих белков в тканях и клетках человека.

Ключевой областью применения анализа генных сетей коэкспрессии является изучение биологии онкологических заболеваний (см. Литературный обзор, п. 1.3.2). Глиомы являются трудно излечимым и гетерогенным типом опухолей. С целью изучения молекулярных свойств глиом и поиска мРНК-маркеров для определения подтипов глиом при диагностике, ведутся работы по изучению экспрессии генов в этих опухолях. Однако сложность структуры транскриптома глиомы (уровни экспрессии 20 000 генов находятся под влиянием большого количества биологических факторов) является препятствием к формированию общего взгляда на биологию экспрессии генов в этих опухолях. Мы предположили, что генные сети коэкспрессии позволят лучше охарактеризовать транскриптом глиальных опухолей и сделать новые наблюдения в различных аспектах изучения этих опухолей.

Для анализа мы выбрали 5 крупнейших опубликованных массивов данных, полученных с помощью высококачественных олигонуклеотидных микрочипов фирмы Affymetrix (табл. 5). Для удобства обозначения в тексте, эти массивы были пронумерованы от №1 до №5. Наиболее крупный массив (массив №1) содержал 276 образцов опухолей широкого спектра гистологических типов (табл. 5) и был использован в качестве основного в нашей работе. В этом массиве мы проводили подробный анализ структуры транскриптома глиомы. Четыре другие массива использовались для уточнения генного состава модулей и проверки воспроизводимости ключевых результатов.

Чтобы изучить структуру транскриптома глиальных опухолей, мы применили алгоритм WGCNA (Zhang and Horvath 2005) к массиву данных №1 (Gravendeel et al. 2009). Согласно предложенному выше подходу, анализ WGCNA был проведен на частичной выборке генов из генома (4000 генов с наиболее вариабельными профилями экспрессии в массиве данных №1) с возможностью последующего расширения генного состава этих модулей до полногеномного масштаба.

Применение метода WGCNA позволило получить сеть топологического сходства (см. Методы, п. 2.5.1). Далее, эта сеть была иерархически кластеризована (рис. 9). Анализ полученной дендрограммы с помощью алгоритма Dynamic Tree Cut (Langfelder et al. 2008) выявил 22 модуля коэкспрессии. Предварительный осмотр профилей экспрессии генов, входящих в состав модулей, позволил предположить, что некоторые из модулей объясняются биологическими факторами, действующими лишь в небольшом количестве образцов (например, модуль может быть вызван редкой генной амплификацией (Kotliarov et al. 2009). Чтобы в дальнейшей работе сконцентрировать внимание на модулях, вызванных действием характерных для глиомы факторов, мы оценили стабильность каждого модуля к исключению единичных образцов (см. Методы, п. 2.8.1

Чтобы определить генный состав найденных модулей в масштабе всего генома, для каждого модуля был вычислен характеристический профиль экспрессии (ХПЭ) путем определения первой принципиальной компоненты профилей экспрессии 10 генов с наибольшей связностью в данном модуле (Langfelder and Horvath 2008). Далее, с помощью описанной выше процедуры, в масштабе генома ( 18 000 генов, для которых имелись нормализованные данные) гены приписаны модулям на основе корреляции их профилей экспрессии с ХПЭ модулей (Методы, п. 2.5.3). Эта процедура увеличила размер модулей в среднем в 3 раза. Средний размер модулей составил 300 генов (наименьший модуль имел размер 24 гена, а наибольший - 499 генов). Таким образом, результатом анализа в массиве данных №1 стали 20 модулей коэкспрессии с генным составом, расширенным до полногеномного масштаба.

Известно, что экспрессионные подписи, полученные в полногеномных экспериментах, не всегда воспроизводимы в независимых массивах данных (Wang et al. 2005). Чтобы проверить, присутствуют ли найденные модули в массивах данных, полученных независимыми лабораториями на других выборках пациентов, мы проанализировали 4 массива экспрессионных данных из других больниц (табл. 5). Сначала мы спроецировали характеристические профили экспрессии модулей из основного массива данных №1 на 4 дополнительных массива и использовали эти

Похожие диссертации на Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов