Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Ананько Елена Анатольевна

Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях
<
Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ананько Елена Анатольевна. Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях : диссертация ... кандидата биологических наук : 03.00.15 / Ананько Елена Анатольевна; [Место защиты: Ин-т цитологии и генетики СО РАН]. - Новосибирск, 2008. - 228 с. : ил. РГБ ОД, 61:08-3/134

Содержание к диссертации

Введение

Глава 1. Обзор литературы 11

1.1. Введение 11

1.2. Генная сеть интерфероновой системы 15

1.2.1. Общая характеристика интерферонов 15

1.2.2. Регуляция экспрессии интерферонов 19

1.2.3. Пути передачи сигналов интерферонов 25

1.2.4. Участие интерферон-индуцируемых генов в обеспечении различных функций интерферонов 36

1.3. Особенности структурно-функциональной организации генных сетей и требования к компьютерной системе для их реконструкции на основе аннотации экспериментальных данных 59

1.4. Обзор существующих баз данных и компыотерных систем по генным и метаболическим сетям 66

1.5. Заключение по обзору литературы и формулировка задач исследования 70

Глава 2. Компьютерная реконструкция и анализ генных сетей 74

2.1. Введение 74

2.2. Базовые принципы создания формализованного описания генных сетей 74

2.2.1. Объектно-ориентированный подход 74

2.2.2. Пространственная распределенность компонентов 77

2.2.3. Иерархия уровней представления генной сети 77

2.2.4. Универсальность языка 78

2.3. Компьютерная технология GeneNet 80

2.3.1. Структура системы GeneNet 80

2.3.2. Возможности применения системы GeneNet 104

2.4. Анализ генных сетей 108

2.4.1. Регуляторные контуры 108

2.4.2. Качественные особенности функционирования генных сетей 113

2.5. Генные сети интерфероновой индукции 124

2.5.1. Пути передачи сигналов и ключевые регуляторы 125

2.5.2. Анализ регуляторных механизмов 128

2.5.3. Участие интерферон-индуцируемых генов в молекулярных механизмах противовирусного ответа 133

2.6. Заключение по главе 2 139

Глава 3. Компьютерный анализ и распознавание регуляторных элементов в интерферон-индуцируемых генах 140

3.1. Введение 140

3.2. Описание интерферон-индуцируемых генов в базе данных TRRD 141

3.3. Построение методов распознавания сайтов связывания ключевых регуляторов интефероновой системы (АР-1, IRF1, ISGF3, NF кВ, STAT1) 148

3.3.1. Анализ распределения экспериментально выявленных сайтов связывания в регуляторных районах интерферон-индуцируемых генов 148

3.3.2. Создание выборок экспериментально выявленных природных сайтов на основе информации из базы TRRD 150

3.3.3. Построение результирующих матриц 158

3.4. Компьютерный анализ протяженных регуляторных районов интерферон- индуцируемых генов 163

3.4.1. Исследование распределения потенциальных сайтов связывания транскрипционных факторов в регуляторных районах интерферон-индуцируемых генов 166

3.5. Построение методов распознавания интерферон-регулируемых промоторов и энхансеров 177

3.6. Проверка созданных методов по опубликованным данным микрочипового анализа 188

3.7. Поиск потенциальных мишеней интерфероновой индукции по базе данных EPD 193

3.8. Заключение по главе 3 201

Выводы 204

Список литературы

Введение к работе

Актуальность проблемы

Бурное развитие экспериментальных технологий в области молекулярной биологии и генетики привело к появлению огромных объемов информации. До недавнего времени ключевые фундаментальные и прикладные проблемы разных разделов молекулярной биологии, медицины и биотехнологии исследовались как отдельные аспекты организации биологических систем на уровне генов, РНК, белков, метаболитов. Но сегодня, благодаря информационному взрыву, можно проводить достоверную детальную реконструкцию сложных молекулярно-генетических систем [Wei G.H. et al., 2004], обеспечивающих функционирование клеток, тканей, органов и организмов в целом, контролирующих процессы индивидуального развития, поддержание гомеостаза критических параметров, взаимодействие с окружающей средой и т.д. Однако, ни один экспериментальный метод современной молекулярной и клеточной биологии или генетики, независимо от его эффективности, сам по себе не может дать комплексного представления о биологическом объекте, особенностях организации, иерархии и взаимоподчиненности структурно-функциональных единиц молекулярного, клеточного, тканевого, уровней.

По мере накопления информации, и особенно с появлением новых высокоэффективных экспериментальных методов возникла необходимость в комплексном подходе к анализу разнородных данных. Наблюдаемое ранее доминирование аналитических (рассекающих) экспериментальных подходов над процессами синтеза (обязательного, необходимого этапа познавательной деятельности) и острая потребность в осмыслении больших массивов информации привели к появлению нового научного направления -системной компьютерной биологии. Ключевая задача этого раздела биологии состоит в получении целостного, комплексного представления о структуре и механизмах функционирования исследуемых биологических систем на основе интеграции

5 разнообразных экспериментальных данных. Важнейшим инструментом системной

компьютерной биологии являются современные информационные технологии:

компьютерные методы накопления, хранения, поиска, классификации, интеграции и анализа

экспериментальных данных; методы математического моделирования, эффективность

которых должна быть адекватна объемам, разнообразию и темпам накопления

экспериментальной информации, а также сложности изучаемых биологических систем и

процессов.

Центральным понятием и основным объектом изучения системной компьютерной биологии являются генные сети - молекулярно-генетические системы, обеспечивающие формирование разнообразия фенотипических характеристик организмов (молекулярных, биохимических, структурных, морфологических, поведенческих и т.д.) на основе информации, закодированной в их геномах. Классический пример сложно организованной генной сети представляет собой интерфероновая система. Интерфероны - это основные регуляторы иммунного, противовирусного и противобактериального ответа, они модулируют воспалительный ответ, включая активацию нейтрофилов, лимфоцитов и базофилов, ингибируют клеточную пролиферацию, регулируют дифференцировку Т- и В-лимфоцитов, стимулируют фагоцитоз и представление антигенов макрофагами, увеличивают цитотоксичность натуральных киллеров и т.д.

Влияние интерферонов осуществляется путем стимуляции экспрессии определенного набора интерферон-индуцируемых генов (ИИГ). Продукты этих генов не только участвуют в обеспечении функций интерферонов, они могут взаимодействовать как между собой, так и с другими регуляторными факторами, стимулировать экспрессию других генов, непосредственно не отвечающих на воздействие интерферонами. Регуляторные районы ИИГ и взаимодействующие с ними транскрипционные факторы являются хорошей моделью для изучения молекулярно-генетических механизмов регуляции экспрессии генов у эукариот. Анализ этих механизмов и понимание смысла информации, закодированной в регуляторных

последовательностях ИИГ, позволит создать эффективные компьютерные методы предсказания потенциальных ИИГ на уровне генома.

Интерфероновая система является хорошей моделью для изучения, поскольку обладает всеми характерными чертами генной сети. Помимо этого, исследование генной сети интерфероновой системы с помощью современных компьютерных технологий может открыть пути к созданию новых лекарственных препаратов с более точно направленным воздействием и минимумом побочных эффектов, а также стимуляторов иммунной системы и других биологически активных веществ. Эти исследования имеют важное практическое значение, поскольку раскрывают причины возмолшых нарушений регуляции целого ряда жизненно важных функций организма и позволяют приблизиться к решению проблемы их генетической коррекции.

Цели и задачи исследования

Целью данной работы является разработка технологии компьютерной реконструкции и анализа генных сетей; исследование генных сетей интерфероновой индукции противовирусного ответа и построение методов распознавания интерферон-индуцируемых генов эукариот. Для достижения поставленной цели решаются следующие задачи:

  1. создание технологии реконструкции генных сетей in silico, включающей в себя: методы формализованного описания отдельных классов объектов, функционирующих в составе генных сетей; словари терминов, характеризующих объекты генных сетей, базы данных по объектам и взаимодействиям в генных сетях; программные средства для ввода информации в эти базы данных; методы визуализации и анализа генных сетей;

  2. анализ особенностей структурно-функциональной организации генных сетей эукариот на основе информации, накопленной в разработанных базах данных;

3. реконструкция генных сетей интерфероновой индукции противовирусного ответа у

эукариот; компьютерный анализ особенностей их организации и функционирования;

  1. построение методов распознавания сайтов связывания транскрипционных факторов, важных для функционирования генной сети интерфероновой индукции;

  2. определение характерных для интерферон-индуцируемых генов закономерностей в расположении сайтов и разработка методов распознавания протяженных интерферон-индуцируемых районов в геномах эукариот; поиск потенциальных интерферон-индуцируемых генов человека.

Научная новизна и практическая ценность

Создана технология GeneNet для компьютерного описания, визуализации и анализа генных сетей, широко используемая как в ИЦиГ СО РАН, так и нашедшая применение для решения широкого круга задач в рамках сотрудничества с российскими и зарубежными (Англия, Япония) коллегами и партнерами. В настоящее время база данных системы GeneNet содержит информацию о структурно-функциональной организации 42 генных сетей эукариот и 23 метаболических сетей прокариот и активно используется для компьютерной аннотации и анализа все новых генных сетей.

С помощью системы GeneNet впервые создано компьютерное описание трех сетей интерфероновой индукции противовирусного ответа и проведен анализ структурно-функциональной организации этих генных сетей.

Исследована организация протяженных регуляторных районов интерферон-индуцируемых генов и выявлены закономерности распределения сайтов связывания различных транскрипционных факторов, отличающих эти гены от остальных.

Созданы не имеющие аналогов в мировой науке методы распознавания протяженных районов ДНК, ответственных за интерфероновую индукцию.

8 Практическая значимость полученных оригинальных результатов заключается в том,

что они могут использоваться при изучении молекулярных процессов интерфероновой

индукции противовирусного ответа. Помимо этого, полученные результаты могут ускорить

как процесс аннотации геномных последовательностей, так и определение функций еще не

исследованных генов. Возможность поиска компьютерными методами генов с

определенными функциями очень важна для понимания принципов работы и организации

геномов млекопитающих.

Апробация работы

Основные результаты работы были представлены на Втором Сибирском Конгрессе по Прикладной и Индустриальной Математике (ИНПРИМ-96, Новосибирск, 1996 г.), Международной конференции по биоинформатике геномной регуляции и структуры (BGRS'1998, BGRS'2000, BGRS'2002, BGRS'2004, BGRS'2006, Новосибирск 1998, 2000, 2002, 2004, 2006), Международной школе теоретической биофизики (Москва, 1998 г.), Международной конференции по геномиксу и протеомиксу (Гейдельберг, 1998 г.), Международной конференции по теории и математике в биологии и медицине (Амстердам,

1999 г.), II съезде Вавиловского общества генетиков и селекционеров (Санкт-Петербург,

2000 г.), Второй Всероссийской научной конференции "Электронные библиотеки:
перспективные методы и технологии, электронные коллекции" (Протвино, 2000 г.),
конференции, посвященной 90-летию со дня рождения Алексея Андреевича Ляпунова
(Новосибирск, 2001 г.), Второй Всероссийской научной конференции "Электронные
библиотеки: перспективные методы и технологии, электронные коллекции" (Дубна, 2002 г.),
Международной Московской конференции по компьютерной молекулярной биологии
(МССМВ'ОЗ, МССМВ'05, Москва, 2003 и 2005 гг.), а также на отчетных сессиях Института
Цитологии и генетики СО РАН (1999, 2002, 2005 гг.). База данных GeneNet зарегистрирована

9 в Российском агентстве по патентам и товарным знакам (РОСПАТЕНТ), свидетельство

№990006,1999 г.

Публикации

По теме диссертации опубликовано 31 работа, из них 12 в рецензируемых журналах, имеются свидетельства об официальной регистрации семи баз данных, поддерживается три www-сайта.

Структура работы

Диссертационная работа состоит из введения, обзора литературы (первая глава), двух глав, содержащих основные результаты, выводов, списка цитированной литературы (305 ссылок). Работа изложена на 228 страницах, содержит 74 рисунка, 25 таблиц и 5 приложений. Нумерация рисунков и таблиц производится отдельно для каждой главы.

Благодарности

Автор благодарит научного руководителя, Николая Александровича Колчанова, за терпение, ценные советы и помощь на всех этапах работы. Автор выражает искреннюю благодарность зав. лаборатории регуляции экспрессии генов ИЦиГ Татьяне Ивановне Меркуловой за плодотворное обсуждение результатов работы и полезную критику с точки зрения ученого-экспериментатора. Автор признателен сотруднику" ООО "Институт системной биологии" Юрию Васильевичу Кондрахину и сотрудникам лаборатории теоретической генетики ИЦиГ, Ольге Александровне Подколодной, Николаю Леонтьевичу Подколодному, Елене Васильевне Игнатьевой, Ирине Лембитовне Степаненко, Дмитрию Александровичу Рассказову, Денису Сергеевичу Мигинскому за совместную работу и Лоховой Ирине Вячеславовне - за неоценимую помощь в поиске необходимой научной литературы. Автор благодарит также Федора Анатольевича Колпакова за плодотворное сотрудничество и Ананько Анатолия Григорьевича за программное обеспечение, значительно упростившее обработку результатов.

Пути передачи сигналов интерферонов

Интерфероны оказывают свои плейотропные эффекты на клетки, связываясь со специфическими рецепторами на поверхности клеток, что в конечном итоге приводит к стимуляции транскрипции определенного набора генов. Различают два типа интерферон индуцируемых генов (ИИГ).

К первому типу относятся гены первичного ответа на ИФ (early response genes), экспрессия которых усиливается в несколько раз за очень короткий промежуток времени (15-30 минут), достигает максимального значения в течение часа, и, как правило, через 3-4 часа возвращается к базальному уровню. Индуцирование интерферонами таких генов не зависит от белкового синтеза de novo. Механизмы регуляции экспрессии в этом случае связаны с активацией латентных транскрипционных факторов и формированием на их основе гомо-или гетеромерных комплексов.

Второй тип ИИГ включает гены вторичного ответа на ИФ, экспрессия которых усиливается через 2-3 часа после действия индуктора, достигает максимальных значений через несколько часов и в течение довольно долгого времени держится на высоком уровне. Причем ответ таких генов на стимуляцию интерфероном полностью зависит от белкового синтеза. Механизмы регуляции экспрессии генов вторичного ответа связаны с индукционной наработкой транскрипционных факторов, которые в обычных условиях не экспрессируются, или экспрессируются на очень низком уровне.

Некоторые ИИГ проявляют смешанный тип ответа. Экспрессия таких генов зависит как от латентных, так и вновь синтезируемых транскрипционных факторов.

При исследовании путей передачи сигналов, активируемых связыванием интерферонов со специфическими мембранными рецепторами, было установлено, что активация экспрессии генов первичного ответа связана с фосфорилированием по тирозину в определенном положении латентных цитоплазматических факторов, принадлежащих к STAT-семейству (Signal Transducers and Activators of Transcription). Фосфорилирование происходит при участии специфических протеинтирозинкиназ Jak-семейства {Janus family), физически ассоциированных с рецепторами, Jakl, Jak2 и Tyk2. Для каждого типа интерферонов существуют собственные рецепторы. Jakl и Tyk2 киназы связаны с рецепторами IFN I типа (IFNR I) и активируются ИФ а/р [Pestka S. et al, 2004; Kalvakolanu D.V., 2003; Uddin S. and Platanias L.C., 2004]. Активированные Jakl и Tyk2 киназы фосфорилируют по тирозину латентные цитоплазматические факторы STAT1 (р91), и STAT2 (рПЗ) , которые конститутивно экспрессируются в не индуцированных клетках. Показано, что молекула STAT2 также физически ассоциирована с рецептором IFNR I [Li X. et al., 1997]. Фосфорилированные факторы STAT1 и STAT2 образуют гетеродимер ISGF3a [Fu X.Y. et al., 1992], который затем взаимодействует с IRF9 (он же ISGF3y или р48). В результате формируется транскрипционный фактор ISGF3, который стимулирует транскрипцию многих ИИГ (Рис. 1.3). Белок IRF9 в не индуцированной клетке этот белок синтезируется конститутивно, однако его экспрессия может быть усилена интерферонами. Именно через ДНК связывающий домен субъединицы IRF9 и происходит основное взаимодействие ISGF3 с сайтом ISRE, находящимся в промоторной области многих генов, индуцируемых интерферонами 1-го типа [Samuel С.Е., 2001].

При связывании ИФ-у с рецепторами 2-го типа (IFNGR II) активируются киназы Jakl и Jak2, фосфорилируя главным образом STAT1 (Рис. 1.3). Фосфорилированный STAT1 димеризуется и транспортируется в ядро, где взаимодействует со специфическими сайтами GAS, локализованными в промоторах ИФ-у-индуцируемых генов [Platanias L.C., 2005].

Фосфорилированные STAT-факторы регистрируются в ядре уже через 5 минут после стимуляции интерфероном. Их взаимодействие со специфическими сайтами связывания на ДНК приводит к значительному усилению экспрессии генов-мишеней. При действии ИФ-а максимальная экспрессия достигается через 20 мин и снижается примерно через час; при действии ИФ-у, максимальный уровень экспрессии поддерживается в течение часа. AGTTTCNNTTTCNCR TTTCCNGGAAA ISGF3 (Interferon-Stimulated Gene Factor 3) является главным активатором транскрипции генов раннего ответа на ИФ при индукции интерферонами первого типа. Он состоит из димера STAT1/STAT2 и белка IRF9 (известного также под именами р48 и ISGF3y) и связывается с ISRE (Interferon Stimulated Response Element) - последовательностью ДНК, присутствующей в промоторных районах большинства генов раннего ответа на ИФ 1-го типа. Консенсусная последовательность ISRE, AGTTTCNNTTTCNR [Platanias L.C., 2005; Kisseleva Т. et а!., 2002; Samuel С.Е., 2001] достаточно длинная, что характерно для сайтов связывания больших транскрипционных факторов.

Имеются данные о гораздо большей аффинности фактора ISGF3, если рядом расположены два его сайта и формируется комплекс из двух факторов. Возможно также взаимодействие димера STAT и тримера ISGF3 [Li X. et al, 1998].

Особенности структурно-функциональной организации генных сетей и требования к компьютерной системе для их реконструкции на основе аннотации экспериментальных данных

В настоящем разделе обзора литературы будут рассмотрены общие особенности организации генных сетей, опираясь на сделанное выше детальное описание генной сети интерфероновой системы. При необходимости будет привлекаться дополнительная информация.

Генные, или генетические, сети разные исследователи понимают по-разному. Некоторые считают генной сетью набор генов, оказывающих влияние друг на друга [Brazhnik P. et al., 2002]. Другие согласны с тем, что в генную сеть необходимо включать не только гены, но и белковые продукты, кодируемые этими генами [Hasty J. et al., 2001; McAdams H.H. and Shapiro L., 2003]. Однако все больше исследователей приходит к мысли, что при реконструкции генных сетей следует рассматривать не только из генов и белков, но также включать в себя участников всех молекулярно-генетических и биохимических процессов, определяющих функционирование этой генной сети [Hatzimanikatis V. and Lee К.Н., 1999; Wagner A., 2001; Aim E. and Arkin A.P., 2003]. Соглашаясь с последними, под генной сетью будем подразумевать группу координировано экспрессирующихся генов, обеспечивающих выполнение какой-либо функции организма, а также вовлеченные в этот процесс различные молекулы (белки, РНК, метаболиты, энергетические молекулы и т.д.) [Kolpakov F.A. et al, 1998; Колчанов Н.А. и др., 2000].

Функционирование генных сетей основано на координированном протекании огромного количества молекулярно-генетических, биохимических, физиологических и других процессов. Элементарными участниками этих процессов выступают как биологические макромолекулы (ДНК, РНК, белки), так и низкомолекулярные вещества (метаболиты, сахара, липиды, стероиды, ионы металлов и т.д.). Согласно некоторым оценкам, в геноме человека содержится более 1 800 генов транскрипционных факторов и около 1 500 генов рецепторов [Papin J.A. et al., 2005], которые играют очень важную роль в работе генных сетей.

Исследование генной сети интерфероновй индукции (см. раздел 1.2) позволило выделить в генной сети несколько обязательных типов структурных компонент и процессов:

1) Группа координирование экспрессирующихся генов, составляющая "ядро" сети. Для генной сети интерфероновой системы это "ядро" состоит из генов интерферонов, генов ТФ семейств STAT и IRF, а также набора ИИГ раннего ответа на ИФ [Baccala R. et al., 2005; Conzelmann K.K., 2005; Platanias L.C., 2005]. Такое "ядро" обязательно присутствует в любой генной сети и является ее характерной особенностью, которая определяется информацией, генетически закодированной в ДНК.

2) РНК, как необходимые промежуточные компоненты синтеза белка и регуляции экспрессии генов. В настоящее время становится понятно, что малые РНК играют важную роль как в регуляции экспрессии генов [Kong Y. and Han J.H., 2005; Kim V.N., 2005], так и регуляции противовирусного ответа [Sullivan C.S. and Ganem D., 2005; Li H.W. and Ding S.W., 2005]. Их влияние также необходимо учитывать при описании генных сетей.

3) Белки, выполняющие регуляторные, каталитические, транспортные, структурные и другие функции. Понятно, что именно белки несут основную функциональную нагрузку в любой молекулярно-генетической системе, в том числе и в интерфероновой [Platanias L.C., 2005; Baccala R. et al., 2005]. При этом необходимо помнить, что у белков есть различные функциональные состояния - активное и неактивное, что они могут быть с различными модификациями (фосфорилированные, гликозилированные и т.д.), могут функционировать в составе разных комплексов (димеры, мультимеры и т.д.)

4) Низкомолекулярные соединения. К этой группе относятся сигнальные молекулы -гормоны и метаболиты, осуществляющие переключение функции генных сетей в ответ на внешние воздействия. Сюда же следует отнести энергетические молекулы и различные метаболиты, возникающие в ходе функционирования генных сетей и другие небелковые компоненты клеточных структур.

5) Более крупные составные структуры - компартменты клетки и даже всего организма, в составе которых взаимодействуют вышеперечисленные элементарные структуры. Для клетки это ядро, цитоплазма, митохондрии, различные мембраны и т.д. Для организма компартментом может служить отдельный орган или его часть, ткань и даже тип клеток [Kolpakov F.A. et al., 1998; Колчанов Н.А. и др., 2000].

Многие исследователи учитывают все или часть вышеперечисленных компонентов при комплексном изучении генных сетей [Hatzimanikatis V. and Lee К.Н., 1999; Wagner A., 2001]. Но даже те, кто считает, что удобнее выделять взаимодействия на уровне генов, а также отдельные уровни белковых и метаболических сетей, тем не менее согласны, что при изучении или моделировании генных сетей на системном уровне необходимо учитывать вклад всех составляющих [Brazhnik P. et al., 2002].

Характерной особенностью генных сетей является их способность к саморегуляции за счет замкнутых регуляторных контуров с отрицательными и положительными обратными связями [Колчанов Н.А. и др., 2000]. В функционировании регуляторных контуров важнейшую роль играют взаимодействия регуляторных компонентов генной сети с сайтами-мишенями на ДНК, РНК и белках. Благодаря двум типам регуляторных контуров (отрицательным и положительным обратным связям) возможно поддержание определенного функционального состояния генной сети или ее переход в другие режимы работы, в том числе и под влиянием факторов внешней среды.

Базовые принципы создания формализованного описания генных сетей

При создании формального языка для описания объектов и процессов генных сетей в качестве базового подхода был применен объектно-ориентированный подход. Использование объектно-ориентированного подхода предпочтительно в тех случаях, когда данные имеют сложную структуру и сложные взаимоотношения, и при этом необходимо обеспечить свободный прямой доступ к каждому из входов базы [Karp P.D. and Riley М., 1993; Kalinichenko L.A., 1997] и семантическую целостность данных. [Schweigert S. et al., 1995]. Преимущества объектно-ориентированного подхода состоят также в том, что он изначально предполагает классификацию объектов, позволяет сводить отношения между объектами к отношениям между классами и позволяет производить декомпозицию сложных систем на более простые подсистемы.

В качестве элементарных структур генных сетей мы выделяем гены, РНК, белки и небелковые вещества [Колчанов Н.А. и др., 2000]. Составными объектами генных сетей являются органы, ткани, клетки, клеточные компартменты и т.д. Они могут включать в себя как элементарные структурные единицы, так и другие составные объекты. Предусмотрена возможность добавления новых классов элементарных структур и составных объектов по мере необходимости. Каждому классу элементарных структур приписывается набор свойств (атрибутов), среди которых есть как общие для всех классов (полное и короткое название, синонимы, идентификаторы, время полураспада и т.д.), так и атрибуты, специфичные для отдельного класса. Например, для класса белков это мультимерное состояние (мономер, гомо- или гетеродимер, мультимер), субъединичный состав, модификации (фосфорилирование, метилирование, ацетилирование), функциональное состояние (активное или не активное). Элементарные взаимодействия

Класс элементарных взаимодействий был разделен на два подкласса: реакции и регуляторные воздействия [Колчанов Н.А. и др., 2000]. К реакциям мы относим достаточно разнородный класс событий, в результате которых происходит образование новых объектов, например, мультимеризация или распад мультимерных комплексов, модификация белка (фосфорилирование или ацетилирование), транспорт веществ и т.д. Регуляторное воздействие - это влияние одного или нескольких структурных компонентов сети на взаимодействие между другими компонентами (как на реакцию, так и на регуляторное воздействие). Примером регуляторных воздействий могут служить каталитическое действие фермента или влияние метаболита на ход ферментативной реакции, влияние транскрипционного фактора на экспрессию гена и т.д. В зависимости от типа влияния мы выделяем 4 вида регуляторных взаимодействий: (1) включение, когда регулятор инициирует процесс; (2) выключение, когда регулятор прекращает течение процесса; (3) усиление, когда регулятор повышает скорость или эффективность протекания процесса; (4) ослабление, когда регулятор снижает скорость или эффективность процесса, но не выключает его до конца.

Взаимодействия между компонентами генной сети могут быть как прямыми, когда участники процесса непосредственно контактируют друг с другом, так и опосредованными (непрямыми), проходящими в несколько стадий, детали которых могут оказаться неизвестными. Эту особенность взаимодействий также следует учитывать при их описании.

. Пространственная распределенность компонентов

При описании генной сети необходимо учитывать, что ее компоненты могут быть разнесены по различным органам, тканям, клеткам и клеточным компартментам. Часть процессов протекает на клеточной мембране (взаимодействие сигнальных молекул с рецепторами), часть - в цитоплазме (пути передачи сигналов), часть - в ядре (транскрипция) и т.д. Следовательно, необходима привязка структурных компонентов и взаимодействий генной сети к определенным компартментам.

Иерархия уровней представления генной сети

Для того чтобы адекватно описывать генные сети, нужно иметь возможность как детализировать представление сети до уровня взаимодействия отдельных молекул, так и обобщать его до уровня организма в целом или даже взаимодействия разных организмов (например, симбионтов). Исходя из этого, мы выделяем три уровня представления генной сети: 1. Молекулярный. На этом уровне описываются взаимодействия молекул в пределах, как правило, одного-двух компартментов клетки. Например, пути передачи сигналов или регуляция транскрипции. Детализация процессов на этом уровне максимальна.

Построение методов распознавания сайтов связывания ключевых регуляторов интефероновой системы (АР-1, IRF1, ISGF3, NF кВ, STAT1)

Для того, чтобы определить, какие типы сайтов связывания транскрипционных факторов (ССТФ) играют значительную роль в регуляции ИИГ, на первом этапе был проведен анализ накопленной в базе данных IIGRRD информации о известных ССТФ в регуляторных районах ИИГ. Для этих генов, по данным из экспериментальных работ, было доказано наличие сайтов связывания (СС) более чем 90 различных транскрипционных факторов (ТФ). В Таблице 3.3 приведены данные по двенадцати типам сайтов, наиболее часто встречающихся в регуляторных районах генов из базы данных IIGRRD.

На ССТФ, частота встречаемости которых в регуляторных районах ИИГ оказалась больше 20%, было обращено основное внимание при дальнейшей работе. Как видно из Таблицы 3.3, это оказался ТАТА-бокс и сайты связывания пяти ТФ, а именно, IRF1, NF-KB, AP-1,ISGF3, STAT1.

Было изучено распределение экспериментально выявленных сайтов по отношению к старту транскрипции. Установлено, что большинство функциональных сайтов расположено в промоторном районе от -1 до -200 по отношению к старту транскрипции. Тем не менее, функциональные сайты встречаются и в очень удаленных 5 -энхансерах, вплоть до -5000, а также в энхансерах, расположенных в интронах, до +1 500 по отношению к старту транскрипции [Hartman S.E. et ah, 2005]. На Рисунке 3.2 приведено распределение относительно старта транскрипции СС пяти наиболее часто встречающихся ТФ в генах из базы данных IIGRRD. Однако, такое распределение сайтов могло отражать не только реальную картину, но и повышенный интерес исследователей к промоторным районам генов. Поэтому мы решили сравнить распределения экспериментально выявленных и потенциальных (предсказанных компьютерными методами) СС разных ТФ. Для этого нужно было прежде всего создать надежные методы распознавания потенциальных СС ключевых регуляторов интефероновой системы (IRF1, NF-KB, АР-1, ISGF3, STAT1) на основе выборок экспериментально выявленных функциональных природных сайтов.

Для построения методов распознавания сайтов связывания транскрипционных факторов, играющих большую роль в регуляции генов из базы данных IIGRRD, были экстрагированы экспериментально выявленные сайты связывания транскрипционных факторов АР-1, IRFI, ISGF3, NF-KB И STAT1. В работе использовались последовательности длиной от 50 до 100 п.о. Выборки были выровнены относительно консенсусных последовательностей сайтов.

В полученном нами консенсусе крайние буквы не совпадают с известным из литературных данных API консенсусом C/G TGAGTCAG [Fisch Т.М. et al, 1989]. При этом следует отметить, что в реальных сайтах связывания API даже в наиболее консервативной части консенсусной последовательности TGAGTCA часто наблюдаются несовпадения с консенсусом в двух и даже в трех из семи позиций, например, TGAcaaA в сайте S4959 или TGAcTtg в сайте S4961 (Рис. 3.3а).

Как видно из Рисунка 3.3, сайт связывания API, с которым взаимодействуют гетеродимерные транскрипционные факторы семейств Jun и Fos [Chinenov Y. and Kerppola Т.К., 2001] состоит не более чем из 10 п.о. и содержит инвертированный повтор (TGAGTCA), что является характерной деталью сайтов связывания димерных белков.

Закономерностей расположения нуклеотидов во фланкирующих областях этого сайта не обнаружено. Вероятно, область контакта API с ДНК не превышает один виток спирали ДНК.

На Рисунке 3.4 приведена выборка природных сайтов связывания IRF1, состоящая из 30 последовательностей, а также весовая матрица и консенсус, полученные на основе этой выборки.

Центральная часть полученной консенсусной последовательности, ASTTTCACTTTYH, не противоречит известному из литературы консенсусу A/G G/C Т Т Т С A/G G/C Т Т Т (Т) С [Tanaka N. et al, 1993], однако, включает в себя более строгие требования к трем центральным нуклеотидам (САС) и значительно ограничивает вариации флангов. Консенсусная последовательность IRF1 содержит повтор тринуклеотида ТТТ, что достаточно необычно для сайта связывания мономерного белка, но имеет большое значения для взаимодействия с факторами семейства IRF, ДНК-связывающий домен которых содержит несколько триптофановых кластеров [Lohoff М. and Мак T.W., 2005].

Наиболее консервативная часть сайта связывания IRF1 состоит как минимум из девяти нуклеотидов, и для 7-8 фланкирующих нуклеотидов с обеих сторон также выявлена некоторая консервативность. Это свидетельствует о важности фланкирующих последовательностей для связывания IRF1 с ДНК, и, возможно, для функционирования этого фактора in vivo. Известно, что IRF1, как и большинство членов семейства IRF, способен образовывать комплексы с другими транскрипционными факторами [Lohoff М. and Мак T.W., 2005]. Процесс формирования таких комплексов может также зависеть от контекста фланкирующих последовательностей сайта.

Похожие диссертации на Разработка технологии реконструкции и компьютерного анализа генных сетей и ее применение в биологических исследованиях