Содержание к диссертации
Введение
ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ 11
1.1. Особенности структурно-функциональной организации геномной ДНК 11
1.1.1. Общие сведения о структуре двойной спирали ДНК 11
1.1.2. Конформационные и физико-химические контекстно-зависимые свойства ДНК 13
1.1.3. Контекстно-зависимые конформационные и физико-химические свойства ДНК как особый тип кода, значимого для функционирования геномов 20
1.2. Регуляция транскрипции генов эукариот. Транскрипционные факторы и
топоизомераза 1 22
1.2.1. Структурно-функциональная организация 5'-регуляторных районов, контролирующих транскрипцию генов эукариот 22
1.2.2. Классификация транскрипционных факторов 25
1.2.3. Основные типы ДНК-связывающих доменов транскрипционных факторов 29
1.2.3.1. ДНК-связывающий домен типа спираль-поворот — спираль 29
1.2.3.2. ДНК-связывающий домен, координированный ионами цинка 31
1.2.3.3. ДНК-связывающий домен, обогащенный положительно заряженными аминокислотными остатками 34
1.2.3.4. Домен типа |3-скэффолд 36
1.2.4. Конформация ДНК в комплексах с транскрипционными факторами 38
1.2.5. ДНК топоизомераза 1 41
1.3. Компьютерные методы распознавания функциональных последовательностей ДНК
46
1.3.1. Метод консенсуса 47
1.3.2. Метод весовых матриц 49
1.3.3. Метод скрытых Марковских цепей и байесовские сети 52
1.3.4. Метод дискриминантного анализа 54
1.3.5. Метод конформационных параметров: система B-DNA Video 54
1.3.6. Метод статистического потенциала 57
1.3.7. Статистические характеристики, используемые для сравнения точности методов распознавания 59
1.3.8. Метод филогенетического футпринтинга 64
Заключение по обзору литературы 66
ГЛАВА 2. МЕТОДЫ. КОМПЬЮТЕРНАЯ СИСТЕМА SITECON 68
2.1. Компьютерная система SITECON: Выявление, визуализация и хранение данных о значимых контекстно-зависимых конформационных и физико- химических особенностях ДНК функциональных сайтов 68
2.1.1. Метод выявления значимо консервативных конформационных и физико-
химических свойств ДНК в позициях выборки функциональных сайтов 68
2.1.2. Визуализация информации о консервативных конформационных и физико-химических свойствах ДНК функциональных сайтов 71
2.1.3. База данных выборок иуклеотидных последовательностей сайтов связывания транскрипционных факторов 73
2.1.4. База знаний значимых конформационных и физико-химических свойств ДНК сайтов 74
2.2. Компьютерная система SITECON: Метод распознавания потенциальных сайтов
связывания транскрипционных факторов по их значимым конформационным и физико-
химическим характеристикам 75
2.2.1. Метод использования данных о значимо консервативных конформационных и физико-химических свойствах сайтов связывания транскрипционных факторов для распознавания потенциальных сайтов 75
2.2.2. Отбор конформационных и физико-химических свойств, наиболее информативных для распознавания 78
2.2.3. Расчет ошибок распознавания для определения значимости предсказанных сайтов, расчет стандартных характеристик для определения и сравнения качества распознавания 80
2.2.4. Сравнение качества распознавания разработанного метода с методом весовых матриц 83
2.2.5. Интерфейс пользователя Интернет — доступной системы SITECON 84
Заключение к главе 2 88
ГЛАВА 3. ИССЛЕДОВАНИЕ КОНФОРМАЦИОННЫХ И ФИЗИКО- ХИМИЧЕСКИХ СВОЙСТВ САЙТОВ СВЯЗЫВАНИЯ ТРАНСКРИПЦИОННЫХ ФАКТОРОВ И САЙТОВ РАЗРЕЗАНИЯ ДНК ТОПОИЗОМЕРАЗОЙI ЧЕЛОВЕКА 89
3.1. Исследование сайтов связывания гетеродимера E2F/DP 89
3.2. Исследование сайтов связывания SF-1 99
3.3. Исследование сайтов связывания двух представителей транскрипционных факторов КЛАССА MADS. Анализ сходства и различия выявленных конформационных особенностей 107
3.3.1. Исследование сайтов связывания SRF 107
3.3.2 Исследование сайтов связывания МСМ1 116
3.4 Исследование консервативных характеристик сайтов расщепления ДНК
топоизомеразой I человека 122
3.4.1. Данные о контекстных особенностях сайтов расщепления ДНК топоизомеразой
I человека 122
3.4.2. Локальные конформационные и физико-химические особенности сайтов расщепления ДНК топоизомеразой I человека 123
3.4.3. Изгибная жесткость ДНК последовательностей и их связь со структурой и
функциональной активностью фермента 125
Заключение к главе 3 130
ГЛАВА 4. РАСПОЗНАВАНИЕ САЙТОВ СВЯЗЫВАНИЯ ТРАНСКРИПЦИОННЫХ ФАКТОРОВ НА ОСНОВЕ ДАННЫХ О КОНСЕРВАТИВНЫХ КОНФОРМАЦИОННЫХ И ФИЗИКО- ХИМИЧЕСКИХ СВОЙСТВАХ ДВОЙНОЙ СПИРАЛИ ДНК 132
4.1. Распознавание сайтов связывания гетеродимера E2F/DP 132
4.2. Распознавание сайтов связывания транскрипционных факторов SF-1 и планирование
эксперимента по выявлению этих сайтов в промоторах генов млекопитающих 136
4.2.1. Метод распознавания сайтов связывания SF-1 136
4.2.2. Выбор порога распознавания сайтов связывания SF-1 138
4.2.3. Распознавание сайтов связывания SF-1 в промоторных районах генов стероидогенеза 139
4.2.4. Анализ локализации сайтов связывания SF-1 в регуляторных районах генов-ортологов 142
4.3. Распознавание сайтов связывания транскрипционных факторов SREBP и
планирование эксперимента по выявлению этих сайтов в промоторах генов
млекопитающих 145
4.3.1. Метод распознавания сайтов связывания SREBP 145
4.3.2. Выявление сайтов связывания SREBP в промоторных районах генов липидного метаболизма 150
ЗАКЛЮЧЕНИЕ 153
ВЫВОДЫ 156
Список цитируемой литературы 157
- Особенности структурно-функциональной организации геномной ДНК
- Компьютерная система SITECON: Выявление, визуализация и хранение данных о значимых контекстно-зависимых конформационных и физико- химических особенностях ДНК функциональных сайтов
- Исследование сайтов связывания гетеродимера E2F/DP
Введение к работе
АКТУАЛЬНОСТЬ ПРОБЛЕМЫ
Регуляция транскрипции играет ключевую роль в механизмах регуляции экспрессии генов. У эукариот этот процесс контролируется огромным количеством разнообразных белковых молекул, которые в процессе сложнейших ДНК-белковых и белок-белковых взаимодействий обеспечивают выполнение функций транскрипционного аппарата. Одним из основных механизмов регуляции экспрессии генов на уровне транскрипции является процесс взаимодействия белков - факторов транскрипции с сайтами их связывания в регуляторных районах генов. В процесс транскрипции вовлечена также топоизомераза. Связываясь с ДНК, она обеспечивает сохранение топологии спирали ДНК в процессах транскрипции и репликации. Исследование особенностей связывания белковых факторов с последовательностями ДНК является одним из ключевых моментов для понимания основ регуляции транскрипции.
Приблизительная оценка числа сайтов связывания транскрипционных факторов (ССТФ) в геноме дает числа более сотен тысяч (Kolchanov et al, 2007). Экспериментальное выявление такого количества сайтов является чрезвычайно сложной и дорогостоящей задачей. Один из путей решения этой проблемы основан на создании эффективных методов планирования экспериментов по выявлению сайтов связывания транскрипционных факторов. В связи с этим важнейшее значение приобретает создание точных методов предсказания ССТФ, обеспечивающих минимальное число ложных предсказаний, что, в свою очередь, дает возможность рационального планирования эксперимента по выявлению ССТФ (Kolchanov et al, 2007; Меркулова и др., 2007).
Как правило, каждый транскрипционный фактор обладает способностью связываться с набором сайтов, сходных по нуклеотидной последовательности. В настоящее время существует большое число методов распознавания потенциальных сайтов связывания, основанных на анализе контекстного сходства. Однако эти методы, как правило, не учитывают, или недостаточно эффективно используют данные о контекстно-зависимых конформационных и физико-химических особенностях ДНК сайтов связывания.
Многочисленные экспериментальные данные, полученные за последние 20 лет, однозначно свидетельствуют о том, что геномная ДНК неоднородна как по конформации, так и по своим физико-химическим свойствам (Suzuki et al., 1997). Накоплен большой объем экспериментальных данных по пространственному строению двойной спирали ДНК, ДНК-белковых комплексов, а также о зависимостях локальных конформационных и физико-химических свойств двойной спирали ДНК от нуклеотидной последовательности. В то же время, как экспериментальные данные, так и компьютерный анализ и теоретическое обобщение этих данных показывают, что способность регуляторных белков взаимодействовать с двойной спиралью ДНК в сильной степени зависит от ее локальных конформационных и физико-химических свойств (Starr et al., 1995; Meierhans etal, 1997; Ponomarenko et al., 1997).
Однако количество научных публикаций по распознаванию ССТФ на основе анализа контекстно-зависимых конформационных и физико-химических свойств ДНК весьма ограничено (Kolchanov et al., 2007; Меркулова и др., 2007). В связи с этим актуальной задачей является разработка компьютерных подходов к анализу контекстно-зависимых конформационных и физико-химических свойств сайтов связывания транскрипционных факторов и построения на этой основе точных методов их распознавания в геномной ДНК эукариот. Использование данных о контекстно-зависимых конформационных и физико-химических свойствах при анализе сайтов связывания транскрипционных факторов может привести не только к повышению качества их распознавания, но и позволит получить полезную информацию об особенностях ДНК-белковых взаимодействий.
ЦЕЛИ И ЗАДАЧИ ИССЛЕДОВАНИЯ
Целью работы являлось выявление особенностей контекстно-зависимых конформационных и физико-химических свойств ДНК функциональных сайтов в геномах эукариот с помощью компьютерного анализа и создание на этой основе подхода для планирования экспериментов по выявлению сайтов связывания регуляторных белков.
В работе были поставлены следующие задачи:
1. Разработка компьютерного метода выявления контекстно-зависимых конформационных и физико-химических особенностей ДНК функциональных сайтов.
Проведение компьютерного анализа конформационных и физико-химических свойств ДНК сайтов связывания различных транскрипционных факторов и сайтов расщепления ДНК топоизомеразой 1 человека.
Разработка методов распознавания потенциальных сайтов связывания различных транскрипционных факторов, в частности, SF-1, SREBP и гетеродимера E2F/DP на основе выявленных значимых конформационных и физико-химических свойств этих сайтов.
Создание Интернет-доступной компьютерной системы для анализа и распознавания сайтов связывания транскрипционных факторов, создание информационного ресурса по особенностям конформационных и физико-химических свойств для доступных выборок сайтов связывания транскрипционных факторов и методам их распознавания.
Проведение планирования экспериментов по локализации сайтов связывания транскрипционных факторов SF-1 и SREBP в промоторных районах генов млекопитающих.
НАУЧНАЯ НОВИЗНА
Впервые показано наличие значимых консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК в выборках различных классов последовательностей функциональных сайтов - сайтов связывания транскрипционных факторов и сайтов расщепления ДНК топоизомеразой I человека. Впервые разработана система SITECON, представляющая собой реализованный в виде компьютерной программы комплекс методов для выявления консервативных конформационных и физико-химических свойств сайтов связывания транскрипционных факторов (ССТФ) и распознавания с использованием этих данных потенциальных ССТФ. С помощью этой системы исследованы конформационные и физико-химические особенности сайтов связывания четырех типов транскрипционных факторов (SF-1, SRF, МСМ1 и E2F/DP). Показано, что сайты каждого типа характеризуются уникальным набором конформационных и
8 физико-химических особенностей двойной спирали ДНК, отличающих их от случайных последовательностей нуклеотидов. Анализ показал, что выявляемые консервативные конформационные и физико-химические свойства ДНК изученных функциональных сайтов отражают специфику ДНК-белковых взаимодействий. Впервые проведено планирование эксперимента по проверке потенциальных сайтов связывания SF1 и SREBP. Независимо проведенная экспериментальная проверка выявленных сайтов показала высокую эффективность применяемого комплекса методов.
НАУЧНАЯ И ПРАКТИЧЕСКАЯ ЦЕННОСТЬ
Разработанная система SITECON обеспечивает возможность выявления значимых консервативных контекстно-зависимых конформационных и физико-химических особенностей ДНК функциональных сайтов на основе анализа выборок последовательностей этих сайтов. Используемый системой метод выявления особенностей ДНК может использоваться для анализа разнообразных сайтов в геномах эукариот. Выявленные характеристики ДНК функциональных сайтов являются основой для создания методов их распознавания в геномной ДНК. Система SITECON обладает высокой производительностью и может применяться для массового анализа сайтов связывания транскрипционных факторов, информация о значимых конформационных и физико-химических особенностях которых накапливается в соответствующей базе знаний. В настоящее время эта база знаний содержит результаты анализа 220 выборок последовательностей сайтов связывания различных транскрипционных факторов и методы их распознавания. Проведенные исследования показали высокую точность распознавания сайтов связывания транскрипционных факторов системой SITECON, что критически значимо для эффективного планирования экспериментов по выявлению таких сайтов в геномах эукариот. Система SITECON доступна по сети Интернет () и может применяться в учебном процессе как в курсах биоинформатики (информационной биологии), так и в курсах экспериментальной молекулярной биологии.
Представленный в диссертации комплекс методов SITECON был успешно применен для распознавания сайтов связывания транскрипционных факторов SF-1, SREBP, FOXA, E2F/DP, IRF, ISGF3, STAT, NF-kB, COUP-TF, PPAR, HSF, AhR; a
9 также использован при планировании эксперимента по распознаванию сайтов SF-1 и SREBP в промоторах генов млекопитающих. Получено авторское свидетельство № 2006610270 "Программа для определения консервативных свойств в сайтах связывания транскрипционных факторов и их распознавания (САЙТКОН) / The tool for detecting conservative properties in transcription factor binding sites and for site recognition (SITECON)", автор: Ощепков Д.Ю., зарегистрировано 10.01.2006.
ПУБЛИКАЦИИ
По теме диссертационной работы опубликовано 33 работы, из них 9 статей в рецензируемых и ведущих журналах, 5 из которых входят в список ВАК, и 6 публикаций в монографиях. Результаты работы представлены на 10 российских и 2 зарубежных конференциях в виде устных докладов и стендовых сообщений, среди которых первая, вторая, третья, четвертая, пятая и шестая международные конференции по биоинформатике, структуре и регуляции генома (г. Новосибирск, август 1998 г., июль 2000 г., июль 2002 г., август 2004 г., июль 2006г., июнь 2008г.); международная конференция по компьютерной молекулярной биологии, (Москва, июнь 2003 г.); 27th International Symposium on Halogenated Persistent Organic Pollutants "Dioxin 2007", 2-7 September, 2007; Conference on modeling and simulation in biology, medicine and biomedical engineering. Linkoping, Sweden, May 26-27, 2005.
Структура работы
Диссертационная работа состоит из введения и обзора литературы (глава I), трёх разделов, содержащих основные результаты (главы II- IV), выводов, списка цитированной литературы (267 ссылок). Работа изложена на 177 страницах, содержит 41 рисунок и 28 таблиц. Нумерация рисунков, таблиц и формул производится отдельно для каждой главы.
Благодарности
Автор выражает благодарность следующим сотрудникам Института цитологии и генетики СО РАН: старшему научному сотруднику, к.б.н. Елене Васильевне Игнатьевой, сотрудникам лаборатории регуляции экспрессии генов и лично заведующей лабораторией д.б.н. Татьяне Ивановне Меркуловой, а также зав.
10 сектором мутагенеза и репарации д.х.н. Георгию Александровичу Невинскому за плодотворное сотрудничество, ведущему научному сотруднику д.б.н. Дагмаре Павловне Фурман и зав. лаб. генной инженерии к.б.н. Алексею Владимировичу Кочетову за помощь в работе над текстом диссертации. Автор благодарен за плодотворные дискуссии и предоставление в пользование базы данных контекстно-зависимых конформационных и физико-химических свойств ДНК «PROPERTY» старшему научному сотруднику, к.б.н. Михаилу Павловичу Пономаренко, а также всем сотрудникам лаборатории теоретической генетики, с которыми автор сотрудничал при работе над диссертацией.
Вклад автора
Автором диссертации был самостоятельно разработан комплекс методов системы SITECON, проведено выявление и анализ консервативных свойств всех описанных в диссертации типов сайтов связывания транскрипционных факторов, проведено распознавание всех потенциальных ССТФ, описанных в диссертации. Автор привнес решающий вклад в работу по анализу консервативных свойств сайтов расщепления топоизомеразой I человека, планированию экспериментов по проверке потенциальных сайтов SF-1 и SREBP, анализу локализации сайтов SF-1 в регуляторных районах генов-ортологов.
Принятые сокращения
ТФ - транскрипционный(е) фактор(ы),
ССТФ - сайты связывания транскрипционных факторов,
ДСД - ДНК-связывающий домен;
БД - база данных;
Торо - ДНК-топоизомераза I человека;
РСА - рентгеноструктурный анализ; а.о. - аминокислотный остаток; п.н. - пар нуклеотидов; EMSA - Electrophoretic Mobility Shift Assays, метод задержки ДНК-пробы в геле.
Особенности структурно-функциональной организации геномной ДНК
Наиболее распространена in vivo В-форма ДНК (рис. 1.1), представляющая собой правозакрученную спираль, состоящую из двух цепей, положение которых фиксируется за счет формирования водородных связей между парами комплементарных оснований. Каждому шагу спирали соответствует одна комплементарная пара оснований. Для В-формы ДНК на один виток спирали приходится в среднем 10.5 п.н.; поперечный размер спирали составляет 19 A (van Holde, 1989).
А-форма, так же как и В-форма, представляет собой правозакрученную двойную спираль ДНК (рис. 1.1). А-форма характеризуется 11-12 п.н. на виток и поперечным размером 23 A (van Holde, 1989). Гибрид ДНК-РНК может существовать только в А-форме (Зенгер, 1987).
Рисунок 1.1. Объемное изображение трех типов двойных спиралей
ДНК с указанием большой и малой бороздок (желобков). Классификация форм ДНК: В-, А- и Z-формы. Изображение спирали ДНК с указанием большой и малой бороздки (желобка) (Сингер и Берг, 1998).
Z-форма ДНК, в отличие от А- и В-форм, является левозакрученной двойной спиралью (рис. 1.1). Эту форму могут образовывать полимеры вида (RY)n, в которых пурины (R=A,G) чередуются с пиримидинами (Y=C,T). Двойная спираль в Z-форме имеет выраженную зигзагообразную конформацию (рис. 1.1). Это означает, что угол спирального вращения длинной оси симметрии пары оснований ДНК (угол твист) различен для двух соседних пар оснований: при этом чередуются два значения угла спирального вращения. Показано существование ДНК в Z-форме в политенных хромосомах плодовой мушки. Показано также, что Z-форма ДНК может выполнять регуляторную функцию (Sheridan et al, 1999). В таблице 1.1 даны примеры значений основных конформационных параметров для структур ДНК разных типов.
Впервые зависимость конформации В-формы ДНК от нуклеотидного контекста была обнаружена Dickerson and Drew (1981), путем рентгепоструктурного анализа додекамеров ДНК. Растущее число данных структурного анализа показало неоднородность конформационных и физико-химических свойств ДНК и их зависимость от нуклеотидной последовательности (Kabsch et al., 1982; Calladine and Drew, 1986; Calladine etai, 1988; Drew et al, 1988; Brukner et al, 1990; Bolshoy etai, 1991; Brukner et al, 1991; Suzuki etai, 1996, 1997; Frank etai, 1997).
Затем различными авторами были показана зависимость от контекста ряда физико-химических свойств ДНК (рис. 1.2). В ряде случаев значения физико-химических свойств были приведены в соответствие с динуклеотидным кодом. Так, Gotoh и Tagashira (1981) показали зависимость температуры плавления спирали ДНК от контекста, Gartenberg и Crothers (1988) показали зависимость изгибной жесткости ДНК в комплексе с белком от контекста. Sugimoto с соавторами (1996) привели данные по изменению энтальпии АН0 , энтропии AS0 и свободной энергии AG0 при формировании двойной спирали, ими же были приведены уточненные значения температуры плавления Тт. М.П Пономаренко, взяв за основу данные по конформационным параметрам ДНК, полученные Sklenar с соавторами для гексануклеотидов, путем усреднения рассчитал контекстно-зависимые значения изгибной жесткости свободной ДНК, а также ряд других параметров для динуклеотидов (Ponomarenko et al, 1997; Пономаренко и др.,1991; Ponomarenko J.V. etai, 1999).
Для изучения конформационных особенностей ДНК ранее в лаборатории теоретической генетики ИЦиГ СО РАН на основе анализа литературы была собрана информация о зависимости различных конформационных и физико-химических параметров двойной спирали ДНК от контекста (табл. 1.2). Все эти данные были упорядочены М.П. Пономаренко в базе данных PROPERTY (http://wwwmgs.bionet.nsc.ru/mgs/gnw/bdna/). содержащей на данный момент значения 38-ми конформационных и физико-химических свойств для каждого из 16 возможных динуклеотидов (Ponomarenko J.V. etai, 1999).
Компьютерная система SITECON: Выявление, визуализация и хранение данных о значимых контекстно-зависимых конформационных и физико- химических особенностях ДНК функциональных сайтов
Подход базируется на поиске значимых особенностей конформационных и физико-химических свойств ДНК в позициях выборки функциональных сайтов. В дальнейшем под словом «выборка» подразумевается набор выравненных (фазированных) последовательностей ДНК одинаковой длины. Рассматривается выборка из N последовательностей ДНК длиной L (без разрывов). Каждому динуклеотиду сопоставляется значение определенного физико-химического или конформационного свойства Ft. В результате формируется матрица размером Элемент этой матрицы Fiki соответствует величине /-го свойства Ft динуклеотида в /-ой позиции к-оп последовательности.
Предполагается, что если значение конкретного свойства ДНК в определенном участке последовательности сайта сохраняется (консервативно) для всех сайтов выборки, то такое значение этого свойства ДНК в этом участке важно для функционирования этого сайта. Это обеспечивает малую величину дисперсии значений свойства по сравнению с выборкой случайных последовательностей. Выборка случайных последовательностей для этих расчетов генерируется путем случайного перемешивания нуклеотидов в исходной выборке.
Таким образом, малая величина дисперсии конкретного свойства говорит о консервативности свойства в данной позиции. Оценка значимости о" Fji і производится по критерию (Anderson, 1958). Т. о., значимыми являются те конформационные или физико-химические свойства ДНК функционального сайта, дисперсия которых достоверно мала по критерию х . Схема метода представлена на рисунке. 2.1.
Основными блоками системы являются:
1) интерфейс пользователя (раздел 2.3);
2) внутренняя база данных выборок последовательностей сайтов связывания транскрипционных факторов (раздел 2.1.3);
3) модуль выявления консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК функциональных сайтов, доступный через интерфейс системы SITECON (раздел 2.1.1);
4) база знаний, в которой накапливаются информация о консервативных контекстно-зависимых конформационных и физико-химических свойствах ДНК функциональных сайтов, доступная через интерфейс системы SITECON (раздел 2.1.4)
5) модуль автоматической генерации программы поиска функциональных сайтов на основе выявленных особенностей, доступный через интерфейс системы SITECON (раздел 2.2);
6) Модуль расчета ошибок распознавания (раздел 2.2.3)
7) База данных PROPERTY (http://wwwm.gs.bionet.nsc.ru/mgs/gnw/bdna/, в которой содержатся значения 38 конформационных и физико-химических свойств ДНК) (раздел 1.1.2). Полный список использованных свойств и значений, сопоставленных с каждым из возможных динуклеотидов, приведен в главе 1 (табл. 1.2).
Визуализация информации о консервативных конформационных и физико-химических свойствах ДНК функциональных сайтов
При анализе выборки функциональных сайтов и выявлении консервативных конформационных и физико-химических свойств ДНК в программе SITECON рассчитывается две матрицы. Первая матрица содержит значения стандартного отклонения о для всех анализируемых свойств г= 1...38 и для всех позиций выборки /=1...1,-1. Вторая матрица содержит средние значения свойств F,i и имеет тот же размер.
Следует подчеркнуть, что каждая из матриц содержит информацию, полезную для анализа. Поэтому пользователь программы SITECON должен иметь возможность получать информацию из каждой из этих матриц. Действительно, малое значение стандартного отклонения того или иного свойства в определенной позиции сайта говорит о его консервативности, а следовательно, функциональной значимости в соответствующей позиции. С другой стороны, отклонение среднего значения консервативного свойства в конкретной позиции от среднего значения этого свойства для случайных последовательностей может свидетельствовать о том, что данная величина свойства в конкретной позиции важна для распознавания сайта соответствующим белком. В то же время работа с двумя матрицами одновременно затруднена, в связи с чем возникает необходимость представления информации, содержащейся в каждой из них, на одной диаграмме.
На рисунке 2.3 приведен пример визуализации, позволяющей суммировать всю информацию о средних значениях свойств и их консервативности в виде одной цветовой диаграммы, отображая таким образом всю информацию обо всем наборе выявленных консервативных свойств. Столбцы этой диаграммы соответствуют позициям выборки, а строки - анализируемым конформационным и физико-химическим свойствам.
Каждая ячейка диаграммы содержит цветной элемент, относительный размер которого соответствует уровню значимости консервативности свойства. При этом количество промежуточных градаций размера соответствует уровням значимости 99,0%, 99,9% и 99,99% при проверке достоверности с помощью критерия X
Исследование сайтов связывания гетеродимера E2F/DP
Транскрипционные факторы E2F (Е2 promoter-binding factor) и транскрипционные факторы DP относятся к суперклассу 3, классу «Fork head/winged helix», ТФ семейства факторов, контролирующих клеточный цикл, подсемейству транскрипционных факторов E2F и подсемейству транскрипционных факторов DP, соответственно. У млекопитающих известно 8 представителей подсемейства E2F и три DP-белка (DPI, DP2 и DP3). Факторы E2F и DP преимущественно связываются с ДНК в форме гетеродимеров E2F/DP. Эта особенность характерна для 6 представителей E2F. Однако, недавно открытые факторы E2F-7 и E2F -8 связываются в виде мономера (Logan et al., 2005); механизм их связывания с ДНК отличается от механизма связывания первых 6-ти представителей подсемейства E2F. Далее мы будем рассматривать сайты связывания только первых шести представителей подсемейства E2F т.е. те сайты, когда связывание происходит в форме гетеродимера E2F/DP.
Транскрипционные факторы E2F играют важную роль в регуляции экспрессии на G1/S переходе клеточного цикла эукариот. Функциональные сайты связывания E2F/DP обнаружены в промоторах более чем 32 генов (данные TRRD), продукты которых необходимы для синтеза нуклеотидов, репликации ДНК и для прохождения клеточного цикла (Wells et ah, 2000). Транскрипция генов, регулируемых фактором E2F, усиливается в течение G1 фазы клеточного цикла достигая максимума в поздней G1 или ранней S фазах, и снижается в G2 и М фазах. Такая динамика опосредована действием транскрипционного фактора E2F, который, связываясь со своими сайтами в промоторах соответствующих генов, регулирует их транскрипцию на разных фазах клеточного цикла. Таким образом, факторы E2F контролируют транскрипцию группы генов, экспрессия которых необходима для прохождения клеточного цикла и, фактически, этот ТФ является ключевым регулятором клеточного цикла. Исходя из ключевой роли транскрипционных факторов E2F в регуляции транскрипции при прохождении клеточного цикла, очевидна важность анализа и предсказания потенциальных сайтов связывания этого фактора.
Представители белков подсемейства E2F имеют гомологию от 20% до 55%; белки DPI, DP2 и DP3 имеют гомологию 70%. ДНК-связывающий домен E2F имеет длину 70 аминокислот, для ДНК-связывающего домена DP этот район шире - 90 аминокислот. При этом 30 а.о. ДНК-связывающих доменов белков этих подсемейств полностью гомологичны. Белки E2F и DP имеют сходные особенности на уровне третичной структуры. Представление о структуре ДНК-белкового комплекса гетеродимеров E2F/DP дают результаты РСА, представленного в работе (Zheng et ai, 1999). Так, именно благодаря проведенному РСА удалось выяснить, что ДСД белков подсемейств E2F и DP имеет конформацию типа спираль с "крылышком" (winged helix/fork head, см. раздел 1.2.3.1), что позволило уточнить классификацию. До 1999 года белки подсемейств E2F и DP ошибочно относились к суперклассу 1, классу спираль-петля-спираль/лейциновая застежка (Helix-loop-helix / leucine zipper factors, bHLH-ZIP), семейству факторов, контролирующих клеточный цикл (Cell-cycle controlling factors) (Jordan et al., 1994, Вингендер, 1997).