Содержание к диссертации
Введение
Обзор литературы
Микро-, минисателлиты и другие виды тандемных повторов. Механизмы возникновения и размножения в геноме. Их роль и особенности распределения .
Поиск тандемных повторов в последовательностях биополимеров. Обзор алгоритмов и приложений. Стр.28
Результаты и обсуждение
Глава I. Построение статистической модели для оценки статистической значимости наблюдаемых периодических структур. Формулировка статистических критериев, позволяющих идентифицировать характерные сложные структуры в генетических текстах.
Глава II. Разработка алгоритма поиска периодических структур в последовательностях ДНК с использованием статистических инструментов. Реализация алгоритма и создание web-приложения. Разработка Интернет-сайта, посвященного программе .
Глава III. Создание базы данных тандемных повторов в различных эукариотических организмах Анализ распределений повторов и выделение характерных особенностей повторов для хромосом. Стр.60
Глава IV. Анализ распределений повторов с короткой длиной периода и выделение характерных особенностей повторов в различных функциональных участках ДНК на примере D. melanogaster .
TITLE4 Гипотеза частичного происхождения минисателлитных последовательностей от микросателлитных. TITLE
Заключение стр.81
Таблицы и иллюстрации стр.82
Приложения стр.111
Благодарности стр.112
Список литературы
- Микро-, минисателлиты и другие виды тандемных повторов. Механизмы возникновения и размножения в геноме. Их роль и особенности распределения
- Разработка алгоритма поиска периодических структур в последовательностях ДНК с использованием статистических инструментов. Реализация алгоритма и создание web-приложения. Разработка Интернет-сайта, посвященного программе
- Создание базы данных тандемных повторов в различных эукариотических организмах Анализ распределений повторов и выделение характерных особенностей повторов для хромосом.
Введение к работе
Актуальность темы исследования. Основным механизмом геномной эволюции долгое время считались точечные мутации нуклеотидов в последовательностях ДНК. Однако в последнее время было показано, что одним из важных дополнительных механизмов изменчивости являются геномные перестройки, в частности тандемные дупликации и мультипликации.
Механизмы дупликаций коротких слов, приводящие к возникновению и размножению микросателлитов, отличны от механизмов дупликации более длинных участков генома, приводящих к возникновению минисателлитов. Тем не менее, в обоих случаях могут возникнуть новые промоторные области, сайты альтернативного сплайсинга и т.д.
После возникновения сателлитной последовательности в результате действия одного из вышеописанных механизмов возможно изменение последовательности в результате точечных мутаций, что может привести к почти полному «исчезновению» сателлита. По-видимому, именно такие, деградировавшие сателлиты рекрутируются для различных биологических функций, включая регуляцию транскрипции и репликации, структурные модификации белков и т.д. Таким образом, требуется метод поиска сильно вырожденных, тандемно повторяющихся мотивов в последовательностях ДНК. Ввиду значительной вырожденности подобных повторов возможна неверная идентификация случайного участка генома как вырожденной сателлитной последовательности. Поэтому необходима оценка значимости найденных структур как неслучайных.
Вопрос разработки алгоритма для поиска тандемных повторов в ДНК стоит последние пятнадцать лет. В настоящий момент существует более десяти различных программ для поиска периодических структур в последовательностях ДНК. Но пока нельзя сказать, что существует единственно возможный исчерпывающий алгоритм поиска. Каждый
алгоритм нацелен на определенную задачу и класс определяемых повторов; степень их вырожденности, длина периода и другие параметры различны от программы к программе.
Объект, предмет и метод исследования. Объектом исследования являются периодические структуры в ДНК: микросателлиты (вырожденные и точные повторы с длиной повторяющейся единицы до 6 п.н.), минисателлиты (точные и средне вырожденные повторы с длиной повторяющейся единицы от 6 п.н. до 100 п.н.), сателлитные последовательности (точные и средне вырожденные тандемные повторы с длиной повторяющейся единицы от 100 п.н. до 200 п.н.) и сильно вырожденные, «исчезающие» тандемные повторы с длиной периода до 200 п.н. Предметом исследования является разработка метода идентификации тандемных повторов в ДНК и анализа свойства распределения тандемных повторов в различных функциональных участках ДНК, а также в хромосомах различных эукариотических геномов. Основные применяемые в диссертационном исследовании методы -автокорреляционный анализ для поиска кандидатных тандемных повторов, метод производящих функций и элементарных языков, а также средств комбинаторного анализа для получения формул для оценки статистической значимости найденных повторов. Исходной теоретической основой исследования являются труды отечественных и зарубежных ученых как в области теории алгоритмов, так и в области построения статистических моделей.
Цель и задачи исследования. Основной целью данного исследования является построение алгоритма идентификации тандемных повторов в ДНК с последующим анализом свойств распределения тандемных повторов в ДНК различных эукариотических геномов. Основным результатом работы должно стать получение алгоритма поиска повторов, удовлетворяющих заданным условиям по степени вырожденности и длине периода, как на уровне
полногеномного анализа, так и в коротких ДНК-последовательностях, его использование для картирования геномов на предмет наличия периодических структур, выводы о свойствах распределений повторов в геномах.
Достижение поставленных целей предполагает решение следующих задач.
Построение моделей для представления периодических последовательностей в ДНК.
Получение формул для оценки статистической значимости повторов для построенных моделей через подсчет вероятностей наблюдения данных структур в случайной последовательности.
Разработка алгоритма идентификации участков ДНК, обладающих периодической структурой на основе методов автокорреляционного анализа.
Интеграция процедуры оценки статистической значимости с процедурой поиска периодичностей для построения нового современного алгоритма определения сильно и слабо вырожденных тандемных повторов.
Имплементация алгоритма в виде отдельного приложения, а также создание Интернет-сайта для возможности сканирования последовательностей ДНК на наличие периодических участков через Интернет.
Создание базы данных тандемных повторов в различных функциональных участках ДНК различных организмов.
Анализ распределений повторов и выделение характерных особенностей повторов в каждой группе.
Научная новизна диссертационного исследования.
Благодаря построению нового алгоритма идентификации периодических структур в ДНК стало возможно изучение нового объекта - сильно вырожденных тандемных повторов.
Стало возможно получение более полных карт повторов для геномов эукариот. С помощью нового метода были определены обладающие периодической структурой участки, покрывающие до 30% генома, значительная часть которых не была определена как таковая до настоящего момента в существующих аннотациях геномов.
С помощью нового алгоритма поиска повторов стало возможно провести сравнительный анализ распределения повторов с большой длиной периода (до 200п.н.) в маштабе полных геномов эукариот.
Практическая значимость. Получение формул для оценки статистической значимости повторов дает возможность оценить значимость повторов, найденных в ДНК при помощи других алгоритмов, тем самым, давая инструмент для сравнения качества работы различных алгоритмов.
Были созданы базы данных для различных эукариотических геномов, включая геном человека, содержащие информацию о расположении, длине и количестве копий повторов с указанием их статистической значимости. Эти данные могут быть использованы в научных исследованиях как для маскирования повторов для их дальнейшей элиминации, так и для поиска в них различных сигналов: сайтов связывания белков, горячих точек рекомбинации и др.
Также, анализ распределения повторов в геномах близких и далеких организмов позволит лучше понять процессы эволюции геномов, предположить новые возможные механизмы. Более того, сравнение тандемных повторов в различных гаплотипах даст информацию о полиморфизмах и мутационных явлениях. Это может помочь понять причины возникновения некоторых наследственных заболеваний, а также
заболеваний, вызванных соматической изменчивостью, в том числе некоторых разновидностей канцерогенеза.
Знание о характерных семействах или свойствах повторов может позволить определить принадлежность последовательностей ДНК к определенным участкам геномов или хромосомам.
Апробация диссертационного исследования. Основные результаты были представлены на Московской Конференции по Вычислительной и Молекулярной Биологии МССМВ в 2003 и 2005 годах, на конференции BGRS по Биоинформатике Геномной Регуляции и Структуре в Новосибирске в 2004 и 2006 годах, на конференции JOBIM в Монреале в 2004 году, на конференции молодых ученых «Ломоносов» в 2004 и 2005 годах, на Международной школе «Биоинформатика, геномика, протеомика» в Алматы в 2006 году, на Международной Конференции по Исследованиям в области Вычислительной Молекулярной Биологии RECOMB в Венеции в 2006 году, на симпозиуме по Биоинформатике, Геномике и Функциональному Назначению Микросателлитов и Полиморфных Тандемных Повторов (VNTRs) MICROSAT в Будапеште в 2006 году, а также на Международной Летней Школе и Симпозиуме по Эволюционной Геномике в Берлине в 2006 году.
Структура и объем диссертационного исследования.
Диссертационное исследование состоит из Введения, Обзора Литературы, четырех глав, Заключения, Приложений и библиографического списка. Глава 1 основной части (Результаты и Обсужедение) посвящена подробному описанию построения статистической модели для оценки статистической значимости наблюдаемых периодических структур, используя вероятностные формулы (полученные с помощью производящих функций в рамках теории элементарных языков развитой в INRIA), либо с помощью средств комбинаторной алгебры и формулировке статистических критериев,
позволяющих идентифицировать характерные сложные структуры в генетических текстах. Подробное описание алгоритма поиска периодических структур в последовательностях ДНК с использованием статистических инструментов приводится в главе 2 основной части. Также глава 2 содержит описание реализации алгоритма, списка параметров и выдачи программы. Главы 3 и 4 посвящены применению алгоритма для поиска периодичных сигналов в последовательностях ДНК различных эукариотических геномов, а также в последовательностях с различными структурными и функциональными свойствами.
Выводы
1. Разработан алгоритм поиска сильно вырожденных тандемных
повторов без делеций и вставок.
Получены формулы для оценки статистической значимости сильно вырожденных тандемных повторов без делеций и вставок с учетом их самоперекрывающейся структуры.
Разработанный алгоритм использован для выявления новых объектов, обладающих выраженной регулярной структурой.
Выявлены характерные паттерны распределения тандемных повторов в зависимости от длин периодов для хромосом различных геномов эукариот, включая геном человека.
Выделены семейства локальных и дисперсных микро- и минисателлитов, характерных для той или иной хромосомы, и проведен их анализ с учетом существующих аннотаций.
Выявлены различия в распределении тандемных повторов в различных функциональных областях геномов: регуляторных, кодирующих, спейсерных, межгенных областях, гетерохроматине, 5'- и 3'-нетранслируемых областях.
Публикации. Основные результаты диссертационного исследования опубликованы в следующих печатных и электронных изданиях и тезисах конференций:
Научные э/сурналы:
Boeva, V., М. Regnier, D. Papatsenko, and V. Makeev. Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression. Bioinformatics, 2006.22(6): стр. 676-684.
Боева, B.A., M.B. Фридман, и В.Ю. Макеев, Эволюция микро- и минисателлитов в геноме человека. Биофизика, 2006. 51(4): стр. 650-655.
Boeva, V., J. Clement, M. Regnier, and M. Vandenbogaert. Assessing the Significance of Sets of Words. В тезисах Combinatorial Pattern Matching (CPM) 2005. 2005. Jeju Island, Korea: Опубликовано в электронном виде в Lecture Notes in Computer Science, Springer Verlag, 3537: стр. 358-370.
Тезисы конференций:
1. Boeva, V., V.J. Makeev, and M. Regnier. Probability of tandem
repeats in nucleotide sequences. В тезисах International conference MCCMB'03.
2003. Moscow, Russia. Стр. 46-47.
2. Boeva, V.A., M. Regnier, and V.J. Makeev. Algorithm for searching
for highly divergent tandem repeats in DNA sequences, statistical tests, and
biological application in Drosophila melanogaster genome. В тезисах The Fourth
International Conference on Bioinformatics of Genome Regulation and Structure.
2004. Novosibirsk, Russia. Том 1, стр. 34-37.
Boeva, V.A., M. Regnier, and V.J. Makeev. SWAN: searching for highly divergent tandem repeats in DNA sequences with the evaluation of their statistical significance. В тезисах JOBIM 2004. 2004. Montreal, Canada. Стр. 40.
Boeva, V., V.J. Makeev, and M. Regnier. Search for degenerate tandem repeats in nucleotide sequences. Their possible role in regulation of gene expression. В тезисах International conference MCCMB'05. 2005. Moscow, Russia. Стр. 54-56.
Боева, В.А. Поиск тандемных повторов (минисателлитов) в последовательностях ДНК, сравнение распределений минисателлитов в различных эукариотических геномах. В Материалах Международной школы «Биоинформатика, геномика, протеомика». 2006. Алматы, Казахстан. Стр. 7.
Boeva, V. and V.J. Makeev. Minisatellites in Eukaryotic Genomes, Analysis with TandemSWAN Program. В Материалах The 2nd International Tandem Repeat Consortium workshop on the Bioinformatics, Genomics and Functionality of Microsatellites and VNTRs, MICROSAT 2006. 2006. Budapest, Hungary. Стр.14.
Boeva, V. and V.J. Makeev. Minisatellites Evolution in Eukaryiotic Genomes. В тезисах Otto Warburg International Summer School and Workshop on Evolutionary Genomics. 2006. Berlin, Germany. Стр. 33.
Boeva, V.A. and VJ. Makeev, Micro- and Minisatellites in Human genome, TandemSWAN software in use. В тезисах of The Fifth International Conference on Bioinformatics of Genome Regulation and Structure, 2006. Том 3: стр. 118-121.
Микро-, минисателлиты и другие виды тандемных повторов. Механизмы возникновения и размножения в геноме. Их роль и особенности распределения
Другим механизмом влияния подобной экспансии может быть то, что эти повторы образуют, особенно на флангах, сайты узнавания CTCF, значимые для инсуляции [52]. Таким образом, жсуляция тоже является одной из функций микросателлитов. Метилирование соответствующих сайтов (которое провоцируется увеличением числа повторов) предотвращает связывание CTCF и инсуляцию, что влияет на активность прилегающих к локусу генов [52]. Этот механизм описан, в частности, при миотонической дистрофии Дюшена [52]. Выше говорилось о связи экспансии таких повторов с гетерохроматинизацией ДНК. По всей видимости, метилирование, инсуляция и гетерохроматинизация представляют собой взаимосвязанные процессы.
Интересно, что метилирование также увеличивает стабильность таких локусов, поскольку ингибирование метилаз ведёт к дестабилизации блока повторов [6].
Для динуклеотидных повторов в м-РНК, особенно в З -UTR, характерна совместная встречаемость, например (GC)n и (GU)n, причём с определённой полярностью. Авторы [53] на основании анализа альтернативных транскриптов выдвигают гипотезу о роли этих последовательностей в процессинге, (САТА)п-последовательности группируются у ряда многоклеточных вокруг стоп-кодона на расстоянии 500 п.н. Они характерны для различных мембранных белков. Для этих повторов нередко встречается вариабельность по ориентации и числу копий. При наличии альтернативного сплайсинга варианты, содержащие (GATA)n, представлены в клетке в большем количестве [54]. GGG-повторы, как сами по себе, так и содержащиеся внутри более крупных минисателлитных единиц могут формировать G-квадруплекс, который способны стабилизировать различные внутриклеточные лиганды [55]. При образовании на теломерах такой стабилизированный квадруплекс ингибирует теломеразу, что пытаются связать с антиопухолевой активностью. Альтернативный сплайсинг теломеразы с образованием неактивного фермента также связан с наличием GGG-повторов. Они расположены в минисателлитах, в том числе вариабельных, находящихся в интроне 6, то есть как раз в месте альтернативного сплайсинга.
Отметим, что триплет GGG вообще является регулятором сплайсинга (чаще всего в составе пентануклеотидных повторов). Авторы [14] обнаружили повышение их содержания на границах интронов различных генов, особенно на 3 -концах. В позициях 3-Ю примыкающего ниже по течению интрона он, в сочетании с другими мотивами, вызывает пропуск кассетных экзонов [15].
Повтор TG расположен в акцепторе сплайсинга девятого экзона гена CFTR. Это 9-13 повторов, лежащих сразу же после поли-Т тракта. Поли-Т и поли(ТС) влияют на сплайсинг, причём при большой копийности повтора (12-13) возможно почти полное исчезновение полноразмерной м-РНК, что ведёт к бесплодию мужчин или неклассическому цистозному фиброзу [56]. В то же время замещение последовательности (TG)n на случайную исключает сплайсинг. Результаты замены её на другие последовательности, обладающие способность образовывать шпилечные структуры (например, на повтор ТА), показывают, что для эффективного сплайсинга необходимо образование определённой вторичной структуры РНК, причём лучше обеспечивают сплайсинг структуры с умеренной термодинамической стабильностью. В то же время и такие влияющие на сплайсинг факторы, как изменение расстояния между сайтом сплайсинга и сплайсосомой или связывание специфических белков тоже зависят от длины повтора.
Сплайсинг человеческого гена eNOS зависит от блока повторов СА (от 14 до 44 повторов) в 13 интроне. Он расположен в 80 п.н. от 5 -сайта сплайсинга экзона 13. Его действие как энхансера сплайсинга зависит от связывания с белком hnRNP L. В отсутствие же этого белка присутствие блока повторов необходимо и достаточно для разрезания примыкающей с 5 -конца РНК [57]. Хотя последний процесс и не зависит прямо от длины повтора, тем не менее «длинные» аллели связаны с высоким риском болезни коронарных артерий.
Сохранение 10-16 единиц GT-повтора во втором интроне гена NCX1 необходимо для его сплайсинга [58]. Тем не менее, влияние повторов на сплайсинг часто не вполне специфично, и возможны значительные вариации повторяющейся последовательности. В 3 -сайте сплайсинга второго интрона человеческого гена аро-АП находится последовательность (GT)i6GGGCAG, замещение которой полипиримидиновым трактом нарушает сплайсинг. Тем не менее, последовательности (GT)2GG уже достаточно для его адекватного протекания [59].
Потеря повторов может коррелировать с потерей импринтинга. Так, например, известно, что мышиный ген Impact в отличие от человеческого является импринтированным. Его CpG-остров лежит внутри первого интрона, дифференциально метилирован и содержит тандемные повторы TCGGC. Человеческий Impact захватывает лишь первый экзон, тандемных повторов не содержит и не метилирован для обоих аллелей [60]. Центромерным повторам приписываются такие функции как когезия сестринских хроматид и участие в образовании и функционировании кинетохора.
Разработка алгоритма поиска периодических структур в последовательностях ДНК с использованием статистических инструментов. Реализация алгоритма и создание web-приложения. Разработка Интернет-сайта, посвященного программе
В литературе вероятность встретить в случайном тесте длины N слово из произвольного множества М, состоящего из q слов длины т, называется «вероятностью первой встречи» слова из множества или p-value. Самый простой способ ее посчитать это применить приближенную формулу Пуассона: P-valuePmsson(M) = 1 - (1 - ,(M)f-mtl р з) где Рт(М) это вероятность встретить слово из множества М на произвольной позиции, N длина текста, m длина слов из множества М. Формулу можно понимать так: 1-Рг(М) это вероятность НЕ встретить слово из множества М на произвольной позиции; (\-?r(M))N m+l это приближенная вероятность не встретить слово из множества М нигде в тесте, т.е. ни на одной из (iV-m+1) позиций; l-(l-Pr(M})JV"m+1 будет соответственно приближенной вероятностью встретить хотя бы одно вхождение слова из множества Мв тексте длины N.
Вероятность v(M) есть сумма вероятностей встретить каждое отдельное слово из множества М на произвольной позиции. В рамках модели Бернулли вероятность РГ(СУ) есть саеМ произведение вероятностей букв со,, составляющих слово со. Vx{co) = x{coxco2-coL) = Y M). I
Основной минус использования формулы Пуассона для множества следующий: события встречи слова из данного множества на соседних или близких позициях считаются независимыми. Такое приближение, в принципе, может иметь место, но оно является слишком грубым в случае тандемных повторов. Рассмотрим пример: Пример (2.4). Пусть наш тандемный повтор это повторяющееся пять раз слово ACT, длина текста 18, вероятности встречи букв A,C,G,T на любой позиции / равны Л и независимы (модель Бернулли). Тогда вероятность найти слово на первой позиции равна ()15. Тому же равна вероятность найти это слово на четвертой позиции. Но вероятность найти это слово на четвертой позиции, зная, что мы его нашли на первой, будет уже равна ()г, что почти в 17 миллионов раз больше. Все же, даже в этом примере вероятность найти слово на четвертой позиции, зная, что мы его не нашли на первой, будет не много отличаться от (!4)15: она будет равна (1-() )/(4-1), т.е. реальная вероятность меньше в (1-() )-0.984 раза. Так как длина текста может быть большой, то ошибка при использовании формулы Пуассона будет накапливаться, грубо говоря, возводиться в степень (N-Lk).
Но мы можем использовать приближение Пуассона для множества Н, т.к. в нем нет такой явной периодической структуры по построению: множества, для которых используется формула, проходят предварительную проверку на отсутствие периодичностей в составляющих их словах.
В случае же тандемных повторов (множества # ) оказалось, что ошибки, связанной с самопериодичностью слов, можно избежать, введя поправочный множитель аналогичный (1-()) из примера (2.4). РР-уа1ие(ЯА)«1-(і-Рг;(Я)(і-Рг,(Я))р +1 (25)
Здесь Ргр(Я) означает то же самое, что и Рг(#) в формуле Пуассона, вероятность мотива как множества слов. Буква F добавлена, чтобы в дальнейшем не путать вероятность мотива в рамках этой модели, motif, с вероятностью мотива рамках второй модели, mask (см. ниже). Уточненная формула была выведена с использованием аппарата производящих функций в рамках теории элементарных языков развитой в INRIA, Rocquencourt. Подробный вывод представлен в разделе «Вывод формулы для РГуа1ие(Я )»ниже. Сама формула, по которой будет считаться условная вероятность, на основе которой будет оцениваться статистическая значимость повтора в модели «motif», есть: / ,. ч РР-уа1ие(Я ) ? ,{H\H)- (16) Вывод формулы для PF_value( ).
В этой части мы приводим подробный вывод формулы (2.5) для вероятности встречи тандемного повтора в случайной последовательности. Здесь тандемный повтор представляет слово из множества # =##—#, где Н это множество слов, подходящих под консенсус. Так как важную роль в подсчете вероятности первой встречи играют пересечения слов из множества охарактеризуем все возможные пересечения/перекрытия.
Утверждение (3.1). Пусть Н есть множество, состоящее из q слов длины L. Тогда множество it состоит из qk слов Н,: # ={tf,},SlS , всевозможных конкатенации к слов из Я. Пусть слово Н, из it пересекается со словом Hj из it. Пусть w это их общее подслово, так что w является суффиксом Н, и префиксом Ну
Создание базы данных тандемных повторов в различных эукариотических организмах Анализ распределений повторов и выделение характерных особенностей повторов для хромосом.
Множество тандемных повторов, лежащих в базе данных, покрывает около 30% процентов человеческого генома. Мы не рассматривали так называемые одно- и динуклеотидные повторы, считая, что это объекты другой природы, к тому же хорошо исследованные в последнее время. Полученная цифра в 30% хорошо согласуется с пятидесятью процентами, человеческого генома покрываемыми сателлитами и участками низкой сложности согласно [74].
При поиске регулярных структур, в нашем случае тандемных повторов, в тексте большой длины важно иметь в виду возможность случайной встречи этих структур. Так, например, если трехкратный повтор слова длины три будет значимым в тексте длины пятнадцать, то в геномном тексте длины 100000 п.н. его уже можно считать случайным. Таким образом, нам было необходимо провести дополнительную фильтрацию по значимости повторов. На рисунке 2 показано распределение суммарных длин повторов для каждого периода в зависимости от порога значимости, используемого при фильтрации. Порог при фильтрации выбирался на вероятность Prs, определение которой дано в главе I.
Из рисунка 2 видно, что плотность распределения найденных повторов сдвинуто в сторону коротких периодов (до 25 п.н.). Но по мере фильтрации повторов по значимости, короткие или сильно вырожденные повторы отсеиваются, и остаются длинные повторы, в основном с большой длиной повторяющейся единицы, либо повторы коротких мотивов, но с большим количеством копий.
Для дальнейшего исследования мы выбрали порог 10"15на вероятность Prs. Порог фильтрации был выбран так, чтобы вероятность наблюдения данной периодической структуры на произвольной позиции была бы не больше 10 15. В дальнейшем, в нашей работе будут фигурировать только такие статистически значимые тандемные повторы.
Используя полученную базу данных повторов в человеческом геноме мы сравнили разметку для минисателлитов в аннотации генома [74], с разметкой, полученной при помощи программы TandemSWAN. Оказалось, что значительная часть минисателлитов с периодами от 25 до 70 п.н. не была ранее определена как повторы. Таким образом, одним из результатов нашей работы явилось создание более полной карты минисателлитов в человеческом геноме. На рисунке 3 для каждого значения длины периода показано суммарное покрытие соответствующими повторами 22-ой хромосомы человека: серым - повторы, найденными программой TandemSWAN, черным - те из них, что были замаскированы программами TRF или RepeatMasker в 17-ой версии генома человека [93]. Точная доля повторов с длиной периода от 25 до 70 п.н., найденных на 22-ой хромосоме и замаскированных ранее TRF или RepeatMasker, равняется 57 процентам. Оставшиеся 43 процента повторов можно считать найденными впервые. Примеры найденных, но не замаскированных TRF или RepeatMasker повторов приведены в таблице 1.
Глядя на рисунки 2 и 3 можно заметить, что на 22-ой хромосоме человеческого генома сильно перепредставлены повторы с длиной повторяющегося мотива 48 и 67-68 п.н. Что касается других хромосом (рисунок 4), то во всех них есть пики, соответствующие обилию повторов с периодом 67-68 п.н., в некоторых (например, в хромосомах 22 и X) наблюдается пик на длине периода 48 п.н. Например, на хромосоме 19 мы видим сильно перепредставленные повторы с длиной периода 84 п.н., а на хромосоме Y обилие повторов с длиной периода 125. Выделив эти повторяющиеся структуры, мы посмотрели насколько они диспергированны (т.е. разбросаны по длине хромосомы) и какие функции приписаны этим повторам в современных аннотациях генома. Оказалось, что повторы с периодом 67 маскируются программой RepeatMasker как Alu повторы [99,100].
Повторы же с длиной периода 84 п.н., перепредставленные в 19-ой хромосоме человека, распределены по всей ее длине (рисунок 5) и образуют 7 явных скоплений вдоль хромосомы 19. В процессе выделения консенсуса множество повторов разбилось на три кластера по степени схожести мотива. На рисунке они представлены синим, красным и зеленым цветами. Видно, что повторы, принадлежащие к третьему кластеру, имеют тенденцию располагаться на 3 -конце хромосомы 19.
Из всего множества повторов с длиной периода 84 п.н. 82% не были замаскированы как повторы программами TRF/RepeatMasker. Оказалось, это в основном повторы с количеством повторений мотива больше 3.5. Остальные же, короткие повторы, были классифицированы программой RepeatMasker как входящие в состав длинных диспергированных повторов (LINE) [100], сателлитных последовательностей и др. Применив программу BLAST [82], мы обнаружили, что данные высококопийные элементы, немаскируемые RepeatMasker выравниваются с белок-кодирующими последовательностями для белков, имеющего структуру цинкового пальца [101, 102]. К примеру, позиции 11859670-11886130 соответствуют белку zinc finger protein 69 (Cos5), 12497536-12552789 белку zinc finger protein 564 и т.д. Сам по себе этот факт интересен, т.к известны случаи, когда гены расположены тандемно. Но в данном случае, в силу слишком высокой копийности повторов, было трудно предполагать, что это именно такой случай.
Гипотеза частичного происхождения минисателлитных последовательностей от микросателлитных.
Для изучения повторов в последовательностях с различными функциональными характеристиками была выбрана экспериментально проаннотированная система локусов генов раннего развития D. melanogaster, система локусов D. pseudoobsura, проаннотированная по гомологии, а также была использована аннотация проекта FlyBase [116].
Мы исследовали, действительно ли повторы с определенными длинами периодов могут превалировать в определенных функциональных участках. Для этого мы собрали базы данных последовательностей в том числе содержащие все экзоны D. melanogaster, 3 - и 5 -нетранслируемые области (UTRs), межгенные участки, межгенные гетерохроматиновые последовательности (из проекта Drosophila Heterochromatin Project http://www.dhgp.org/) и базу данных регуляторных последовательностей, состоящую из 124 энхансеров, регулируемых транскрипционными факторами (http://webdisk.berkeley.edu/ dap5/). Соответствующие базы данных последовательностей были созданы и для D. pseudoobsura. Для изучения распределения повторов в группе генов, обладающих определенной функцией, мы выделили соответствующие наборы последовательностей для выборки из 16и локусов генов раннего каскада развития D. melanogaster и D. pseudoobscura. Распределение тандемных повторов с длинами периода до 25 п.н. в данных наборах последовательностей представлено на рисунке 22.
Как мы и ожидали, наиболее сильное отличие от случайного распределения было замечено для последовательностей экзонов (рисунок 22а). Видно, что в кодирующих участках превалируют повторы с длиной периода, кратной трем. Тогда так периодичности с длиной периода, не кратной трем, наоборот недопредставлены (по сравнению частотой встреч в случайной последовательности). Также было обнаружено, что доля покрытия Зк-периодичностями кодирующих участков Х-хромосомы выше, чем доля покрытия кодирующих участков аутосом. Учитывая, что частота повторов во всей Х-хромосоме в среднем выше, чем в аутосомах, мы делаем вывод, что частота тандемных повторов даже в участках одинаковой функциональности также связана с физической картой, а именно с определенным местом в геноме.
Что было особенно интересно, это факт перепредстваленности повторов с длиной периода, кратной шести (в отличие от Зк-периодичностей), в некодирующих участках. Похоже, что в геномах D. melanogaster и D. pseudoobscura присутствуют 6/12-периодичности, несвязанные с триплетной структурой кодирующих областей. Такие повторы превалируют во всей рассматриваемых множествах, включая регуляторные участки, спейсеры (не промоторные, не регуляторные и не кодирующие участки внутри локусов), межгенные участки, нетранслируемые области и даже межгенный гетерохроматин (рисунки 22Ь, 22с и 22d). В то же время, в некодирующих участках перепредставлены повторы с некратной трем длиной периода. Во всех последовательностях, кроме кодирующих, частота таких повторов в 2-3 раза больше, чем в случайной последовательности, что поддерживает тезис о неслучайном происхождении тандемных повторов в ДНК и о неслучайности кода ДНК в целом.
Сравнение суммарной доли покрытия повторами различных множеств последовательностей показало, что межгенный гетерохроматин в среднем содержит меньше тандемных повторов с длиной периода до 25 п.н., что эухроматин (рисунок 22Ь).
В общем, сравнение частоты повторов в различных функциональных последовательностях показало, что тандемные повторы перепредствлены в геноме, и повторы с длиной периода, кратной 6, по некой причине превалируют в некодирующей ДНК.
Периодические структуры в регуляционных последовательностях (энхансерах) представляют особый интерес. Нам было интересно проверить, насколько распределение в энхансерах отличается от фонового распределения повторов в межгенных областях и спейсерах. Для этого мы отнормировали частоты покрытия энхансеров и спейсеров на частоты покрытия повторами межгенных областей, что в некотором смысле «удалило» фоновые бк-повторы. Мы сосредоточили свое внимание на наборе из 124 экспериментально подтвержденных энхансерах D. melanogaster (http://webdisk.berkeley.edu/ dap5/data_06/124_Dmel_Enc.fa). Большинство этих последовательностей вовлечено в регуляцию транскрипции генов развития. Однако, эта группа не однородна ни функционально, ни по своей структуре. Энхансеры имеют различную длину (от 30 до 300 п.н.) и регулируют гены, транскрибируемые на разных стадиях развития D. melanogaster. Для достижение больше функциональной однородности мы разбили и дополнили это множество (124 последовательности суммарной 181690 п.н.) энхансеров на два подмножества: энхансеров генов раннего (72 последовательности общей длины 117377 п.н.) и более позднего развития «dorsal и twist» (136 последовательностей общей длины 114354 п.н.).
Множества регуляторних последовательностей для D. pseudoobscura были получены по гомологии с последовательностями D. melanogaster.
Анализ нормализованного распределения тандемных повторов во всех трех множествах энхансеров и спейсерах (рисунок 22е) показал, что множества, соответствующие генам раннего развития, богаты повторами с длиной периода 7 и 8 п.н. Значимой разницы в распределении повторов в регуляторных и спейсерных последовательностях замечено не было. Однако надо сказать, что распределение повторов внутри локусов значимо отличается от распределения в не несущих никакой функции межгенных участках генома.
Сравнение последовательностей повторов в регуляторных областях с мотивами сайтов связывания соответствующих регулирующих факторов показало их несхожесть в общем случае. Хотя были найдены отдельные примеры [117], когда некоторые вырожденные тандемные повторы могут играть роль кассет, содержащих тандемы сайтов связывания. Однако также возможно, что присутствие специфических периодических последовательностей задает некую пространственную геометрию для ДНК энхансера, необходимую для корректной сборки комплекса регуляторных белков. Роль тандемных повторов в регуляторных областях также недавно обсуждалась в работе [17]. Авторы, используя данные по тандемным повторам, найденным в энхансерах D. melanogaster и D. pseudoobscura в результате использования программ TRF и MREPS, показали низкую консервативность повторов в гомологичных участках геномов двух мух