Содержание к диссертации
Введение
Глава 1. Обзор литературы 15
1.1. Задачи компьютерного анализа генетических макромолекул 15
1.1.1. Проблемы компьютерного анализа генетических текстов 15
1.1.2. Международные проекты геномных исследований 17
1.2. Структура геномных последовательностей 18
1.2.1. Особенности структуры генов и геномов про- и эукариот 18
1.2.2. Формальная классификация типов повторов 21
1.2.3. Повторы в геномах 22
1.2.4. Взаимная совместимость генетических сообщений 24
1.3. Структурно-функциональная организация регуляторных районов транскрипции генов эукариот 25
1.3.1. Строение регуляторных районов генов эукариот 25
1.3.2. Иерархическая организация регуляторных районов эукариот 27
1.3.3. Анализ нуклеосомного кода укладки хроматина 29
1.4. Алгоритмы оценки сложности генетических текстов 30
1.4.1. Сложность символьных последовательностей 30
1.4.2. Сложность текстов по Лемпелю и Зиву 31
1.4.3. Анализ лингвистической (комбинаторной) сложности ДНК 32
1.4.4. Анализ структуры геномных последовательностей: преобразование Фурье 33
1.5. Методы множественного выравнивания и поиска гомологии 35
1.5.1. Алгоритмы попарного выравнивания 36
1.5.2. Метод 1-граммного разложения 37
1.5.3. Поиск гомологии на основе алгоритмов выравнивания FASTA и BLAST 37
1.5.4. Реконструкция деревьев сходства 39
1.6. Компьютерные методы распознавания функциональных райнов геномных последовательностей 41
1.6.1. Стандарты описания функциональных сайтов 41
1.6.2. Методы компьютерного распознавания регуляторных районов 42
1.6.3. Метод скрытых марковских цепей 44
1.6.4. Обзор программ распознавания промоторов 45
1.6.5. Сравнение точности методов распознавания 46
1.7. Интегральные методы предсказания функциональных районов в генетических текстах 48
1.7.1. Методика отбора контекстных характеристик на основе теории полезности для принятия решений 48
1.7.2. Нейронные сети для классификации генетических текстов 49
1.7.3. Поиск закономерностей в базах данных 50
1.7.4. Алгоритмы поиска закономерностей на основе вероятностных реляционных моделей 51
Заключение по обзору литературы и постановка задач исследования 52
Глава 2. Компьютерный анализ генетических текстов: материалы и методы 54
2.1. Методы и алгоритмы анализа сложности генетических текстов 54
2.1.1. Алгоритмы оценки сложности, реализованные в программе Complexity 55
2.1.2. Сложность по Лемпелю и Зиву. Алгоритм и программная реализация 59
2.1.3. Стохастическая сложность геномных последовательностей: алгоритм и программная реализация 61
2.1.4. Обобщение метода сложностного разложения для двух и более текстов 65
2.1.5. Профили сложности геномных последовательностей 66
2.1.6. Поиск максимальных совершенных и несовершенных повторов 68
2.2. Поиск закономерностей контекстной организации генетических текстов (система gene discovery) 69
2.2.1. Использование алгоритма "Дискавери" для поиска закономерностей 69
2.2.2. Параметры компьютерной системы "Gene Discovery" 70
2.2.3. Выделение контекстных сигналов 72
2.2.4. Поиск сигналов и комплексных сигналов в нуклеотидных последовательностях 73
2.3. Выборки последовательностей генетических макромолекул для компьютерного анализа
76
2.3.1. Базы данных и выборки последовательностей 76
2.3.2. Данные по функциональным районам генов и геномов. Выборки промоторов, экзонов, интронов, сайтов формирования нуклеосом 77
2.3.3. Данные по полным геномам микроорганизмов 79
2.3.4. Данные по полным геномам эукариот 80
Глава 3. Результаты компьютерного анализа генетических текстов 82
3.1. Анализ последовательностей днк, содержащих сайты связывания транскрипционньгх факторов 82
3.1.1. Сложность нуклеотидных последовательностей сайтов связывания транскрипционных факторов 82
3.1.2. Качественный анализ контекстных зависимостей в нуклеотидных последовательностях ССТФ 86
3.1.3. Поиск сайтов связывания транскрипционных факторов с помощью марковских моделей с переменной памятью 89
3.2. Анализ сложности функциональных последовательностей днк: экзонов, интронов и регуляторных последовательностей 92
3.2.1. Сравнение сложности экзонов, интронов и регуляторных последовательностей 92
3.2.2. Анализ локальных участков сложности промоторов 95
3.3. Анализ закономерностей контекстной организации промоторных районов 99
3.3.1. Контекстные сигналы в промоторных последовательностях 99
3.3.2. Поиск комплексных сигналов в промоторах 103
3.3.3. Исследование промоторов генов системы липидного метаболизма, интерферон- регулируемых генов и генов системы ответа на тепловой шок 108
3.3.3. Анализ комплексных сигналов и распознавание промоторных районов генов эукариот 112
3.4. Исследование сложности сайтов сплайсига 115
3.5. анализ лидерных последовательностей мрнк генов эукариот: оценки сложности и предсказание уровня экспрессии 119
3.6. Исследование сайтов связывания нуклеосом 123
3.6.1. Контекстные деревья-источники для сайтов формирования нуклеосом 123
3.6.2. Сложность сайтов формирования нуклеосом 128
3.6.4. Предсказание сайтов формирования нуклеосом в геномной ДНК 131
3.7. Анализ контекстной структуры полных геномов 135
3.7.1. Оценка локальной контекстной структуры полных геномов с помощью марковских моделей с переменной памятью 135
3.7.2. Поиск контекстно неоднородных участков в геномах 138
3.7.3. Сложностные разложения протяженных геномных последовательностей. Распределение повторов различных типов 139
3.7.4. Анализ протяженных геномных повторов максимальной длины 145
3.7.5. Анализ контекстной близости бактериальных геномов с помощью сложностных разложений. Выделение максимальных общих фрагментов 148
3.7.6. Поиск участков низкой сложности в полных бактериальных геномах 149
3.7.7. Анализ структуры хромосом эукариот 150
Заключение 152
Выводы по диссертационной работе 154
Список публикаций по теме диссертации 156
Литература 159
Приложение 176
- Структурно-функциональная организация регуляторных районов транскрипции генов эукариот
- Интегральные методы предсказания функциональных районов в генетических текстах
- Выборки последовательностей генетических макромолекул для компьютерного анализа
- Анализ комплексных сигналов и распознавание промоторных районов генов эукариот
Введение к работе
Актуальность проблемы
Начало XXI века ознаменовалось значительными достижениями в молекулярной биологии и генетике. Важнейшим по праву можно считать создание автоматизированных систем для определения последовательностей оснований ДНК, позволяющих расшифровывать отдельные участки ДНК и протяженные геномные последовательности организмов различных видов вплоть до полных геномов (Venter et al, 2001). Осуществление крупномасштабных проектов по секвенированию геномов человека, животных, растений, бактерий и вирусов привело к лавинообразному росту объема информации о нуклеотидных последовательностях (http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html). Их анализ, обобщение и накопление знаний о структуре и функции генетических молекул относятся в наступившую пост-геномную эпоху к числу наиболее важных проблем молекулярной генетики. Одним из подходов к решению этой проблемы является функциональная аннотация новых генов с помощью компьютерных программ на основе анализа последовательностей ДНК и экспериментальной информации, накопленной в базах данных. Представляемая диссертационная работа посвящена применению современных математических и компьютерных методов теории передачи информации и сжатия данных, а также теории анализа данных и поиска закономерностей к исследованию генетических последовательностей.
В последние 10-15 лет усилия научного сообщества были направлены на накопление последовательностей ДНК, и вершиной этой деятельности стала расшифровка генома человека, состоящего из приблизительно 3109 нуклеотидных пар (Venter et al, 2001). В настоящее время в основных молекулярно-генетических банках данных (EMBL, GenBank, DDBJ) уже накоплена информация о 180 полностью секвенированных геномах микроорганизмов и десятке геномов эукариот, включая геном человека, причем объем расшифрованных последовательностей стремительно растет (http://www.ncbi.nhn.nih.gov/ genomes/MICROBES/Complete.html). Невозможно переоценить значение полученной
информации для науки, медицины и других областей жизни человечества (Киселев, 2000; Kanehisa and Bork, 2003). Однако, для успешного использования этой информации необходимо, понять ее биологический смысл, определить функцию последовательностей, их регуляторную роль, эволюционные взаимоотношения.
Прямое применение экспериментальных методов для поиска, сравнения, картирования огромного количества доступных в настоящее время последовательностей ДНК и аминокислот просто невозможно из-за их большой трудоемкости и значительной стоимости. Первоочередная задача состоит в привлечении биополимеров современных компьютерных технологий и разработке математических алгоритмов и компьютерных программ анализа последовательностей генетических макромолекул - ДНК, РНК и белков. Удобство использования программ анализа генетических текстов на персональных компьютерах и возможность обработки больших объемов данных делают их необходимым инструментом в экспериментальной работе молекулярных биологов. Математические методы для анализа последовательностей ДНК, РНК и белков не смогут полностью заменить экспериментальные, поскольку мы не обладаем полными знаниями обо всех молекулярных процессах, проходящих в живой клетке. Но компьютерные методы важны сами по себе -огромное количество экспериментальных данных о последовательностях ДНК, накопленное в специализированных базах данных (Kanehisa and Bork, 2003; Galperin, 2004), дает возможность получения качественно новых знаний о структуре и эволюции геномов. Именно получение новых знаний об организации генетической информации на основе статистического анализа геномных данных является основной целью компьютерных исследований, представленных в настоящей работе.
За последние два десятилетия создан широкий круг программных продуктов, направленных на изучение свойств и структуры последовательностей ДНК и белков (Колчанов, 1988; Wang et al, 1999; Pevzner, 2000; Mount, 2001; Koonin and Galperin, 2002). Большинство алгоритмов, заложенных в эти программы, применяют технику теории вероятностей и математической статистики (Durbin et al, 1998; Ewens and Grant, 2001) и дискретной математики (Gusfield, 1997) для исследования статистических свойств и
закономерностей в строении последовательностей биополимеров (Франк-Каменецкий, 1990; Mount, 2001).
Одной из ключевых проблем является анализ сложности генетических текстов с помощью математических оценок, учитывающих эволюционные ограничения на изменение последовательности. Не менее важна проблема компьютерного исследования и поиска в геноме последовательностей, регулирующих экспрессию генов эукариот.
Для всестороннего исследования контекстной организации и количественного анализа сложности текста регуляторных последовательностей необходима разработка современных Интернет-доступных компьютерных программ. Актуальной становится обработка информации о последовательностях ДНК из наиболее полных на сегодняшний день молекулярно-биологических ресурсов (GenBank, EMBL), включая специализированные базы данных по регуляции генной экспрессии (TRRD, TRANSFAC, EPD). В представленной диссертационной работе поставлены задачи разработки и применения новых компьютерных методов статистического анализа генетических текстов, предсказания функциональных сайтов и регуляторных районов в геномной ДНК, поиска повторов в геномах и анализа их структуры.
Цели и задачи исследования
Цели исследования включали:
(1) анализ контекстной организации регуляторных районов генов эукариот (сайтов связывания транскрипционных факторов, промоторов, сайтов сплайсинга и др.), сравнение сложности текста содержащих их последовательностей ДНК, выявление фундаментальных контекстных свойств и поиск комплексных сигналов регуляции экспрессии генов;
(2) изучение структурной организации полных бактериальных геномов и хромосом эукариот, выявление участков низкой сложности текста и исследование их взаимосвязи с регуляцией экспрессии генов, анализ распределения повторов и их иерархической организации в геномах.
Цели исследования достигались с помощью двух основных математических подходов.
Первым ключевым подходом в данной работе была концепция сложности нуклеотидной последовательности. Сложность как общенаучное понятие приближается по своему статусу к философской категории. Применительно к символьным последовательностям основополагающей является фундаментальная идея А.Н. Колмогорова (Колмогоров, 1965) об определении сложности последовательности как длины кратчайшей программы, по которой эта последовательность может быть синтезирована. В таком общем определении сложность по Колмогорову не может быть вычислена. Существует несколько конструктивных реализаций идеи А.Н. Колмогорова, которым соответствуют различные определения сложности - комбинаторная, операционная сложность, энтропийные меры. Наиболее распространена мера сложности, предложенная Лемпелем и Зивом (Lempel and Ziv, 1976), на основе которой реализованы многие программы сжатия данных (архиваторы). Модификация меры Лемпеля и Зива для генетических текстов (Гусев и др., 1991а; 19916; Gusev et al, 1999), была использована в настоящей работе и реализована в Интернет-доступной программе LZcomposer. Были использованы и реализованы в единой компьютерной системе Complexity (Orlov and Potapov, 2004) также оценки лингвистической сложности (Trifonov, 1990; Troyanskaya et al, 2002) и оценки неравномерности нуклеотидного состава (Wootton and Federhen, 1996).
Вторым фундаментальным подходом являлся метод установления комплексных сигналов и закономерностей по алгоритму "Дискавери" (Discovery), разработанный ранее в рамках теории анализа данных и открытий (Data Mining, Knowledge Discovery) (Витяев, 1993; Kovalerchuk and Vityaev, 2000).
Необходимыми условиями работы были компьютерная реализация указанных математических алгоритмов, подготовка данных и выборок последовательностей, создание соответствующего Интернет-доступного программного обеспечения (Orlov and Potapov, 2000; 2004; Orlov et al, 2002a; 20026; 2002e).
Конкретные задачи исследования включали: (1) компьютерный анализ нуклеотидных последовательностей сайтов связывания транскрипционных факторов и регуляторных районов генов эукариот с помощью оценок сложности; (2) поиск комплексных
закономерностей контекстной организации промоторов эукариот и разработку компьютерных методов распознавания таких последовательностей в геномной ДНК; (3) анализ контекстной структуры сайтов формирования нуклеосом; 4) поиск повторов в полных бактериальных геномах и хромосомах эукариот и анализ их структуры.
Методические задачи исследования включали разработку и компьютерную реализацию на языке C++ алгоритмов: (1) оценки сложности генетических текстов; (2) определения оптимальной марковской модели с переменной памятью (модели контекстного дерева источника) по нуклеотидной последовательности; (3) предсказания функциональных районов в геномных последовательностях на основе марковских моделей; (4) выявления повторов и быстрого поиска гомологии в сверхдлинных последовательностях (до 250 Мб); (5) поиска закономерностей (комплексных характеристик) в регуляторних районах генов эукариот на основе методов теории анализа данных (алгоритм "Gene Discovery").
Все указанные методы реализованы в виде компьютерных программ с интерфейсом пользователя (Витяев и др., 2001; Orlov et al, 2002а; 20026; 2002в; 2002г; Kolchanov et al, 2003). В Интернет-доступном варианте реализованы программы: (1) построения профилей сложности генетических текстов с помощью набора методов (Orlov and Potapov, 2004); (2) сложностных разложений по модифицированному методу Лемпеля-Зива (Orlov et al, 2002e); (3) определения оптимальной контекстно-древовидной модели и ее визуализации (Orlov and Potapov, 2000; Orlov et al, 2002г).
Программная реализация алгоритмов создавалась с учетом того, что исследованию подвергаются огромные массивы данных (в частности, последовательности хромосом человека размером до 250 Мб). Поэтому особое внимание уделялось оптимизации времени выполнения основных расчетных процедур, сведению к времени счета, линейному в зависимости от длины последовательности. Использованные алгоритмы описаны в Главе 2 диссертации.
Применение компьютерных программ выполнялось на группах объектов в соответствии с иерархией организации молекулярно-генетической информации: (1) нуклеотидные последовательности сайтов связывания транскрипционных факторов (база
данных TRRD, Kolchanov et al, 2002a); (2) функциональные последовательности ДНК -регуляторные районы генов (базы данных TRRD, Kolchanov et al, 2002a; EPD, Praz et al, 2002), экзоны и интроны (база данных EID, Saxonov et al, 2000), (3) промоторы совместно регулируемых генов эукариот TRRD (Kolchanov et al, 2002a); (4) сайты сплайсинга (база данных SpliceDB, Burset et al, 2001); (5) 5 -нетранслируемые последовательности мРНК (5і-НТП) генов эукариот (EMBL); (6) сайты формирования нуклеосом (Levitsky et al, 1999); (7) полные бактериальные геномы и хромосомы эукариот (базы данных GenBank, EMBL, TAIR). Результаты исследования представлены в соответствующих разделах Главы 3.
Научная новизна и актуальность работы
Предложен оригинальный метод распознавания функциональных районов на основе марковских моделей с переменной памятью. Показано статистически значимое различие сложности нуклеотидных последовательностей экзонов, интронов и регуляторных районов генов эукариот. Впервые показано изменение сложности нуклеотидных последовательностей, содержащих донорные и акцепторные сайты сплайсинга генов эукариот. Впервые выявлены тренды изменения сложности в нуклеотидных последовательностях, содержащих сайты формирования нуклеосом.
Анализ встречаемости прямых, инвертированных и симметричных повторов в полных последовательностях бактериальных геномов и хромосом эукариот выполнен на наиболее полных данных, доступных на момент выполнения работы (релиз 34 GenBank NCBI2003 г.). Найдены максимальные внутри- и межгеномные совершенные повторы для 130 полных геномов прокариот. Показано наличие протяженных совершенных внутригеномных повторов (максимальный размер - 47 тысяч п.о.), занимающих для некоторых организмов до 3-х процентов размера генома.
Разработан метод компьютерного поиска закономерностей контекстной организации регуляторных последовательностей генов эукариот. Закономерности определяются в форме комплексных сигналов, состоящих из наборов олигонуклеотидов в 15-буквенном алфавите ШРАС. Впервые найдены такие комплексные сигналы для промоторных
последовательностей шести ткане- и функционально специфичных групп генов эукариот из базы данных TRRD.
Структура и объем работы
Диссертация состоит из трех глав (Обзор литературы, Материалы и методы, Результаты и обсуждение), заключения, выводов, списка литературы и приложений.
Глава 1 содержит обзор литературы по методам анализа генетических текстов. Дана постановка задач исследования в связи с современным состоянием компьютерной геномики.
Глава 2 посвящена описанию материалов и методов исследования. Дано описание баз данных и выборок нуклеотидных последовательностей. Изложены компьютерные методы анализа сложности генетических текстов. Приведена методика анализа комплексных контекстных характеристик нуклеотидных последовательностей с помощью технологии анализа данных и поиска закономерностей "Discovery". Дано описание компьютерной системы "Gene Discovery".
Глава 3 содержит описание применения разработанных компьютерных методов к исследованию последовательностей ДНК, включая полные геномные последовательности, РНК и белков. Проанализированы выборки, содержащие нуклеотидные последовательности сайтов связывания транскрипционных факторов, регуляторные последовательности генов эукариот, сайты формирования нуклеосом, лидерные последовательности мРНК. Приведены результаты исследования для указанных выше групп последовательностей, полных бактериальных геномов и хромосом эукариот, представлено обсуждение результатов в связи с продолжающимися геномными исследованиями.
В Приложении даны таблицы результатов анализа локальной контекстной сложности последовательностей ДНК и поиска совершенных внутригеномных повторов.
Объем диссертации составляет 158 машинописных страниц, включая 58 рисунков и 13 таблиц. Список литературы содержит 352 ссылки. Общий объем работы с приложениями составляет 180 страниц.
Научно-практическое значение
Практическое применение методов анализа функциональных участков (ССТФ и регуляторных районов) состоит в возможности поиска и предсказания структуры генов во вновь секвенированных последовательностях геномов. Программные комплексы Complexity (bttp://wwwmgs.bionet.nsc.iWmgs/programs/complexity LowComplexity (http://wwwmgs. bionet.nsc.ru/mgs/programs/low_complexity/) и LZcomposer (http://wwwmgs.bionet.nsc.ru/mgs/ programs/lzcomposer/) качественно дополняют существующие методы нуклеотидных и аминокислотных последовательностей. Разработанное Интернет-доступное программное обеспечение позволяет получать разметку совершенных и несовершенных повторов максимальной длины в полных бактериальных геномах с затратами компьютерного времени, линейно зависящими от длины последовательности. Научная ценность работы связана с количественными оценками контекстной структуры нуклеотидных последовательностей участков генома, что позволяет понять механизмы их изменения в ходе эволюции.
Разработанные программные средства представлены на Интернет-сайте ИЦиГ СО РАН, входят в интегрированную систему GeneExpress 2.1 (http://wwwmgs.bionet.nsc.ru/mgs/gnv объединяющую программные ресурсы и базы данных по регуляции генной экспрессии (Kolchanov et ей., 20026).
Апробация работы
Результаты были представлены на российских и международных конференциях: Конференции по индустриальной и прикладной математике ИМПРИМ-2000 (Новосибирск, 2000), Второй, Третьей и Четвертой Международных Конференциях по Биоинформатике и Регуляции Структуры Генома - BGRS 2000, BGRS 02 и BGRS 04 (Новосибирск, 2000, 2002 и 2004 гг. соответственно), Германской Конференции по Биоинформатике GCB 01 (Брауншвейг, Германия, 2001 г.), Совместной Европейской конференции по машинному обучению и принципам открытия знаний в базах данных ECML/PKDD 01 (Фрейбург, Германия, 2001 г.), Конференции по Исследованию Ансамблей Биомолекул в Адриатике (Триест, Италия, 2001 г.), Международном совещании по процессингу и статистике геномных сигналов GENSIPS 2002 (Роли, Северная Каролина, США, 2002 г.), Конференции
по дискретному анализу и исследованию операций ДАОР-04 (Новосибирск, 2004 г.), Ш-м съезде Вавиловского Общества Генетиков и Селекционеров (ВОГиС) (Москва, 2004 г.). Программы и материалы, разработанные в ходе подготовки диссертации, доступны в Интернете на сайте ИЦиГ СО РАН по адресам: http://wwwmgs.bionet.nsc.ru/mgs/programs/complexity/, http://wwwmgs2.bionet.nsc.m:8080/low_complexity/, http://wwwmgs.bionet.nsc.ru/mgs/programs/lzcomposer/, http://www.bionet.nsc.ru/labs/theorylab/orlov, http ://www.bionet.nsc.ru/ICIG/report/2001 /icg im/.
Публикации
По теме диссертации опубликовано 57 печатных работ, из них 15 - в рецензируемых научных изданиях.
Положения, которые выносятся на защиту
1. Компьютерная реализация методов анализа комбинаторной, лингвистической и стохастической сложности в составе системы Complexity для анализа сложности генетических текстов.
2. Результаты применения методов оценки сложности к нуклеотидным последовательностям сайтов связывания транскрипционных факторов.
3. Результаты исследования контекстной организаций сайтов формирования нуклеосом с помощью марковских моделей.
4. Сравнительный анализ сложности функциональных районов эукариот, включая экзоны, интроны, регуляторные районы, сайты формирования нуклеосом.
5. Исследование сложности текста и распределения повторов в полных бактериальных геномах; выявление максимальных совершенных повторов.
6. Применение системы "Gene Discovery" для исследования структурно-функциональной организации промоторных районов коэкспрессирующихся групп генов и поиска комплексных сигналов.
Благодарности
Автор выражает глубокую признательность научному руководителю чл.-корр. РАН Н.А. Колчанову, сотрудникам ИЦиГ СО РАН О.В. Вишневскому, В.Г. Левицкому, М.А. Позднякову и М.П. Пономаренко, сотрудникам ИМ СО РАН Е.Е. Витяеву, В.Д. Гусеву и В.Н. Потапову за помощь в подготовке работы и обсуждение научных результатов.
Структурно-функциональная организация регуляторных районов транскрипции генов эукариот
Регуляция работы генов во всех клетках организмов эукариот координируется в зависимости от типа ткани, стадии развития организма, фазы клеточного цикла (Lewin, 2000; Emerson, 2002). Сложная задача координации экспрессии связана с молекулярными механизмами регуляции генома в ядре клетки (Gill, 2001). Экспрессия генов эукариот может регулироваться на различных уровнях их организации и функционирования. Регуляция связана с особенностями нуклеосомной упаковки хроматина, метилированием ДНК, интенсивностью сплайсинга, полиаденилирования, стабильностью мРНК в цитоплазме, посттрансляционными модификациями, внутриклеточным транспортом и скоростью деградации белка (Лихошвай и Матушкин, 2000; Kadener et al, 2002; Gnatt, 2002; Cosma, 2002; Wray et al, 2003). Ключевая роль в регуляции экспрессии генов принадлежит транскрипции, запускающей цепочку молекулярных процессов (Nikolov and Burley, 1997; Patikoglou et al, 1999; Lemon and Tjian, 2000; Emerson, 2002). В состав инициаторного комплекса входит РНК полимераза П и более 40 белков - общих (базальных) факторов инициации транскрипции (Pedersen et al, 1999; Martinez, 2002; Kolchanov et al, 2002a).
Регуляторные районы содержат в своем составе сайты связывания определенных транскрипционных факторов (ССТФ) (Nikolov and Burley, 1997). Встречаемость и расположение ССТФ в 5 -регуляторных районах генов отражает ткане- или стадие-специфичные особенности регуляции их экспрессии. Обязательным элементом, абсолютно необходимым для инициации транскрипции, является коровый (базальный) промотор, под которым понимают минимальную последовательность ДНК, необходимую для правильной инициации транскрипции гена in vitro (Сингер и Берг, 1998). В коровый промотор входит старт транскрипции и область приблизительно от -60 до +40 п.о. по отношению к нему (Amone and Davidson, 1997; Zhang, 1998). Регуляторные элементы разделяют на проксимальные (располагающиеся непосредственно вблизи старта транскрипции) и дистальные (удалённые). Базальный промотор относится к группе проксимальных регуляторных элементов.
Экспрессия гена может контролироваться коровым промотором, и, кроме того, энхансерами (усилителями транскрипции), или сайленсерами (подавляющими транскрипцию районами), которые могут быть расположены за многие тысячи п.о. от старта транскрипции (Barton et al, 1997; Gaston and Jayaraman, 2003). Один ген может иметь несколько альтернативных промоторов.
Коровый промотор содержит в своем составе ряд коротких функционально значимых сигналов (последовательностей) размером до 5-25 п.о. (Nikolov and Burley, 1997; Arnone and Davidson, 1997; Pedersen et al, 1999). Для промоторов эукариот характерно отсутствие как точной локализации контекстных сигналов, значимых для их функционирования, так и однозначной записи этих сигналов (Ohler et al, 2002).
Среди функциональных элементов в коровом промоторе наиболее полно изучены ТАТА-бокс, инициатор (Inr-элемент), СААТ-бокс и GC-бокс (Bucher, 1990). ТАТА-бокс представляет собой А/Т-богатую последовательность, находящуюся на расстоянии 25-35 п.о. выше старта транскрипции. Inr-элемент непосредственно содержит старт транскрипции; СААТ-бокс и GC-бокс обычно располагаются выше старта транскрипции. По наличию или отсутствию ТАТА-бокса промоторы делятся на две группы: ТАТА-содержащие и ТАТА-несодержащие (Bucher, 1990). Заметим, что такая классификация не полна и этот вопрос требует дополнительного исследования. Так, выделяют в отдельную группу промоторы, содержащие DPE элемент, являющийся функциональным аналогом ТАТА-бокса, который локализован в районе +30 относительно старта транскрипции (Burke and Kadonaga, 1997). Исследование генов Drosophila melanogaster показало, что для этого организма число TATA- несодержащих промоторов больше, чем число ТАТА-содержащих (Arkhipova, 1995), причем для вновь открываемых генов преимущественно характерны ТАТА-несодержащие промоторы.
Встает вопрос о выявлении общих контекстных характеристик, охватывающих промоторные последовательности генов эукариот, таких например, как конформационные особенности двойной спирали ДНК, связанные с инициацией транскрипции (Gabrielian and Bolshoy, 1999), или статистические свойства, связанные с насыщенностью повторами (Babenkoetal., 1999).
Особенность 5 -регуляторных районов генов эукариот - их большая длина, достигающая десятков тысяч п.о. (Arnone and Davidson, 1997; Kolchanov et al, 2002a), что на порядки больше максимального размера регуляторных районов прокариот, который, например, для E.coli имеет длину не более 450 п.о. (Gralla and Collado-Vides, 1996).
Другая важная особенность регуляторных районов - их иерархическая организация. Два соседних ССТФ могут представлять композиционный элемент. В этом случае их совместное действие согласовано, то есть его эффект значительно отличается от действия каждого ССТФ в отдельности (Kel et al, 1995). Блочность организации 5 -регуляторных районов проявляется в наличии для многих генов альтернативных промоторов, зачастую расположенных на значительном расстоянии один от другого. В зависимости от функционального состояния клетки транскрипция одного и того же генного локуса может осуществляться с различных (альтернативных) промоторов (Kolchanov et al, 2000).
Считывание с одного гена разных вариантов РНК называется альтернативной транскрипцией. Эта особенность 5 - регуляторных районов лежит в основе механизма формирования большого разнообразия первичных транскриптов одного и того же генного локуса и, как следствие этого, разнообразия белков, кодируемых одним и тем же генным локусом. В настоящее время известны примеры первичных транскриптов, в которых сплайсинг может проходить по десяткам альтернативных путей (Gelfand et al, 1998; 1999; Dralyuk et al, 2000; Ji et al, 2001; Lee et al, 2003). Так, у человека, более 42% генов имеют альтернативный сплайсинг пре-мРНК. Причем значительная их часть кодирует определенные типы молекул (например, клеточные рецепторы), а также белки, вьшолняющие системные функции в организме, в частности в иммунной и нервной системах (Lee et al, 2003).
Интегральные методы предсказания функциональных районов в генетических текстах
Поиск закономерностей в базах данных (Data Mining) все более входит в традиционные области биоинформатики (Rebhan et al, 1998; Narasimhan et al, 2002; Yeh et al, 2003; Liu and Wong, 2003; Huang et al, 2004). Это связано не только с лавинообразным ростом накопленной информации, но и с методиками, позволяющими получить качественно новые знания (Luscombe, 2001; Bertone and Gerstein, 2001). Применение методов Data Mining в молекулярной биологии включает анализ паттернов и предсказание функции белков (Baxter and Fetrow, 2001; Jonassen et al, 2002; Narasimhan et al, 2002), реконструкцию филогенетических деревьев (Jakobsen et al, 2001) исследование химических молекулярных структур (Cheng et al, 2002), анализ данных генной экспрессии по ДНК-чипам (Bumm et al, 2002). В качестве примеров можно привести анализ банка данных белков (Kretschmann et al, 2001). В этой работе стандартные алгоритмы анализа данных (С4.5) были применены для получения знаний по аннотациям ключевых слов в банке данных SWISS-PROT. Было сгенерировано более 11 тысяч правил для аннотации неизвестных последовательностей. Правила относились к таксономии организмов, в которых найден белок и некоторым паттернам их аминокислотных последовательностей. Показано, что 33% аннотаций по ключевым словам могут быть восстановлены с ошибкой 1.5%.
В работе (Sebban et ah, 2002) методы анализа данных применялись к анализу пространственно разделенных олигонуклеотидов при экспериментах по генотипированию Mycobacterium tuberculosis. В статье освещен процесс получения знаний с помощью алгоритма вывода правил С4.5, использующего позиционированные логические правила.
Одним из основных типов данных, используемым в базах данных, является числовое представление признака. Объекты в этом случае представляются наборами значений признаков. В работах (Витяев, 1991; Kovalerchuk and Vityaev, 2000) предложено использовать Теорию Измерений для представления этого типа данных в языке логики первого порядка и тем самым в реляционном виде. В Теории Измерений показано, что числовые значения величин определяются отношениями (Krantz et ah, 1971, 1989, 1990). Следуя Теории Измерений, было показано, как наиболее известные способы представления данных - таблицы объект-признак, матрицы упорядочений и близости, множественные и парные сравнения, - могут быть представлены в языке первого порядка (Витяев, 1991; Kovalerchuk and Vityaev, 2000).
Методы KDD&DM, работающие в языке логики первого порядка, называются реляционными DM методами (Kovalerchuk and Vityaev, 2000). Реляционные DM методы позволяют снять ограничения стандартных DM методов, сформулировать в языке первого порядка знание о предметной области (Background Knowledge), расширить понятие типа данных (Data Туре), за счет выразительной возможности языка первого порядка; использовать Теорию Измерений для представления разнородных величин в языке первого порядка, включая величины отношений, частичного порядка, и др.; ввести понятие типов правил (Rule Туре) как типа гипотез, которые могут проверяться в базах данных.
В качестве типов правил могут быть сформулированы практически все типы гипотез, проверяемые различными методами анализа данных. Например, классы кусочно-линейных правил или "m-of-n" правил, используемых нейронными сетями; классы правил для любого типа деревьев; логические решающие правила; правила, проверяемые в индуктивном логическом программировании; булевы функции и т.д. (Витяев и Москвитин, 1993).
К реляционным DM методам относятся также методы индуктивного логического программирования (Inductive Logic Programming, ILP), работающие в языке первого порядка.
В статье (Friedman et al, 1999) представлена теория вероятностных реляционных моделей (probabilistic relational models, PRMs в англоязычной литературе), которая позволяет свойствам (характеристикам) объектов зависеть вероятностным образом от других свойств этого объекта либо родственных объектов. В статье на примере задач генетики отмечается, что вероятностные реляционные модели (1) значительно более выразительны с точки зрения интерпретируемости, чем стандартные модели, (2) позволяют использовать реляционные базы данных без преобразования реляционных данных в единую таблицу. Действительно, основное ограничение применению индуктивного логического программирования -детерминистская природа открываемых правил (Kovalerchuk and Vityaev, 2000), поскольку в естественнонаучных областях знаний, взаимосвязи имеют не детерминистский, а вероятностный характер.
Выборки последовательностей генетических макромолекул для компьютерного анализа
В соответствии с задачами исследования были проанализированы следующие типы данных: (1) короткие последовательности ДНК, содержащие сайты связывания белковых транскрипционных факторов, донорные и акцепторные сайты сплайсинга. (2) протяженные последовательности ДНК геномов эукариот, содержащие: (а) регуляторные районы транскрипции, промоторы, энхансеры; (б) 5 -нетранслируемые последовательности генов эукариот; (в) экзоны и интроны интрон-содержащих генов эукариот; (г) сайты формирования нуклеосом. (3) полные последовательности бактериальных геномов (130 последовательностей). (4) полные последовательности хромосом ряда геномов эукариот, включая все хромосомы генома человека (релиз 34, сборка 2003 г.), хромосомы дрожжей Saccharomyces cerevisiae и Schizosaccharomyces pombe, хромосомы Arabidopsis thaliana и фрагменты хромосом некоторых других организмов.
В качестве источников информации использовались база данных регуляторных районов транскрипции эукариот TRRD (Kolchanov et al, 2002), база данных промоторов эукариот EPD (Perier et al, 2000; Praz et al, 2002), база данных сайтов сплайсинга SpliceDB (Burset et al, 2001), база данных экзонов и интронов интрон-содержащих генов ЕГО (Exon-Intron Database, Saxonov et al, 2000), база данных нуклеотидных последовательностей GenBank (Benson et al, 2000; 2003). Для получения последовательностей полных бактериальных геномов и контигов хромосом человека использовались информационные ресурсы Национального Центра Биотехнологической Информации США (National Center for Biotechnology Information - NCBI, http://www.ncbi.nlm.nih.gov/), Европейского института биоинформатики (ЕВІ, http://www.ebi.ac.uk/) и международный банка данных TAIR, содержащего экспериментальные данные по модельному растению Arabidopsis thaliana, (http://www.arabidopsis.org/, Huala et al, 2001).
Рассмотрим более подробно подготовку данных и характеристики выборок. Последовательности ДНК, содержащие сайты сплайсинга, были извлечены из базы данных сайтов сплайсинга SpliceDB (Burset et al, 2001). Было получено две выборки нуклеотидных последовательностей размером 82 п.о., содержащие: (1) донорные сайты сплайсинга, (2) акцепторные сайты сплайсинга. Неоднозначно определенные основания (в 15-буквенном алфавите) были исключены из рассмотрения. Общий объем проанализированных последовательностей из БД SpliceDB, содержащих сайты сплайсинга составил 35818 последовательностей.
Выборки коротких нуклеотидных последовательностей включали сайты связывания транскрипционных факторов, содержащиеся в базе данных TRRD (Kolchanov et al, 2002). Учитывались коровые (core) районы, содержащие экспериментально определенный сайт связывания транскрипционного фактора и фланкирующие районы. Было составлено два типа выборок нуклеотидных последовательностей в зависимости от длины фланкирующих районов -общий размер составлял 50 и 100 п.о., соответственно. Описание и объем выборок представлены в Приложении.
Протяженные последовательности функциональных районов геномной ДНК эукариот содержали промоторные районы, фазированные относительно старта транскрипции.
Последовательности были получены из базы данных регуляторных районов транскрипции TRRD (Kolchanov et al, 2002) и базы данных промоторов эукариот EPD (Perier et al, 2000; Praz et al, 2002). В базе данных TRRD представлено немного меньше регуляторных последовательностей, причем информация подробна качественно, отмечены только экспериментально установленные ССТФ, возможно разбиение на функциональные группы промоторов, при этом длина последовательностей промоторов в зависимости от размера флангов исходно не ограничена. Больший объем данных представлен в БД EPD (Perier et al, 2000; Praz et al, 2002). Релиз EPD 76 за 2003 год содержит 2997 последовательностей длиной 600 нуклеотидов фазированных относительно старта транскрипции как [-499;+100]. Однако только 255 генов имеют разметку промотора, картированную на геномную последовательность из БД EMBL. Выборки промоторов были извлечены из базы данных EPD, в соответствии с принадлежностью к группам организмов - промоторы генов позвоночных, генов растений и генов прямокрылых.
Выборки эукариотических промоторов были составлены по БД TRRD следующим образом: по принципу работы генов в одной генной сети - гены липидного метаболизма, гены эндокринной системы, по принципу тканеспецифичности - гены эритропоэза (эритроид-специфичные), гены регуляции холестерина, и по принципу совместной индукции -глюкокортикоид-регулируемые гены, интерферон-регулируемые гены, гены ответа на тепловой шок. Выборки были фазированы [-300;+100] относительно старта транскрипции.
Выборки экзонов и интронов извлекались из базы данных ЕГО (Exon-Intron Database) (Saxonov et al, 2000; http://mcb.harvard.edu/gilbert/EID). База данных сеодержала 25,130 белок-кодирующих генов, содержащих интроны, для которых разметка экзон-интронных границ была подтверждена экспериментально. Составлялись как выборки всех экзонов в гене, так и выборки только первых, только вторых, только третьих и т.д. экзонов.
Использовалась выборка последовательностей ДНК, содержащих экспериментально определенный участок формирования нуклеосом (связывания с гистоновым октамером) (Ioshikhes and Trifonov, 1993), - всего 171 последовательность длиной 400 п.о. Также исследовались выборки участков формирования нуклеосом, классифицированные по принадлежности нуклеотидных последовательностей к группам организмов (позвоночные, растения), из баз данных "Samples" (http://wwwmgs.bionet.nsc.ru/cgi-bin/mgs/nsamples/) и Nucleosome database (Levitsky et al, 1999; 2004). Кроме того, использовались выборки нуклеотидных последовательностей, стабильность связи которых с гистоновым октамером в составе нуклеосомы определялась с помощью SELEX экспериментов ((Widlund et al, 1997; Cao et al, 1998; Levitsky et al, 2004).
Анализ комплексных сигналов и распознавание промоторных районов генов эукариот
Таким образом, разработанная компьютерная система "Gene Discovery" позволяет выявлять как индивидуальные значимые мотивы (вырожденные квазиинвариантные олигонуклеотиды), так и комплексные сигналы. О функциональной значимости комплексных сигналов свидетельствует тот факт, что они имеют сходное расположение в пределах подгрупп специфичных промоторов (см. рисунки). Кроме того, как отмечалось вьппе, комплексные сигналы могут иметь сходные расстояния между индивидуальными мотивами. При этом анализируемые промоторы не имеют выраженной гомологии.
Индивидуальные мотивы могут соответствовать сайтам связывания транскрипционных факторов. Бьшо показано, что они обогащены потенциальными сайтами связывания транскрипционных факторов по сравнению со случайными последовательностями (Kondrakhin et al, 1995). Индивидуальные мотивы могут также соответствовать участкам ДНК, обеспечивающим специфические конформационные или физико-химические свойства: повышенную гибкость ДНК, легкоплавкость и т.д., необходимые для функционирования промоторов.
При рассмотрении комплексных сигналов следует отметить несколько обстоятельств. Во-первых, в ряде работ выявлены специфичные паттерны распределения потенциальных сайтов связывания транскрипционных факторов с максимумами локализации различных сайтов в различных участках промоторов. Таким образом, наблюдающиеся комплексные сигналы могут отражать преимущественное расположение различных сайтов в определенных участках промоторов (Zhang, 1998). Учет этого обстоятельства в работе (Kondrakhin et al, 1995) позволил повысить точность распознавания промоторов. В работах В.Г.Левицкого (Левицкий и Катохин, 2001) выявлено разбиение промотора на локальные участки с характерным динуклеотидным составом. Показано, что такие участки могут иметь определенные конформационные или физико-химические свойства. Таким образом, комплексные сигналы могут иметь как контекстную, так и смешанную контекстно-конформационную природу, отражая присутствие в определенных местах промотора, как особенностей контекста, так и локальных конформационных особенностей ДНК, значимых для выполнения специфических функций промоторов.
Во-вторых, в последнее время активно изучается особый тип регуляторных элементов, контролирующих транскрипцию, которые называются композиционными элементами (КЭ) (Kel et al, 1995). Они образованы парами сайтов связывания транскрипционных факторов (перекрывающимися, сближенньми либо удаленными друг от друга на некоторое фиксированное расстояние), которые в результате белок-белковых взаимодействий между соответствующими транскрипционными факторами приобретают новые регуляторные свойства. Каждый из сайтов в составе КЭ способен функционировать по отдельности, но их взаимодействие обеспечивает существенно более выраженный активирующий или репрессирующий эффект на транскрипцию гена. Исследование закономерностей совместной встречаемости и взаимного расположения сайтов с помощью системы "Gene Discovery" открывает путь для создания компьютерных методов поиска потенциальных композиционных элементов.
Общая методика распознавания на основе закономерностей описано в статье (Вишневский и Витяев, 2001). Каждой позиции анализируемой последовательности ставится в соответствие некоторый вес - функция, соответствующая предсказанию найти в локальном окружении этой точки искомый функциональный район. Такой суммарный вес соответствует вероятности найти такой же сигнал по случайным причинам. Подход расширен на комплексные сигналы. Для оценки вероятности получить комплексный сигнал в случайных последовательностях (из-за вырожденности олигонуклеотидов), можно использовать как компьютерный эксперимент, так и аналитические формулы. Вероятность P(S) наблюдать последовательность нуклеотидов
Выявление и учет комплексных сигналов в качестве дополнительной характеристики позволит повысить точность распознавания специфических групп промоторов в геноме. Результаты предсказания промоторов в геномной ДНК для проанализированных выборок представлены на сайте в Интернете (http://www.bionet.nsc.ru/labs/theorylab/ltg.php f=people&p=Orlov).
Сайты сплайсига генов эукариот служат границами при переходе от белок кодирующей части к некодирующей (донорные сайты) и от некодирующей к кодирующей (акцепторные сайты). Последовательности достаточно полно охарактеризованы и представлены в базах данных (Burset et al, 2001). Около 99% последовательностей содержат канонические динуклеотиды GT и AG для донорных и акцепторных сайтов, соответственно, неканоническая пара GC-AG характерна для 9.69% последовательностей, и оставшиеся доли процента последовательностей имеют на границе другие неканонические пары нуклеотидов (Burset et al, 2000). Встает вопрос о выявлении общих контекстных закономерностей в сайтах сплайсинга.
Поскольку последовательности экзонов в отличие от интронов кроме информации о структуре нуклеотидной последовательности и структуре РНК содержат в себе информацию о кодируемой аминокислотной последовательности и структуре белка (Трифонов, 1997), большее количество информации может быть измерено количественно. В качестве меры информации могут быть использованы энтропийные оценки и оценка сложности порождения текста.
Для изучения вопроса об изменении сложности при переходе от кодирующих к некодирующим районам и обратно исследовалось распределение сложности для двух выборок - донорных и акцепторных сайтов сплайсинга млекопитающих (Burset et al, 2001). Последовательности имели длину 82 нуклеотида с каноническими динуклеотидами GT и AG в центре. Рассчитывалась сложность как число операций копирования (прямых и инвертированных) в скользящем окне 40 п.о. при сложностном разложении на непересекающиеся фрагменты по методу Лемпеля и Зива (см. главу «Материалы и методы»). Средние значения профилей для выборок донорных и акцепторных сайтов сплайсинга совмещены и представлены на рисунке (Рис. 3.4.1). По оси абсцисс указано положение окна относительно канонического динуклеотида.