Содержание к диссертации
Введение
ГЛАВА I. Обзор литературы. 11
1.1. Регуляторные последовательности, контролируюпще экспрессию генов эукариот, транскрибируемых РНК полимеразой II. 11
1.1.1. Классы ДНК последовательностей, управляющие транскрипцией РНК полимеразой II. 13
1.1.2. CpG острова в промоторах эукариот. 15
1.1.3. Организация хроматина влияет на функционирование промоторов генов, транскрибируемых РНК полимеразой II. 16
1.1.4. Перестройка структуры хроматина в районе промотора необходимая для эффективной инициации транскрипции . 17
1.1.5. Формирование преинициационного комплекса. 20
1.1.5.1. Распознавание промотора фактором TFIID. 20
1.1.5.2. ТВР-ассоциированные белки. 21
1.1.5.3. Структура TFIID подобна гистоновому октамеру. 21
1.1.5.4. Распознавание TFTIB комплекса TFIID-промотор. 21
1.1.5.5. Роль TFIIА в формировании преинициационного комплекса. 21
1.1.5.6. Роль TFIIF в инициации транскрипции. 22
1.1.5.7. TFIIE и TFIIH завершают формирование преинициационного комплекса. 22
1.1.6. Инициация синтеза пре-мРНК. 23
1.2. Механизмы регуляции трансляции. 23
1.3. Компьютерные методы выявления сайтов связывания транскрипционных факторов.26
1.3.1. Компьютерные методы выявления сайтов связывания транскрипционных факторов в выравненных последовательностях . 27
1.3.2. Компьютерные методы выявления сайтов связывания транскрипционных факторов в невыравненных нуклеотидных последовательностях. 30
1.3.3. Методы выявления сайтов связывания транскрипционных факторов на основе локального множественного выравнивания регуляторных последовательностей. 35
1.4. Компьютерные методы распознавания и анализа промоторов в протяженных геномных последовательностях. 40
1.4.1. Распознавание промоторов на основе информации о потенциальных сайтах связывания транскрипционных факторов. 40
1.4.2. Распознавание промоторов на основе анализа частот олигонуклеотидов (к-плетов). 41
1.5. Методы распознавания структуры генов. 46
1.6. Способы оценки точности методов предсказания функциональных элементов в генетических последовательностях. 59
Заключение к обзору литературы. 63
ГЛАВА II. Анализ контекстных особенностей регуляторных районов генов эукариот . 66
2.1. Разработка метода выявления контрастных районспецифичных мотивов. 66
2.2. Метод распознавания регуляторных районов генов (РРГ) эукариот на основе наборов вырожденных олигонуклеотидных мотивов 72
2.3. Анализ и распознавание промоторов тканеспецифичных групп генов эукариот на основе наборов несовершенных олигонуклеотидных мотивов 74
2.3.1. Анализ и распознавание промоторов эритроид-специфичных групп генов 74
2.3.1.1. Поиск олигонуклеотидных мотивов в промоторах 75
23.12. Распознавание промоторов в кластере Р-глобиновых генов. 77
2.3.2. Анализ и распознавание промоторов тканеспецифичных групп генов из БД
TRRD 79
2.4. Анализ ТАТА-содержащих и ТАТА-несодержащих промоторов на основе наборов вырожденных олигонуклеотидных мотивов 81
2.5. Анализ и распознавание сайтов связывания транскрипционых факторов на основе наборов вырожденных олигонуклеотидных мотивов 85
2.5.1. Поиск вырожденных олигонуклеотидных мотивов в последовательностях сайта связывания SF1. 85
2.5.2. Анализ и распознавание многокоровых сайтов связывания транскрипционных факторов эукариот. 88
2.5.3. Анализ и распознавание сайтов связывания транскрипционных факторов эукариот. 90
ГЛАВА III. Исследование контекстных особенностей районов старта трансляции и районов терминации трансляции s.cerevisiae . 92
3.1. Анализ 5'-, З'-нетранслируемых районов мРНК S.cerevisiae. 92
3.1.1. Последовательности, использованные в анализе. 92
3.1.2. Поиск вырожденных олигонуклеотидных мотивов в 5'-, З'-нетранслируемых районах мРНК S. cerevisiae. 93
3.1.3. Классификация мРНК на основе олигонуклеотидного контекста 5'- нетранслируемого района мРНК. 94
3.1.4. Анализ 5'- и З'-нетранслируемых районов мРНК с помощью тринуклеотидной весовой матрицы. 95
3.2. Применение имитационного моделирования для анализа эволюционных характеристик мРНК. 99
ГЛАВА IV. Анализ контекстных особенностей кодирующих районов генов . 103
Использование наборов коротких олигонуклеотидных мотивов для анализа кодирующих районов генов эукариот: функциональная классификация нуклеотидных последовательностей на основе словарей инвариантных олигонуклеотидов. 103
4.1. Метод функциональной классификации нуклеотидных последовательностей на основе словарей инвариантных олигонуклеотидов. 104
4.2. Метод построения статистически неслучайных олигонуклеотидных словарей для функциональных семейств ДНК (РНК) 104
4.3. Оценка значимости олигонуклеотидного словаря. 105
4.4. Разбиение на подсемейства с одновременным построением олигонуклеотидных словарей 107
4.5. Нуклеотидные последовательности использовавшиеся в анализе. 108
4.6. Построение статистически неслучайных олигонуклеотидных словарей для изофункциональных семейств генов, кодирующих белки 109
4.7. Функциональная классификация генов, кодирующих белки, на основе олигонуклеотидных словарей 111
4.8. Оценки точности распознавания последовательностей изофункциональных семейств генов 115
4.9. Эволюционные характеристики семейства изофункциональных генов, определяющие размер олигонуклеотидного словаря 116
Заключение. 124
Выводы 125
Список литературы 126
- Перестройка структуры хроматина в районе промотора необходимая для эффективной инициации транскрипции
- Компьютерные методы выявления сайтов связывания транскрипционных факторов в выравненных последовательностях
- Анализ и распознавание промоторов эритроид-специфичных групп генов
- Классификация мРНК на основе олигонуклеотидного контекста 5'- нетранслируемого района мРНК.
Введение к работе
Успехи молекулярной биологии в области разработки методов крупномасштабного секвенирования (полной расшифровки) нуклеотидных последовательностей про- и эукариотических геномов привели к накоплению огромного количества экспериментальных данных. Суммарная длина секвенированных последовательностей ДНК и РНК составляет десятки миллиардов п.н. Полностью секвенированы геномные последовательности более 1000 видов вирусов, 175 видов бактерий, 19 видов археобактерий и 20 эукариотических организмов.
В связи с быстрым накоплением экспериментальных данных особую актуальность приобретает разработка эффективных компьютерных методов распознавания и анализа вновь расшифрованных последовательностей, выявления регуляторных и структурных элементов и анализа особенностей их организации (Baltimore, 2001). Использование таких подходов позволяет получить новую информацию о молекулярно-генетических механизмах функционирования и регуляции процессов жизнедеятельности организмов. Однако, несмотря на существование значительного числа программных ресурсов, направленных на распознавание генов и выявление их структуры, предсказание промоторов, сайтов связывания транскрипционных факторов и т.д., эти задачи остаются до конца не решенными (Claverie, 1997; Fickett and Hatzigeorgiou, 1997; Pedersen et.al, 1999; Zhang, 2002).
Специфичность олигонуклеотидного состава является характерной особенностью регуляторных и кодирующих районов генов эукариот, отражающей фундаментальные закономерности их структурно-функциональной организации. Методы, основанные на олигонуклеотидном анализе, широко используются при изучении и распознавании регуляторных (Pesole et al., 2000; Zhang, 1999; Zhu and Zhang, 2000; Atteson, 1998; Tompa, 1999; Sinha and Tompa, 2000; van Helden et al., 2000; Kielbasa etal., 2001; Pevzner and Sze, 2000; Hutchinson, 1996; Solovyev and Salamov, 1997; Scherf et al., 2000) и кодирующих (Zhang, 1997; Solovyev et al. 1994; Xu et al., 1994) последовательностей генов.
Важным достоинством методов, основанных на олигонуклеотидном анализе, является то, что они не требуют множественного выравнивания при анализе наборов исследуемых последовательностей. При этом компьютерные алгоритмы, основанные на учете олигонуклеотидного состава, как правило, характеризуются высокой скоростью работы. Именно поэтому методы олигонуклеотидного анализа являются одними из наиболее эффективных и широко используемых подходов для распознавания и компьютерного анализа вновь расшифрованных геномных последовательностей.
Цели исследования.
Цель исследования - разработка методов анализа, распознавания и классификации регуляторных и кодирующих последовательностей генов, а также применение разработанных методов для изучения особенностей структурно-функциональной организации регуляторных и кодирующих районов.
Задачи исследования.
В ходе работы решались следующие задачи.
1. Разработка метода выявления олигонуклеотидных мотивов, специфичных для функциональных районов нуклеотидных последовательностей. Разработка метода распознавания функциональных районов на основе наборов олигонуклеотидных мотивов. Создание пакета программ, позволяющего производить поиск олигонуклеотидов заданной длины, вырожденности и значимости, а также проводить распознавание регуляторных районов заданного типа в произвольной протяженной последовательности.
2. Анализ промоторов коэкспрессирующихся групп генов, ТАТА-содержащих и ТАТА-несодержащих групп промоторов человека, сайтов связывания транскрипционных факторов, контекста стартового и терминирующего кодонов мРНК высоко- и низкоэкспрессирующихся генов дрожжей, выявление функциональных мотивов, значимых для структурно-функциональной организации регуляторных районов.
3. Разработка метода выявления наборов совершенных олигонуклеотидов, специфичных для кодирующих частей изофункциональных семейств генов. Анализ выборок изофункциональных семейств генов и исследование эволюционных характеристик, влияющих на количество выявляемых олигонуклеотидов.
Методы исследования.
Выявление наборов вырожденных олигонуклеотидных мотивов и распознавание регуляторных районов проводилось с помощью разработанного нами программного пакета ARGO (Vishnevsky et al., 2003). Выборки промоторных районов и сайтов связывания транскрипционных факторов были получены из базы данных TRRD (Kolchanov et al., 2002), EPD (Perier et al., 2000) и EpoDB (Stoeckert et al., 1999). 5 - и 3 -нетранслируемые районы мРНК дрожжей были получены из базы данных Transterm
(Dalphin et al., 1997). При анализе этих районов использовался метод тринуклеотидных весовых матриц.
Выявление наборов совершенных олигонуклеотидов, специфичных для кодирующих частей генов, проводилось с помощью разработанной нами программы (Kolchanov et al., 1995) в базе данных последовательностей кодирующих частей изофункциональных семейств генов.
Научная новизна работы.
В представленной работе предложен комплекс компьютерных методов, позволяющих исследовать широкий круг проблем структурно-функциональной организации регуляторных и кодирующих районов генов эукариот.
Предложен новый метод выявления наборов вырожденных олигонуклеотидных мотивов, специфичных для регуляторных элементов генов эукариот. Этот метод основан на кластеризации схожих совершенных олигонуклеотидов, входящих в состав различных регуляторных последовательностей с итерационным построением для каждого класса олигонуклеотидов результирующего консенсуса. Предложен новый метод распознавания регуляторных районов генов на основе олигонуклеотидных мотивов, основанный на сравнении представленности и характера распределения мотивов в рассматриваемой последовательности и последовательностях регуляторных районов генов. Методы реализованы в виде Интернет-доступного пакета программ ARGO.
Впервые проведен анализ промоторов ряда семейств коэкспрессирующихся генов из базы данных TRRD, для которых выявлены районспецифичные олигонуклеотидные мотивы, соответствующие как ранее известным сайтам связывания транскрипционных факторов, так и новым функциональным сигналам.
Проведен сравнительный анализ ТАТА-содержащих и ТАТА-несодержащих групп промоторов. В каждой из указанных групп промоторов выявлены районспецифичные вырожденные олигонуклеотидные мотивы. Впервые продемонстрированы некоторые особенности распределения ТАТА-подобных мотивов вдоль промоторов обеих групп.
Анализ сайта связывания транскрипционного фактора SF1 с помощью системы ARGO впервые показал возможность существования комплексного элемента, состоящего из сайта SF1, лежащего в обратной ориентации, и расположенного в 3 -фланкирующем районе сайта NF1.
На основе анализа контекста стартового и терминирующего кодонов мРНК высоко- и низкоэкспрессирующихся генов дрожжей построены контрастные тринуклеотидные весовые матрицы. Показаны достоверные различия распределения
тринуклеотидов в 5 -, 3 -нетранслируемых районах высоко- и низкоэкспрессирующихся мРНК дрожжей. Впервые выявлена зависимость между контекстом 5 - и 3 -нетранслируемых районов мРНК с высоким уровнем экспрессии. Впервые с помощью компьютерного моделирования эволюции 5 -, З -нетранслируемых районов мРНК дрожжей эта зависимость объясняется в рамках модели лимитирующего звена.
Предложен новый метод и разработан пакет программ для выявления наборов совершенных олигонуклеотидов, специфичных для кодирующих частей изофункциональных семейств генов, и их классификации. Показано, что основными эволюционными характеристиками, влияющими на количество выявленных специфических олигонуклеотидов, являются неравномерность распределения мутаций и их количество.
Практическая ценность работы.
На основе оригинальных методов разработан Интернет-доступный пакет программ ARGO (http://wwwmgs2.bionet.nsc.ru: 8080/argo/), предназначенный для выявления вырожденных олигонуклеотидных мотивов, классификации и распознавания регуляторных районов генов эукариот в протяженных геномных последовательностях. Проведенный анализ дает дополнительную информацию о структурно-функциональной организации промоторов, сайтов связывания транскрипционных факторов, кодирующих районов эукариот, 5 -и З -нетранслируемых районов мРНК дрожжей. Система ARGO может быть использована для анализа и классификации вновь секвенированных геномных последовательностей.
Апробация работы.
Материалы работы были представлены на отчетных сессиях Института цитологии и генетики 1996, 1999 и 2002 года. Результаты работы были представлены на следующих научных конференциях: First, Second, Third, Fourth International Conferences on Bioinformatics of Genome Regulation and Structure, Novosibirsk, Russia, 1998, 2000, 2002, 2004; Втором сибирском конгрессе по прикладной и индустриальной математике, Новосибирск, Россия, 1996; II и III съездах ВОГиС, Санкт-Петербург 2000, Москва 2004, Россия; Школе молодых учёных по биоинформатике, Италия, сентябрь 2001; Third International Conference on Intelligent Systems for Molecular Biology, Menlo Park, USA, 1995.
Публикации.
По теме диссертации опубликовано 29 печатных работ, из них 23 в рецензируемых изданиях.
Структура работы.
Диссертационная работа состоит из введения, обзора литературы (первая глава), трех глав, содержащих основные результаты, выводов, списка цитированной литературы (382 ссылки). Работа изложена на 154 страницах, содержит 33 рисунка и 22 таблицы. Нумерация рисунков, таблиц и формул производится отдельно для каждой главы.
Перестройка структуры хроматина в районе промотора необходимая для эффективной инициации транскрипции
Следующий уровень упаковки хроматина - укладка нуклеосом в хроматиновые нити толщиной 30 нм., стабилизируемые другими белками, включая линкерный гистон HI (Wolffe et al., 1997; Ramakrishnan, 1997). Еще более высокий уровень упаковки хроматина, оказывающий влияние на транскрипцию генов - протяженные петли ДНК, формирующие фибриллы размером примерно 300 нм., прикрепленных к ядерной белковой сети (Dillon and Grosveld, 1994; Bode et al., 1995; Gardiner, 1995, Lewin, 1997). Районы взаимодействия ДНК и ядерного белкового матрикса называются участками прикрепления ядерного матрикса (Matrix or Scaffold Attachment Regions (MARs/SARs)) (Bode et al., 1995, Bode et al., 1996, Stunkel et al., 2000). Показано (Sippel et al., 1993; Dillon and Grosveld, 1994; Karpen, 1994; Schubeler et al., 1996), что такие петли, содержащие в среднем от 20000 п.н. до 100000 п.н., могут соответствовать модулям или кластерам генов, с общей регуляцией, то есть районам ДНК, в пределах которых сохраняется функциональность общих энхансеров или сайленсеров. Наивысший уровень упаковки ДНК - формирование нитей толщиной 250 нм и образование метафазного гетерохроматина (Pierce, 2003). В работах (Trifonov, 1997; Levitsky et al., 2000) показано, что расположение нуклеосом может контролироваться особым контекстным кодом укладки хроматина. Однако вопрос о природе кода нуклеосомной упаковки ДНК остается открытым. 1.1.4. Эксперименты in vitro, показали, что БТФ и РНК полимераза II не способны эффективно связываться с коровым промотором, если он упакован в нуклеосому (Paranjape et al., 1994; Georges et al., 2002). Кроме того, хроматин служит для посадки универсальных и ген-специфических репрессорных белков, также подавляющих транскрипцию (Hanna-Rose and Hansen, 1996). Для инициации транскрипции необходимо присутствие активационных белковых факторов, способных перестроить нуклеосому и обеспечить доступ БТФ и полимеразы к промотору. Этот процесс известен как «активированная» транскрипция. В то же время в ряде случаев присутствие нуклеосомы в определенном месте промотора необходимо для инициации транскрипции как, например, в случае промотора гена MMTV (Mouse mammary tumor virus) (Belikov et al., 2001). Известно 3 основных типа модификации структуры хроматина в районе промотора, участвующие в инициации транскрипции (Felsenfeld et al. 1996; Hartzog and Winston 1997; Tsukiyama and Wu 1997; Mizzen and Allis 1998).
Первый тип модификации - ацетилирование и деацетилирование гистонов (Gregory and Horz, 1998; Imhof and Wolffe, 1998; Kadonaga, 1998; Kuo and Allis, 1998). Ацетилирование положительно заряженных N-концов субъединиц нуклеосомы, осуществляемое гистон-ацетилтрансферазой (HAT), ослабляет связь гистонового октамера с ДНК и облегчает доступ к ней транскрипционным факторам (Pollard and Peterson, 1998; Varga-Weisz and Becker, 1998; Workman and Kingston, 1998). Ацетилирование нуклеосом в районе промотора обычно приводит к активации транскрипции. Деацетилирование -удаление ацетил-группы с N-концов, необходимое для подавления транскрипции генов, осуществляется деацетилазным белковым комплексом (Struhl and Moqtaderi, 1998; Kuo et al. 1998).
Следующий тип модификации - АТФ-зависимая перестройка структуры хроматина, которая выражается в перемещении нуклеосом или в изменении их конформации (Kingston and Narlikar, 1999). Один из основных белковых комплексов выполняющих эту функцию - SWI/SNF (ATP-dependent chromatin remodeling complex), который способен изменять структуру хроматина и обеспечивать доступ транскрипционных факторов к промотору у дрожжей (Peterson, 1996; Wilson et al., 1996; Quinn et al., 1996; Brown et al., 2000; Kornberg and Lorch, 1999; Kadam and Emerson, 2002). Другой фактор, участвующий в перестройке структуры хроматина у D.melanogaster -NURF (Nucleosome Remodeling Factor). Это комплекс из 4-х субъединиц, способный перестраивать структуру нуклеосом с использованием АТФ (Tsukiyama and Wu 1995, Tsukiyama et al. І 995). В АТФ-зависимой перестройке нуклеосом значительную роль играют комплекс 1SWI и комплекс Mi-2 (Kingston and Narlikar, 1999; Vignali et al., 2000). Третий ти і модификации структуры хроматина - метилирование субъединиц нуклеосомы (Zhang and Reinberg, 2001; Noma et al. 2001; Lachner et al., 2001; Nagy et.al., 2002). Метилированию могут подвергаться как лизиновые, так и аргининовые остатки гистонов (Jenuwein, 2001; Davie and Dent, 2002; Bauer et al., 2002). Выявлено несколько гистон-метилтраісфераз (HMTs), отвечающих за метилирование нуклеосом (Baumbusch et al., 2001; Jackson et al., 2002; Rea et al., 2000). Показано, что метилирование нуклеосом в районе промотора, как правило, приводит к подавлению экспрессии генов (Bird and Wolffe, 1999). , Характерцый пример перестройки хроматина в процессе инициации транскрипции - последовательная модификация нуклеосом в промоторе гена р-интерферона человека Этот процесс проходит в несколько стадий. Вскоре после инфицирования вирусом на свободном от нуклеосом энхансере гена IFN-b происходит сборка энхансеросомы (enhanceosome) - комплекса, включающего в себя такие факторы как NF-kB, IRFs, ATF-2/c-Jun гетеродимер и HMGI(Y) (Maniatis et al., 1998; Munshi et al., 1999). Энхансеросома привлекает комплекс GCN5, который ацетилирует расположенные рядом с ним нуклеосомы 1 и 2 (Parekh and Maniatis, 1999) (рисунок 1.1.5). После этого комплекс GCN5 отделяется от промотора, а на его место садится холоэнзимный комплекс СВР-РНК полимераза II (Merika et al., 1998; Kim et al., 1998; Yie et al., 1999). Затем, через взаимодействие с белком СВР на промотор садится комплекс SWI/SWF. Его связь с промотором стабилизируется ацетилированными N-концами гистонов, взаимодействующих с бромодоменом белков BRG1/BRM, входящих в
Компьютерные методы выявления сайтов связывания транскрипционных факторов в выравненных последовательностях
Теоретически, этот метод может находить локальное выравнивание, соответствующее максимальному значению информационного содержания I. На практике стохастический алгоритм зачастую сходится в точке локального максимума. Для выведения алгоритма из локального минимума через каждые М итераций производится смещение рассматриваемого окна последовательностей на несколько позиций вправо или влево. На основе оценки веса каждой позиции выбирается наиболее оптимальное положение окна, и работа программы продолжается с этой позиции.
Метод позволяет выявлять множественные сайты и определять их оптимальную длину за счет нахождения размеров окна, соответствующего максимальному значению функции информационного содержания.
Для поиска нескольких типов сайтов в выборке последовательностей, не все из которых эти сайты содержат, предложен алгоритм motif (Bernoulli) sampler (Neuwald et al., 1995). В ходе инициализации все последовательности выборки объединяются в одну последовательность. Случайным образом выбираются позиции, которые будут рассматриваться как первые позиции предполагаемых сайтов. При этом предполагаемые сайты не должны перекрываться или попадать на границы последовательностей, объединенных в общую цепь. На основе расположения потенциальных сайтов генерируется модель р = {рь х, рь}. То есть производится оценка частот нуклеотидов, входящих (рьх) и не входящих (рь) в сайты (be{A,T,G,C}, x=l,...,L, где L -рассматриваемая длина сайта). Оценивается вероятностный вес Ах первой позиции объединенной последовательности как AX=QX/PX, где Qx - вероятность порождения сегмента х, начинающегося в этой позиции на основе модели рь,х, а Рх - на основе pV На основе этого веса рассматриваемый участок либо считается сайтом, либо относится к сайт-несодержащим районам. Производится пересчет вероятностей модели р = {рь,х, р ь} на основе новой информации. Затем рассматривается следующая позиция и т.д. до последней позиции объединенной последовательности. Затем процесс снова повторяется с первой позиции и т.д. до тех пор, пока алгоритм не сойдется, (когда параметры рьх и рь перестают изменяться). Данный подход позволяет последовательно находить сайты разных типов и оптимизировать их длину.
Для функционирования промоторов эукариот необходимо присутствие большого числа ССТФ. Поэтому один из наиболее распространенных методов распознавания промоторов основан на поиске районов ДНК, содержащих скопления потенциальных ССТФ: участки, содержащие достоверно большее (по сравнению со случайными или непромоторными последовательностями) количество потенциальных ССТФ, считаются промоторами. Метод PROMOTERSCAN (Prestridge, 1995) использовал для анализа базу данных сайтов связывания транскрипционных факторов TFD (Ghosh, 1993) и базу данных промоторных районов эукариот EPD (Bucher and Trifonov, 1986; Schmid et al., 2004). В качестве негативной выборки использовался набор последовательностей кодирующих районов и мРНК. Для каждого промотора выборки в районе [-250;+1] оценивалось отношение плотностей R=Dprom/Dn0n-prom, где Dprom - плотность потенциальных ССТФ в промоторе, a Dnon-prom - в непромоторных районах. После этого рассчитывалось граничное значение Rbord, соответствующее правильной идентификации 70% промоторов и предсказанию одного ложного промотора на 14000 п.н.. Распознавание промоторов в анализируемой последовательности производится с помощью движущегося окна размером 250 п.н., в котором рассчитывается плотность присутствия потенциальных ССТФ. Точная локализация позиции старта транскрипции производится на основе распознавания потенциального ТАТА-бокса с помощью весовой матрицы (Bucher, 1990).
Для этого промоторные районы длиной L = 600 п.н. из базы данных TRANSFAC разбивались на 80 фрагментов. Затем строилась матрица Т, элемент Tij которой представлял собой наблюдаемое количество потенциальных ССТФ 1-го типа (1=1,...,130) в j-м фрагменте промотора 0=1,..,80). Потенциальные ССТФ распознавались с помощью консенсусов ССТФ из базы данных Faisst & Meyer (1992). Степень сходства неизвестной последовательности с выборкой промоторов оценивалось с помощью ju:
Здесь =130 - количество рассматриваемых ССТФ, Пу количество всех появлений і-го ССТФ в j-м фрагменте неизвестной последовательности. Весовой коэффициент w, і-го ССТФ определялся как н, = -1п Р(і), где Р(і) - вероятность появления і-го ССТФ в случайной нуклеотидной последовательности. Если значение сходства ju превышало
пороговую величину //, рассматриваемый участок неизвестной последовательности
идентифицировался как промотор.
Для повышения точности распознавания вся обучающая выборка промоторов разбивалась на 8 гомогенных групп, каждая из которых включала промоторы со сходными распределениями ССТФ. Для каждой i-й группы была построена матрица частот ССТФ
Ґ \ и рассчитан соответствующий порог tf\ Процедура разбиения привела к повышению точности распознавания. В этом методе также использовалось отнесение распознаваемой последовательности к одному из функциональных классов базы данных EPD (Bucher and Trifonov, 1986; Schmid et al., 2004).
Методы распознавания промоторов только на основе информации о локализации потенциальных ССТФ имеют ряд недостатков: неполнота баз данных ССТФ; неопределенность использования граничного значения (cut-off) весовой функции при распознавании ССТФ; высокие ошибки перепредсказания потенциальных ССТФ и т.д. Для более точного распознавания промоторов предложены методы, основанные на сравнении частот представленности олигонуклеотидов заданной длины (к-плетов).
Метод PromFind (Hutchinson, 1996) при распознавании промоторов использует различия частот олигонуклеотидов длины 6 в промоторах, кодирующих районах и в 5 -некодирующих районах, прилегающих к первым кодирующим экзонам. В процессе распознавания промотора в неизвестной последовательности рассчитывается дискриминирующая функция, разделяющая промоторы и кодирующие районы. В том случае, когда значение этой функции превышает граничную величину, считается, что рассматриваемая последовательность содержит промотор, причем его точное расположение определяется на основе дискриминирующей функции, разделяющей промоторы от 5 -некодирующих районов первых экзонов.
Методы TSSG и TSSW (Solovyev and Salamov, 1997) используют линейный дискриминантный анализ для распознавания промоторов. При этом в ходе распознавания оцениваются: (1) вес ТАТА-бокса; (2) отклонения частот триплетов, характерные для района старта транскрипции; (3) отклонения частот олигонуклеотидов длины 6 в 3 -районе длины 100 п.н. относительно старта транскрипции, которые рассчитывались в трех рамках считывания; (4) веса потенциальных ССТФ.
Метод TSSG использует для распознавания потенциальных ССТФ базу данных TFD (Ghosh, 1993), a TSSW - базу данных TRANSFAC (Wingender et al., 1996). Обе программы доступны по адресу http://www.softberrv.com/berry.phtml?topic=promoter.
Метод Promoterlnspector (Scherf et al., 2000) использует при распознавании промоторов наборы сходных олигонуклеотидов с несовпадениями, которые выявлялись в обучающей выборке промоторов. Данный метод является развитием алгоритма выявления функциональных мотивов (Wolfertstetter et al. 1996), в котором проводился поиск олигонуклеотидов, представленных как минимум в определенной доле обучающих последовательностей и содержащих не более одного несовпадения. Предполагается, что случайные олигонуклеотиды содержат несовпадения, распределенные по всей длине олигонуклеотида, в то время как функциональные мотивы имеют строго консервативные и относительно вариабельные позиции. Выбор олигонуклеотидов проводился путем максимизации информационного содержания сначала в пределах олигонуклеотида, а затем и на всей длине ССТФ.
Анализ и распознавание промоторов эритроид-специфичных групп генов
Трансляция мРНК включает три последовательных процесса: инициацию, элонгацию и терминацию. Понятно, что чем больше каждая из величин Score(5 -region), Score(3 -region) и CAI(codingregion), тем выше эффективность протекания каждого их трех указанных процессов. Однако в рамках модели лимитирующего звена итоговая эффективность трансляции мРНК определяется скоростью самого медленного из этих процессов, то есть наименее эффективным звеном.
Результаты моделирования (рисунок 3.4, белые кружки) показали, что в области значений СА1 0.3 поведение моделированных мРНК воспроизводит реальную картину взаимозависимости между контекстными особенностями 5 -, З -НТР высокоэкспрессирущихся мРНК.
Посттранскрипционная регуляция, определяющая эффективность трансляции каждой отдельной мРНК, включает в себя инициацию трансляции, элонгацию и терминацию. Для описания мы воспользовались моделью последовательного молекулярного процесса без разветвлений, включающего три последовательных этапа, определяющих выход конечного продукта - белка. Известно, что для описания подобных линейных процессов хорошим методом аппроксимации является модель лимитирующего звена. Наиболее полно применительно к биологическим системам и процессам она развита в работах Полетаева (Полетаев, 1973) и Ратнера (Ратнер, 1990).
Лимитирующими называют такие звенья в последовательности реакций, которые определяют выход конечного продукта последовательной цепи реакций. Таким образом, изменение интенсивности процесса протекания реакции в лимитирующем звене может существенно изменять выход конечного продукта. При этом изменения в нелимитирующих звеньях цепи не приводят к сколько-нибудь значимым изменениям в выходе конечного продукта. Таким образом, наиболее эффективным способом управления системой является воздействие на ее лимитирующие звенья (Ратнер, 1990). Как только в результате мутации определенное звено перестает быть лимитирующим, регуляция идет по следующему лимитирующему звену. Использование данной модели для описания эволюции молекул мРНК означает, что только мутации, приводящие к снятию таких лимитов, приводят к повышению общей эффективности системы трансляции. Остальные, нелимитирующие элементы контекстной организации мРНК, эволюционируют в нейтральном режиме не зависимо друг от друга.
Полученные результаты показывают, что высокоэкспрессирующиеся мРНК в ходе эволюциионного процесса провели оптимизацию трех основных районов мРНК, от которых зависит эффективность трансляции: 5 -НТР, кодирующего района и З -НТР. Этим и объясняется наличие корреляции по контекстным свойствам по указанным районам для высокоэкспрессирующихся мРНК (СА1 0.3), на которые особенно велико давление отбора, направленного на повьппение эффективности трансляции. Эта картина наблюдалась нами на мРНК дрожжей (рисунок 3.1.4.1., черные кружки). Именно на выборке высокоэкспрессирующихся мРНК с СА1 0.3 наблюдается значимая зависимость весов 5 -и З -НТР мРНК.
В то же время, низкий уровень трансляции мРНК может быть обусловлен наличием лимитирующего звена в любом из трех районов. При этом мРНК с оптимальными контекстными свойствами старта трансляции и кодирующего района могут иметь низкую итоговую эффективность трансляции в связи с возникновением лимитирующего звена в стоп-кодоне. Аналогично, наличие лимитирующего звена на уровне кодирующего района может обеспечивать низкую эффективность трансляции при оптимальных старт- и стоп-кодонов и т.д. Очевидно, что в этом случае (то есть для низкоэкспрессирующихся мРНК) не стоит ожидать корреляции между контекстными свойствами трех указанных районов.
Некоторые отличия между реальными и теоретическими зависимостями, видимо, можно объяснить не полным учетом в функционале (3.1) тонких особенностей зависимости итоговой эффективности трансляции мРНК от взаимоотношений между вкладами трех составляющих процессов в рамках модели лимитирующего звена. Заметим в заключение, что этот подход может быть использован также для решения обратной задачи - оценки степени давления отбора на эволюцию контекста 5 -, З -нетранслируемых и кодирующих районов мРНК.
Секвенирование геномов эукариот длиной в миллиарды п.н. привело к необходимости разработки новых методик изучения структурной организации геномной ДНК, основанных на различных олигонуклеотидных подходах. Они включают в себя: методы секвенирования путем гибридизации с наборами коротких олигонуклеотидов (Khrapko et al.,1989; Kuznetsova et al., 1994; Strezoska et al., 1991), гибридизации с олигонуклеотидами для обнаружения полиморфных сайтов (Davies, 1986; Saiki et al., 1986), в частности однонуклеотидных замен (Храпко и др.,1991), а также олигонуклеотидные пробы для скринирования библиотек кДНК (Suggs et al., 1981) и для их упорядочивания (Hoheisel, 1991). Олигонуклеотидный состав последовательностей используется для быстрого поиска гомологии филогенетического анализа (Solovyev and Seledsov, 1993).
Олигонуклеотидные методы могут использоваться для классификации клонированных ДНК (геномных фрагментов ДНК или кДНК) в функциональные классы путем гибридизации со специфическими наборами коротких олигонуклеотидов. Функционально значимые классы последовательностей включают гены, кодирующие белки и различные типы РНК, районы генов, кодирующие наиболее распространенные белковые мотивы (zinc finger, homeobox etc.), функциональные районы обеспечивающие структурную организацию хроматина, включая SARs/MARs, теломерные и центромерные повторы; промоторы и другие сигнальные последовательности, участвующие в контроле экспрессии генов на этапах транскрипции, процессинга, сплайсинга, трансляции.
Методики, которые позволяют классифицировать фрагменты клонированных ДНК к классам функциональных районов на основе гибридизации с ограниченным числом специфичных олигонуклеотидов, то есть без полного секвенирования, могут значительно уменьшить время, затрачиваемое на экспериментальное изучение геномов эукариот, в первую очередь на этапе функционального картирования. Для этого необходима разработка теоретических подходов и компьютерных программ для того, чтобы дать возможность исследователю строить наборы специфичных олигонуклеотидов для определения, к какому типу функциональных районов относится исследуемая последовательность. Необходимо также, чтобы каждый результирующий набор олигонуклеотидов обеспечивал минимально возможные ошибки функциональной классификации соответствующих функциональных районов.
Нами предложен метод и разработана компьютерная программа для построения наборов олигонуклеотидов, инвариантных для изофункциональных семейств ДНК (РНК). Были проанализированы 322 семейства белок-кодирующих генов и построены наборы инвариантных олигонуклеотидов, или олигонуклеотидных словарей, характеризующих семейства и подсемейства генов. Был разработан метод идентификации последовательностей этих семейств генов на основе наборов инвариантных олигонуклеотидов. При наиболее эффективных значениях идентификационных параметров ошибка первого рода (недопредсказания) составляла 10-15% на контрольных (независимых) данных, при ошибке второго рода 1-2 избыточных последовательностей на одну рассматриваемую.
Рассмотрим функциональное семейство нуклеотидных последовательностей S= {а } содержащее М последовательностей S (j=l,.., М) длины L. Зафиксируем длину олигонуклеотида /. Построим полный набор олигонуклеотидов указанной длины для j-ой последовательности этого семейства (олигонуклеотидный словарь j-ой последовательности). Тогда словарь специфических олигонуклеотидов семейства S определяется как пересечение олигонуклеотидных словарей всех последовательностей
этого семейства:
Классификация мРНК на основе олигонуклеотидного контекста 5'- нетранслируемого района мРНК.
Определенная таким образом величина КО является верхней границей доверительного интервала для среднего ожидаемого количества полностью совпадающих олигонуклеотидов длины / в двух случайных последовательностях длины L и N (в частном случае, если последовательности равны по длине, LN=L ). Необходимо отметить, что используемые формулы применимы для случая независимых олигонуклеотидов, без учета возможности их перекрывания. Для оценки ожидаемых вероятностей в случае реальных перекрьшающихся олигонуклеотидов мы использовали метод Монте-Карло симуляции для длин последовательностей Z,=N=100, 200,... 5000 и для а = 0.05, 0.01, 0.001 и 0.0001. В результате было выяснено, что для всех значений L и а рассматриваемое значение КО рассчитанное как отношение суммы наиболее отклоняющихся К (К определялось как в (4.1)) к общей сумме К, хорошо аппроксимируется формулой (4.2) с линейным смещением на 3 олигонуклеотида выше. Таким образом, мы согласно независимых олигонуклеотидов (4.1)-(4.2) с линейной коррекцией: последовательностей в семействе S вероятность случайного совпадения олигонуклеотидных словарей уменьшается. Поэтому, при прочих равных условиях верхняя граница доверительного интервала КО для трех и более последовательностей удовлетворяет неравенству Это означает, что полученная нами из (4.1)-(4.3) оценка верхней границы доверительного интервала КО является завышенной в случае М 2. Таким образом, при оценке статистической значимости размеров словаря W, содержащего R олигонуклеотидов, общих для М последовательностей семейства S, будет проверяться условие Заметим, что с учетом того, что оценка КО является завышенной (см. неравенство (4.3)), использование критерия (4.4) является заведомо правомерным в тех случаях, когда мы стремимся получить олигонуклеотидный словарь статистически неслучайного размера. Таким образом, если критерий (4.4) выполняется, можно сделать вывод о том, что М последовательностей семейства S с уровнем значимости а имеют неслучайно идентичные олигонуклеотидные словари размера R. Следует подчеркнуть, что при получении оценок (4.1)-(4.4) мы не использовали никакой информации о степени гомологии рассматриваемых последовательностей, либо о характере их выравнивания.
На первом этапе анализа для каждого рассматривавшегося изофункционального семейства генов S строился олигонуклеотидный словарь W. Затем с использованием (4.1)-(4.4) оценивалась статистическая значимость размеров этого словаря R. В случае удовлетворения условию (4.4) построенный таким образом олигонуклеотидный словарь использовался в дальнейшем анализе. В противном случае, т.е. когда для семейства S не удавалось построить статистически значимого словаря (в смысле критериев (4.1)-(4.4)), это семейство разбивалось описанным ниже способом на несколько подсемейств, для каждого из которых строился свой олигонуклеотидный словарь. Фактически, невозможность построения для некоторого семейства статистически неслучайного словаря означает его негомогенность, то есть присутствие двух или нескольких подсемейств с существенно отличающимися словарями. В этом случае необходимо осуществить разбиение исходного семейства на ряд подсемейств со статистически значимыми олигонуклеотидными словарями. Эта процедура осуществляется с помощью описанного ниже алгоритма. Сопоставим j-ой последовательности семейства S олигонуклеотидный словарь W. В качестве меры близости между і-м и j-м словарями будем использовать количество общих олигонуклеотидов в этих словарях dij. Построим матрицу DM = \dij\ i,j = 1,..., М. Затем предпримем следующие шаги. I. Рассмотрим элементы этой матрицы и выберем наибольший из них, соответствующий і-му и j-му словарям (выбор двух последовательностей наиболее сходных по их олигонуклеотидным словарям): II. Будет требовать выполнения условия где КО - верхняя граница доверительного интервала, вычисляемая из соотношений (4.1)-(4.4). Выполнение условия (4.5) означает, что і -я и } -я последовательности неслучайно близки в смысле сходства своих олигонуклеотидных словарей. III. Сформируем словарь, образованный из общих олигонуклеотидов і -го и j -го словарей: последовательности в одно текущее подсемейство Ui j , сопоставив ему олигонуклеотидный словарь Wi j . Фактически каждое такое текущее подсемейство объединяет последовательности с наиболее сходными олигонуклеотидными словарями. IV. Преобразуем матрицу DM размера МхМ в матрицу DM-1 размера (M-l)x(M-l). а) Для этого вычеркнем j-ый столбец и j-ю строку из матрицы DM, уменьшив тем самым ее размер на 1. б) Заменим элементы і -ой строки и і -го столбца на новые, которые равны расстояниям между текущим подсемейством Ui j и остальными последовательностями (текущими подсемействами) семейства S. При этом расстояние между текущим подсемейством Ui j и г-ой последовательностью определяется как количество общих олигонуклеотидов в словарях Wi j и Wr. В результате получаем матрицу DM-1, которая описывает взаимные расстояния между М-1 олигонуклеотидными словарями. При этом словарь Wi j соответствует подсемейству из двух сходных последовательностей, а остальные словари соответствуют отдельным последовательностям семейства S.
V. Затем вновь последовательно выполним описанные ниже процедуры (I)-(IV). При этом после каждой итерации размер матрицы уменьшается, а количество текущих классов и (либо) количество включенных в них последовательностей со сходными олигонуклеотидными словарями увеличивается. Процедура разбиения оканчивается, когда ни для одного из текущих подсемейств не выполняется условие (4.5). Это означает, что исходное семейство S оказалось разбито на ряд подсемейств, каждое из которых включает последовательности со сходными олигонуклеотидными словарями. Фактически, предложенный метод разбиения семейства S на подсемейства представляет собой реализацию метода кластеризации UPGMA с конкретным вариантом вычисления расстояния между подсемействами и определенным критерием остановки процедуры кластеризации.