Введение к работе
Актуальность проблемы
Разработка методов клонирования и секвенирования нуклеиновых кислот явилась началом нового этапа развития молекулярной биологии. Быстрое накопление данных о первичных структурах биополимеров поставило перед биологами-теоретиками и разработчиками программного обеспечения новые задачи. Изучение структурно-функциональной организации регуляторних последовательностей ДНК и РНК требует применения современных методов информатики, создания баз данных с современными средствами управления, разработки новейших методов сравнения, анализа и статистических исследований нуклеотидных последовательностей .
Актуальность решения задач, связанных с теоретическим исследованием последовательностей ДНК и РНК, определяется большим числом секвенированных нуклеотидных последовательностей и необходимостью осмысления содержащейся в них информации. Частоты и распределение текстуальных элементов в регуляторних сигналах содержат ценную информацию о механизмах регуляции генов и эволюции регуляторних районов ДНК. Особое место занимают статистические методы исследования функциональных сайтов регуляции транскрипции и мутационных изменений в них, как функционально нейтральных, так и влияющих на эффективность функционирования регуляторного сигнала.
Теоретические методы исследования уже в настоящее время позволяют внести значительный вклад как в расшифровку генетической информации, содержащейся в первичных последовательностях нуклеиновых кислот, так и в решение конкретных молекулярно-генети-ческих и биотехнологических задач (Колчанов и др., 1985; Ратнер и др., 1985; Миронов и Кистер, 1984, 1985; Tumanjan et al., 1992; Мігопот -nd Lebedev, 1993; Александров, 1994; Лысов, 1994).
В связи с реализацией ряда проектов секвенирования, таких как проекты "Геном человека" или "Геном E.coli", особую важность приобретают исследования структурно-функциональной организации геномных последовательностей, участвующих в регуляции транскрипции и трансляции, призванные содействовать составлению полной энциклопедии генов с точным установлением их структуры и роли (Баев, 1991; Мирзабеков, 1991). Задачей компьютерного анализа является выяснение основных структурных особенностей генома, таких как локализация и взаимное расположение генов, знаков пунктуации (фрагментов, отвечающих за регуляцию основных генетических процессов), неслучайные повторы, палиндромы, периодичности и т. п. Статистический анализ позволяет также изучать взаимное
функциональное соответствие молекул рибосомных, матричных и транспортных РНК. Компьютерный анализ геномных последовательностей является удобным средством исследования структуры генов и семейств ственных генов, а также дает богатую информацию о регуляторних последовательностях и регуляторних цепях, то есть о том, как работает геном в целом, как функционируют гены и как одни гены управляют работой других.
Цель и задачи исследования
Целью данного исследования является изучение текстуальных и статистических закономерностей в регуляторних последовательностях ДНК и РНК, участвующих в процессах трансляции и транскрипции. Основными задачами работы являлись:
-
Изучение статистических характеристик и текстуальных закономерностей в коротких регуляторних сигналах транскрипции, функционально важные и нейтральные мутационные изменения в регуляторних районах генов.
-
Поиск участков взаимной комплементарное различных последовательностей РНК и выявление потенциальных участков нуклеино-во-нуклеиновых взаимодействий, предполокительно реализующихся при межмолекулярной гибридизации и в процессе трансляции.
-
Исследование структурной и функциональной организации онкогена р53 человека.
Научная новизна и практическая ценность работы Впервые был проведен комплексный статистический анализ регуляторних сайтов транскрипции, мутационные изменения и замени в консервативних регуляторних сигналах ДНК прокариот и эукариот, участвующих в регуляции транскрипции, исследованы методами статистического анализа. Показано, что регуляторные области характеризуются асимметричным распределением нуклеотидов между цепями ДНК. (+) - цепь ДНК содержит меньше цитозина в регуляторних участках, функционально важные нуклеотидные позиции обогащены зденином. Изучены частоты нуклеотидов и нуклеотидных замен, распределение нуклеотидов в последовательностях регуляторних сайтов. Впервые изучены частоты ко-замен в регуляторних участках ДНК. Получены свидетельства о компенсаторном характере некоторых нуклеотидных замен. Проведен компьютерный анализ профилей самокомплементарности и участков взаимной комплементарное последовательностей рибосомных матричных и транспортных РНК Escherichia coli и мыши. Анализ проводился предложенным нами методом поиска локальных стабильных гибридных структур, как в одной молекуле РНК, так и в различных моле-.
кулах с использованием порогового значения свободной энергии. Выявлены фрагменты молекул риоосомной РНК, обладающие повышенной ком-плементарностью к последовательностям различных матричных РНК и транспортных РНК (клгогер-фрагментш. Предполагается, что клингер--фрагменты являются потенциальными участками межмолекулярного взаимодействия. Выдвинута гипотеза, объясняющая образование стабильных гибридных структур при взаимодействии молекул рРНК и мРНК наличием многих взаимозаменяемых межмолекулярных контактов.
Проведен компьютерный анализ полной последовательности онкогена человека р53, выявлены уникальные и повторяющиеся участки последовательности, а также потенциальные регуляторные сайты и рамки считывания.
Разработаны новые алгоритмы и программы для исследования первичных структур биополимеров, в частности, программа подсчета нук-леотидных замен и ко-замен mutation, программа построения профиля монотонности частотных характеристик мономерных элементов в символьных последовательностях JUMP. Предложен метод суммирования, который широко применяется в различных программах сравнения символьных последовательностей пакета "САМСОН" для анализа первичных структур биополимеров, разработанного в ИМПБ РАН.
Апробация работы
Материалы диссертации докладывались и представлялись на ш Всесоюзном совещании "Теоретические'исследования и банки данных по молекулярной биологии и генетике" (Новосибирск, 1938), совещании по выработке концепции компьютерной поддержки программы "Геном человека" (Пущино, 1989), v школе-семинаре "Базы данных и пакеты прикладных программ для анализа структур биополимеров" (Москва, 1990), международной конференции "Моделирование и компьютерные методы в молекулярной биологии и генетике" (Новосибирск, 1990), на рабочем совещании "Применение компьютеров в биологии" (Мартинсри-эд, ФРГ, 1990) международной конференции "Биосинтез белка" (Пущино, 1991), международной конференции "Трансляционный аппарат" (Берлин, ФРГ, 1992), ш и iv Всероссийской конференциях "Геном человека" (Черноголовка, 1993, 1994). По материалам диссертации опубликовано 16 работ и г находятся в печати.
Структура и объем работы
Диссертация состоит из введения, обзора литературы, четырех глав, посвященных методам исследования, результатам и их обсуждению, заключения и выводов. Работа изложена на страницах машинописного текста, содержит рисунков и таблиц. Список литературы включает цитированных источниксв.