Введение к работе
Актуальность проблемы
Биолог сталкивается с проблемой специфических биологических реакций практически в любой своей деятельности. Специфические биологические реакции присущи многим процессам жизнедеятельности, от взаимодействий между ферментами и субстратами , между гормонами и их рецепторами, между антителами и антигенами, и вплоть до взаимодействий между клетками. Природа использует механизмы молекулярного узнавания генной экспрессии для того, чтобы достигнуть селективности, необходимой в естественном отборе. РНК-, ДНК-полимеразы. топоизомеразы. другие ферменты и регуляторные белки узнают и преимущественно связываются с вполне определенными нуклеотидными последовательностями ДНК генома, различая их среди большого числа других нуклеотидных последовательностей. Эти специфические первичные структуры отбирались в процессе эволюции, чтобы удовлетворить требованию функционально адекватного уровня связывания.
Специфическое узнавание. или селекция связывания нуклеотидных последовательностей ДНК-белком, основано на физико-химических взаимодействиях между ними. ДНК-белковое узнавание осуществляется на нескольких уровнях, характеризуемых различными взаимодействиями и шкалой расстояний : от электростатического взаимодействия на больших и средних расстояниях до узнавания белками вторичной и первичной структур ДНК. Этот многоуровневый механизм молекулярного узнавания обеспечивает высокую степень надежности, точности и воспроизводимости процесса генной экспрессии.
Первичные структуры ДНК часто интерпретируются как генетические тексты, написанные на неизвестном языке. Исследование генной экспрессии теоретическими и компьютерными методами имеет поэтому два аспекта: формальный, или информационный, и физико-химический. Формальный аспект проблемы включает в себя анализ символьных нуклеотидных последовательностей ( текст, записанный в четырехбуквенном алфавите ). Физико-химический же состоит в изучении структур ДНК. регуляторных белков, ферментов, их конформаций, физико-химических взаимодействий между ними. Эти два аспекта проблемы - текстологический и физнко-
химический , тесно взаимосвязаны. Существует «тонкое и деликатное соответствие между организацией первичных структур и взаимодействиями, имеющими место при генной экспрессии.
Совершенно ясно, что организация экспрессии генов, и в частности процесса транскрипции, - одна из центральных проблем молекулярной биологии. Исследование ДНК-белковых взаимодействий, анализ и интерпретация генетических текстов, выработка самосогласованного описания биологических процессов узнавания на молекулярном уровне является несомненно актуальным как с научной, так и с прикладной точек зрения.
Цель и задачи исследования
Молекулярное узнавание промоторов РНК-полимеразой и регуляторными белками осуществляется на нескольких уровнях: на уровне первичной структуры, вторичной, и структур более высокого порядка. Каким образом белки узнают специфические, функционально значимые нуклеотидные последовательности ДНК и от каких формальных ( на уровне первичной структуры ДНК ), структурных и физико-химических свойств и характеристик зависит процесс молекулярного узнавания - это основные вопросы, которые возникают в проблеме ДНК-белкового узнавания.
Цель данной работы: нахождение и выявление значимых характеристик и параметров молекулярного процесса ДНК-белкового узнавания; их вычисление и анализ; компьютерное моделирование комплексов ДНК с белками; вычисление и изучение конформаций, характеристик гидратации двойной спирали ДНК, электростатических полей вокруг ДНК и белков.
Для достижения этой цели предлагается подход, комбинирующий текстологический ( информационный ) и физико-химический аспекты ДНК-белкового узнавания. При этом будем придерживаться требования проводить расчеты конформаций и физико-химических характеристик на атомном уровне и на всех пространственных шкалах - от взаимодействий на коротких расстояниях до электростатических взаимодействий на средних и больших расстояниях. Это поможет рассмотреть процесс молекулярного узнавания на всех уровнях с достаточной точностью.
Рассмотрим задачи, возникающие в связи с обсуждаемой проблематикой. 1. В настоящее время во взглядах на первичную структуру ДНК генома исходят из того, что геном представляет собой эволюционную, нелинейную динамическую систему, в символьной последовательности которой содержатся сведения о структуре и состоянии этой системы. Коль скоро принято это положение, дальнейшее исследование состоит в анализе и изучении организации и логики этой символьной последовательности. Это положение, подкрепленное многочисленными наблюдениями и опытными данными и принятое ныне в качестве парадигмы, сразу же позволяет применить к анализу иуклеотидных последовательностей методы теории динамических систем, теории информации, комбинаторики, теории хаоса, методы анализа сигналов и временных рядов.
.В первом разделе данной работе в связи с изучением организации первичных структур ДНК мы решаем следующие задачи ( в большей части это будет относиться к промоторам, терминаторам и кодирующим последовательностям ДНК генома E.coli):
дадим доказательство того, что нуклеотидные последовательности ДНК геномов имеют фрактальные свойства. Основу доказательства составит метод вейвлет-преобразования;
вычислим Фурье- и вейвлет-спектры первичных структур промоторов , терминаторов, кодирующих участков ДНК генома E.coli;
методами статистической физики вычислим, а затем изучим статистические свойства промоторов, терминаторов, кодирующих участков ДНК Е. coli;
решим задачу восстановления первичной структуры ДНК по ее перекрывающимся фрагментам.
2.В проблеме ДНК-белкового узнавания задача о зависимости структурных параметров двойной спирали ДНК от специфической последовательности нуклеотидов занимает важное место, т.к. структурные особенности двойной спирали узнаются белками и лигандами. Принцип комплементарного спаривания является ключевым в понимании структурной и функциональной организации нуклеиновых кислот. Исходно он базируется на предположении о плоском строении канонических азотистых оснований.
Задачи второго раздела работы следующие:
дадим доказательство того, что канонические азотистые основания , имеющие аминогруппы, неплоские;
- установим, что внутренняя геометрия пары азотистых оснований (пропеллер и другие углы) и геометрия пар азотистых оснований в двойной спирали ДНК определяется фактором неплоскости азотистых оснований, имеющих аминогруппу.
3. Электростатические потенциалы ДНК и белков являются важными характеристикаіМИ этих молекул, которые определяют первичное узнавание белками ДНК на средних расстояниях. Электростатическая комплементарность является важным механизмом молекулярного узнавания на средних расстояниях между белком и ДНК. Задачи этого раздела следующие:
вычисление электростатических потенциалов белков, специфически взаимодействующих с ДНК;
вычисление электростатических потенциалов промоторов E.coli; сравнительный анализ потенциалов промоторов E.coli;
вычисление атом-атомных корреляционных функций системы ДНК-вода;
построение компьютерной модели комплекса сигма 70 субъединицы РНК-полимеразы E.coli с ТАТА-боксом промотора lacUV5.
Научная новизна работы
Впервые вычислены Фурье - спектры нуклеотидных последовательностей ДНК промоторов и на их основе проведена классификация промоторов. Установлен и проанализирован набор периодов как для нуклеотидных последовательностей промоторов, так и для соответствующих им кодирующих участков ДНК. Показано принципиальное отличие одних групп промоторов от других. Показана периодическая структура расположения нуклеотидов в промоторах E.coli и H.Sapiens; показана их высокая степень гетерогенности: Фурье - спектры последовательностей нуклеотидов в промоторах прокариот и человека отличаются как по набору величин периодичностей, так и по параметрам блочности определенных групп нуклеотидов.
Впервые обнаружены периодичности в расположении точек контакта РНК-полимеразы E.coli с промоторами. Показано, что боьшинство из них не совпадают с периодичностью сахарофосфатного остова канонической В-формы ДНК.
Показана возможность распознавания нуклеотидных последовательностей эукариот и прокариот как методами нейронных сетей, так и методами частотного анализа, причем последний оказывается не менее эффективным, чем первый.
Впервые также методами вейвлет - преобразования обнаружены и исследованы мультифрактальные свойства первичных структур ДНК. Впервые вычислены и изучены статистические характеристики нуклеотидных последовательностей промоторов, терминаторов и кодирующих участков ДНК генома E.coli: автокорреляционные функции, функция бинарной информации, вейвлет - спектры и их корреляции, масштабно - зависимая статистическая сумма. Показано, что по этим характеристикам все три класса первичных структур - промоторы, терминаторы и кодирующие участки -резко отличаются друг от друга.
Построен алгоритм восстановления первичной структуры по ее перекрывающимся фрагментам и показана его применимость к проблеме перекрывающихся генов.
Теоретически показано, что валентные взаимодействия, формирующие пирамидальное строение аминогрупп аденина, цитозина и гуанина, являются одним из главных факторов, определяющих зависимость вторичной структуры ДНК от первичной структуры.
Впервые вычислены атом - атомные корреляционные функции системы ДНК -вода. Предложенный численный алгоритм позволяет вычислять гидратацию ДНК без привлечения упрощающих допущений о структуре макромолекулы и рассчитывать параметры гидратации специфических, функционально важных участков двойной спирали ДНК.
Вычислены электростатические потенциалы промоторов E.coli и проведено их сравнительное изучение. Это открывает возможность построения моделей электростатического узнавания белками своих специфических участков на молекуле ДНК.
Вычислены электростатические потенциалы ( решение как линейного, так и нелинейного уравнения Пуассона-Больцмана ) нескольких регуляторных белков и узнающего -10- область промотора E.coli фрагмента сигма - 70 субъединицы РНК-полимеразы E.coli, — 10- участка нескольких промоторов генома E.coli.
Впервые построена компьютерная модель комплекса фрагмента сигма -70 субъединицы РНК-полимеразы E.coli и - 10-участком промотора lacUV5 генома E.coli.
Впервые вычислены атом-атомные корреляционные функции системы фрагмент В-формы ДНК - вода.
Практическое значение работы
Результаты изучения первичных структур ДНК и физико-химических свойств ДНК, белков и их комплексов необходимы для выработки адекватных теоретических представлений и построения моделей процесса транскрипции. Развитые в работе методы могут быть применены в биотехнологических разработках, в проектировании новых лекарственных средств, в технологии ДНК-вычислений.
Апробация работы
Результаты работы докладывались на:
семинарах и годовых конференциях института;
101 International Biophysics Congress, July 29, Augest 3,1990, Vancouver,. Canada;.
YIII Всесоюзном симпозиуме по межмолекулярному взаимодействию и конформациям молекул, 28 окт. - 1 нояб. 1990, Новосибирск;
Icfl Всесоюзной конференции " Геном человека ", 8-12 окт. 1990, Переяславль-Залесский;
International Conference " Modelling and Computer Methods in Molecular Biology and Genetics ", August 1990, Novosibirsk;
Международной конференции " Математические методы распознавания образов ", 25 - 30 сент. 1995, Пущино;
Workshop on Mathematical Analysis of Biological Sequences, Norwegian University of Science and Technology, August 4-6, 1996, Trondheim, Norway;
24th Aharon Katzir-Katchalsky Conference " Bioinformatics-Structure ", November 17-21, 1996, Jerusalem, Israel;
Euroasian Symposium on Current Trends in Biotechnology, October 29 - November 6, 1995, Ankara;
на семинарах Международного Сольвеевского Института физики и химии , Брюссель, 1997-1998.
Публикации
По материалам диссертации опубликованы 21 печатная работа в отечественных и зарубежных журналах и одна монография.
Структура и объем работы