Введение к работе
Актуальность теуы. В настоящее вреші ведется интенсивное иссле-доваїше геномов человека, ышта, дрозофилы, дроззіей и ряда других эукариотических организмов. Их секвекированные фрагменты быстро накапливаются в банках данных. Информация о структуре и функции этих районов геномов иояет быть получена путем дополея-телъшх экспериментальных исследований и компьютерного анализа, включающего распознавание функциональных сайтов. Геномная ДНК содержит большое разнообразие типов функциональных сайтов (метилирования, связывания регуляторних белков, сплайсинга прз-мРНК и др.). Поэтому для ее компьютерного анализа требуется необходимое разнообразие методов распознавания этих сайтов.
В настоящее время предложен ряд подходов к распознаванию сайтов в ДНК и РНК. Каядцй из них учитывает определенный еэд нуклеотидного контекста (консенсусы, повторы, частоты нуклеота-дов и др.). Поэтому он имеет узкую область применения и, как правило, предназначен для распознавания определенных типов функциональных сайтов. Тагаш образом, актуальным является создание универсальных компьютерных технологий, позволяющих исследовать широкий круг функциональных сайтов в ДНК и РНК и конструировать точные методы распознавания этих сайтов на основе учета различных видов их контекстных особенностей.
Аналогичные технологии необходимо создавать для распознавания функциональных сайтов.в последовательностях белков.
Цель и задачи исследования. Первой целью работы было создание компьютерной технологии, позволяющей выполнять следующие способы анализа последовательностей ДНК, РНК и белков:
выявление значимых контекстных особенностей различных видов, отличающих функциональные сайты заданного типа от других районов ДНК, РНК и белков, не содержащих этих сайтов;
построение метода распознавания заданного функционального сайта на основе использования всей совокупности выявленных для него функционально значимых контекстных особенностей.
Для достижения этой цели решалась практическая задача создания компьютерной системы Site-Video, специально ориентированной на эти способы анализа ДНК, РНК и белков.
Вторая цель работы состояла в исследовании структурно-функциональной организации нуклеотидных и аминокислотных последовательностей (генетических текстов) на основе использования созданной нами компьютерной системы Site-Video.
С помощью системы Site-Video решались следующие задачи:
-
Исследование сайтов сплайсинга пре-ыРНК и построение методов их распознавания в нуклеотидных последовательностях.
-
Исследование семейств гистонов Н1, К2А, Н2В, НЗ и Н4. Научная новизна и практическая значимость.
Создана компьютерная система Site-Video, которая позволяет выявлять значимые особенности контекста в функциональных сайтах ДНК, РНК и белков на основе использования математической теории пршштия решений.
С помощью Site-Video выявлено более 450 контекстных особенностей пре-мРНК, значимых для функционирования донорных и акцепторных сайтов сплайсинга. Практически значимыми являются методы распознавания этих сайтов в секвенированных фрагментах геномной ДНК человека, построенные на основе использования всей совокупности указанных контекстных особенностей.
С попсщью Site-Video исследованы гистоны Н1, Н2А, Н2В, НЗ и Н4. Созданы изтода распознавания их структурно-функциональных датеришшпт. С полощью этих методов построен граф функционального сходства 14 семейств белков, взаинодействувщих с ДНК или РНК. Получены свидетельства о сходстве ДНК-связывающих доменов гистонов Н4 и х-репрессора.
Апробация работы. Результаты работы докладывались на международных конференциях "Genome informatics workshop II" (Токио, 1991), "The role oi biocomputing in the characterization oi hunan genora sequences" (Бари, 1991), "Bioiniormatics, Super-computing and Сошріех Genorce Analysis" (Таллахасс, 1992), на II Всесоюзной конференции "ГЕНОМ ЧЕЛОВЕКА" (Пущино, 1991).
Структура работы. Диссертация состоит из введения, четырех глав, заключения и выводов. Объем диссертации - 128 страниц, 53 рисунка, 29 таблиц. Общий объем - 229 страниц.