Введение к работе
Разработка s і977 г. быстрых методов секвестрования ДНК привела к лавинообразному росту суммарной длины известных нуклеотидных последовательностей и сделала возютхнкн поиск статистических закономерностей в последовательностях ну:слеотидов при помощи ЭВМ. С начала 1960-х готов началась разработка методов компьютерного анализа новосегаентфованных фрагментов ДНК. ииєюзих целы), во-первых, предсказание областей, кодирувдкх белки и тРНК, а во-вторых, поиск потенциальных регуляторних сигналов. Особенную актуальность эти задачи приобретают в связи в планами тотального секвенирования больших геномов и, в частности, генома человека.
Актуальность проблемы. Первим и наиболее фундаментальным пагом при анализе нуклеотщгеой последовательности является поиск белок-колирузцих областей и, тем саыык, определение аминокислотной последовательности закодированных белков. Особенно слоіно осуществить это предсказание для ДЙК эухариот, в которой кодирующие области (экзоны) преркваггся кекодирушими вставками (кнтрокали), которые вырезаитоя из транскрипта (пре-мРНК) в процессе сплайсинга перед трансляцией.
Наличие экзон-кнтронной структуры, разнообразие донорных (граница экзон-интрон) и акцепторных (граница интрон-экзон) участков сплайсішга, а такте большая длина нитронов по сравнетш с экзонаии и существование во многих генах внсиих зукариот коротких .экзонов делают практически невозмохнын применение существующих методов компьютерного анализа к эукариотическим последовательностям. Рззультатон работы локальных методов поиска функциональных участков является
мноіество предположительных сайтов сплайсинга, которое не дает непосредственной возможности предсказать белковый продукт. Глобальные методы определения белок-кодирующих областей при помощи статистическихх характеристик, не позволяют точно определить границы экзонов. Кроме того, эти методы не могут обнаружить экзоны длины меньшей, чем длина- окна, которая не мохет быть мала из-за статистического мука.
Целью настоящей работы было статистическое исследование сайтов сплайсинга и свойств белок-кодирующих областей и разработка метода предсказания белок-кодирующих областей, экзон-интронной структуры и кодируемого белка, пригодного для работы с последовательностями ДНК высших эукариот.
Научная новизна и практическая ценность работы. Впервые был проведен комплексный статистический анализ > сайтов сплайсинга, шли исследованы статистические характеристики первичной и вторичной структуры, что подтвердило некоторые известные и позволило выявить ряд новых сигналов, могущих иметь биологическое значение. Построен, тестирован и сравнен с существующая алгоритм предсказания сайтов сплайсинга.
В стандартных условиях были сравнены основные алгоритмы глобального предсказания белок-кодирующих областей, некоторые из которых Ошш предварительно модифицированы для применения к фрагментам различной длины. Исследованы статистические свойства полученного набора характеристик, в частности. попарные корреляции и зависимость от Gc-содеріания. Для большинства алгоритмов показана нєбозмоїность установпения единого порога предсказания при анализе геномов с мозаичным gc-содержанием.
Создан алгоритм распознавания белок-кодирующих областей и
предсказания^ аминокислотной последовательности кодируемого белка для генов, обладающих экзон-интронной структурой. Произведено сравнение предсказания алгоритма с предсказаниями, полученными другими методами, а таюсе тестирование алгоритма на последовательностях, не использованных на предыдущих этапах. Применение предложенного алгоритма позволяет выделить небольшую группу незначительно различающихся зарнантов мРНК, среди которых находится истинный. Добавочное использование априорной информации о количестве кодирующих экзонов позволяет в большинстве случаев точно предсказать экзон-интронную структуру рассматриваемой последовательности.
Создан набор программ, реализующих использованные методы; составлен банк ссылок ка статьи по функциональному анализу нуклеотидных последовательностей, вклоченный в библиотеку EMBL.
Апробация работы. Основные результаты докладывались ка
мезЛунарОШШХ конференциях "Modelling and coeputer methods in
molecular biology and genetics- (Новосибирск, 1990) И
'Statistical methods in molecular biology" (Berkeley, USA,
1993), і и и всесоюзных конференциях "Генок человека* (Пзреславль-Залесский, 1990, 1991), 11 всесоюзной симпозиуме "Теоретические и. прикладные аспекты молекулярной биологии" (Самарканд, 1991), пколе "Распознавание функциональных участков по последовательности ДНК" (Косісва, 1989). совзтгнии по выработке концепции компьютерной поддерхки программы "Геном человека' (Иудино, 1989), v иколе-семинэре "Базы данных и пакета црзгкладнкх программ анализа структур биополимеров" (Носкза, 1990), аколе-сеышгре "Лингвистика в ркду смежных дисциплин" (Звенигород, 1990), семинаре "Проблзмы и методы распознавания функционально-значимых районов в нуклеотидных последовательностях генома человека" (Новосибирск,1992). Они излохены в 13 опубликованных и 7 находядихся в печати работах.
Структура и объем работы. Диссертация состоит из введения.
четырех глав и заключения. Объем диссертации 188 стр., в т.ч. 39 рисунков-, 34 таблицы и 121 литературная ссылка.