Предсказание сайтов сплайсинга и белок-кодирующих областей в ДНК высших эукариот Гельфанд, Михаил Сергеевич

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Гельфанд, Михаил Сергеевич. Предсказание сайтов сплайсинга и белок-кодирующих областей в ДНК высших эукариот : автореферат дис. ... кандидата физико-математических наук : 03.00.02 / Ин-т теоретич. и эксперимент. биофизики.- Пущино, 1993.- 26 с.: ил. РГБ ОД, 9 91-9/3154-0

Введение к работе

Разработка s і977 г. быстрых методов секвестрования ДНК привела к лавинообразному росту суммарной длины известных нуклеотидных последовательностей и сделала возютхнкн поиск статистических закономерностей в последовательностях ну:слеотидов при помощи ЭВМ. С начала 1960-х готов началась разработка методов компьютерного анализа новосегаентфованных фрагментов ДНК. ииєюзих целы), во-первых, предсказание областей, кодирувдкх белки и тРНК, а во-вторых, поиск потенциальных регуляторних сигналов. Особенную актуальность эти задачи приобретают в связи в планами тотального секвенирования больших геномов и, в частности, генома человека.

Актуальность проблемы. Первим и наиболее фундаментальным пагом при анализе нуклеотщгеой последовательности является поиск белок-колирузцих областей и, тем саыык, определение аминокислотной последовательности закодированных белков. Особенно слоіно осуществить это предсказание для ДЙК эухариот, в которой кодирующие области (экзоны) преркваггся кекодирушими вставками (кнтрокали), которые вырезаитоя из транскрипта (пре-мРНК) в процессе сплайсинга перед трансляцией.

Наличие экзон-кнтронной структуры, разнообразие донорных (граница экзон-интрон) и акцепторных (граница интрон-экзон) участков сплайсішга, а такте большая длина нитронов по сравнетш с экзонаии и существование во многих генах внсиих зукариот коротких .экзонов делают практически невозмохнын применение существующих методов компьютерного анализа к эукариотическим последовательностям. Рззультатон работы локальных методов поиска функциональных участков является

мноіество предположительных сайтов сплайсинга, которое не дает непосредственной возможности предсказать белковый продукт. Глобальные методы определения белок-кодирующих областей при помощи статистическихх характеристик, не позволяют точно определить границы экзонов. Кроме того, эти методы не могут обнаружить экзоны длины меньшей, чем длина- окна, которая не мохет быть мала из-за статистического мука.

Целью настоящей работы было статистическое исследование сайтов сплайсинга и свойств белок-кодирующих областей и разработка метода предсказания белок-кодирующих областей, экзон-интронной структуры и кодируемого белка, пригодного для работы с последовательностями ДНК высших эукариот.

Научная новизна и практическая ценность работы. Впервые был проведен комплексный статистический анализ > сайтов сплайсинга, шли исследованы статистические характеристики первичной и вторичной структуры, что подтвердило некоторые известные и позволило выявить ряд новых сигналов, могущих иметь биологическое значение. Построен, тестирован и сравнен с существующая алгоритм предсказания сайтов сплайсинга.

В стандартных условиях были сравнены основные алгоритмы глобального предсказания белок-кодирующих областей, некоторые из которых Ошш предварительно модифицированы для применения к фрагментам различной длины. Исследованы статистические свойства полученного набора характеристик, в частности. попарные корреляции и зависимость от Gc-содеріания. Для большинства алгоритмов показана нєбозмоїность установпения единого порога предсказания при анализе геномов с мозаичным gc-содержанием.

Создан алгоритм распознавания белок-кодирующих областей и

предсказания^ аминокислотной последовательности кодируемого белка для генов, обладающих экзон-интронной структурой. Произведено сравнение предсказания алгоритма с предсказаниями, полученными другими методами, а таюсе тестирование алгоритма на последовательностях, не использованных на предыдущих этапах. Применение предложенного алгоритма позволяет выделить небольшую группу незначительно различающихся зарнантов мРНК, среди которых находится истинный. Добавочное использование априорной информации о количестве кодирующих экзонов позволяет в большинстве случаев точно предсказать экзон-интронную структуру рассматриваемой последовательности.

Создан набор программ, реализующих использованные методы; составлен банк ссылок ка статьи по функциональному анализу нуклеотидных последовательностей, вклоченный в библиотеку EMBL.

Апробация работы. Основные результаты докладывались ка

мезЛунарОШШХ конференциях "Modelling and coeputer methods in
molecular biology and genetics^- (Новосибирск, 1990) И

'Statistical methods in molecular biology" (Berkeley, USA,

1993), і и и всесоюзных конференциях "Генок человека* (Пзреславль-Залесский, 1990, 1991), 11 всесоюзной симпозиуме "Теоретические и. прикладные аспекты молекулярной биологии" (Самарканд, 1991), пколе "Распознавание функциональных участков по последовательности ДНК" (Косісва, 1989). совзтгнии по выработке концепции компьютерной поддерхки программы "Геном человека' (Иудино, 1989), v иколе-семинэре "Базы данных и пакета црзгкладнкх программ анализа структур биополимеров" (Носкза, 1990), аколе-сеышгре "Лингвистика в ркду смежных дисциплин" (Звенигород, 1990), семинаре "Проблзмы и методы распознавания функционально-значимых районов в нуклеотидных последовательностях генома человека" (Новосибирск,1992). Они излохены в 13 опубликованных и 7 находядихся в печати работах.

Структура и объем работы. Диссертация состоит из введения.

четырех глав и заключения. Объем диссертации 188 стр., в т.ч. 39 рисунков-, 34 таблицы и 121 литературная ссылка.