Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

О достоверности процедуры выравнивания первичных структур биополимеров Поляновский Валерий Олегович

О достоверности процедуры выравнивания первичных структур биополимеров
<
О достоверности процедуры выравнивания первичных структур биополимеров О достоверности процедуры выравнивания первичных структур биополимеров О достоверности процедуры выравнивания первичных структур биополимеров О достоверности процедуры выравнивания первичных структур биополимеров О достоверности процедуры выравнивания первичных структур биополимеров
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Поляновский Валерий Олегович. О достоверности процедуры выравнивания первичных структур биополимеров : диссертация ... кандидата физико-математических наук : 03.00.03 / Поляновский Валерий Олегович; [Место защиты: Ин-т молекуляр. биологии им. В.А. Энгельгардта РАН].- Москва, 2008.- 90 с.: ил. РГБ ОД, 61 08-1/699

Введение к работе

Актуальность темы

В геноме человека имеется порядка 30 тысяч генов, кодирующих белки. В результате посттранскрипционных процессов число белков увеличивается в 2-3 раза по сравнению с числом кодирующих генов. Есть большое число родственных генов и, соответственно, родственных белков, объединяемых в семейства, некоторые из которых состоят из многих сотен представителей. Например, семейство_иммуноглобулинов, семейства других белков, которые по степени сходства и функциональным свойствам подразделяют на подсемейства. Постоянно возникает необходимость сопоставления полипептидных последовательностей для установления степени родства, выявления наиболее консервативных и потенциально значимых участков. Аналогичные задачи стоят при исследовании родственных белков из разных организмов, находящихся на разных ступенях эволюции. Их решение позволяет устанавливать степень родства, а также скорость эволюции тех или иных белков. Для сравнения родственных полипептидных последовательностей, а также выявления врожденных и соматических мутаций проводится процедура выравнивания.

В последние годы в различных областях медицины исследуется генетический полиморфизм в отдельных локусах генома человека: анализ мутаций при диагностике наследственных заболеваний, определение наследственной предрасположенности к онкологическим заболеваниям, а также диагностика этих заболеваний на ранних стадиях (Заседателев А.С., 2007; Yordan Y., 2007). Аналогичные задачи стоят при исследовании родственных белков из разных организмов, находящихся на разных ступенях эволюции. Их решение позволяет устанавливать степень родства, а также скорость эволюции тех или иных белков, разрешать проблемы молекулярной филогении (Ильин Ю.В., 2007; Крамеров Д.А., 2003,2007).

Формально, выравнивание двух последовательностей представляет собой процедуру размещения символов одной последовательности под другой с добавлением пробелов, таким образом, чтобы взвешенная сумма сопоставленных позиций (премии) и пробелов (штрафы) достигало экстремального значения (минимума или максимума, в зависимости от метода расстояний или сходства).

Задача построения алгоритма для осуществления такой процедуры на основе методов динамического программирования была решена разными авторами (Туманян с соавт., 1966; Needleman and Wunsch, 1970; Smith and Waterman, 1981). Среди наиболее широко используемых алгоритмов выравнивания укажем BLAST, FASTA. При этом важно понимать - насколько алгоритмические выравнивания, полученные оптимизацией той или иной целевой функции, восстанавливают эволюционное выравнивание аминокислотных последовательностей, т.е. такое выравнивание, в котором сопоставлены те позиции сравниваемых белков, которые происходят от одной и той же позиции их общего предка. Процедура выравнивания, применяемая с целью выявления мутаций и делеций в белках, может иметь первостепенное значение для диагностики и выбора стратегии терапии заболеваний. Таким образом, решение вопроса о биологической

корректности алгоритмически полученных выравниваний является актуальной задачей.

Цель и задачи исследования Целью настоящей работы является разработка универсального метода оценки эффективности процедуры выравнивания двух последовательностей в зависимости как от эволюционного расстояния между выравниваемыми последовательностями, так и от типа применяемой процедуры выравнивания (алгоритм для глобального выравнивания Нидлмана-Вунша и для локального выравнивания Смита-Ватермана). Исходя из поставленной цели были сформулированы задачи исследования:

1. На основании существующей модели эволюции аминокислотных
последовательностей оценить качество восстанавливаемости истинных
выравниваний методом глобального выравнивания; выяснить причины неточного
восстановления истинных выравниваний.

2. На основании предложенной эволюционной модели произвести сравнительную
оценку качества выравниваний, построенных глобальным и локальным
алгоритмами; выявить предельные условия применения глобального и локального
алгоритмов выравнивания.

Научная новизна и практическая ценность

Одним из направлений в изучении выравниваний последовательностей белков является решение вопроса о соответствии алгоритмически полученных выравниваний биологически корректным. Качество алгоритмов выравнивания, то есть соответствие между алгоритмическими и «эталонными» выравниваниями рассматривалось с разных точек зрения, при этом в качестве эталона обычно использовались выравнивания, основанные на сопоставлении пространственных структур, что само по себе не является безусловным критерием. В работе Вингрона и Аргоса (Vingron М. and Argos P., 1990) показана связь между устойчивостью (консервативностью) области оптимального глобального выравнивания во множестве субоптимальных выравниваний и её сходством со структурным выравниванием. Показано, что области оптимального выравнивания, наиболее часто повторяющиеся в субоптимальных выравниваниях, имеют большее сходство со структурным выравниванием. В работе Сюняева с соавторами (Sunyaev S.R. et al., 2004), на основании сравнения структурных выравниваний с локальными алгоритмическими выравниваниями Смита-Ватермана, были сделаны выводы о возможности восстановления структурного выравнивания алгоритмическим в зависимости от степени сходства белков.

Недостатком цитированных работ является то, что алгоритмические выравнивания сравнивались не с истинным эволюционным выравниванием, которое неизвестно, а с его приближением, что вносит в результаты погрешность, величина которой не поддается оценке. Мы предлагаем для оценки качества алгоритмов сравнивать искусственно генерированные последовательности, для которых истинное выравнивание достоверно известно. Подобный численный эксперимент был осуществлен в работе Поляновский с соавт. (1994), однако, построение тестового набора последовательностей не отражало в полной мере имеющихся данных об эволюционном процессе, поскольку применялась

упрощенная схема внесения делеций (вставки вообще не рассматривались). В представленной работе при генерации тестовых последовательностей мы используем общепринятую в настоящее время модель эволюции, описанную в работах Дэйхофф с соавт. (DayhofFM. et al.,1978), Беннер с соавт.( Benner S.A., et al., 1993), Риз и Пирсон (Reese J.T. and Pearson W.R., 2002), включающую в себя точечные замены, а также вставки и делении. Это позволяет оценить качество восстанавливаемости истинных выравниваний, провести сравнительный анализ структуры вставок-делеций и замен в алгоритмических и эталонных выравниваниях, выяснить причины неточного восстановления истинных выравниваний вне ошибки, вносимой особенностями той или иной базы данных.

Апробация работы

Материалы по теме работы были представлены на Седьмой Международной Энгельгартовской конференции по молекулярной биологии (Суздаль, 28 нояб.-2 дек. 2004 г.), на Московской Международной конференции по вычислительной молекулярной биологии (МССМВ'05, Москва, 18-21 июля, 2005), на Московской Международной конференции по вычислительной молекулярной биологии (МССМВ'07, Москва, 27-31 июля, 2007), на Шестой Международной конференции "Биоинформатика регуляции и структуры генома" (BGRS'2008, Новосибирск, 22-28 июня, 2008).

Объём и структура диссертации

Диссертационная работа изложена на 20 страницах, содержит п рисунков и 18 таблиц. Работа состоит из четырёх глав и выводов. Глава 1 содержит введение и обзор литературы по теме диссертации. В Главе 2 изложен метод определения качества (достоверности) выравнивания двух аминокислотных последовательностей на примере выравнивания, полученного глобальным алгоритмом. В Главе 3 обсуждаются результаты предложенного метода оценки качества (достоверности) парного выравнивания. Глава 4 содержит сравнительный анализ качества глобального и локального алгоритмов выравнивания двух последовательностей. Список цитированной литературы содержит >6 наименований.