Введение к работе
Актуальность темы. Использование эффективных методов расшифровки первичных структур молекул ДНК, РНК и белков ( включая технологию автоматического свквенирования) привело к резкому росту объемов информации, накапливаемой в соответствующих банках данных (ЕМВЬ, swiss-prot, GENBANK, PIR). В подавляющем большинстве институтов РАН и прикладных научно-исследовательских организаций России, работающих в области молекулярной биологии и генетики, наиболее распространенными типами компьютеров являются персональные компьютеры типа IBM PC или их аналоги.
Таким образом, для . успешного решения проблемы компьютерного анализа результатов массового свквенирования первичных структур (последовательностей ) ДНК, РНК и белков первостепенным становится создание компактных автоматизированных банков данных, ориентированных на указанные выше персональные компьютеры. Такие банки данных должны обеспечивать возможность в полном объеме использовать указанные выше базы данных (embl, SwiseProtein, PIR, GENBANK) на персональных компьютерах для анализа первичных структур ДНК, РНК и белков, а также для информационно-справочного обеспечения экспериментальных работ по молекулярной биологии, и генетике. Резкое увеличение объемов информации в перечисленных выше базах данных делает также актуальной разработку новых методов быстрого поиска сходства между последовательностями и их выравнивания.
В связи с реализацией ряда проектов свквенирования геномов (например - генома Человека) в настоящее время возникает необходимость в разработке комплексов программ, способных реализовать сложные сценарии анализа первичных структур ДНК-, РНК и белков. В таких комплексах последовательно работает большое количество различных программ, каждая из которых анализирует отдельные аспекты структурно-функциональной организации и эволюции ДНК, РНК и белков. Поэтому, весьма актуальной является разработка инструментальных программных средств, позволяющих на основе совокупности программ, реализующих отдельные функции, создавать интегрированные пакеты программ, реализующие сложные сценарии компьютерного анализа первичных структур
ДНК, РНК и белков (включая те, которые необходимы при анализе результатов секвенирсвания геномной ДНК). При этом дэлзла быть предусмотрена возможность использования стандартного формата для ввода/вывода, хранения и рс-дактирозатзтл исходной информации, а также той информации, которая продущдзуотп.ч в ходе работы система.
Цели и задачи работы. Целью нгстояцего исследована; являлась разработка комплекса алгоритмов и программ для классификации и сравнения биологических посла доалтс-лыюстой, автоматизированных банков данных по первиаш:,; структура;.! нуклеотидных л аминокислотных послэдовзтельносте.7., d такго разработка инструментальных программных средств гля создания интегрированных пакетов программ, реализующих слокнне сценарии компьютерного анализа первичных структур ДНК, РНК и балков. Для достижения этой цели решалась следующие задачи:
-
Создание быстродействующих алгоритмов выравнивания нуклеотидных и аминокислотных последовательностей (со статистическими оценками достоверности промежуточных и окончательных результатов выравнивания).
-
Создание алгоритмов для быстрого сравнения и классификации белковых последовательностей с кспользоваїгаем аминокислотного состава белков и распределения отдельных типов аминокислот вдоль первичной структуры белка.
-
Разработка автоматизированных банков данных для компактного хранения и использования информации из наиболее крупных баз данных по - последовательностям (EaBL.SwissProtein.PIR) .с возможностями диалогового и программного доступа и с ориентацией на использование персональных компьютеров с винчестерскими дисками малой емкости (до 40 Мбайт).
-
Разработка инструментальных программных средств, позволяющих создавать интегрированные пакеты программ, реализующие сложные сценарии анализа первичных структур ДНК, РНК и белков ( с использованием стандартного формата для ввода/вывода, обмена, хранения и редактирования информации).
Научная новизна. Разработаны два новых алгоритма выравнивания. Первый использует отражение классической
! 2
:;&трнцы тичичяэЯ гомологии последовательностей ео ззеэпюшшй ориентированный граф. Маршрут максимального веса в таком графе задает оптимальное выравнивание последовательностей, построенное на основе фрагментов гомологичных подпослэдрватольтюствй. Второй алгоритм использует прэдварктельннЯ статистический аналіз и отбор гомологичных подпоследовательностей и обеспечивает быстрое построение оптимального выравнизання на основе таких подпоследовательностей. Этот алгоритм представляет собой кодификацию классического алгоритма Needleman-Wunsoh для случая работы со снатыми матрицами точечной гомологии и позволяет учитывать информацию о статистической значимости гомологии подпоследовательностей на всех этапах гостроения выравнивания. Эти алгоритмы позволяют использовать преимущества классических матричных алгоритмов выравнивания одновременно с учетом статистической значимости гомологии коротких подпоследовательностей. Высокая эффективность алгоритмов позволяет использовать их для проведения серийных выравниваний вновь секвенировановых последовательностей с последовательностями из баз данных за приемлемое время.
Впервые созданы алгоритмы сравнения и классификации последовательностей белков на основе их аминокислотного состава и с учетом распределения акинокислот в последовательностях, позволяющие определять структурно-функциональный тип белков с точностью разделения до семейства.
Созданы автоматизированные банки данных для компактного хранения и обработки информации из наиболее распространенных баз данных по последовательностям (embl, SwissProtein, PIR). Банки имеют развитый ориентированный на пользователя-экспериментатора диалоговый интерфейс а также обеспечивают возможность программного доступа к хранимой информации из программ пользователя. Банки ориентированы на использование персональных компьютеров IBM PC с і винчестерскими дисками емкостью 40Мбайт.
Создано матобеспечение базы знаний для хранения результатов работы программ анализа первичных структур биополимеров. База знаний позволяет создавать интегрированные
пакеты программ для обработки результатов секвенирования последовательностей и обеспечивает пользователей возможностью поиска, ввода/вывода и редактирования информации с использованием стандартного формата представления данных.
Практическая ценность. Разработанное матобеспечение может использоваться для создания пакетов программ анализа нуклеотидных и белковых последовательностей. Разработанные алгоритмы могут быть использованы для решения широкого круга практических задач анализа первичных структур биополимеров (выравнивание, сравнение, классификация и т.д.). Автоматизированные банки данных мог»ут' быть использованы в качестве информационно-поисковых систем в молекулярно-генетических лабораториях, использующих персональные компьютеры типа IBM-PC. Они позволяют существенно компрессировать имеющуюся информацию (исходным объемом 100-200 Мбайт) обеспечивая работу с ней на персональных компьютерах с винчестерскими дисками емкостью не более 40Мбайт. Такие банки данных позволяют вести поиск и обработку информации по сценариям, удобным пользователям-экспериментаторам, а также обеспечивают простой и удобный доступ к информации из прикладных обрабатывающих программ.
Апробация работы. Разработанное матобеспечение используется в ряде молекулярно-биологических и молекулярно-генетических институтов РАН и в прикладных научно-исследовательских организациях России: ИЦиГ СО РАН, ВНИИ МБ, ИБХ СО РАН, ИМГ.РАН, ВНИИ ящура, ВНИИ ОЧБП и др. Оно использовалось в рамках государственных научно-технических программ "Геном Человека", "Генинформ" и КПНТП СЭВ. На основе созданной оболочки базы знаний с 1990г. разрабатывается система автоматизированного анализа результатов секвенирования нуклеотидных последовательностей генома Человека.
Публикации. По теме диссертации опубликовано 8 работ.
Структура и объем работы Работа состоит из введения, пяти глав, выводов и списка цитируемой литературы. Работа содержит 98 страниц текста, 30 рисунков, 8 таблиц. Общий объем 143 страницы. Список литературы содержит 79 ссылок.