Введение к работе
АКТУАЛЬНОСТЬ ТЕМЫ
Белки и их взаимодействия составляют основу жизнедеятельности организмов. В молекулярно-биологических исследованиях исключительно важную роль занимает сравнительный анализ белков близких в эволюционном отношении видов.
Большая часть информации о белках содержится в литературе. Она очень разнообразна и распределена в сотнях специализированных источников. Меньшая часть информации, которая может быть легко формализована, содержится в базах данных: это информация о первичных и пространственных структурах белков, о консервативных блоках, функциональных сайтах, подвижности в двумерном электрофорезе, т.д. Различные свойства белков отражены более чем в 20 международных базах данных.
Обычно базы данных по белкам характеризуют исключительно легкоформализуемые параметры. Так, одна из популярнейших баз данных SWISSPROT (Швейцарский банк данных первичных структур) отражает, в сущности, лишь характеристики, непосредственно связанные с аминокислотной последовательностью - длину, аминокислотный состав [1]. В другой базе данных - PROSITE [2] - приведены определенные специфические сайты белковых молекул, избранные на основе множественного выравнивания без всякого указания на связь с реальными природными характеристиками (структурой или функцией). Подобным же образом построены и другие обычно используемые базы данных [4-7]. Функциональная же информация о белках в связи с трудностями ее формализации освещена плохо.
Всестороннее исследование каждого белка требует глубокого изучения литературы и работы с десятками отдельных баз данных.
Существуют многочисленные проекты интеграции баз данных, не
- 4 -исчерпывающих, однако, данной проблемы, несмотря на свои очевидные достоинства (в частности, значительное количество объединяемых баз). Большая часть создаваемых в рамках подобных проектов систем представляет собою либо простую совокупность различных баз данных, находящихся под управлением единой СУБД (таковы EBI, NCBI), либо базу данных определенного тематического характера, снабженную различного рода библиографическими ссылками (DDBJ).
Таким образом, необходимость объединения легко и сложно формализуемых характеристик белков в системе, охватывающей сведения, относящиеся к максимально возможному числу биологических дисциплин, требует создания информационной базы знаний по белкам, интегрирующей разнообразную информацию о белках в единую систему.
Целью настоящей работы являлось создание базы знаний, связывающей воедино все возможные характеристики белковой молекулы (в т.ч. описательного характера), позволяющей также свободное использование основных баз данных в связи с указанными характеристиками. Гипертекстовая технология представлялась наиболее оптимальной для достижения данной цели, поскольку гипертекст позволяет использовать в базе данных неформализованную информацию функционального характера, а также осуществлять связь последней со всеми международными базами данных, являясь интегрирующим элементом. Задачей работы представлялось, помимо этого, значительное облегчение работы пользователя с различной информацией о белках ввиду использования компьютерной системы, предусматривающей создание подобных баз знаний.
- 5 -НАУЧНАЯ НОВИЗНА
В данной работе впервые применен подход, состоящий в приведении в соответствие с известными базами данных по белкам нефор-мализуемых параметров, в том числе описаний и классификационных характеристик.
Данная система впервые в области работы с базами знаний позволяет осуществлять широкий доступ пользователей к соответствующей информации по компьютерной сети.
При создании базы знаний были использованы некоторые новые методы определения белковых семейств, включенных в систему классификации.
Созданная система является единственной в своем роде базой знаний в области белков, поскольку соединяет все основные известные в данной сфере базы данных как между собой, так и с гипертекстом (см. ниже).
Кроме того, база знаний БЕЛКИ позволяет осуществлять более рациональное и удобное использование существующих баз данных, в частности, производить быстрый поиск различных характеристик, переходить из одной базы данных в другие, а также в описания индивидуальных белков или белковых семейств.
СТРУКТУРА ДИССЕРТАЦИИ