Содержание к диссертации
Введение
Глава 1. Методы анализа данных 9
Методы парного выравнивания аминокислотных последовательностей 9
Множественные выравнивания последовательностей 13
Глобальные выравнивания трехмерных структур белковых молекул 14
Методы нахождения локального сходства белковых структур 17
Глава 2. Базы данных 21
База данных SwissProt 21
Банк данных PDB 23
Базы данных укладок белковых цепей 25
Базы данных семейств гидролаз 26
Базы данных каталитических центров ферментов 27
База данных HSSP 28
Глава 3. Материалы и методы 31
Базы данных 31
Программное обеспечение 31
Списки белков с заданным каталитическим центром 32
Белковые структуры для процедуры поиска 32
Белковые структуры для составления шаблонов 33
Глава 4. Метод построения структурных шаблонов 34
Направления улучшения существующих методов 34
Использование геометрических инвариантов 37
Построение набора независимых селективных ограничений 38
Примеры поисковых шаблонов 41
Глава 5. Использование консервативности для идентификации каталитического центра 46
Влияние изоморфных замен на значения энтропии Шеннона 49
Влияние числа белков в выборке при выравнивании на количество консервативных остатков 50
Влияние степени идентичности последовательностей в выравнивании на консервативность каталитических остатков 52
Энтропия Шеннона каталитических остатков 53
Глава 6. Результаты поиска каталитических центров 55
Чувствительность и селективность поиска 56
Сравнение с аннотациями базы данных SwissProt 61
Глава 7. Иерархическая классификация каталитических центров гидролаз и база данных на се основе 63
Использование метода идентификации каталитических центров для создания базы данных 63
Иерархическая классификация каталитических центров 65
Информация, предоставляемая базой данных 67
Инструменты анализа данных 69
Пример - конвергентная эволюция гидролаз с триадой Cys-His-Asp 70
Глава 8. Основные классы каталитических центров гидролаз 72
Гидролазы с карбоксильной группой в каталитическом центре 73
Цистеиновые гидролазы 77
Гистидиновые гидролазы 81
Металло-зависимые гидролазы 83
N-концевые пролиновые гидролазы 89
Сериновые гидролазы 89
Треониновые гидролазы 93
Тирозиновые гидролазы 94
Гидролазы с участием субстрата в каталитическом акте и кофактор зависимые гидролазы 95
Количественные оценки распределения гидролаз по типам каталитических центров 98
Выводы 100
Список литературы 101
- Методы парного выравнивания аминокислотных последовательностей
- База данных SwissProt
- Направления улучшения существующих методов
- Чувствительность и селективность поиска
Введение к работе
Ферменты - эффективные и селективные биокатализаторы [1,2]. Благодаря своим свойствам, они могут быть незаменимыми в тонком органическом и, особенно, стереоселективном синтезе, аналитических системах, для деградации токсичных отходов. Их широкое применение затруднено тем, что, как правило, нет ферментов для селективного проведения реакций с веществами, не встречающимися в природе. Поэтому, одной из важных целей биоинженерии является конструирование ферментов с заданными свойствами.
В настоящее время для решения этой задачи наиболее успешными являются методы «направленной эволюции» ферментов, основанные на случайном мутагенезе исходных ферментов и отборе мутантов, обладающих нужными свойствами [3]. Недостатками этой группы методов является непредсказуемость результатов, затрат времени и реактивов для выполнения работы, а также ее трудоемкость.
Использование рациональных компьютерных методов представляется более перспективным, т.к. в настоящее время мощности современных вычислительных систем растут экспоненциально (эмпирический закон Мура, отражающий тенденции развития компьютерной техники на протяжении уже 30 лет, гласит, что вычислительные мощности удваиваются каждые 2 года). Поэтому, следует ожидать, что производительность методов создания ферментов in silico превысит производительность лабораторных методов. К сожалению, недостаток понимания связи между последовательностью, трехмерной структурой и функцией белка приводит к тому, что рациональные методы создания биокатализаторов, гарантированно дающие требуемый результат, в настоящее время весьма ограничены [4].
Возможный подход к решению этой задачи - анализ изменчивости природных ферментов и изучение мутаций, которые происходили в семье гомологичных (родственных, произошедших от одного общего предка) ферментов и изменяли такие их свойства, как термостабильность, рН-оптимум, субстратная специфичность. Так, например, многие свойства фермента определяются каталитическим центром -небольшим числом аминокислотных остатков, непосредственно осуществляющих химические превращения субстрата. Для ответа на вопрос, можно ли искусственно изменить тип каталитического центра фермента, предполагается разумным изучить, происходили ли такие изменения в природе, и если да, то как и с какими ограничениями.
Для нахождения случаев эволюции каталитических центров ферментов, как дивергентной эволюции - когда у родственных ферментов обнаруживались разные каталитические центры, так и конвергентной - когда различные ферменты приходили к каталитическим центрам одного типа, необходимо уметь отвечать на два вопроса. Во-первых, являются ли два данных фермента гомологичными или нет, и, во-вторых, одинаковы ли их каталитические центры. Благодаря развитию методов выравнивания аминокислотных последовательностей и трехмерных структур белков, ответить на первый вопрос несложно, и существующие методы позволяют выполнять такую работу автоматически в больших масштабах. Данные же о каталитическом центре ферментов, как правило, находятся в литературе, и непригодны для автоматического компьютерного анализа.
Несмотря на детальные знания отдельных ферментов, на многие вопросы более общего уровня трудно получить ответ - например, сколько различных каталитических центров известно на сегодняшний день? Реакции с какими субстратами способны осуществлять ферменты с каталитическим центром данного типа? Как распределены каталитические центры по организмам, и существуют ли предпочтения, например, у термофильных организмов? Фермент с каким каталитическим центром выбрать в качестве стартового для проведения «направленной эволюции» для осуществления заданной реакции?
Вопросы, заданные выше, относятся к области сравнительной химической энзимологии, и для ответа на них необходимо, чтобы данные о каталитических центрах отдельных ферментов были формализованы и доступны для компьютерного анализа. Учитывая, что отношения похожести между каталитическими центрами зачастую не имеют дискретного характера (например, N-концевые сериновые гидролазы по свойствам больше похожи на N-концевые треониновые гидролазы, чем на сериновые гидролазы с триадой Ser-His-Asp, и все они совсем не похожи на аспартильные гидролазы), необходима гибкая система классификации каталитических центров, позволяющая учитывать такие детали.
Наконец, учитывая огромный объем накопленных данных по ферментам и их каталитическим центрам, а также экспоненциальный рост научной литературы, чрезвычайно желательно использовать автоматические методы для идентификации аминокислотных остатков каталитического центра и классификации его типа.
В настоящее время наиболее развиты и применяемы методы, основанные на выравнивании аминокислотных последовательностей, однако они не вполне пригодны
для анализа эволюции каталитических центров. Действительно, существуют базы данных, объединяющие ферменты в гомологичные семьи на основе выравнивания их аминокислотных последовательностей, и за неимением лучшего, предполагается, что все ферменты в одной семье имеют каталитический центр одного типа. Использование одного метода для решения двух задач - установления гомологии ферментов и нахождения их каталитического центра - приводит к методической ошибке и невозможности нахождения гомологичных ферментов с различными типами каталитического центра.
Поэтому представляется необходимым создание дополнительных методов для идентификации каталитических центров и использование методов анализа, например, трехмерной структуры белков. Как будет показано, точность таких методов превышает точность методов анализа последовательностей и сопоставима с прямым анализом литературных источников. Достоинством таких методов является и способность обнаруживать каталитические центры с одинаковым расположением в пространстве даже среди негомологичных белков. Недостатком же методов анализа трехмерных структур белков является то, что в настоящий момент они находятся в стадии исследования и разработки.
Другим побудительным стимулом к разработке таких методов является экспоненциальный рост данных о трехмерной структуре белков (рисунок 1). Данные о координатах отдельных атомов в белковой молекуле, благодаря развитию методов рентгено-структурного анализа и ядерного магнитного резонанса, получены для более десятка тысяч различных белков. Но на вопрос, например, какие из этих структур содержат каталитическую триаду Ser-His-Asp с таким же расположением атомов в пространстве, как у трипсина, ответить оказывается чрезвычайно сложно. Данные о структуре белков хорошо формализованы, пригодны для компьютерного анализа и сдерживающим фактором является только отсутствие соответствующих методов.
Среди всех ферментов для данной работы было решено ограничиться гидролазами, из-за того, что это наиболее изученные и многочисленные ферменты на сегодняшний день, из-за общности катализируемых реакций - одним из субстратов обязательно является вода, в ходе реакции происходит разрыв связи гидроксид-ион -протон, и потому, что гидролазы - наиболее используемые ферменты.
Таким образом, целями данной работы стали:
Разработка методов идентификации каталитических центров гидролаз на основе данных о трехмерной структуре белков.
Создание системы классификации каталитических центров, позволяющей учитывать градации отношения похожести между отдельными типами каталитических центров.
Приведение существующих данных о каталитических центрах изученных белков в форму, доступную для компьютерного анализа (создание компьютерной базы данных).
Методы парного выравнивания аминокислотных последовательностей
Наиболее широко применяемыми методами анализа аминокислотных и нуклеотидных последовательностей являются методы, основанные на выравнивании последовательностей (sequence alignment). Это обусловлено тем, что во-первых, благодаря развитию методов секвенирования ДНК, для анализа стали доступны огромные объемы нуклеотидных и, после автоматической трансляции, аминокислотных последовательностей. Во-вторых, такие данные легко представимы в форме, доступной для компьютерного анализа. Первые работы по выравниванию относятся к 70ым годам и математический аппарат к настоящему времени хорошо разработан.
Известно, что белки организмов, произошедших от общего эволюционного предка, в значительной степени похожи друг на друга. Примерами являются гемоглобины, цитохромы с млекопитающих; инсулины человека и свиньи, например, отличаются только одним аминокислотным остатком. Такие белки, как правило, сохраняют свою биологическую функцию (хотя исключения также известны -например гаптоглобин (код доступа базы данных SwissProt - PI9006 ) является белком из семейства сериновых гидролаз типа трипсина, однако он не содержит остатков каталитического центра и не обладает гидролазной активностью, его биологическая функция - связывание свободного гемоглобина плазмы крови). Поэтому, при наличии только данных об аминокислотной последовательности и отсутствии каких-либо других экспериментальных данных, установление похожести последовательности с каким-либо известным белком является единственным способом установления функции неизвестного белка.
С формальной точки зрения задача о выравнивании двух последовательностей (pair-wise alignment) заключается в нахождении соответствия позиций одной последовательности относительно другой, так, чтобы максимальное число одинаковых или похожих остатков оказались напротив друг друга при минимальном числе и длине разрывов, которые необходимо внести в последовательности. Алгоритмы выравнивания нацелены на максимизацию счета выравнивания (score), который увеличивается при совпадении остатков и уменьшается при внесении разрыва или различии остатков в данной позиции. Для того, чтобы количественно учесть похожесть аминокислотных остатков (например, аргинин по своим физико-химическим свойствам больше похож на лизин, чем на аланин) используют матрицы аминокислотных замен, которые указывают, как должен изменяться счет при нахождении в выравнивании пары данных остатков. Поэтому результаты выравнивания (счет выравнивания, идентичность и похожесть последовательностей, положения соответствующих остатков в двух последовательностях), в общем случае, зависят от используемых матриц, а также от выбранных параметров стоимости внесения разрывов в последовательности.
Существует большое количество матриц, основанных на сравнении таких свойств аминокислотных остатков, как полярность, объем, заряд, нуклеотидные кодоны, использующиеся для кодирования данной аминокислоты и т.д. [5]. На практике чаще всего используют семейство матриц РАМ и BLOSUM [6], основанных на ручном выравнивании реальных белков и анализе частоты аминокислотных замен. Как правило, направление эволюции белков не принимается в расчет, и используемые матрицы симметричны. Однако при учете происхождения белков оказывается, что различия в частоте взаимных мутаций пары аминокислот может достигать двух и более раз, причем направление асимметрии примерно одинаково для всех организмов[7].
Первые алгоритмы глобального и локального оптимального выравнивания двух последовательностей описаны в работах [8] и [9] соответственно, реализации доступны в пакете программного обеспечения EMBOSS (European Molecular Biology Open Software Suit) [10]. Локальные и глобальные выравнивания отличаются только постановкой задачи - локальные алгоритмы находят фрагменты последовательностей, на которых достигается максимальный счет выравнивания и могут «обрезать» концы, если это увеличивает счет; алгоритмы глобального выравнивания обязаны использовать всю длину белковой последовательности. Т.о. счет глобального выравнивания не превосходит счет локального.
Затраты памяти и машинного времени у оптимальных алгоритмов пропорциональны nm, где пит- длины выравниваемых последовательностей, поэтому на практике чаще используют более быстрые алгоритмы BLAST (Basic Local Alignment Search Tool) [5,11,12] и FASTA (Fast Alignment)[13]. Хотя теоретически они не гарантируют нахождения оптимального выравнивания, но на реальных данных дают практически такие же результаты, как и предыдущие методы и работают на порядок быстрее. Быстродействие методов позволяет использовать их для поиска в базах данных белков, гомологичных заданному. Для метода BLAST разработана математическая модель, которая позволяет вычислить статистическую значимость результатов поиска - т.е. насколько вероятно случайное нахождение выравнивания с данным счетом и длиной в используемой базе данных последовательностей.
К сожалению, установление гомологии двух белков с помощью методов выравнивания последовательностей не гарантирует одинаковость их функций или, в случае ферментов, одинаковости их каталитических центров. На рисунке 2 приведено выравнивание двух белков, идентичность последовательностей которых составляет 82%, однако первых белок в выравнивании - фосфолипаза А2 из яда змеи, а второй -ингибитор этого фермента, который предохранят организм хозяина от повреждения ядом.
Из данного выравнивания видно, что у ингибитора отсутствует остаток каталитического центра (соответствующий His63), однако, в общем случае, отсутствие парного остатка в выравнивании не гарантирует отсутствие такого остатка вообще; в случае эволюционно давно разошедшихся белков причиной может стать плохое качество самого выравнивания. На рисунке 3 приведен фрагмент локального выравнивания стрептогризина Б из Streptomyces griseus и бычьего химотрипсина А Из данного выравнивания наличие и положение каталитического остатка аспарагиновои кислоты в одном из белков не может быть установлено по данным о расположении такового остатка в другом белке.
Наконец, даже наличие выравнивающихся остатков и хороших результатов выравнивания (счет, идентичность и похожесть последовательностей) не гарантирует одинаковости каталитических центров. На рисунке 4 приведен фрагмент выравнивания последовательностей АТФ-зависимой протеазы hslV из Bacillus subtilis и такой же протеазы из Escherichia coli. Фермент из Е. coli - треониноная гидролаза, фермент из В. subtilis имеет остаток треонина, соответствующий каталитическому, однако эта протеаза для катализа использует остаток серина [14]. Отметим, что в базах данных SwissProt (выпуск 49.0) и MEROPS (7.30) данная сериновая протеаза (ошибочно) классифицирована как треониновая, из-за сходства с последними.
База данных SwissProt
Для осуществления доступа к большим объемам накопленной биологической информации требуется ее организация, а для проведения эффективного поиска -представление ее в компьютерно-доступном виде, что и является целью создания баз данных. Количество существующих баз данных, список которых составляет журнал Nucleic Acids Research (bttp://www3.oup.co.uk/nar/database/capA, в настоящее время превышает 800. В данной главе рассмотрена лишь небольшая их часть, имеющая отношения к данной работе.
Следует разделить банки и базы данных. Первые (например, Genbank или Protein Data Bank (PDB), описанный ниже) служат для сохранения экспериментально полученных данных и для обеспечения к ним доступа заинтересованных пользователей. Вторые создаются преимущественно для анализа, сопоставления и обеспечения доступа к данным, зачастую полученным разными экспериментальными методами и разными научными группами, и курируются людьми, часто не имеющими отношения к первоначальной экспериментальной работе (аннотаторами базы данных).
С вопросом о банках и базах данных напрямую связан вопрос об избыточности данных. По определению, банки данных могут содержать избыточные данные. Например, если несколько групп экспериментаторов получили трехмерную структуру молекулы химотрипсина, то все эти структуры будут находиться в банке данных PDB. Наоборот, составители баз данных часто придерживаются политики неизбыточности, например, в базе данных SwissProt находится только один документ, описывающий химотрипсин, в котором будут собраны все ссылки на полученные структуры.
База данных SwissProt содержит описания белков, составленные вручную по литературным данным. TrEMBL содержит аминокислотные последовательности, полученные автоматической трансляцией пуклеотидных последовательностей генов из банка данных EMBL (European Molecular Biology Laboratory ) и их краткие описания, которые могут быть получены автоматическими методами. По мере поступления литературных данных, документы TrEMBL снабжаются описаниями и переводятся в базу SwissProt. Форматы документов и идентификационных номеров у этих баз одинаковы. В настоящее время (февраль 2006 года) в базе данных SwissProt содержатся 207,132 документа, в TrEMBL - 2,605,584 документа. Таким образом, соотношение числа белков, для которых есть экспериментальные данные, к белкам, для которых известна только аминокислотная последовательность, составляет 1:13.
Документы этих баз имеют два типа идентификаторов - собственно уникальные идентификаторы (например, CTRA_BOVIN для бычьего химотрипсина А), составленные из названий белка и организма, и коды доступа (accession numbers, например, Р00766 для того же белка). Наличие двух систем вызвано следующими причинами. Документы базы данных строятся по литературным описаниям белков, и периодически случалось, что два белка, описанных в литературе как разные, оказывались одним; описывающие их документы в таком случае объединялись. Иногда наоборот, белок оказывался смесью различных белков, и тогда создавались документы для каждого из них. Коды доступа используются для отслеживания истории таких изменений. При объединении белков итоговый документ содержит только один идентификатор но все коды доступа исходных документов. При разделении документов каждый получает новый идентификатор, новый уникальный код доступа и все предыдущие коды доступа исходного документа. При ссылке на белок базы в литературе рекомендуется использовать код доступа, а не идентификатор, чтобы можно было установить, какой именно белок имелся в виду на момент публикации.
База данных придерживается принципа «один ген - один белок» и, соответственно один документ, поэтому например, химотрипсин и химотрипсиноген, несмотря на то что это различные по своим свойствам белки, описываются в одном документе. Точно так же вирусные белки, которые синтезируются с одного гена и разрезаются на несколько независимых белков, каждый со своей функцией, ЕС номером и каталитическим центром, описываются одним документом. Напротив, белки разных организмов, даже если их аминокислотный состав полностью совпадает, представлены различными документами. За исключением таких случаев, документы SwissProt неизбыточны, т.е. одна аминокислотная последовательность описана только в одном документе; для базы TrEMBL это не гарантируется.
Описание белка можно разделить на следующие части: общее описание белка; ссылки на литературу; аннотация, составленная сотрудниками SwissProt; ссылки на другие базы данных (всего более 70 различных баз данных); описание особенностей аминокислотной последовательности; и, наконец, сама последовательность белка (как правило полностью, как она закодирована нуклеотидной последовательностью, включая начальный остаток метионина).
Общее описание белка включает идентификаторы базы SwissProt, название белка и его синонимы, используемые в литературе, ЕС номер для ферментов, название гена (и его синонимы), организм-хозяин данного белка и список ключевых слов.
Аннотация может содержать краткое изложение биологической функции белка, его взаимосвязь с другими белками, используемые кофакторы для ферментов, принадлежность к той или иной семье гомологичных белков; локализацию белка в клетке и т.д.
Описание особенностей аминокислотной последовательности может включать расположение остатков каталитических центров для ферментов; лиганды ионов металлов или кофакторов; положение элементов вторичной структуры (альфа-спирали и бета-листы) и дисульфидных связей; наличие сигнальных последовательностей; посттрансляционную модификацию остатков и многое другое. Количество представленной информации сильно варьируется для различных белков.
Наконец, наличие ссылок на литературу делает базу данных SwissProt незаменимой для всестороннего получения информации о требуемом белке.
Направления улучшения существующих методов
Значения геометрических инвариантов, как уже указывалось, не зависят от трансляций и поворотов системы координат, поэтому для их вычисления нет необходимости прибегать к процедуре пространственного совмещения структур. Примерами инвариантов являются расстояния, планарные и двугранные углы, площади треугольников, объемы тетраэдров и т.д. Число возможных их типов не ограничено. В данной работе было принято решение ограничиться тремя типами: расстояниями между двумя атомами, которые принадлежит разным аминокислотным остаткам; планарными углами, построенными на атомах, принадлежащих двум или трем остаткам; и планарными углами между двумя векторами, каждый из которых построен на атомах одного аминокислотного остатка. Примеры инвариантов каждого типа приведены на рисунке 10. Дальнейшим развитием метода могло быть изучение и рациональный выбор типов инвариантов для составления шаблонов.
Для осуществления каталитических превращений аминокислотные остатки функциональных центров ферментов должны быть расположены в пространстве определенным образом. Поэтому распределения значений инвариантов для функциональных центров и для случайных групп аминокислотных остатков различаются, что позволяет использовать инварианты для дискриминации функциональных и случайных групп. Так, на рисунке 11 приведена гистограмма распределения значений планарного угла, построенного на альфа атомах углерода остатков аспарагиновой кислоты, серина и гистидина для каталитических триад Ser-His-Asp и для триад того же состава, выбранных случайным образом из структур белков без каталитической активности. Для всех каталитических триад значение данного угла лежит в диапазоне от 20 до 60 градусов; случайные триады распределены в диапазоне от 0 до 180 градусов. Поэтому данный инвариант можно использовать для дискриминации не каталитических триад Ser-His-Asp: например, если у изучаемой триады значение угла находится вне диапазона 20 - 60 градусов, то, по-видимому, она не является каталитической.
Ограничением в дальнейшем будет называть геометрический инвариант (например, как в приведенном выше случае - угол, построенный на определенных атомах) и минимальное и максимальное допустимое его значение. Максимальное и минимальное значения могут быть получены путем анализа наблюдаемых значений инварианта на множестве известных функциональных центров. Набор таких ограничений будет использоваться для осуществления поиска. В данной работе использовались попарно независимые инварианты - т.е. такие инварианты, значения которых невозможно получить из значения любого другого инварианта. Например, расстояние между атомами А и В равно расстоянию между В и А, поэтому только один из инвариантов включался в набор; другой пример - углы между векторами АВ и CD и между векторами АВ и DC в сумме дают 180, поэтому достаточно только одного из этих инвариантов. Напротив, все три возможных угла ABC, ВСА и CAB для точек А, В и С содержались во множестве инвариантов, т.к. хотя любой из них зависит от значений двух других, ни один не может быть получен из значения только одного инварианта.
Для триады Ser-His-Asp (система из 24 атомов) количество попарно независимых инвариантов, и соответствующее число ограничений, составляет 8027. Для практического применения набор ограничений, построенных из всех возможных инвариантов, слишком велик. Число ограничений, которые необходимо проверять, может быть уменьшено по следующим причинам. Во-первых, не все ограничения дискриминируют функциональные и нефункциональные сайты. Во-вторых, разные ограничения могут выделять одинаковые множества сайтов, тогда достаточно проверять только одно из них. Графическое изображение отношений между множествами функциональных сайтов, произвольных сайтов и сайтов, удовлетворяющих ограничениям, приведено на рисунке 12. Для ситуации, изображенной на рисунке, целесообразно использовать только два ограничения из четырех: Сг и С».
В общем случае задача нахождения минимального множества ограничений, пересечение которых выделяет минимальный набор сайтов, является неполиномиально сложной, т.е. возможны такие начальные данные, что нахождение точного решения данной задачи будет требовать объема вычислений, пропорционального 2N, где N -число ограничений. Поскольку точное решение такой задачи невозможно на практике, был использован подход, описанный ниже.
Введем понятие селективности ограничения как отношение числа нефункциональных сайтов, удовлетворяющих ограничению, к общему числу нефункциональных сайтов в выборке. Для триады Ser-His-Asp пять наиболее селективных ограничений приведены в таблице 1. Действительно, ограничения №1 и №3, взятые по отдельности, выделяют примерно одно и то же множество триад - тех, у которых гидроксильная группа серина располагается возле атома Ne остатка гистидина, поэтому достаточно использовать только одно из них. Алгоритм построения минимального множества не избыточных ограничений, основанный на использовании наиболее селективных взаимно ортогональных ограничений, приведен на рисунке 13.
Описанный алгоритм был применен для построения шаблонов каталитических центров ряда ферментов.
Сериновые гидролазы с триадой Ser-His-Asp(Glu) были выбраны как наиболее известные и изученные примеры конвергентной эволюции каталитических центров; каталитический центр такого типа встречается у множества негомологичных ферментов с различными укладками пептидной цепи и порядком расположения каталитических остатков в последовательности [63].
Для ферментов семейства панкреатической рибонуклеази с каталитической диадой His-His известны две модификации: рибонуклеаза А и рибонуклеаза S, получающаяся в результате пост-трансляционного частичного протеолиза. Для некоторый ферментов известна способность к «обмену доменами» (domain-swapping) -явление, при котором активный фермент может существовать в мономерной или в димерной форме, в последнем случае каждый из двух каталитических центров образован остатками различных цепей [64]. Также наблюдались различия в пространственном положении каталитических остатков для разных кристаллизационных форм фермента [65].
Аспартильные протеазы семейства пепсина с каталитической диадой Asp-Asp широко распространены в природе, хотя могут быть образованы одной полипептидной цепью, в которой находятся оба остатка, отличающиеся каталитической ролью [66], или двумя идентичными субъединицами, в результате чего каталитические остатки находятся в одинаковом окружении [22].
Стафилококковая нуклеаза с диадой Arg-Arg была выбрана в качестве фермента с уникальными каталитическим центром и механизмом [67].
Последние примеры каталитических центров состоят всего из двух аминокислотных остатков и, поэтому, особенно сложны для нахождения методами поиска локального сходства в белковых структурах. Это обусловлено тем, что чем меньше остатков в искомом центре, тем чаще встречаются случайные кластеры остатков того же состава, что приводит к большому количеству ошибок второго рода (false-positive).
Чувствительность и селективность поиска
Как отмечалось во введении, в настоящее время не существует ответов на вопросы: сколько различных типов каталитических центров известно к настоящему времени? Какие каталитические центры могут осуществлять превращения заданного субстрата? Различаются ли каталитические центры разных организмов, например, термофильных и мезофильных организмов? Как появились и как происходила эволюция каталитических центров ферментов? Ответы на эти вопросы интересны с академической точки зрения и полезны для практической инженерии биокатализаторов.
Метод идентификации каталитических центров, подобный описанному ранее, может быть использован для анализа большого объема накопленных данных о структурах ферментов. Создание же базы данных, упорядочивающей найденные каталитические центры и содержащие средства анализа данных, позволило бы ответить на заданные выше вопросы.
Использование метода идентификации каталитических центров для создания базы данных.
Для нахождения каталитических центров необходимо иметь структурные шаблоны, а для создания шаблонов необходимо иметь несколько примеров каталитического центра данного типа. Поэтому работа начинается с анализа литературных данных и отбора известных ферментов, затем следует построение шаблона и поиск остальных ферментов с каталитическим центром данного типа. Невозможно гарантировать, что все возможные геометрические конформации остатков каталитического центра будут учтены на этапе создания шаблона, поэтому возможно, что процедура поиска найдет не все возможные ферменты с данным каталитическим центром. Поэтому использовалась итеративная процедура классификации ферментов, и на каждом шаге из множества неклассифицированных белков выбирались кандидаты для построения очередного шаблона каталитического центра. Последовательность действий, применявшаяся при создании базы данных, изображена на рисунке 21.
Хотя описанная процедура построения шаблона приводит к наиболее точным шаблонам, в некоторых случаях быть использованы и упрощенные методы. Например, при недостаточном количестве примеров каталитического центра можно применить экспертную оценку к заданию ограничений шаблонов, хотя точность такого шаблона будет меньше. Можно использовать шаблоны, построенные по одному примеру, как в работах других авторов. Возможно использование комбинированных методов -например, начать с шаблона, заданного вручную, проанализировать результаты поиска и отобрать структуры, где данный каталитический центр был найден правильно, затем использовать найденные структуры для построения точного шаблона.
Для редких каталитических центров, по-видимому, нецелесообразно создавать шаблоны. Как будет показано ниже, существуют каталитические центры всего с одной известной структурой в PDB, добавление такого белка в базу данных на основе литературных данных более рационально, чем составление специализированного шаблона. Правда, с ростом PDB использование шаблонов будет становиться все более актуальным. Наконец, существуют каталитические центры, состоящие всего из одного аминокислотного остатка. Такие центры не могут быть найдены существующими шаблонными методами, и их внесение в базу данных основано на литературных данных. Иерархическая классификация каталитических центров.
Для создания базы данных как инструмента анализа недостаточно только идентификации аминокислотных остатков каталитического центра. Необходима схема организации данных; например, так, чтобы можно было получить список всех ферментов с каталитическим центром данного типа. Необходима онтология (каталог, словарь, список) известных каталитических центров. Проблема заключается в том, что не существует четкой границы между различными каталитическими центрами -например, и гидролазы с триадой Ser-His-Asp, и N-концевые сериновые гидролазы относятся к сериновым гидролазам, хотя их каталитические центры имеют мало общего. Существует два традиционных подхода, использовавшиеся другими авторами, оба имеют свои недостатки.
Можно разбить все гидролазы на небольшое число классов, однако, тогда в каждый класс попадут ферменты с различающимися каталитическими центрами. Пример - упоминавшиеся сериновые гидролазы; этот подход используется, например, базой SwissProt. Можно, напротив, разбить гидролазы на множество мелких классов, так, чтобы даже небольшие различия между ферментами приводили к тому, чтобы они попадали в разные классы. Такой подход (на основе выравнивания аминокислотных последовательностей) применяется для создания баз данных CAZy и MEROPS. Недостаток - в базе MEROPS существует 17 (а возможно, и больше) семейств ферментов, которые для катализа используют триаду Ser-His-Asp, и проводить обобщения (например, какие реакции катализируются ферментами с данной триадой) затруднительно.
Для решения этих проблем была разработана иерархическая система классификации каталитических центров. Классы, на которые разбиты гидролазы, образуют древовидную структуру. Производный класс, находящийся ниже в иерархии, уточняет свой базовый класс, т.е. каталитические центры, помещенные в производный класс имеют все остатки каталитического центра базового класса и один или несколько дополнительных остатков. Для построения иерархии используются три простых правила: