Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз Гариев Игорь Анисович

Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз
<
Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Гариев Игорь Анисович. Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз : диссертация ... кандидата химических наук : 02.00.15, 03.00.04.- Москва, 2006.- 121 с.: ил. РГБ ОД, 61 06-2/511

Содержание к диссертации

Введение

Глава 1. Методы анализа данных 9

Методы парного выравнивания аминокислотных

последовательностей 9

Множественные выравнивания последовательностей 13

Глобальные выравнивания трехмерных структур белковых молекул 14

Методы нахождения локального сходства белковых структур 17

Глава 2. Базы данных 21

База данных SwissProt 21

Банк данных PDB 23

Базы данных укладок белковых цепей 25

Базы данных семейств гидролаз 26

Базы данных каталитических центров ферментов 27

База данных HSSP 28

Практическая часть 31

Глава 3. Материалы и методы 31

Базы данных 31

Программное обеспечение 31

Списки белков с заданным каталитическим центром 32

Белковые структуры для процедуры поиска 32

Белковые структуры для составления шаблонов 33

Результаты и их обсуждение 34

Глава 4. Метод построения структурных шаблонов 34

Направления улучшения существующих методов 34

Использование геометрических инвариантов 37

Построение набора независимых селективных ограничений 38

Примеры поисковых шаблонов 41

Глава 5. Использование консервативности для идентификации каталитического центра 46

Влияние изоморфных замен на значения энтропии Шеннона 49

Влияние числа белков в выборке при выравнивании на количество консервативных остатков 50

Влияние степени идентичности последовательностей в выравнивании на консервативность каталитических остатков 52

Энтропия Шеннона каталитических остатков 53

Глава 6. Результаты поиска каталитических центров 55

Чувствительность и селективность поиска 56

Сравнение с аннотациями базы данных SwissProt 61

Глава 7. Иерархическая классификация каталитических центров гидролаз и база данных на се основе 63

Использование метода идентификации каталитических центров для создания базы данных 63

Иерархическая классификация каталитических центров 65

Информация, предоставляемая базой данных 67

Инструменты анализа данных 69

Пример - конвергентная эволюция гидролаз с триадой Cys-His-Asp 70

Глава 8. Основные классы каталитических центров гидролаз 72

Гидролазы с карбоксильной группой в каталитическом центре 73

Цистеиновые гидролазы 77

Гистидиновые гидролазы 81

Металло-зависимые гидролазы 83

N-концевые пролиновые гидролазы 89

Сериновые гидролазы 89

Треониновые гидролазы 93

Тирозиновые гидролазы 94

Гидролазы с участием субстрата в каталитическом акте и кофактор- зависимые гидролазы 95

Количественные оценки распределения гидролаз по типам каталитических центров 98

Выводы 100

Список литературы

Введение к работе

Ферменты - эффективные и селективные биокатализаторы [1,2]. Благодаря своим свойствам, они могут быть незаменимыми в тонком органическом и, особенно, стереоселективном синтезе, аналитических системах, для деградации токсичных отходов. Их широкое применение затруднено тем, что, как правило, нет ферментов для селективного проведения реакций с веществами, не встречающимися в природе. Поэтому, одной из важных целей биоинженерии является конструирование ферментов с заданными свойствами.

В настоящее время для решения этой задачи наиболее успешными являются методы «направленной эволюции» ферментов, основанные на случайном мутагенезе исходных ферментов и отборе мутантов, обладающих нужными свойствами [3]. Недостатками этой группы методов является непредсказуемость результатов, затрат времени и реактивов для выполнения работы, а также ее трудоемкость.

Использование рациональных компьютерных методов представляется более перспективным, т.к. в настоящее время мощности современных вычислительных систем растут экспоненциально (эмпирический закон Мура, отражающий тенденции развития компьютерной техники на протяжении уже 30 лет, гласит, что вычислительные мощности удваиваются каждые 2 года). Поэтому, следует ожидать, что производительность методов создания ферментов in silico превысит производительность лабораторных методов. К сожалению, недостаток понимания связи между последовательностью, трехмерной структурой и функцией белка приводит к тому, что рациональные методы создания биокатализаторов, гарантированно дающие требуемый результат, в настоящее время весьма ограничены [4].

Возможный подход к решению этой задачи - анализ изменчивости природных ферментов и изучение мутаций, которые происходили в семье гомологичных (родственных, произошедших от одного общего предка) ферментов и изменяли такие их свойства, как термостабильность, рН-оптимум, субстратная специфичность. Так, например, многие свойства фермента определяются каталитическим центром -небольшим числом аминокислотных остатков, непосредственно осуществляющих химические превращения субстрата. Для ответа на вопрос, можно ли искусственно изменить тип каталитического центра фермента, предполагается разумным изучить, происходили ли такие изменения в природе, и если да, то как и с какими ограничениями.

Для нахождения случаев эволюции каталитических центров ферментов, как дивергентной эволюции - когда у родственных ферментов обнаруживались разные каталитические центры, так и конвергентной - когда различные ферменты приходили к каталитическим центрам одного типа, необходимо уметь отвечать на два вопроса. Во-первых, являются ли два данных фермента гомологичными или нет, и, во-вторых, одинаковы ли их каталитические центры. Благодаря развитию методов выравнивания аминокислотных последовательностей и трехмерных структур белков, ответить на первый вопрос несложно, и существующие методы позволяют выполнять такую работу автоматически в больших масштабах. Данные же о каталитическом центре ферментов, как правило, находятся в литературе, и непригодны для автоматического компьютерного анализа.

Несмотря на детальные знания отдельных ферментов, на многие вопросы более общего уровня трудно получить ответ - например, сколько различных каталитических центров известно на сегодняшний день? Реакции с какими субстратами способны осуществлять ферменты с каталитическим центром данного типа? Как распределены каталитические центры по организмам, и существуют ли предпочтения, например, у термофильных организмов? Фермент с каким каталитическим центром выбрать в качестве стартового для проведения «направленной эволюции» для осуществления заданной реакции?

Вопросы, заданные выше, относятся к области сравнительной химической энзимологии, и для ответа на них необходимо, чтобы данные о каталитических центрах отдельных ферментов были формализованы и доступны для компьютерного анализа. Учитывая, что отношения похожести между каталитическими центрами зачастую не имеют дискретного характера (например, N-концевые сериновые гидролазы по свойствам больше похожи на N-концевые треониновые гидролазы, чем на сериновые гидролазы с триадой Ser-His-Asp, и все они совсем не похожи на аспартильные гидролазы), необходима гибкая система классификации каталитических центров, позволяющая учитывать такие детали.

Наконец, учитывая огромный объем накопленных данных по ферментам и их каталитическим центрам, а также экспоненциальный рост научной литературы, чрезвычайно желательно использовать автоматические методы для идентификации аминокислотных остатков каталитического центра и классификации его типа.

В настоящее время наиболее развиты и применяемы методы, основанные на выравнивании аминокислотных последовательностей, однако они не вполне пригодны

для анализа эволюции каталитических центров. Действительно, существуют базы данных, объединяющие ферменты в гомологичные семьи на основе выравнивания их аминокислотных последовательностей, и за неимением лучшего, предполагается, что все ферменты в одной семье имеют каталитический центр одного типа. Использование одного метода для решения двух задач - установления гомологии ферментов и нахождения их каталитического центра - приводит к методической ошибке и невозможности нахождения гомологичных ферментов с различными типами каталитического центра.

Поэтому представляется необходимым создание дополнительных методов для идентификации каталитических центров и использование методов анализа, например, трехмерной структуры белков. Как будет показано, точность таких методов превышает точность методов анализа последовательностей и сопоставима с прямым анализом литературных источников. Достоинством таких методов является и способность обнаруживать каталитические центры с одинаковым расположением в пространстве даже среди негомологичных белков. Недостатком же методов анализа трехмерных структур белков является то, что в настоящий момент они находятся в стадии исследования и разработки.

Другим побудительным стимулом к разработке таких методов является экспоненциальный рост данных о трехмерной структуре белков (рисунок 1). Данные о координатах отдельных атомов в белковой молекуле, благодаря развитию методов рентгено-структурного анализа и ядерного магнитного резонанса, получены для более десятка тысяч различных белков. Но на вопрос, например, какие из этих структур содержат каталитическую триаду Ser-His-Asp с таким же расположением атомов в пространстве, как у трипсина, ответить оказывается чрезвычайно сложно. Данные о структуре белков хорошо формализованы, пригодны для компьютерного анализа и сдерживающим фактором является только отсутствие соответствующих методов.

Среди всех ферментов для данной работы было решено ограничиться гидролазами, из-за того, что это наиболее изученные и многочисленные ферменты на сегодняшний день, из-за общности катализируемых реакций - одним из субстратов обязательно является вода, в ходе реакции происходит разрыв связи гидроксид-ион -протон, и потому, что гидролазы - наиболее используемые ферменты.

Таким образом, целями данной работы стали:

  1. Разработка методов идентификации каталитических центров гидролаз на основе данных о трехмерной структуре белков.

  2. Создание системы классификации каталитических центров, позволяющей учитывать градации отношения похожести между отдельными типами каталитических центров.

  3. Приведение существующих данных о каталитических центрах изученных белков в форму, доступную для компьютерного анализа (создание компьютерной базы данных).

Множественные выравнивания последовательностей

Более точное позиционирование аминокислотных остатков может быть получено, если для выравнивания использовать не две последовательности, а несколько. Точное решение задачи построения множественного выравнивания -нахождение соответствия остатков нескольких последовательностей, максимизирующая счет выравнивания - требует затрат машинного времени, пропорционального п , где п - длина выравниваемых последовательностей, а к - их число. Поэтому применяемые на практике программы, например, ClustalW [15], используют упрощения исходной задачи для повышения быстродействия.

Множественные выравнивания используются и для повышения точности поиска гомологичных белков в базах данных программой PSI-BLAST (Position-Specific Iterative BLAST) [11]. Основная идея метода - отказаться от стандартной матрицы аминокислотных замен в пользу матрицы, специально построенной для данного семейства белков, учитывающей частоту встречаемости аминокислотных остатков отдельно для каждой позиции в выравнивании. На практике поиск проводится итеративно, причем при первой итерации используется стандартная матрица, а на последующих итерациях учитываются результаты поиска и для каждой позиции выравнивания рассчитывается новый набор матриц. Итерации продолжаются до схождения результатов, т.е. до прекращения нахождения новых белков.

Иногда множественным выравниванием называют и простой набор парных выравниваний, построенных для какой-то одной последовательности. Именно такой подход, по-видимому, был использован для построения выравниваний базы данных HSSP [16], хотя в публикации отсутствуют детали построения выравниваний.

Глобальные выравнивания трехмерных структур белковых молекул

Методы выравнивания последовательностей хорошо работают только для белков, эволюционное расхождение которых произошло относительно недавно, и которые сохранили значительное число одинаковых аминокислотных остатков. Идентичность последовательностей в 10-15% зачастую получается для произвольных, заведомо негомологичных белков, что устанавливает нижнюю границу применимости методов выравнивания последовательностей. Однако третичная структура белка, как правило, более консервативна, чем последовательность, и в случае давно разошедшихся гомологов сравнение трехмерных структур может использоваться как для установления родства белков, так и для более точного нахождения функциональных аминокислотных остатков [17].

Сравнение- трехмерных структур для установления гомологии белков требует большей осторожности, чем сравнение последовательностей, и результаты менее убедительны. Существуют симметричные термодинамически выгодные укладки (фолды) пептидной цепи (например, фолд триозоизомеразы - TIM-бочка или (a/p)s-бочка [18]), к которым пришли эволюционно различные белковые последовательности [19,20]. Однако совместно с другими свидетельствами - например, сохранением механизма реакции для фермента, порядком расположения каталитических остатков в полипептидной цепи, положением каталитического центра и центра связывания субстрата в структуре, одинаковость укладки может указывать на дальнее эволюционное родство изучаемых ферментов. Примерами являются лизоцимы человека, куриного и гусинового яиц [21]; пищеварительные пепсины млекопитающих и протеазы ретровирусов [22].

Для автоматического выравнивания трехмерных структур белков (как правило, по Са атомам аминокислотных остатков для того, чтобы не учитывать возможные аминокислотные замены в исследуемых структурах) разработано несколько программ, например DALI [23], VAST [19,24] и СЕ [25]. Все они могут применяться и для выравнивания двух структур, и для поиска в базе данных структур с укладкой полипептидной цепи подобной заданной. Для оценки качества выравнивания используются два параметра - число Са атомов, для которых было найдено соответствие, и среднеквадратичное отклонение координат атомов.

Глобальное выравнивание трехмерных структур позволяет более точно найти соответствие каталитических остатков гомологичных ферментов, чем выравнивание последовательностей. Так, на рисунке 5 изображено пространственное выравнивание структур протеаз стрептогризина (код базы данных PDB 1CSO) и химотрипсина (код 10XG), выравнивание последовательностей которых приведено на рисунке 3. При выравнивании трехмерных структур каталитические остатки аспарагиновых кислот обеих молекул совпадают, в отличие от выравнивания последовательностей.

Тем не менее, методы глобального выравнивания белковых структур бесполезны в случае ферментов, пришедших к одному каталитическому центру в ходе конвергентной эволюции. На рисунке 6 приведены структуры и каталитические центры двух сериновых гидролаз - химотрипсина и субтилизина (код PDB 1SBC). Несмотря на различие в строении белковых молекул (химотрипсин построен из бета-листов, организованных в две бета-«бочки», а субтилизин - из альфа-спиралей и бета-листа, уложенных в а-Р-а сэндвич), положение остатков каталитического центра одинаково.

Базы данных каталитических центров ферментов

Несмотря на то, что число белков, для которых известна последовательность, превышает два миллиона (см. описание базы SwissProt), это разнообразие скорее кажущееся, так как у разных организмов часто встречаются гомологичные, произошедшие от одного эволюционного предка белки. Они имеют аминокислотные последовательности с высокой степенью идентичности, а ферменты обладают одинаковыми каталитическими центрами, механизмом действия, используемыми кофакторами и одинаковыми ингибиторами. Поэтому часто методы биоинформатики применяют для классификации ферментов на основании анализа их первичной последовательности и объединения в семьи гомологичных белков. Т.к. методы выравнивания аминокислотных последовательностей хорошо разработаны и автоматизированы, данный подход позволяет работать с большими объемами данных в автоматическом режиме. Существуют универсальные базы данных, использующие этот подход для кластеризации белков - Pfam (Protein Families) [47], COG (Clusters of Orthologues Groups) [48] и, построенная на их основе, CDD (Conserved Domain Database) [49]. Две базы данных посвящены классификации исключительно гидролаз.

В базе данных MEROPS [50,51], доступной по адресу http://merops.sanger.ac.uk/, собраны данные о пептидазах и их ингибиторах. Два фермента помещают в одну семью, если их аминокислотные последовательности обладают степенью идентичности от 30%. Семьи, в свою очередь, вручную объединяются в кланы - группы семей, гомологичіюсть белков в которых не удается определить методами анализа аминокислотной последовательности, хотя косвенные признаки (такие как способ укладки полипептидной цепи и порядок следования остатков активного центра в аминокислотной последовательности) указывают на возможное родство данных белков. Так, например, сериновые протеазы разбиваются на 10 кланов, которые, в свою очередь, делятся на 25 семей, охватывающих 6886 белков.

База данных CAZy (Carbohydrate-Active Enzymes database) [52] (http://afmb.cnrs-mrs.fr/CAZYA посвящена гликозидазам, а также гликозилтрансферазам и другим ферментам, катализирующим реакции создания и разрывы гликозидной связи. На основе анализа идентичности белковых последовательностей все гликозидазы разбиты на 106 семей, некоторые из которых объединены в 14 кланов.

Базы данных каталитических центров ферментов Для систематизации информации о каталитических центрах ферментах, представленных в литературе, была создана база данных CSA (Catalytic Site Atlas, http://www.ebi.ac. uk/thornton-srv/databases/CSA/) [53]. Авторы вручную проаннотировали 300 хорошо изученных ферментов, для которых имеется трехмерная структура и привели данные об аминокислотных остатках каталитического центра. Кроме того, для каждого фермента приведен список гомологичных белков, найденных методом BLAST. База MACiE (Mechanism, Annotation and Classification in Enzymes, http://www-mitchell.ch.cam.ac.uk/тасіеЛ [54] служит дополнением и содержит схемы каталитических механизмов для 100 выбранных ферментов. Часть схем являются анимированными и позволяют проследить перемещения атомов субстрата в ходе реакции.

База данных EzCatDB (Enzyme Catalytic-mechanism Database, http://mbs.cbrc.jp/EzCatDBA [55] не использует информацию о гомологии ферментов для их классификации. Вместо этого используется собственная классификация каталитических механизмов ферментов, основанная на катализируемой реакции (гидролиз, перенос групп и т.д.), химической природе реагирующей части субстрата (сложные эфиры, амиды, пептиды), типе каталитического механизма (общекислотный/общеосновный, нуклеофильный катализ) и каталитических группах фермента, участвующих в реакции. Первые два уровня могут быть соотнесены с ЕС номерами ферментов, остальные строятся по литературным данным. База данных позволяет легко находить механизмы и каталитические центры ферментов для заданных реакции и субстрата. Отказ от использования гомологии для классификации позволяет, в принципе, проводить эволюционный анализ ферментов и находить, например, родственные ферменты с различными механизмами, хотя инструменты для такого анализа в базе отсутствуют. Кроме того, использование субстратной специфичности для классификации приводит к тому, что ферменты с одинаковыми каталитическими центрами, но с разными субстратами, попадают в разные классы уже на самом верху классификации.

База SFLD (Structure-Function Linkage Database, http://sfld.rbvi.ucsf.edu/) [56,57] использует понятие «частичной реакции» (partial reaction) для классификации ферментов. В ходе эволюции гомологичные ферменты часто изменяют субстратную специфичность, и «частичная реакция» - это то общее, что сохраняется в каталитическом механизме и в структуре субстратов у ферментов одного суперсемейства. База данных поддерживает поиск по частичной структуре субстрата и позволяет легко найти ферменты, катализирующие реакцию с данным фрагментом молекулы.

База данных HSSP

Учитывая, что число белков с известной структурой на несколько порядков меньше числа белков с известной аминокислотной последовательностью, актуальной является задача нахождения трехмерной структуры белка по его последовательности. Одной из баз данных, предназначенных для предсказания вторичной структуры белка на основе гомологии с белком с известной структурой, является база данных HSSP (Homology-derived Secondary Structure of Proteins, ftp://ftp.embl-ebi.ac.uk/pub/databasesЛ [16,58]. Для каждого белка с размещенной в PDB структурой методом FASTA были найдены гомологичные белки из баз данных SwissProt и TrEMBL. Для построения множественных выравниваний использовалась собственная программа МахНош, описание или исходный текст которой, к сожаления, отсутствуют, и нестандартная матрица аминокислотных замен [59]. Авторы провели калибровку на белках с известной структурой и определили значения идентичности последовательностей и длины выравнивания, при которых белки в выравнивании будут иметь не менее 70% идентичности вторичной структуры. В документах базы собрана следующая информация: ссылка на структуру белка из банка PDB, который использовался для построения выравниваний; список гомологичных белков с указанием идентификаторов баз SwissProt/TrEMBL и результатов выравнивания; выровненные аминокислотные последовательности всех белков с указанием вторичной структуры исходного белка в данных позициях выравнивания; и, наконец, статистика распределения аминокислот для каждой позиции. На рисунке 8 приведены фрагменты документа, построенного для субтилизина Карлсберга.

Списки белков с заданным каталитическим центром

Для методов нахождения функциональных центров белков на основе локального сходства со структурами уже известных центров шаблон является ключевым понятием. Он задает геометрию и аминокислотный состав искомого центра; от его определения зависят селективность, чувствительность и скорость поиска. В данной главе описывается разработанный метод построения структурных шаблонов.

Направления улучшения существующих методов

Из анализа литературы следует, что, несмотря на многообразие существующих методов поиска локального сходства белковых структур, все они имеют следующие ограничения:

1. Для составления поискового шаблона используется только одна структура искомого функционального центра.

2. Для количественной оценки совпадения исследуемой структуры и шаблона применяется единственный численный критерий - среднеквадратичное отклонение координат атомов после процедуры пространственного совмещения структур или разница длин расстояний, используемая в методе ASSAM.

3. Отсутствуют рациональные методы выбора значения отклонения, за исключением трудоемкого проведения поиска с различными параметрами, анализа результатов и выбора наилучшего значения.

4. Отсутствуют рациональные критерии выбора атомов для шаблона -например, в различных работах используются только атомы остова пептидной цепи, или только атомы только боковых радикалов аминокислотных остатков, или и те, и другие.

Предполагается, что устранение данных ограничений и разработка рациональных способов выбора параметров шаблона позволило бы улучшить чувствительность и селективность поиска. Далее, отказ от используемого в большинстве методов среднеквадратичного отклонения атомов в качестве меры совпадения, по-видимому, полезен по следующим причинам.

Во-первых, разные атомы функционального центра имеют различную подвижность и несферическое распределение в пространстве [61]. На рисунке 9 приведено пространственное выравнивание по имидазольному кольцу гистидина 5 каталитических триад Ser-His-Asp из разных ферментов. Видно, что хотя боковые цепи аминокислотных остатков располагаются вместе, полного соответствия не наблюдается. Если бы шаблон мог учитывать эти различия, например, путем введения различных весовых множителей для подвижных и консервативных в пространстве атомов, или путем введения анизотропной метрики для вычисления среднеквадратичного отклонения, то чувствительность метода могла бы быть улучшена. Для иллюстрации может быть проведена аналогия с выравниванием аминокислотных последовательностей: методы множественного выравнивания, которые используют различные весовые множители для консервативных и для вариабельных позиций выравнивания, являются более точными, чем методы парного выравнивания. К сожалению, ни один метод нахождения локального сходства белковых структур не использует весовые множители.

Во-вторых, использование информации о распределении в пространстве нефункциональных аминокислотных остатков на этапе построения шаблона позволило бы улучшить селективность поиска. Желательно, чтобы шаблон не только правильно находил требуемые функциональные центры, но и отвергал случайные комбинации нефункциональных аминокислотных остатков. Хотя теоретическая модель распределения остатков в структуре белка отсутствует (например, как часто встречаются остатки серина, располагающиеся на расстоянии менее ЗА от остатков гистидина?), сравнение с группами остатков, случайным образом выбранных из структур белков, могло бы выявить различия между функциональными и случайными группами аминокислотных остатков.

В-третьих, желательно, чтобы выбранный метод задания шаблона допускал эффективную вычислительную реализацию. Например, структура химотрипсина А (код PDB lacb) содержит 2 остатка гистидина, 27 остатков серина и 9 остатков аспарагиновой кислоты. Всего в структуре 2 21 9 = 486 различных триад Ser-His-Asp, только одна из которых является каталитической. Необходимо ли перебирать и проверять все 486 возможных триад, или существует более эффективная реализация? Рекурсивные методы, известные под названиями перебор с возвратами (backtracking) или обход дерева вариантов в глубину (depth-first search), [37,62] находят решение путем добавления по одному остатков к частичному решению. Наибольшая производительность этих методов достигается, если частичное решение, из которого гарантированно невозможно получить полное решение задачи, может быть отвергнуто как можно раньше. Однако для того, чтобы вычислить значения среднеквадратичного отклонения атомов шаблона и потенциального сайта, для всех атомов шаблона должны быть найдены соответствующие атомы сайта. Таким образом, производительность уже существующих методов может быть увеличена путем изменения способа задания шаблона.

Альтернативой среднеквадратичному отклонению могли бы стать геометрические инварианты, т.е. параметры, не зависящие от сдвигов и поворотов системы координат. Однако в настоящее время геометрические инварианты применялись только для кластеризации белковых структур. Использование инвариантов для поиска функциональных сайтов и для задания поисковых шаблонов в литературе не описано.

Используя указанные выше направления улучшения методов нахождения локального соответствия в белковых структурах, в данной работе предложен способ построения поисковых шаблонов, основанный на следующих принципах:

1. Использование геометрических инвариантов для описания пространственного расположения аминокислотных остатков функционального сайта.

2. Использование нескольких структур для оценки подвижности отдельных атомов функционального сайта и оценки распределения значений геометрических инвариантов.

3. Сравнение с нефункциональными группами аминокислотных остатков из экспериментально полученных структур белков для нахождения различий между функциональными и нефункциональными сайтами.

4. Выбор, на основе сравнения, тех инвариантов и атомов для построения шаблона, которые наилучшим образом устанавливают различия между функциональными и нефункциональными сайтами.

Детали предложенного метода описаны ниже. Использование геометрических инвариантов

Значения геометрических инвариантов, как уже указывалось, не зависят от трансляций и поворотов системы координат, поэтому для их вычисления нет необходимости прибегать к процедуре пространственного совмещения структур. Примерами инвариантов являются расстояния, планарные и двугранные углы, площади треугольников, объемы тетраэдров и т.д. Число возможных их типов не ограничено. В данной работе было принято решение ограничиться тремя типами: расстояниями между двумя атомами, которые принадлежит разным аминокислотным остаткам; планарными углами, построенными на атомах, принадлежащих двум или трем остаткам; и планарными углами между двумя векторами, каждый из которых построен на атомах одного аминокислотного остатка. Примеры инвариантов каждого типа приведены на рисунке 10. Дальнейшим развитием метода могло быть изучение и рациональный выбор типов инвариантов для составления шаблонов.

Построение набора независимых селективных ограничений

Альтернативным способом нахождения аминокислотных остатков каталитического центра мог бы стать анализ множественного выравнивания белков одного семейства с последующей идентификацией консервативных остатков. Метод основан на том, что мутации в функционально важных остатках, в том числе остатках каталитического центра, приводят к потере свойств белка и эволюционным недостаткам для организма-хозяина, и поэтому, как правило, не наследуются. Таким образом, анализируя группу белков, произошедших от общего предка, и анализируя позиции, в который мутации не происходили, можно идентифицировать функционально-важные остатки.

Метод нахождения консервативных позиций отличается от методов нахождения каталитический остатков по выравниванию с последовательностями белков, в которых остатки уже известны (или с профилем, полученным в результате анализа нескольких белков с известными каталитическими центрами). Такие методы применялись, например, при создании баз PROSITE [68] и Pfam [47]. Для нахождения консервативных позиций не требуется информация о каталитических остатках в известном белке, поэтому метод можно, в принципе, применять для анализа белков, про которые не известно ничего кроме последовательности [69-71].

Т.к. методы выравнивания последовательностей хорошо разработаны, то нахождение консервативных позиций легко поддается автоматизации. Исходные данные - аминокислотные последовательности - широко доступны и получаются в больших количествах путем автоматической трансляции нуклеотидных последовательностей. Данный метод хорош еще и тем, что ортогонален методу анализа структур белков, описанному выше (т.е. использует другие исходные данные и принципы), и поэтому возможно их совместное использование.

Для построения множественных выравниваний можно использовать как методы парного выравнивания белков относительно одного «базового», так и специализированные методы, например, Clustal W [15], которые выравнивают все белки в выборке друг с другом. Представляется удобным использовать документы базы HSSP [16], в которых уже приведены результаты таких выравниваний и, более того, вычислены значения энтропии Шеннона, которые можно использовать для нахождения консервативных позиций, в которых энтропия равна нулю.

Так, на рисунке 15 приведен график энтропии Шеннона для бычьего химотрипсина А, полученный из документа HSSP с кодом 1АСВ. Видно, что остаткам каталитического центра (His57, Aspl02, Serl95) соответствуют минимумы энтропии.

Однако у метода есть и возможные ограничения. Во-первых, существуют белки одного семейства, в которых происходила потеря остатков каталитических центров, сопровождавшаяся изменением биологической функции белка (глава 1, раздел «методы выравнивания последовательностей»). Поэтому не все каталитические остатки будут обладать нулевым значением энтропии Шеннона; действительно, для химотрипсина, приведенного выше, значения энтропии каталитических остатков таковы: H(His57) = 0.205, H(Aspl02) = 0.138 и H(Serl95) = 0.329.

Во-вторых, даже при сохранении остатков каталитического центра не всегда удается выровнять их правильным способом - так, чтобы в выравнивании они занимали одинаковые позиции. Это может быть связано с ограниченной точностью методов выравнивания, особенно, когда эволюционно-родственные белки накопили множество мутаций, и степень идентичности их последовательностей мала. Далее, нельзя исключать того, что функционально-важные остатки в разных белках одной семьи могут действительно располагаться в разных позициях аминокислотныой последовательности, занимая примерно одинаковые позиции в пространстве после сворачивания белка.

В-третьих, в позициях каталитических остатков возможны изоморфные замены аминокислот, например, в сериновых гидролазах третий остаток триады может быть аспарагиновой или глутаминововой кислотой. Наличие таких замен будет приводить к отклонению энтропии Шеннона от нулевого значения.

Наконец, в-четвертых, как видно на рисунке 15 в профиле энтропии Шеннона есть множество минимумов, и не все из них соответствуют каталитическим позициям. Существуют некаталитические позиции, по-видимому, важные для функционирования белка и обеспечивающие, например, правильное сворачивание белка [69,71]. Возможно также, что существуют позиции, выглядящие как консервативные, в которых мутации просто не успели произойти.

К сожалению, отсутствие хорошей теоретической модели эволюции белковых последовательностей и накопления мутаций не позволяет ответить на многие вопросы, в том числе важные для использования критерия консервативности для идентификации каталитических центров. Например, в выборке белков со степенью идентичности последовательности более 30% к заданному белку, какая часть белков имеет степень идентичности последовательностей более 40%? Как часто наблюдаются изоморфные замены аминокислотных остатков в каталитических центрах ферментов - так же как в обычных позициях белковой последовательности или нет? Сколько белков должно быть в множественном выравнивании для того, чтобы во всех неконсервативных позициях наблюдались замены? Так как разработанной теоретической базы для ответа на эти вопросы нет, представляется разумным провести анализ с использованием существующих данных для известных ферментов.

Похожие диссертации на Информационные технологии в исследовании каталитических центров и механизмов действия гидролаз