Содержание к диссертации
Введение
Глава 1. Введение 4
1. Актуальность темы 4
2. Цель и задачи исследования 5
3. Новизна и практическая ценность 6
4. Обзор литературы 7
Глава 2. Методы 28
1. Основные определения и допущения 28
2. Новые алгоритмы, разработанные для предсказания СДП и функционально важных сайтов 28
a. Алгоритм для поиска позиций, определяющих специфичность белка (СДП) 29
b. Алгоритм для предсказания специфичности новых белков на основе СДП 34
c. Алгоритм для предсказания функционально важных сайтов в структуре белка 37
d. Алгоритм для автоматического выделения групп специфичности 41
3. Статистическая оценка качества предсказания 43
4. Стандартные программы и ресурсы 43
Глава 3. Программа для предсказания позиций, определяющих специфичность белка (СДП), ее тестирование и применение 45
1. Общее описание программы 45
2. Описание веб-сервера, реализующего алгоритм SDPpred 46
3. Тестирование SDPpred на примере семейства бактериальных факторов транскрипции Lad 51
4. Применение SDPpred 58
a. Предсказание СДП для бактериальных транспортеров семейства МІР 59
b. Предсказание СДП для бактериальных факторов трансляции RF1 и RF2...65
c. Предсказание СДП для консервативного домена различных семейств аннексинов позвоночных 69
d. Предсказание СДП для НАД- и НАДФ-зависимых изоцитрат- и изопропилмалатдегидрогеназ 74
Глава 4. Программа для предсказания функциональных сайтов, ее тестирование и применение 83
1. Общее описание алгоритма 83
2. Описание веб-сервера, реализующего алгоритм SDPsite 84
3. Тестирование SDPsite 89
a. Тестирование SDPsite на примере семейства бактериальных факторов транскрипции Lad 90
b. Сравнение с другими методами 95
c. Тестирование SDPsite на базе данных CDD 99
4. Применение SDPsite 103
Глава 5. Обсуждение 111
Глава 6. Выводы 119
Литература 121
- Новизна и практическая ценность
- Новые алгоритмы, разработанные для предсказания СДП и функционально важных сайтов
- Тестирование SDPpred на примере семейства бактериальных факторов транскрипции Lad
- Описание веб-сервера, реализующего алгоритм SDPsite
Введение к работе
Изучение функций белков является одной из важнейших задач молекулярной биологии и биохимии. В настоящее время объем расшифрованных белковых последовательностей (полученных путем прямого секвенирования или трансляции известных нуклеотидных последовательностей) во много раз превышает экспериментальные возможности исследования их функций. Поэтому все большую роль начинает играть функциональная аннотация in silico - методами биоинформатики. Такая аннотация с необходимостью носит характер предсказания, но может служить важной отправной точкой для дальнейших лабораторных исследований.
Объем информации, накопленной к настоящему времени в базах данных последовательностей, доменов, структур белков, позволяет с достаточной точностью предсказывать общую биохимическую функцию белка - класс транспортера, тип катализируемой реакции и т.п. Однако простой поиск по базе редко позволяет установить функцию с большей точностью или указать на важные функциональные сайты белка. Для этого требуются другие алгоритмы, которые могут дать предсказания, более точные и интересные с биологической точки зрения. Настоящая диссертация посвящена описанию алгоритмов и анализу результатов работы пакета программ, позволяющего на основании последовательностей родственных белков, различающихся в деталях своей функциональности (специфичности), предсказывать аминокислотные остатки, отвечающие за эти различия, а также проводить с их помощью дальнейший анализ. Так, например, на основе предсказанных остатков можно предсказывать специфичность новых белков семейства и/или функциональные сайты белков (активный центр, поверхность взаимодействия с малыми молекулами, нуклеиновыми кислотами или другими белками). К моменту начала настоящего исследования было опубликовано лишь небольшое число подходов к решению этой задачи, и все они использовали дополнительную информацию об изучаемом белке, а значит, были не универсальны. Кроме того, ни один реализованный алгоритм не находился в свободном доступе. За прошедшие два года объем литературы - как новых алгоритмов, так и сделанных с их помощью предсказаний, в некоторых случаях подтвержденных экспериментально, - многократно возрос, что говорит о возросшем интересе и очевидной практической ценности данного направления.
Однако следует отметить, что описанный в настоящей работе алгоритм предсказания специфичных позиций был одним из первых опубликованных, и первым свободно доступным через Интернет средством для решения поставленной задачи. Разработанные в данной работе программы для предсказания специфичности новых белков и для определения функциональных сайтов в белках являлись на момент написания работы единственными доступными через Интернет средствами для решения таких задач с использованием информации о специфичности.
2. Цель и задачи исследования Целью настоящего исследования являлась разработка, программная реализация, тестирование и применение группы алгоритмов для поиска позиций, определяющих специфичность белков в больших семействах (специфичность-детерминирующих позиций, СДП, specificity determining positions, SDP), а также использования предсказанных СДП для предсказания специфичности и определения функциональных сайтов белков.
В задачи работы входило:
Разработка алгоритма для поиска СДП Реализация разработанного алгоритма в виде программного продукта, как в виде консольного приложения, так и виде веб-сервера, удобного для использования биологом-неспециалистом (SDPpred)
Тестирование разработанного алгоритма на хорошо изученных белковых семействах (бактериальные факторы транскрипции семейства Lad)
Предсказание СДП для нескольких белковых семейств различной природы: мембранные транспортеры МІР; НАД- и НАДФ-зависимые изоцитрат- и изопропилмалатдегидрогеназы; бактеральные факторы трансляции RF1 и RF2; аннексины
Создание алгоритма для предсказания специфичности экспериментально не охарактеризованных белков и реализация этого алгоритма в виде веб-сервера (SDPpred-profile)
Создание алгоритма для предсказания активного, субстрат-распознающего и других функциональных сайтов в структуре белка с помощью СДП и консервативных позиций (SDPsite)
Реализация алгоритма SDPsite в виде доступного через Интернет веб-сервера
Тестирование алгоритма SDPsite на структурах белков с известным активным сайтом и предсказание функциональных сайтов для структур белков с плохо охарактеризованной функцией.
3. Новизна и практическая ценность Реализованный в настоящей работе алгоритм содержит новые методы статистического анализа (использование матриц аминокислотных замен для приближения наблюдаемых частот к вероятностям, автоматическая статистическая процедура установки порога отсечения). Описанный веб-сервер бьш первым публично доступным через Интернет ресурсом, решающим данную задачу. Описанная методика поиска активного сайта и проведенный с ее помощью анализ также являются новыми. Разработанные алгоритмы и полученные результаты имеют высокую практическую ценность для планирования экспериментов по изменению специфичности белков, а также для более точной аннотации экспериментально не охарактеризованных белков.
Новизна и практическая ценность
Реализованный в настоящей работе алгоритм содержит новые методы статистического анализа (использование матриц аминокислотных замен для приближения наблюдаемых частот к вероятностям, автоматическая статистическая процедура установки порога отсечения). Описанный веб-сервер бьш первым публично доступным через Интернет ресурсом, решающим данную задачу. Описанная методика поиска активного сайта и проведенный с ее помощью анализ также являются новыми. Разработанные алгоритмы и полученные результаты имеют высокую практическую ценность для планирования экспериментов по изменению специфичности белков, а также для более точной аннотации экспериментально не охарактеризованных белков. Экспоненциальный темп роста объемов баз данных, содержащих информацию о секвенированных последовательностях ДНК, значительно превышает экспериментальные возможности по аннотации (описанию функциональных характеристик) этих данных. В настоящее время секвенировано 445 полных бактериальных, 48 полных эукариотических и 39 полных геномов архей, еще 1875 таких проектов исполняются в настоящее время (по данным базы данных GOLD на 11.04.2007 г. (Liolios et al., 2006)). Предварительная аннотация компьютерными методами стала частью рутинной процедуры в этих проектах. Основные шаги компьютерной аннотации описаны в обзоре (Whisstock and Lesk, 2003). Эти шаги включают в себя: (1) распознавание генов (существование экзон-интронной структуры и разнообразие вариантов альтернативного сплайсинга делают задачу распознавания генов особенно сложной в эукариотических геномах); (2) трансляцию генов в аминокислотную последовательность белка; (3) в некоторых случаях, предсказание вторичной и пространственной структуры белка; и, наконец, (4) предсказание функции белка по последовательности белка и, возможно, его структуре. В данном обзоре мы подробно остановимся на последнем шаге. Основное предположение, которое делается при предсказании функции по последовательности и структуре белка состоит в том, что сходство последовательности или структуры влечет за собой сходство функций.
На практике мы встречаемся с рядом проблем методического (например, ошибочное перенесение аннотации на последовательности, похожие недостаточно, чтобы можно было считать их функции совпадающими) и принципиального характера (многофункциональные белки, совпадение функции несходных белков, зависимость функции от дополнительных факторов, таких, как клеточная или тканевая локализации), однако в большинстве случаев это предположение позволяет делать разумные предсказания. Предсказание функции по последовательности и структуре включает в себя следующие этапы (см. обзоры (Watson et al., 2005; Whisstock and Lesk, 2003)): - поиск сходных последовательностей с помощью программ PSI-BLAST, FASTA и др. дает представление об общей биохимической функции белка в случае наличия хорошо изученных сходных последовательностей (при этом автоматически делается предположение, что схожесть последовательности влечет эволюционное родство); - предсказание клеточной локализации с помощью программ PSORT, SignalP - предсказание возможных трансмембранных сегментов с помощью программ ТМНММ, MemSat и пр. - поиск похожих пространственных структур с помощью программ DALI, SSM, VAST и др. часто позволяет указать общую функцию или класс функции (фермент, трансмембранный белок и т.п.), даже если хорошо изученных гомологов нет. - поиск и сравнение структурных особенностей на поверхности белка позволяет предсказать локализацию активного сайта белка и, в некоторых случаях, свойства связываемого лиганда; - предсказание других особенностей на поверхности белка (анализ электростатического потенциала, гидрофобности и пр.) позволяет указать области возможного взаимодействия с ДНК, лигандами и другими белками; - поиск мотивов в аминокислотной последовательности или структуре и выделение функционально важных аминокислотных остатков также указывает на участки
Новые алгоритмы, разработанные для предсказания СДП и функционально важных сайтов
В этом разделе изложены новые алгоритмы, разработанные для решения задач настоящей диссертации. а. Алгоритм для поиска позиций, определяющих специфичность белка (СДП) (Kalinina. et al.. 2004) В качестве входных данных для предсказания используется выравнивание аминокислотных последовательностей, в котором белки «вручную» разделены на группы специфичности. 1) Взаимная информация - статистическая мера для оценки склонности позиции быть СДП Для каждой позиции выравнивания вычисляется ее взаимная информация - мера того, является ли эта позиции СДП: / (or,/) - частота аминокислоты а в позициир в группе /, / [а) - частота аминокислоты а в позиции р во всей выборке, /(/) - размер (доля) группы /. Поскольку в реальных биологических данных белки одной специфичности часто находятся на одной ветви филогенетического дерева, и поэтому могут иметь больше совпадающих позиций, чем в среднем по выравниванию, производится поправка с использованием случайных перемешиваний и линейной регрессии. Сначала для каждой колонки (позиции) выравнивания многократно (от 1 000 до 10 000 раз) производится перемешивание остатков с сохранением состава колонки и размера групп, и для каждого перемешивания вычисляется Isph - взаимная информация перемешанной колонки.
После этот одновременно для всех позиций выполняется линейная регрессия величин / и (7sA) (средняя по всем перемешиваниям взаимная информация колонки) путем минимизации среднеквадратичного отклонения: вычисляется среднее и стандартное отклонение ожидаемого значения взаимной информации для каждой колонки: Наконец, вычисляется статистическая значимость для каждой позиции: Для определения количества СДП среди наиболее значимых позиции применяется оригинальная процедура, основанная на оценке Бернулли (Vinogradov and Mironov, 2002). Сначала все позиции упорядочиваются по убыванию Zp. Далее выбирается такое значение к , для которого получение к значений Z, не меньших Z(i ), наименее вероятно, при условии нормального распределения Z (выбирается наименее вероятный в случайной ситуации набор позиций, «тяжелый хвост»; Р - вероятность данного набора позиций): чтобы избежать потери значимости, сначала вычисляются все слагаемые, потом из них формируется массив, он упорядочивается по возрастанию, и сложение производится начиная с наименьших по абсолютной величине слагаемых. Описанная процедура позволяет выделить набор из к СДП. Вероятность Р = Р{существуетпо крайней мере к наблюдений: Z Z(k)}, доставляющая этот минимум, называется статистической значимостью набора из к позиций. 3) Вычисление эффективных частот Реальные данные часто неполны и статистическая неравномерны - мы имеем информацию только о небольшом количестве современных видов, находящихся друг от друга на неравных эволюционных расстояниях.
С другой стороны, аминкислоты имеют разные физико-химические свойства, что делает их более или менее похожими друг на друга. Для учета эти особенностей при вычислении частот аминокислот вводится поправка с учетом матрицы аминокислотных замен: где т(а —»/?)- матрица замен аминокислот. Обычно использовалась матрица серии BLOSUM, соответствующая степени идентичности последовательностей внутри группы (Henikoff and Henikoff, 1992), n(a,i)- частота аминокислоты а в группе /, к - коэффициент для учета псевдоотсчетов, принимающий значения от 0 до 1 (в настоящей работе к бьшо принято равным 0,5. В случае трансмембранных сегментов предусмотрена возможность использовать соответствующую матрицу из серии BATMAS, составленной специально для трансмембранных сегментов (Sutormin, et al., 2003).
Тестирование SDPpred на примере семейства бактериальных факторов транскрипции Lad
Lad - семейство факторов транскрипции, регулирующих в бактериях катаболизм Сахаров и некоторые другие метаболические системы. Регуляторы этого семейства являются репрессорами, которые могут связываться с ДНК либо в присутствие, либо в отсутствие соответствующей эффекторной молекулы (обычно это либо субстрат первой, либо продукт последней реакции регулируемого пути). Выравнивание белков этого семейства было взято из работы (Mirny and Gelfand, 2002). Оно включало 15 групп специфичности, выделенных на основании анализа методами сравнительной геномики (Laikova, 2003): AraR, KdgR, СсрА, DegA, YjmH, RbsR, PurR, CytR, GalRS, AscG, Lad, TreR, GntR, IdnR и FraR. Предсказанные позиции были картированы на пространственные структуры трех различных регуляторов: комплекс пуринового репрессора с гуанином и оператором (идентификатор PDB lwet), димер пуринового репрессора (ljhz), комплекс димера лактозного репрессора с анти-индуктором ONPF и оператором (ljwl) и комплекс димера трегалозного репрессора с индуктором трегалозой-6-фосфатом (lbyk). Все белки -это белки E.coli.
Было идентифицировано 40 позиций (см. рис. 3.3.1, таблицу 3.3.1). В этот набор входят все 12 позиций, предложенных в (Mirny and Gelfand, 2002). Рис. 3.3.1. Предсказанные СДП для лактозного (А) и трегалозного (В) репрессора. Молекулы эффектора показаны шарами желтого цвета, СДП показаны шарами и раскрашены по функции: красным цветом отмечены остатки, контактирующие с ДНК, зеленым - контактирующие с эффектором, синим - контактирующие с другой субъединицей. Белым показаны остатки, лежащие с области связывания ДНК или эффектора, но не удовлетворяющие критерию контакта. Серым показано возможное перепредсказание.
Таблица 3.3.1. СДП в семействе Lad. Аминокислотный остаток считался контактирующим с ДНК, если минимальное расстояние между атомами остатка и ДНК было меньше 5А в структуре PurR; контактирующим с эффектором или другой субъединицей - если минимальное расстояние между атомами остатка и соответствующей молекулой меньше 5А по меньшей мере в одной из рассмотренных структур и меньше 7А в остальных. Звездочкой отмечены остатки, предсказанные в (Mirny and Gelfand, 2002).
Среди остальных есть новые интересные позиции. Например, 73Y и 74F (нумерация здесь и далее по PurR из E.coli) контактируют с эффектором в структурах трех различных регуляторов данного семейства - PurR, Lad и TreR. Анализ контактов в структурах позволяет легко приписать функцию 22 из 40 предсказанных СДП (см. табл. 3.3.1). Еще три предсказанных СДП, а именно позиции 4,21 и 25, расположены в ДНК-связывающем домене, но не контактируют с ДНК в структуре PurR (lwet) в соответствии с принятым строгим критерием (расстояние между ближайшими атомами 5 А). Следует отметить, что lwet - единственная структура с хорошо разрешенным ДНК-связывающим доменом, поэтому нельзя исключить, что эти три СДП могут играть критическую роль в связывании ДНК в других регуляторах семейства (ср. далее).
Интересна группа из 12 СДП, расположенная за эффектор-связывающим карманом (рис. 3.3.1). По меньшей мере четыре из этих позиций не удовлетворяют критерию контакта (минимальное расстояние между атомами остатка и эффектора меньше 5А в одной из рассмотренных структур и меньше 7А в остальных), но все же находятся в плотном контакте с эффектором в одной из структур (рис. 3.3.2). Например, остатки в СДП 145 и 146 не контактируют с эффектором в PurR (lwet) и TreR (lbyk), но в Lad минимальное расстояние от них до эффектора меньше 5 А. Вообще, разнице в наборе СДП, остатки в которых плотно контактирующих с эффектором, может отражать разницу в размере эффекторных молекул: гуанин (эффектор PurR) значительно меньше ONPF или трегалозы-6-фосфата, кристаллизованных с Lad и TreR соответственно. Это позволяет предположить, что СДП, предсказанные в области контакта с эффектором, отвечают за узнавание различных эффекторов, в том числе для других групп специфичности.
Описание веб-сервера, реализующего алгоритм SDPsite
Пользователь может выбрать один из четырех сценариев: (1) предсказать СДП; (2) предсказать КП; (3) предсказать СДП и КП; и (4) картировать заранее предсказанные списки СДП и КП на структуру и предсказать лучший кластер. (1). В этом случае пользователю будет предложено ввести выравнивание в формате GDE и дерево, соответствующее ему. В отличие от SDPpred, СДП будут предсказаны с применением автоматической группировки. Результаты выводятся в таблице, подобной той, в которой выводятся результаты SDPpred (рис. 4.2.2, ср. рис. 3.2.3). Внизу страницы расположено меню, в котором можно выбрать белок для проекции; там же находятся кнопки альтернативного выбора: можно спроецировать СДП на последовательность белка (в таком случае будет сделан переход на ту же страницу, а таблице появится еще один столбец) или на структуру (тогда переход будет на страницу ввода структуры, см. ниже). По нажатию на кнопку "Details" можно получить подробную информацию о позиции, а ссылка "Get alignment of the best grouping with mapped SDPs" ведет на новую страницу, на которой представлено выравнивание, лучшая группировка, и СДП отмечены красным. Это выравнивание можно сохранить в формате RTF. (2). Для предсказания КП, пользователь должен ввести только выравнивание. Результаты предсказания выглядят как на рис. 4.2.3. Точно так же, как в случае СДП, КП можно спроецировать на последовательность, структуру, получить детальную информацию по каждой позиции, вывести на экран и сохранить выравнивание с КП, отмеченными синим цветом. (3). При одновременном предсказании СДП и КП, так же как и в случае предсказания только СДП, требуется ввод выравнивания и дерева. СДП предсказываются с применением автоматической группировки. Результаты представляют собой комбинацию результатов для (1) и (2). (4).
Если пользователь выбирает сценарий «картировать заранее найденные списки СДП и КП на структуру», ему нужно ввести структуру (в формате PDB), список СДП (одна позиция в строке, без разделителей в конце строки), список КП (так же), «отступ» (номер первого остатка последовательности в структуре), и идентификатор цепи, к которой относятся СДП и КП. На эту же страницу приводят ссылки "Map SDPs (CPs, SDPs and CPs) onto structure" со страниц результатов рассмотренных выше сценариев. Результаты работы сценария (4) представлены на рис. 4.2.4. На этой странице представлены СДП и остатки, соответствующие им в выбранной структуре; КП и остатки, соответствующие им в выбранной структуре; и остатки, входящие в лучший кластер. Алгоритм SDPsite был протестирован на трех примерах. Во-первых, SDPsite был применен к семейству бактериальных факторов транскрипции Lad, включающему в себя регуляторы катаболизма различных Сахаров. Для этого семейства имеются обширные данные по специфичности различных белков семейства (Laikova, 2003) и данные о влиянии мутации каждого остатка на функционирование белка (Suckow, et al., 1996). В этом случае результаты применения SDPsite хорошо согласуются с имеющимися данными. Во-вторых, было проведено сравнение работы SDPsite с другими методами предсказания функционального сайта, описанными в работе (Soyer and Goldstein, 2004). На рассмотренных в этой работе примерах, Lad и субтилизин-подобных протеазах, результаты SDPsite лучше, чем у других методов. В-третьих, SDPsite был применен к большому количеству семейств из базы данных NCBICDD (Conserved Domain Database).
Эта база данных содержит выравнивания белковых доменов, в которых некоторые позиции помечены как «особенности» ("features") - активный центр, поверхность контакта с лигандом, сайт фосфорелирования и т.п. Мы предполагаем, что эти «особенности» и являются функционально важными позициями. Несмотря на то, что при таком подходе мы неизбежно недооцениваем собственные результаты (неотмеченные «особенностями» позиции также могут быть функционально важными, а набор «особенностей» включает позиции, которые не подходят под определение функционального сайта, такие как сайты фосфорилирования, гликозилирования и т.п.), SDPsite дает удовлетворительные результаты.