Содержание к диссертации
Введение
1. Обзор литературы 10
1.1 Мотивы в структуре белка 10
1.1.1 Виды мотивов 12
1.1.2 Применение мотивов 17
1.1.3 Методы выявления мотивов 19
1.1.4 Базы данных мотивов 23
1.1.5 Информационное содержание последовательностей 26
1.1.6 Статистика сравнения последовательностей 31
1.2 Надсемейство цитохромов Р450 как объект исследования 38
1.2.1 Описание структуры цитохромов Р450 41
1.2.2 Подходы к классификации надсемейства цитохромов Р450 46
2. Материалы и методы 48
2.1 Выборка 48
2.2 Локальное выравнивание 49
2.3 Кластерный анализ 49
2.4 Иерархическое выравнивание 50
2.5 Выявление мотивов в консенсусной последовательности 52
2.6 Работа с базой знаний по цитохромам Р450 53
2.7 Общая методология исследования критериев, основанных на анализе консенсусной последовательности 59
2.8 Использование программы BLAST для оценки состава консенсусной последовательности 61
3. Результаты и обсуждение 63
3.1. Предпосылки наличия мотивов в семействах и подсемействах цитохромов Р450 63
3.2 Алгоритм выявления структурно-функциональных мотивов 66
3.3. Исследование свойств статистических критериев наличия мотивов в консенсусных последовательностях 71
3.4 Мотивы общности 90
3.5. Мотивы частного в семействе стероловых деметилаз 93
3.6. Использование критерия оценки мотивов для корректировки границ кластеров 103
4. Выводы 117
5. Список литературы 118
- Информационное содержание последовательностей
- Надсемейство цитохромов Р450 как объект исследования
- Общая методология исследования критериев, основанных на анализе консенсусной последовательности
- Исследование свойств статистических критериев наличия мотивов в консенсусных последовательностях
Введение к работе
1.1. Актуальность проблемы
Надсемейство цитохромов Р450 представляет собой актуальный объект для исследования вычислительными методами. С практической точки зрения, интерес к изучению цитохромов Р450 обусловлен ведущей ролью ферментов этой группы в метаболизме лекарственных препаратов и ксенобиотиков. Более 60% существующих ныне лекарств окисляются с участием цитохромов Р450.
Монооксигеназная реакция, катализируемая цитохромами Р450, заключается во внедрении в липофильную молекулу субстрата атома кислорода (1-й этап биотрансформации). В результате монооксигенирования растворимость окисленного вещества повышается и, после коньюгации, вещество выводится из организма. Таким образом, следует отметить, что цитохромы Р450 играют значимую роль в обеспечении постоянства внутренней среды организма. Понимание гомеостатической роли цитохромов Р450 может быть расширено за счет включения функции регулирования уровня гормонов: гемовые монооксигеназы надпочечников, простаты, щитовидной железы, эпителия ЖКТ участвуют как в синтезе, так и деградации гормонов.
Цитохромы Р450 представляют собой потенциальные мишени для действия лекарственных препаратов. На основе ингибиторов цитохромов Р450 создано целое поколение противогрибковых препаратов. Ведутся исследования в области компьютерного конструирования ингибиторов форм цитохромов Р450 семейства CYP1A, чья активность сопряжена с развитием онкологических заболеваний, в частности, рака легких.
Уникальность реакции монооксигенирования, катализируемой цитохромами Р450, обуславливает своеобразие молекулярно-эволюционных процессов в надсемействе. В настоящее время известно более 3 тыс. форм цитохромов Р450, эти белки выявлены в геномах животных, растений, грибов. В геноме человека насчитывается 62 гена, кодирующих цитохромы Р450, в геноме растений генов цитохромов Р450 - более 200. Если функции более 70% цитохромов Р450 человека известны, то для растений экспериментальной информации значительно меньше: изучена каталитическая функция менее чем для 5% растительных форм фермента.
Многообразие форм цитохромов Р450, по мнению исследователей, является естественным депозитарием «заготовок» для использования в биотехнологии. Известны случаи, когда цитохромы Р450 принимают участие в катализе реакций биосинтеза
противоопухолевых препаратов. Экстракты цитохромов Р450 (микросомальные фракции тканей растений и животных) используются в качестве биореакторов для получения новых химических веществ. Интенсивно ведутся работы в области создания химерных форм цитохромов Р450 с программируемой каталитической активностью.
Функциональное разнообразие надсемейства цитохромов Р450 сочетается с существенными различиями в первичных структурах этих белков. Идентичность последовательностей аминокислотных остатков, входящих в надсемейство, в среднем составляет 26%. В то же время, все известные в настоящее время пространственные структуры цитохромов Р450 характеризуются единообразным фолдом.
Начиная с 1989 года поддерживается систематическая номенклатура надсемейства цитохромов Р450. В семейство выделяются белки, гомологичные на 40%; группы белков, гомологичные более чем на 46% объединяются в подсемейство. Наряду с формальными признаками сходства последовательностей, при создании номенклатуры авторы использовали дополнительную информацию о сходстве строения генов и об особенностях функциональной активности.
По-видимому, одним из основных недостатков существующей классификации следует считать ее искусственность. Пользуясь традиционной систематикой невозможно сделать выводы ни в отношении эволюционного, ни в отношении функционального сходства ферментов, входящих в семейства и подсемейства. Формально указанный недостаток выливается в списки исключений, указывающих на отнесение к классификационной группе белка, который в рамках определенного функционального контекста должен принадлежать другому подразделу классификации.
Неоднократно предпринимались попытки пересмотреть принципы классификации цитохромов Р450. Предлагаемые решения основывались на применении методов кластерного анализа и множественного выравнивания последовательностей. В частности, основанный на иерархическом выравнивании подход инвентаризации надсемейства позволил получить консенсусную структуру цитохромов Р450, объясняющую особенности строения белков надсемейства. При этом использовались методики, анализирующие первичную структуру в целом, без дифференцированного анализа составляющих её элементов. С другой стороны, уже в 1992 году было показано, что, несмотря на общее структурное разнообразие, в строении цитохромов Р450 можно выделить локальные участки, несущие особую функциональную нагрузку. Это наблюдение до сих пор не потеряло своей актуальности: предложенное в 1992 г. понятие участков узнавания субстрата используется во многих работах, посвященных изучению структуры и функции цитохромов Р450. В тоже время, обобщенная математическая
модель классификации надсемейства с учетом локальных структурно-функциональных элементов отсутствует, несмотря на то, что были показаны частные случаи успешного применения алгоритмов поиска мотивов для анализа надсемейства цитохромов Р450.
Таким образом, актуальной является задача совершенствования алгоритмической методики выявления структурно-функциональных элементов (мотивов) в надсемействе цитохромов Р450. Для решения этой задачи привлекается концепция наличия элементов общего и частного в структурах белков надсемейства. В основу концепции легли положения «островной гипотезы», рассматривающей термодинамические ограничения белкового фолдинга.
«Островная» гипотеза строения белков основывается на предпосылке о незначительной доле термодинамически выгодных конформаций белка по отношению к общему количеству гипотетических последовательностей, которые можно получить из 20-ти аминокислотных остатков. Следствием этой предпосылки является неоднородность участков первичной структуры с точки зрения их вклада в обеспечение пространственной конформаций белка.
Целью работы являлась разработка подхода для выявления в аминокислотных последовательностях белков надсемейства цитохромов Р450 формальных элементов, определяющих структурную общность и функциональную специфичность различных форм этого фермента. В рамках достижения указанной цели решались следующие задачи:
Предложить алгоритмический метод выявления структурно-функциональных мотивов в группе белков (цитохромов Р450) и исследовать его свойства.
Выявить мотивы структурной общности для всего надсемейства белков.
Выявить мотивы частного в отдельной группе функционально родственных белков.
Разработать методику классификации цитохромов Р450 с учетом структурно-функциональных мотивов и сравнить результаты с традиционной номенклатурой.
1.2. Научная новизна и практическая значимость
В работе впервые рассматриваются принципы формализации подходов к классификации надсемейства цитохромов Р450. Предложена алгоритмическая методика для оптимизации результатов кластерного анализа на основе структурно-функциональных мотивов, выделяемых в первичной структуре кластеризуемых белков. Показано, что
выявляемые в группах белков консервативные элементы соответствуют участкам белка, имеющим значение для обеспечения общности структуры фолда и для реализации специфичной ферментативной активности.
Полученные результаты могут быть использованы для прогнозирования функций новых белков надсемейства цитохромов Р450. В практическом плане, созданная методология может быть применена для решения актуальных задач биотехнологии: синтез новых химических соединений и конструирование ферментов-монооксигеназ с заданной функцией.
1.3. Апробация работы
Основные положения диссертационной работы докладывались и обсуждались в ходе следующих конференций:
- Российский Национальный Конгресс «Человек и лекарство» (Москва, 2003);
- 13-я Интернациональная конференция по цитохромам Р450 (Прага, 2003);
- 2005 г. «Системная биология и биоинженерия» (Звенигород).
1.4. Публикации
Материалы диссертационной работы отражены в 5 публикациях, из них: 3 в общероссийских рецензируемых изданиях, 1 публикация в сборнике трудов международной научной конференции, 1 тезисы доклада.
1.5. Объем и структура диссертации
Информационное содержание последовательностей
Общая характеристика понятия мотива, изложенная ранее, позиционирует на мотивы в качестве структурного элемента, обеспечивающего функциональные особенности белков. Именно на этом постулате основывается применение мотивов для решения задачи классификации. В то же время, описанные выше статистические модели способны связывать мотивы с функциональными свойствами косвенно, через параметры чувствительности и специфичности. Указанные параметры не являются свойством мотива как такового, а лишь его характеристикой по отношению к группе функционально близких белков (положительных примеров) и группы функционально отдаленных белков (отрицательные примеры).
Измерение информационного содержания мотивов является альтернативой для подходов, основанных на расчете вероятности и/или оценки чувствительности и специфичности (Jonassen I. et al., 1995). Как показано в работе (Lisitsa A.V. et al., 2003), этот подход связан со статистическими законами, описывающими вероятность случайного обнаружения одинаковых участков в двух сравниваемых последовательностях аминокислотных остатков.
Для раскрытия современных представлений об информационном содержании биологических последовательностей (т.е. последовательностей нуклеодитов или аминокислотных остатков, встречающихся в живых организмах) необходимо ознакомится с опытом формального применения понятия количества информации к подобным структурам (Рубин А.Б., 2004).
Используя классическую оценку абсолютного количества информации, предложенную Шенноном, и формально допуская, что организм человека есть продукт уникального сочетания 3 1025 аминокислотных остатков (определяемое 150 гр. ДНК), можно оценить количество информации как log2(3 1025!) 1,3 1026 бит. Принимая связь между энтропией и количеством информации как произведение константы Больцмана на натуральный логарифм статистического веса состояния системы, получим, что рассчитанное выше количество информации эквивалентно 2,3 10 24 1,3 1026 бит, или 1200 Дж/К на 150 гр. ДНК. Такое понижение энтропии при создании сложнейшей биологической системы - организма человека, крайне незначительно. По величине оно сопоставимо с конденсацией стакана воды из пара. Таким образом, можно сделать заключение, что формальное применение выражения Шеннона для оценки степени упорядоченности биологических последовательностей не является адекватным, поскольку дает сопоставимые величины с процессами в физических объектах той же массы.
Недостатки подхода к оценке упорядоченности живых объектов с позиций классической теории информации с необходимостью приводит к появлению понятия ценности информации, подробно изученного в применении к биологическим системам в книге (Gell-Mann М., 1994). Это понятие развивается на интуитивном осознании структурного характера организации живого, т.е. отказ от постулата о равном значении упорядоченности элементов на различных уровнях организации системы.
Увеличение сложности биологической системы присходит за счет увеличения числа разнородных элементов системы и связей между ними. Если на определенном уровне возрастает незаменимость элементов системы, то это означает увеличение ценности содержащихся в них информации. Согласно М.В. Волькенштейну (Волькенштейн М.В., 1986) и М. Гель-Манну ценностью обладает неизбыточная информация, связанная с незаменимыми элементами. Роль же информационной избыточности заключается в многократном дублировании важной кодируемой информации с целью уменьшения вероятности ее разрушения эволюционным шумом. С другой стороны, по мнению авторов (Lisitsa A.V. et al., 2003), не менее важная роль избыточности, наблюдаемой в молекулярных структурах, - это создание субстрата для возникновения в ходе эволюции новых белковых форм.
Таким образом, апериодическая система содержит значительно большее количество незаменимых элементов, чем эквивалентная по размерам периодическая система, в которой элементы взаимозаменяемы. В контексте этого положения, исследователями делался ряд попыток оценивать информационное содержание биологических последовательностей путем архивирования их стандартными алгоритмами (Kocsor A. et al., 2006). Чем меньше поддается сжатию последовательность, тем большую ценность представляет закодированная в ней информация. Автор (Рубин А.Б., 2004) демонстрирует этот феномен на ярком примере уменьшения абсолютного количества информации в белке по сравнению с кодирующей его ДНК, за счет нивелирования избыточности ДНК кода. Отсюда следует вывод, что на каждом следующем уровне организации живого ценность информации возрастает, что соотносится с интуитивным пониманием организации живых систем.
В работе (Gell-Mann М., 1994), указанная логическая связка разрушается за счет выдвижения следующего простого аргумента: согласно рассмотренной выше концепции, наибольшую информационную ценность представляет собой случайно сгенерированная последовательность. Действительно, апериодичность элементов (нуклеотидных остатков и их сочетаний) в этом случае максимальна, и каждый элемент незаменим для передачи сообщения в целом. В то же время, весь опыт изучения белковых макромолекул, обобщенный в работе (Nishikawa К., 1993), свидетельствует об обратном: белки представляют собой редкие явления, и вероятность получить белок путем случайного сочетания аминокислотных остатков совершенно незначительна. Автор статьи выдвигает концепцию, образно называя ее «островной теорией» (island theory), согласно которой относительно небольшое количество первичных структур обладают потенциалом образовать белковую глобулу. Принципиальная важность работы заключается в том, что автор проводит параллель между термодинамическими характеристиками, препятствующими белковому фолдингу, и ценностью информации, закодированной в первичной структуре. Структуры белков, способные принять пространственную конформацию, рассматриваются как редкие острова, разбросанные в «океане» термодинамически невыгодных конформаций.
Аналогия с островом (а не с математической точкой) имеет значение. Действительно, взяв за основу природный белок, можно искусственно ввести в него определенное количество мутаций. При этом сохранится фолд и (в ряде случаев) функциональная активность. Таким образом, эксперименты по точечному мутагенезу указывают, что в окрестности нативной первичной структуры может лежать несколько ее вариантов, обеспечивающих как минимум прохождение термодинамического барьера фолдинга. Однако, по мере ввода в структуру все новых мутаций, в определенный момент она покидает пределы «острова», и перестает сворачиваться в глобулу.
Обзорный анализ экспериментальных данных позволил автору статьи сделать вывод о том, что соотношение между термодинамически выгодными и невыгодными структурами подобен соотношению площади, занимаемой островами, к площади моря. Попадание случайно сгенерированной последовательности в пределы острова низка, следовательно, связанные с этим события (выборы последующего остатка с учетом всех предыдущих) имеют высокое абсолютное количество информации.
Надсемейство цитохромов Р450 как объект исследования
Развитие подходов к поиску структурно-функциональных мотивов и классификации белковых надсемейств невозможно без четкой привязки теоретического материала к экспериментально подтвержденным данным. Учитывая статистический характер гипотез, лежащих в основе методов анализа, объем экспериментальных данных должен быть значительным. Кроме того, выбор объекта исследования диктуется соображениями практической значимости получаемых результатов.
Надсемейство цитохромов Р450 представляет собой адекватный объект для изучения и разработки методов анализа первичной структуры белка. Белки этого надсемейства широко распространены в биосфере и обнаруживаются в организмах различных биологических царств. Широкое распространение цитохромов Р450 сочетается с существенным функциональным разнообразием, начиная от эндогенных функций, связанных с синтезом гормонов у людей (Rozman D. & Waterman M.R., 1998) и фитоактивных веществ у растений (Hedden P. et al., 2001), и заканчивая участием в системах детоксикации (Archakov A.I. & Bachmanova G.I., 1990; Whitlock J.P.J. & Denison M.S., 1995). Цитохромы P450 опосредуют действие более 50% лекарственных препаратов, обуславливая индивидуальные особенности их фармакокинетики. Белки надсемейства рассматриваются и в качестве мишеней для действия лекарственных препаратов (Marichal P. et al., 1999).
С точки зрения данной работы особый интерес представляет применение цитохромов Р450 для целей биоинженерии. Катализируемые цитохромами Р450 реакции приводят к появлению сложных, обладающих широким спектром биологической активности химических соединений. Эти соединения невозможно получить в процессе химического синтеза. Поэтому, в качестве естественных реакторов применяются экстракты из тканей растений и (экзотических) животных. В биореактор помещаются исходные соединения и с использованием роботизированных средств регистрируются продукты окисления цитохромов Р450 - таким образом пополняются библиотеки доступных химических соединений. Известны случаи (Chau М. & Croteau R., 2004), когда в каталитической реакции принимает участие целый каскад цитохромов Р450.
В то же время, успехи генной инженерии позволяют не только использовать природные формы цитохромов Р450, но и создавать новые белки, несуществующие в природе. Целью создания новых белков является либо улучшение существующей каталитической функции, либо приобретение белком принципиально новых каталитических свойств. В качестве основы для создания новых форм цитохромов Р450 может применяться метод точечных мутаций (например, Zhou D.J. et al, 1991), однако повышение эффективности генерации новых белков достигается за счет применения генетической рекомбинации (Walker J.M., 2003). При рекомбинации гены, кодирующие различные формы цитохромов Р450, обмениваются своими участками, что приводит к появлению химерных белков. В работах (Otey C.R. et al., 2004; Abecassis V. et al., 2003) показано, что при генерировании достаточного количества химерных форм возможно осуществить их направленное эволюционирование для получения заданной функции. При этом отмечается, что одной из центральных проблем при переборе химерных вариантов является выявление форм, способных принять стабильную пространственную конфигурацию (фолд). Было предложено компьютерное решение для рационального отбора химер, основанное на методах компьютерного моделирования (программа SCHEMA). Соответственно, реализованный алгоритм применим только для белков с известной пространственной структурой.
Отдельно следует остановиться на молекулярно-эволюционных аспектах надсемейства цитохромов Р450. В литературе (Nelson D.R., 2003; Castro L.F. et al., 2005; Goldstone H.M. & Stegeman J.J., 2006) обсуждается возможность развития всего надсемейства от единого гипотетического белка-прародителя. Исходно эволюционные принципы предлагалось положить в основу классификации надсемейства (Nebert D.W. et al, 1989). В качестве одного из аргументов в пользу наличия единого предшественника рассматривалось семейство стероловых деметилаз (Nelson D.R., 1999). Особенностью этого семейства является достоверная степень гомологии между структурами стероловых деметилаз из организмов, принадлежащих к разным царствам живой природы, включая животных, растения, дрожжи, бактерии и простейшие. В настоящее время эволюционные концепции развития надсемейства пересматриваются (Nelson D.R., 1998), а феномен семейства стероловых деметилаз объясняется как результат латеральной диффузии генов.
Допуская, что единственный белок-прародитель лежит в основе сегодняшнего широкого разнообразия существующих форм цитохромов Р450 (Nelson D.R., 1999), можно определить две тенденции, благодаря которым происходило молекулярное развитие надсемейства (Kimura М., 1991). С одной стороны, структура ДНК обеспечивает сохранение изначальной формы белка-прародителя. События дупликации приводят к тому, что часть генов освобождается от давления отбора и накапливает мутации. Случайные мутации изменяют структуру гена-предшественника: таким образом возникают новые формы фермента. Некоторые из этих форм не подвергаются трансляции (псевдогены), другие, отвечая текущим требованиям организма, приобретают функциональную специализацию. Осуществление отбора на молекулярном уровне диктуется термодинамическими ограничениями на существование новых форм белка и требованиями функциональной специфики. Следовательно, привлекая данные о функциональной активности современной формы белка, можно в рамках определенной модели учесть факторы, которые могли влиять на его развитие в прошлом. Надсемейство цитохромов Р450 представляет собой хороший объект для создания моделей такого рода, поскольку цитохромы Р450 подвергались устойчивому давлению функционального отбора, приведшему к выраженной диверсификации надсемейства, но при этом сохранили целостность структуры и общность каталитических свойств (Poulos T.L., 1995).
Рассматриваемая в данной работе концепция общего и частного в структурной организации цитохромов Р450 основывается на вышеизложенных представлениях о молекулярной эволюции надсемейства. Общность цитохромов Р450 проявляется в сохранности базового набора структурно-функциональных требований: глобулярная третичная структура и фиксация гема. Гем должен быть расположен так, чтобы обеспечить поток электронов от поверхности белка к гемовому железу, а также фиксацию и активацию молекулярного кислорода в пределах активного центра (Poulos T.L. & Raag R., 1992). Для мембранных цитохромов Р450 список структурно-функциональных требований должен быть расширен за счет участков, обеспечивающих внутриклеточный транспорт и фиксацию молекулы белка в мембране (Cullin, С, 1992).
С другой стороны, наблюдаемое разнообразие белков надсемейства является результатом их функциональной специализации. Необходимость в распознавании определенного субстрата или белка-партнера обусловила дивергенцию форм цитохромов Р450. В ходе эволюции цитохромов Р450 происходило развитие субстрат-узнающих участков (Gotoh О., 1992) (элементы частного) на фоне сохранения основных элементов структуры (элементов общности). Важно подчеркнуть, что элементы общего и частного сосуществуют в структуре одного и того же белка.
Общая методология исследования критериев, основанных на анализе консенсусной последовательности
Изучение поведения различных критериев, основанных на статистическом анализе распределения консервативных и вариабельных позиций в консенсусной последовательности, основывается на двух базовых методических приемах.
При заданной совокупности белков (например, для белков, принадлежащих к одному семейству цитохромов Р450) изучается поведение статистического критерия в зависимости от изменения состава консенсусной последовательности. Изменение состава консенсуса достигается путем варьирования уровня консервативности (выражаемого в процентном отношении числа последовательностей, содержащих одинаковый остаток в данной позиции, к общему числу последовательностей в множественном выравнивании). При варьировании уровня консервативности обратно пропорционально меняется плотность консенсуса (см. табл. 8), поэтому зависимость может строиться во взаимозаменяемых координатах: - уровень консервативности - значение критерия - плотность консенсуса - значение критерия В качестве контрольных значений при анализе состоятельности статистических критериев применяются консенсусные последовательности, в которых порядок следования консервативных и вариабельных позиций изменен случайным образом: например, при расчете критерия S(k) рассчитывается S(md( )). Второй методический прием основан на сравнительном исследовании групп, с заведомым преобладанием функционально родственных белков (входящих, например, в состав одного семейства) и произвольных групп, сформированных путем случайного выбора белков из разных семейств. Использование указанного приема дополняется применением ранее рассмотренного метода, основанного на изменении уровня консервативности консенсуса. Изложенное далее определение информационной значимости (формула 8) базируется на совокупной оценке, включающей значение, получаемое как для исходного, так и для инвертированного консенсуса. Как следствие, особый интерес представляют плотности (уровни консервативности) консенсуса, при которых значения критерия для прямого и инвертированного консенсуса отличаются на наименьшую величину. Анализ точек такого рода проводится для того, чтобы показать применимость критерия для решения задачи выбора оптимального состава групп белков при проведении кластерного анализа надсемейства. Для использования программы BLAST (клон bl2seq) с целью оценки характера распределения консервативных\вариабельных участков в консенсусе использовался следующий прием (см. рис. 8а). Поскольку входными данными для программы является пара последовательностей, то для получения оценки на основе единственного консенсуса искусственным образом создаются две строки. Для создания строк применяются правила: - на месте вставки в исходном консенсусе в строку вводится вставка с вероятностью 0,5 (т.е. в позиции генерируемой строки может быть либо вставка, либо буквенное обозначение любого аминокислотного остатка); - на месте специального символа, обозначающего группы аминокислотных остатков (см. табл. 4), равновероятным выбором в строку помещается буквенное обозначение одного из остатков в группе; - на место вариабельной позиции случайным образом вводится любой аминокислотный остаток (выбор остатка осуществляется с вероятностью, соответствующей частоте встречаемости остатка в цитохромах Р450); - консервативные остатки консенсусной последовательности выносятся в генерируемую строку без изменений. Согласно вышеуказанным правилам на основе одного консенсуса создаются две различные строки, которые передаются в программу bl2seq для проведения выравнивания алгоритмом BLAST. В результате выравнивания выдается битовый счет (В), характеризующий степень совпадения двух сгенерированных строк и одновременно являющийся оценкой характера распределения консервативных\вариабельных позиций в консенсусе. Указанным выше способом можно рассчитать битовый счет для инвертированной консенсусной строки (т.е. строки, в которой консервативные позиции заменены на вариабельные и наоборот): B 1(bs)=B(bs), где bs -инвертированная битовая строка. Более подробно цель расчета инвертированной оценки рассматривается в разделе «Алгоритм выявления структурно-функциональных мотивов» главы «Результаты и обсуждения».
В основу данной работы легли результаты, полученные в ходе анализа надсемеиства цитохромов Р450 при помощи программы локального выравнивания BLAST. Сущность эксперимента, результаты которого отображены на рис. 10, заключается в проведении сравнения всех последовательностей в отобранной группе белков друг с другом (кросс-сравнение). В качестве группы может фигурировать как все надсемейство целиком, так и отдельные его части - семейства. По результатам сравнения групп белков строятся гистограммы распределения счетов локального выравнивания. Результаты, представленные на гистограмме 10а, свидетельствуют о том, что для большинства пар последовательностей надсемеиства характерны участки локального сходства. Счет, набираемый в результате выравнивания этих локальных участков, в среднем равен 100 битам, что определяет положение наиболее выраженного пика на гистограмме. Минимальное значение счета, получаемого при выравнивании цитохромов Р450, соответствует 50-60 битам, что обеспечивает возможность достоверно отличать члены надсемеиства от случайно сгенерированных строк (см. рис. 106). Кроме наиболее выраженного, первого пика, гистограмма на рис. 10а содержит три минорных пика. Наличие минорных пиков нарушает общий вид кривой, описывающей статистическое распределение счетов локального выравнивания (Altschul S.F., 1990). Для объяснения наблюдаемого феномена необходимо обратится к гистограммам 10в-10е.
Исследование свойств статистических критериев наличия мотивов в консенсусных последовательностях
Изложенный в Разделе 2.5 метод выявления мотивов путем статистического анализа характера распределения консервативных остатков в составе консенсусной последовательности обладает существенным ограничением, не позволяющим применять его для решения задач данной работы. Таким ограничением является невозможность применения критерия для сравнения консенсусов, полученных для различных групп белков или при использовании различных параметров (уровня консервативности, типа используемого редуцированного алфавита). Для снятия указанного ограничения в работе предлагается метод, основанный на оценке информационного содержания консенсусной последовательности.
Основы этого подхода заложены в алгоритмической схеме, рассмотренной выше (рис. 4). Для каждой подстроки в составе консенсуса рассчитывается два критерия: Р и Р\т. Критерий Р определяет насколько компактно расположены в консенсусе консервативные остатки, критерий Р1т -наоборот, отражает компактность расположения вариабельных остатков. Применение фильтра, учитывающего оба критерия, приводит к тому, что алгоритм выявляет в составе консенсусной последовательности компактные кластеры консервативных остатков (Р 0,95) и при этом запрещает в составе этих кластеров наличие протяженных слитных участков вариабельности CPjnv 0,51). В случае наличия таких участков, установленные пороговые значения критериев Р и Р-ш разделяют подстроку на два мотива.
Особенности вычислительной схемы позволяют использовать ее для выявления участков локального сходства. Учитывая, что в составе консенсусной последовательности могут присутствовать несколько участков локального сходства, введем меру S как сумму значений, которые принимает счет в каждой позиции консенсусной последовательности (ЭД Следует отметить наличие взаимосвязи между стандартным методом оценки локального сходства, используемого в программе BLAST, и предложенной суммарной оценкой S. На рисунке 11 показана корреляция между значениями S и счетом локального парного выравнивания, рассчитанного программой BLAST. Для расчета величины S и счета использовались консенсусные последовательности, полученные при различных уровнях консервативности. Вычисление счета локального выравнивания производилось путем выравнивания консенсусной последовательности с самой собой, при этом вариабельные участки заменялись случайно сгенерированными последовательностями символов (см. «Материалы и методы», Раздел 2.8).
Взаимосвязь между счетом локального выравнивания и предлагаемым критерием для выявления мотивов в консенсусной последовательности, отображенная на рис. 11, свидетельствует об адекватности реализованного алгоритма. В то же время, принципиальным отличием предложенного критерия от стандартной процедуры вычисления счета локального выравнивания является возможность разложить его на индивидуальные потенциалы, приписанные каждому остатку в консенсусе. Оценка 5,- зависит от окружения остатка /, точнее от «предрасположенности» этого окружения к формированию участка локального сходства - т.е. мотива.
Представление результатов множественного выравнивания в виде консенсусной последовательности используется довольно часто (Taylor W.R., 1986; Gribskov М. et al., 1987). Цель использования консенсусов заключается в том, чтобы искусственно снизить сложность природных белковых последовательностей, сравнивая их друг с другом и вычленяя общую часть. Предполагается, что эта общая часть более содержательна в информационном плане, нежели любая другая отдельно взятая часть первичной структуры белка. Основанием для этого предположения являются молекулярно-эволюционные гипотезы, в рамках которых постулируется, что наиболее устойчивой к спонтанным мутациям является функционально значимая часть гена.
Базовые постулаты молекулярной эволюции предполагается развивать в рамках следующей математической модели. Основу модели составляет стихийно сложившееся интуитивное представление, бытующее в литературе, о наличии взаимосвязи между понятиями информационного содержания первичной структуры белка и соответствующей функциональной активностью (в частности, речь идет о широко используемом постулате, что структура белка определяет его функцию). В более широком смысле, в частности в работе (Nishikawa К., 1993), вместо функциональной активности используется понятие термодинамических барьеров фолдинга. В практическом плане постулат «структура определяет функцию» может быть формализован в том смысле, что элементы структуры с высоким содержанием информации с большей вероятностью определяют особенности функционирования белка. С этой точки зрения использование консенсусных последовательностей является попыткой вычленить наиболее информационно-насыщенную часть в наборе первичных структур белков.