Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков Сутормин Роман Александрович

Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков
<
Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Сутормин Роман Александрович. Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков : дис. ... канд. физ.-мат. наук : 03.00.02 Москва, 2007 113 с. РГБ ОД, 61:07-1/661

Содержание к диссертации

Введение

1. Введение 4

1.1. Актуальность темы 4

1.2. Цели и задачи работы 6

1.3. Научная новизна 7

1.4. Практическая значимость 8

1.5. Апробация работы 8

2. Обзор литературы 9

2.1. Мембранные белки 9

2.2. Эволюция мембранных белков 10

2.3. Важность трансмембранных белков 11

2.4. Классификация трансмембранных белков по Сайеру 11

2.5. Кристаллизация мембранных белков 15

2.6. Вторичная структура мембранных альфа-спиральных белков 17

2.7. Скрытые марковские модели 21

2.8. Матрицы замен 33

2.9. Сравнение структур мембран бактерий и эукариот 41

2.10. Использование НММ для разметки мембранных альфа-спиральных сегментов 42

2.11. Позиции, определяющие специфичность 45

3. Эволюционные особенности аминокислотных последовательностей мембранных белков бактерий и эукариот 46

3.1. Методы 50

3.1.1. Основная выборка (бактериальные транспортеры) 50

3.1.2. Кластеризация и выравнивание 51

3.1.3. Определение мембранных ядер 53

3.1.4. Построение матриц частот замен 56

3.1.5. Контрольные выборки 57

3.2. Обсуждение результатов 58

3.2.1. Мембранные сегменты и ТМ-ядра основной выборки 58

3.2.2. Аминокислотный состав ТМ-ядер основной выборки 59

3.2.3. Внутренняя согласованность матриц серии BATMAS 62

3.2.4. Сравнение матриц 67

3.2.5. Свойства матрицы BATMAS30 68

3.2.6. Функциональная схожесть аминокислот в ТМ-ядрах 72

3.3. Подведение итогов 73

4. Предсказание вторичной структуры мембранных белков 75

4.1. Методы 78

4.1.1. Построение тестовой выборки 80

4.1.2. Построение достоверной мембранной разметки 81

4.1.3. Методы предсказания мембранной разметки по выравниванию 82

4.1.4. Оценка качества работы метода ТМНММ 83

4.1.5. Оценка качества предсказания 84

4.2. Обсуждение результатов 84

4.3. Использование метода FWDBCK в качестве модуля алгоритма SDPPred 86

5. Канальная ориентация спиралей мембранных белков 89

5.1. Методы 90

5.1.1. Позиционная корреляция для групп аминокислот 90

5.1.2. Аминокислотные веса склонности смотреть в канал 93

5.1.3. Канальный момент 94

5.2. Результаты 95

6. Предсказание и анализ трансмембранных сегментов каналов семейства МІР 96

6.1. Описание процедур и алгоритмов 100

6.2. Результаты 102

Выводы 103

Список литературы 104

Введение к работе

Мембранные белки играют важную роль в жизнедеятельности клетки. По функциональной нагрузке можно различать мембранные белки, задействованные в таких важных процессах жизнедеятельности в клетке, как селективный транспорт, запасание энергии, передача сигналов между клетками, преобразование энергии света в бактериях, сортировка белков между отделами клетки. По средним оценкам мембранные белки составляют 20-30% всего протеома клетки. Альфа-спиральные белки составляют подавляющее большинство мембранных белков, и в геноме типичной бактериальной клетки кодирующих их генов приблизительно в 10 раз больше, чем генов бета-слойных белков. В то же время метод рентгеноструктурного анализа, позволяющий установить пространственную структуру белков, в случае мембранных белков работает плохо, что связано с высокой гидрофобностью этих белков, вследствие чего на сегодняшний день известно не более 160 уникальных трехмерных структур мембранных белков.

В тех случаях, когда об альфа-спиральном мембранном белке неизвестно ничего кроме его аминокислотной последовательности, используют методы предсказания вторичной структуры, а точнее расположения участков последовательности находящихся в мембране. Такие участки приблизительно совпадают с альфа-спиралями белка, пересекающими мембрану. Качество лучших из этих методов по оптимистическим оценкам составляет около 80%. Впрочем, оценки качества различных методов в различных работах сильно разнятся.

Знание информации о вторичной структуре приближает нас к пониманию пространственной структуры, но кроме этого помогает улучшить чувствительность гомологического поиска и точность автоматического приписывания белку функции. Задача предсказания вторичной структуры мембранных белков была сформулирована уже более 20 лет назад, после чего предлагались различные методы решения этой задачи. Наиболее эффективными признаны методы, основанные на скрытых Марковских моделях (НММ), где решается задача наилучшей в смысле статистического соответствия укладки аминокислотной последовательности на цепь состояний, следуя ребрам переходов. К таким методам можно причислить ТМНММ, НММТОР. В ряде методов (PHDhtm, MEMSAT) для предсказания используется дополнительная эволюционная информация, формируемая в виде выравниваний или частотных профилей.

При разработке методов предсказания мембранной структуры важной является проблема формирования обучающей выборки, т.е. выборки последовательностей, для которых известно точное расположение мембранных сегментов, в условиях нехватки данных по известным структурам мембранных белков. Авторам сервера ТМНММ удалось сформировать выборку из 160 аминокислотных последовательностей с экспериментально установленной разметкой мембранных сегментов. Выборка доступна на сайте сервера.

В связи с ростом геномных данных, все большую важность приобретают методы сравнительного анализа последовательностей, главными среди которых являются множественное (или попарное) выравнивание и поиск гомологии. Эти задачи немного различаются, но в обеих в случае белков элементарной единицей, подлежащей оценке, является пара аминокислотных остатков из двух последовательностей, а сама оцениваемая величина - это правдоподобность того, что эти аминокислоты происходят из общей предковой аминокислоты. Маргарет Дэйхофф предложила описывать эволюцию в белках Марковской моделью, в которой предполагались независимость изменения соседних аминокислот и независимость скоростей изменений от времени. В соответствии с моделью была построена известная серия РАМ матриц частот замен для различных эволюционных расстояний. Проблемой этого метода было то, что вначале строилась матрица для очень близких последовательностей, а по ней строились все остальные матрицы, что должно приводить к накоплению ошибок, допущенных на начальном этапе. Позднее был предложен другой подход, основанный на анализе консервативных блоков множественных выравниваний, т.е. подсчете частот пар букв, встречаемых в блоках. Для того чтобы строить матрицы на разных эволюционных расстояниях, наборы слишком близких фрагментов в блоках заменялись одним. Серия матриц, построенная этим методом, была названа BLOSUM.

В случае мембранных белков стандартные методы выравнивания работают не так хорошо как для глобулярных белков, особенно в т.н. "серой" зоне идентичности между последовательностями от 20% до 30%. Это связано с тем, что мембранные сегменты отличаются по статистическим свойствам от последовательностей глобулярных белков. Для учета этих особенностей разумно использовать, как минимум, еще одну матрицу (или серию матриц), соответствующую мембранным сегментам. Серия JTT РАМ таких матриц была построена с применением методики, аналогичной той, что использовала Дэйхофф. Для подсчета мутаций были сформированы 3155 попарных выравниваний с идентичностью между последовательностями не менее 85%. Позднее к построению мембранной матрицы замен был применен подход, аналогичный BLOSUM. Из 2935 семейств родственных белковых последовательностей были выделены 8909 консервативных блоков. После применения алгоритма PHDhtm предсказания мембранной структуры было отобрано 844 блока, покрывающие мембранные сегменты. Серию матриц, также построенную кластеризацией фрагментов с идентичностью, превосходящей серию порогов, назвали PHDhtm. В обоих случаях объемы исходных данных кажутся недостаточными для достижения хорошей статистической достоверности.

1.2. Цели и задачи работы

Целью настоящей работы является изучение статистических особенностей встречаемости аминокислотных остатков и их эволюции в различных участках мембранных белков с использованием эволюционных моделей и скрытых Марковских моделей и разработка методов анализа и предсказания структуры мембранных белков. В ходе работы были поставлены следующие задачи:

1. Построение серий матриц замен аминокислот в мембранных областях бактериальных и эукариотических белков и сравнение матриц этих двух белковых классов.

2. Разработка метода предсказания мембранной структуры, соединяющего положительные стороны скрытых Марковских моделей и сравнительного подхода.

3. Выявление статистических особенностей встречаемости аминокислот в мембранных альфа-спиралях и применение этих особенностей для определения сторон альфа-спиралей, формирующих транспортный канал.

1.3. Научная новизна

1. Впервые отдельно изучены частоты замен аминокислотных остатков в мембранных областях мембранных белков для двух белковых классов: бактериальных и экариотических транспортеров; проведен сравнительный анализ полученных результатов.

2. Впервые рассмотрена возможность применения одновременно скрытых Марковских моделей и сравнительного подхода для решения задачи предсказания положений мембранных областей на аминокислотных последовательностях мембранных белков. Разработан метод, соединяющий преимущества обоих подходов.

3. Впервые построена тестовая выборка структурных множественных выравниваний для проверки работы методов, предсказывающих расположение мембранных областей, и методов множественного выравнивания последовательностей мембранных белков.

4. Разработан метод ориентации спиралей мембранных белков при формировании канала. 5. Впервые разработан алгоритм, улучшающий предсказание расположение мембранных областей для мембранных белков семейства МІР.

1.4. Практическая значимость

Разработанный метод предсказания положений мембранных областей на последовательностях мембранных белков имеет лучшие показатели качества в классе методов, предсказывающих мембранную вторичную структуру по множественному выравниванию без использования гомологического поиска по дополнительной белковой базе данных.

Полученные серии матриц замен аминокислот в мембранных областях, а также разработанный метод предсказания положений мембранных областей на множественном выравнивании могут быть использованы как отправная точка для разработки метода множественного выравнивания аминокислотных последовательностей мембранных белков.

Кроме этого построенная тестовая выборка структурных выравниваний мембранных белков может быть использована для проверки качества работы методов, решающих задачу множественного выравнивая для класса мембранных белков. 

Научная новизна

Роль мембранных белков в клетке очень важна. По функциональной нагрузке можно различать мембранные белки, задействованные в таких важных процессах жизнедеятельности в клетке, как селективный транспорт, запасание энергии, передача сигналов между клетками, преобразование энергии света в бактериях, сортировка белков между отделами клетки. Например, натриево-калиевые насосы, отвечающие за активный транспорт калия внутрь клетки, вместе с калиевыми каналами, свободно пропускающими калий наружу, способствует поддержанию необходимого объема клетки за счет регуляции осмотического давления. Также в клетках, способных к фотосинтезу, можно выделить белки семейства бактериородопсинов, которые используют энергию фотонов света, чтобы выводить из клетки протоны, создавая протонный градиент вдоль мембраны, который используется для синтеза АТФ. Такой транспорт относят к активному транспорту, использующему энергию света.

С ростом количества полностью секвенированных геномов растет количество белковых последовательностей, назначение которых в рамках процессов жизнедеятельности клетки не установлено. Для того чтобы сделать приблизительные оценки функциональности белков, нередко проделывают отождествление неизвестных белков с известными на основе гомологического поиска. К сожалению, вследствие такой особенности мембранных белков как высокая эволюционная изменчивость, на основе сходства по последовательности чаще всего удается отождествить структурную организацию белков, но не их специфичность к субстрату или другую функциональную нагрузку.

Транспортные мембранные белки в геноме обычно насчитывают от 15 до 40% всех генов, кодирующих мембранные белки (см. табл.1.1). Важность трансмембранных белков несомненна, т.к. они позволяют попадать внутрь клетки и органелл веществам, содержащим такие важные для метаболизма элементы как углерод, азот, сера и фосфор. Они позволяют регулировать концентрацию продуктов метаболизма, выводя их из органелл и наружу клетки. Они позволяют выводить наружу клетки лекарства и токсичные вещества. Они помогают вбирать и выталкивать ионизированные вещества, концентрация которых внутри клетки должна сильно отличаться от внешней, как, например, в случае градиента концентрации Na+/K+, создающего необходимый для запасания энергии электрохимический потенциал вдоль толщи мембраны.

Как уже говорилось, важность трансмембранных белков с точки зрения клеточного метаболизма трудно переоценить.

В работах Сайера и коллег [S1,S2] предлагается достаточно полная классификация трансмембранных белков. Каждой группе белков, отвечающих за одинаковый механизм транспорта одинаковых субстратов, присваивается так называемый ТС-номер (от Transport Classification). ТС-номер имеет вид V.W.X.Y.Z, где V - число, соответствующее классу (т.е. каналы, переносчики, первичный активный транспорт или групповые перемещатели), W - буква, соответствующая либо структурным особенностям, либо особенностям механизма работы, либо источнику используемой энергии, X, Y и Z -номера семейства, подсемейства и вида субстратов соответственно. Белки, имеющие один

ТС-номер, являются, как правило, ортологами или паралогами. Далее приводятся описания групп, разделенных вначале по числу V (классы), а затем по букве W (подклассы).

1. Каналы/поры. Белки данного класса включают пересекающие мембрану каналы, которые имеют вид цилиндра, образованного альфа-спиралями или бета-слоями. Транспортные системы данного типа катализируют свободную диффузию через канал или пору без затрат энергии. Они не являются стереоспецифичными, но могут ограничивать свое действие на некоторые виды молекул.

1 .А. Каналы альфа-типа. Белки данного подкласса найдены в мембранах всех видов организмов от бактерий до высших эукариотов. Они состоят в основном из альфа-спиралей, но иногда включают и бета-слои, которые даже могут участвовать в формировании канала.

1 .В. Бета-цилиндрические порины. Эти белки содержат поры цилиндрической формы, образованные замкнутыми бета-слоями. Белки порин-типа в основном встречаются во внешних мембранах грам-отрицательных бактерий, митохондрий, в мембранах пластид. 1.С. Образующие пору токсины. Белки данного типа синтезируются в одной клетке, но предназначены для встраивания в мембрану другой клетки, где они образуют трансмембранную пору. Они оказывают отравляющее действие, приводящее к смерти целевой клетки, позволяя, например, свободно перетекать различным молекулам через мембрану.

Не рибосомально синтезированные каналы. Данные каналы сформированы из большого числа низкомолекулярных блоков, таких как L- и D-аминокислот или оксикислот, например, лактата.

Вторичная структура мембранных альфа-спиральных белков

Рассмотрим другой пример. Пусть мы хотим описать серию бросаний кости в некоем не очень честном казино, где почти всегда используется правильная игральная кость, но иногда ее подменяют неправильной. Неправильная кость имеет вероятность 0.5 выпадения шестерки и вероятность 0.1 выпадения остальных чисел от 1 до 5. Предположим, что казино подменяет правильную кость неправильной с вероятностью 0.05 перед каждым броском, а вероятность обратной подмены равна 0.1. В таком случае подмена костей является марковским процессом, а значит, весь этот процесс можно описать скрытой марковской моделью, в которой есть два состояния, одно соответствует честной кости, другое нечестной. Результаты бросков в этих состояниях имеют разную вероятность, а вероятности переходы из состояний на себя близки к единице. Что скрыто в такой модели? Если просто посмотреть на последовательность бросков (последовательность наблюдений) не понятно, в каких бросках использовалась неправильная кость, а в каких правильная, потому что казино держит это в тайне. Это и означает, что последовательность состояний скрыта. В цепи Маркова всегда точно известно, к какому состоянию относится данное наблюдение. Очевидно, что казино ни за что бы ни сказало вам, что они используют неправильную кость и каковы вероятности подмены. Тем не менее, в этой ситуации возможно оценить параметры НММ, т.к. вероятности символов в состояниях и вероятности переходов между ними.

Название эмиссионные вероятности связано с тем, что часто бывает удобно представлять НММ в виде генерирующей модели, которая производит, или «выпускает» (emit - выпускать) последовательности. Например, мы можем сгенерировать случайную последовательность бросков для модели с подменой кости, описанной выше, имитируя выбор по смене кости, и результаты бросков выбранной кости. Вообще, последовательность может быть сгенерирована НММ следующим образом: Первое состояние щ выбирается в соответствии с вероятностями aoi. В этом состоянии наблюдение генерируется в соответствии с распределением ещ для этого состояния. Затем выбирается новое состояние %г в соответствии с вероятностями переходов а и так далее.

Таким способом генерируется последовательность случайных искусственных наблюдений. Поэтому, мы иногда говорим, что Р(х) - вероятность того, что последовательность х сгенерирована данной моделью. Теперь легко можно записать совместную вероятность последовательности наблюдений х и состояний ж как L Р(х,ж) = a0Ki Y\e (х )а л+і где вьшолнено ль+і = 0. Например, вероятность того, что последовательность CGCG была сгенерирована последовательностью состояний (С+, G., С, G+) в нашей модели равна а0 с+ xlxac G xaG с х 1 хас с х 1 х ас+ 0.

Равенство для вычисления совместной вероятности наблюдений и состояний требует знания пути состояний. Рассмотрим наиболее часто используемый алгоритм решения этой задачи, который называется алгоритмом Витерби [КЗ]. Это алгоритм динамического программирования. Вообще говоря, может быть много последовательностей состояний, которые могут иметь результатом любую рассматриваемую последовательность символов. Например, в нашей модели CpG последовательности состояний (С+, G+, С+, G+), (С, G., С, G.) и (С+, G., С, G+) все генерируют последовательность символов CGCG. Однако они это делают с очень разными вероятностями. Вероятность для третьей является результатом произведения маленьких вероятностей переключения туда и обратно между компонентами, и, поэтому, гораздо меньше, чем для первой и для второй. Вероятность для второй существенно меньше, чем для первой, так как она содержит два перехода из С в G, которые значительно менее вероятны в «-» компоненте, чем в «+» компоненте. Таким образом, при данном выборе из трех наиболее вероятно, что последовательность CGCG возникла из множества «+» состояний. Предсказанный в НММ путь покажет, какая часть последовательности предсказана как CpG островок, так как выше мы предположили, что каждое состояние отвечает за моделирование либо CpG островка, либо других областей. Если мы хотим выбрать только один путь для нашего предсказания, по-видимому, следует выбирать путь с самой большой вероятностью, п = а.щтахР(х,л:). Наиболее вероятный путь п можно я определить рекурсивно. Пусть vk(i) - вероятность того, что путь наибольшей вероятности заканчивается в состоянии к при наблюдении і. И пусть ик (/ ) известна для всех состояний к. Тогда эти вероятности можно вычислить для наблюдения дг,+/ как и,(і +1) = e,(xM)max(vk(i)akl). Все последовательности должны начинаться в состоянии О к (начальном состоянии), таким образом, начальным условием является у0(0) = 1. Сохраняя обратные ссылки, искомую последовательность состояний можно найти при ходе в обратном направлении. Полный алгоритм выглядит следующим образом: (1) инициализация (i=0): и0(0) = 1, цДО) = 0 для к 0; (2)рекурсия (/=/..1): и,(/) =еІ(хі)тахк(ик(і-\)акІ); рщ([) = argmaxt(vk(i-l)au); (3) завершение: Р(х,л ) = тахк(ик(Г)ак0); nL = argmzxk(vk(L)ak0); (4) обратный ход (i=L..l): % j.]=ptn(7r ).

Заметьте, что предполагается наличие конечного состояния, из-за которого на шаге завершения появляется а . Если концы в модели не заданы, это а исчезает. Наиболее трудная практическая проблема в этом классе алгоритмов заключается в том, что перемножение многих вероятностей всегда дает малые числа, из-за чего возникает ошибка потери точности на любом компьютере. По этой причине алгоритм Витерби следует всегда исполнять в логарифмическом пространстве, то есть, вычисляя логарифм \og(vi(i)), который превращает произведения в суммы, и числа остаются в разумных пределах

Кластеризация и выравнивание

Если кратко описать процедуру, то она состоит в формировании набора последовательностей, не слишком близко и не слишком далеко отстоящих друг от друга по похожести, кластеризация набора в близкородственные группы, выравнивание последовательностей внутри кластера, формирование мембранных областей, согласованных внутри каждого кластера, составление матриц путем попарного перебирання последовательностей внутри каждого кластера. Однако по порядку.

Из литературы и с вэб-ресурсов http://www-biology.ucsd.edu/ msaier/transport/ [S4, S2], http://www.biology.ucsd.edu/ ipaulsen/transport/ [P4,R2] были собраны все бактериальные представители класса ТС.2А (в соответствии с классификацией Сайера-Паулсена). Затравочную выборку составили 1312 последовательностей мембранных белков из 101 семейства. 4 семейства (438 последовательностей) входят в суперсемейство MFS, 5 семейств (103 последовательности) входят в суперсемейство АРС, 4 семейства (114 последовательности) входят суперсемейство RND. Семейства СРАЗ и NFE включали сложные многокомпонентные транспортные системы, состоящие более чем из двух полипептидных цепей, и поэтому не рассматривались. Далее, в целях пополнения выборки родственными, но неклассифицированными белками для каждой последовательности с помощью программы BLAST [А2] был проведен гомологический поиск в бактериальных геномах системы ERGO [01]. Для этих целей были взяты бактериальные геномы, удовлетворяющие следующему условию завершенности секвенирования: геном должен содержать хотя бы 500 генов не более чем в 10 контигах. Этому условию удовлетворил 31 геном: Aquifex aeolicus, Brucella melitensis, Bacillus subtilis, Buchnera sp. APS, Campylobacter jejuni, Chlamydia muridarum, Chlamydia pneumoniae, Chlamydia trachomatis, Deinococcus radiodurans, Escherichia coli, Fusobacterium nucleatum, Haemophilus influenzae, Helicobacter pylori, Lactococcus lactis, Mycoplasma genitalium, Mycoplasma pneumoniae, Mycobacterium tuberculosis, Neisseria meningitidis, Pasteurella multocida, Pseudomonas aeruginosa, Rhodobacter capsulatus, Rickettsia prowazekii, Salmonella typhi, Salmonella typhimurium, Streptococcus pyogenes, Synechocystis sp., Thermotoga maritima, Treponema pallidum, Ureaplasma urealyticum, Vibrio cholerae, Xylella fastidiosa. При гомологическом поиске использовались ограничения E-value 10"10 и identity(вeличинa идентичности) 30%. В результате поиска белковый набор пополнился 860 гомологами, составив 2172 белков.

Далее набор последовательностей разделялся на кластеры по эволюционному родству. Причина состоит в том, что нам необходимо иметь множественные выравнивания, но методы построения выравниваний не являются идеальными, и на достаточно больших эволюционных расстояниях, которым соответствует параметр identity 30% и менее, качество выравниваний сильно ухудшается. Конечная задача, которая преследуется при этих построениях, состоит в том, что хочется построить серию матриц замен (частот пар аминокислот), где каждая матрица соответствует своему диапазону эволюционных расстояний, т.е. своя матрица для диапазона от 30% до 40% по идентичности, своя - для диапазона от 40% до 50%, и т.д. Но при этом ясно, что чем ближе последовательности друг к другу, тем лучше работает метод множественного выравнивания и тем точнее будут вычислены значения элементов матрицы. Итак, кластеризация проводилась отдельно для каждой матрицы (т.е. для каждого диапазона по идентичности). В качестве меры эволюционного расстояния использовались значения идентичности, даваемые программой BLAST (т.е. набор последовательностей был запущен на гомологический поиск против самого себя). BLAST использовался в данном случае потому, что обладает очень хорошим показателем скорости работы (принимая, конечно, во внимание тот факт, что результаты получаются немного грубее, чем при работе, например, программы CLUSTAL). Набор последовательностей был разделен на кластеры методом ближайшего соседа (метод выделения в графе компонент связности) отдельно для каждого из нижних порогов по идентичности 30%, 40%,..., 80%. Нижний порог понимается как величина, с которой сравниваются величины идентичности между каждыми двумя последовательностями, т.е. мы строим граф, вершинами, которого являются последовательности, а ребрами - отношения идентичности, и если идентичность между некоторыми двумя последовательностями превосходит порог, то соответствующие вершины соединяются ребром, в противном случае - не соединяются. Если размер какого-то кластера превосходил 50 последовательностей, то кластер разделялся на несколько путем поднимания нижнего порога идентичности для этого кластера. Такие ситуации возникли для четырех кластеров при нижнем пороге кластеризации 30%, один раз - для порога 40%, и ни разу при порогах 50% и более.

Окидывая результаты кластеризации одним взглядом можно, отметить такую особенность, что при нижнем пороге на идентичность 30% кластеры в целом соответствуют семействам бактериальных транспортеров по классификации Сайера-Паулсена. При этом большие семейства в классификации описываются двумя-тремя кластерами, а 235 последовательностей не кластеризуются ни с кем, т.е. представляют собой кластер одного представителя (отдельно стоящие, не имеющие близкородственных связей белки). В таблице 3.1 приводятся количественные характеристики получившихся кластеров.

Построение достоверной мембранной разметки

Для проверки метода сформирована выборка эталонных множественных выравниваний. Для этого были взяты все последовательности мембранных белков с известной пространственной структурой (442 белка) с сайта сервера PDBTM [Т2]. Далее были построены все попарные выравнивания с использованием программы CLUSTALW [Т4]. Если встречали пары белков со сходством (identity) не менее 95%, то из них оставляли один. Далее проводили кластеризацию по попарному сходству методом ближайшего соседа с нижним порогом 20%. Метод ближайшего соседа применительно к кластеризации состоит в следующем. Кластеризуемые объекты можно представить в виде вершин графа, а отношения между объектами - в виде ребер. Метод ближайшего соседа причисляет объекты к одному кластеру, если между соответствующими вершинами в графе можно найти путь из ребер, т.е. другими словами вьщеляются связные компоненты графа. В нашем случае ребро между вершинами присутствует, если идентичность между белками, приписанными этим вершинам, превышает нижний порог. Если кластер оказывался размером более 20 белков, то нижний порог для него поднимали до тех пор, пока он не разделялся на меньшие кластеры. После этого рассматривали только кластеры с размером не меньше 3 белков. Для каждого кластера проводили множественное структурное выравнивание трехмерных структур белков с использованием сервера MAMMOTH [L2]. Если качество выравнивания было очень низким (мало столбцов выравнивания, достоверных с точки зрения метода), то выкидывали самого дальнего представителя в кластере и оставшиеся белки выравнивали вновь.

В результате использования данной процедуры получили 11 кластеров из 47 белков. Доля структурно надежных столбцов выравниваний находится в диапазоне от 48% до 96%), в среднем составляя 74%. Размер кластеров находится в диапазоне от 3 (т.к. меньшие кластеры просто не рассматривались) до 6 белков, средний размер - 4 белков. Далее проверяли принадлежность белков кластеров к структурным семействам по классификации SCOP [М5] и САТН [03]. В каждом кластере белки проверялись на принадлежность общему структурному семейству. В одном кластере была обнаружена двухдоменная структура, белки другого кластера не включали ни одного структурного домена, известного по классификациям SCOP и САТН.

Построение достоверной мембранной разметки.

В каждом белке каждого кластера были размечены участки белковой последовательности, лежащие в мембране, на основе алгоритма TMDET [ТЗ], определяющего наиболее вероятное положение мембраны относительно трехмерной структуры. Для того чтобы избежать ошибочной классификации участка белковой цепи как мембранного из-за возможных неточностей предсказания положения мембраны алгоритмом TMDET, были введены "серые" зоны по краям мембраны толщиной в 5 ангстрем. Если какой-то участок белковой цепи лежит только в "серой" зоне, то он не считался мембранным. Для каждого кластера разметки наносились на структурное выравнивание, и на основании этого формировалась общая мембранная разметка (мембранные ядра). В ядра вошли те колонки структурного выравнивания, в которых все безделеционные позиции помечены как мембранные. Руководствуясь выходной информацией сервера MAMMOTH о достоверности структурного выравнивания в тех или иных столбцах, ядра разделяли на два класса - заслуживающие доверие и не заслуживающие. В первый класс попадали ядра, где две трети столбцов имеют выравнивание, достоверное с точки зрения MAMMOTH, а также, длина которых не меньше пяти столбцов. Ядра второго класса были изъяты из рассмотрения. На рисунке 4.1 приведен пример определения ядер по структурному выравниванию.

Всего в результате работы процедуры получили 56 мембранных ядер; в среднем, на выравнивание приходится 5 ядер; количество ядер в выравнивании колеблется между 1 и 12. Кроме этого в одном выравнивании изъяли из рассмотрения 2 сомнительных ядра, в которых менее 60% столбцов являются достоверными с точки зрения структурного выравнивания. Распределение длин ядер представлено на рисунке 4.2.

Проверяли следующие методы предсказания мембранной разметки: MEMSAT, FWDBCK, основанный на описанном выше методе формирования трансмембранного вероятностного профиля, и метод усреднения результатов сервера ТМНММ по белкам в выравнивании (далее усреднение ТМНММ). На вход серверу MEMSAT подавали аминокислотные частотные профили выравниваний с учетом весов последовательностей, но без учета делеций. Разметку на мембранные участки FWDBCK формировали так, что столбцы, вероятность нахождения которых в мембране была не меньше 0.8, объявляли мембранными. Если встречалось менее пяти мембранных столбцов, стоящих вместе, то их не считали мембранными.

Метод усреднения ТМНММ устроен так. При выравнивании на каждую последовательность наносится мембранная разметка, предсказываемая сервером ТМНММ. Столбцы, в которых, как минимум, две трети безделеционных позиций помечены как мембранные, объявляли мембранными. Если встречалось менее пяти мембранных столбцов, стоящих вместе, то их не считали мембранными.

Для того чтобы убедиться в том, что методы предсказания мембранной разметки, опирающиеся на выравнивание, работают лучше, чем методы имеющие дело только с одной последовательностью, проверяли качество работы метода ТМНММ для каждой белковой последовательности каждого кластера. С этой целью для каждой последовательности формировали "сужение" информации о достоверности столбцов в структурном выравнивании соответствующего кластера путем выбрасывания столбцов, в которых рассматриваемая последовательность имеет делецию. Аналогично строили разметку последовательности на ядра, которая есть сужение разметки на ядра всего выравнивания. Далее, к разметке последовательности на ядра и к разметке, предсказанной методом ТМНММ, применяли аналогичный описанному выше фильтр, позволяющий игнорировать мембранные участки и ядра с малой длиной и с малой степенью пересечения с "маской достоверности". Результат приведен в таблице 4.2 напротив пункта "ТМНММ(ориг.)

Похожие диссертации на Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков