Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей Низоленко Лилия Филипповна

Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей
<
Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Низоленко Лилия Филипповна. Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей : диссертация ... кандидата биологических наук : 03.00.03.- Кольцово, 2007.- 127 с.: ил. РГБ ОД, 61 07-3/615

Содержание к диссертации

Введение

ГЛАВА 1. Анализ аминокислотных последовательностей для предсказания родственных связей, структурных и функциональных особенностей кодируемых ими белков (обзор литературы) 9

1.1 Предсказание функции, структуры и родственных связей белка по его аминокислотной последовательности: основные проблемы 9

1 2 Методы анализа аминокислотных последовательностей и реализующие их программные продукты 11

1 2 1. Прямое сравнение последовательностей 11

1.2 2. «Вторичные» базы данных 17

1 2.2.1. Базы данных профилей 17

1222 Базы данных одною мошва 24

1 2 2 3. Базы данных множественных мотивов 27

1224SBASE 31

123 Интегрированные базы данных 32

1 3 Методы предсказания функции, основанные на структурных данных 39

ГЛАВА 2. Построение банка образов белковых семейств profpat и принципы работы с ним 47

2 1 Формирование и выравнивание групп родственных белков 47

2 2 Формирование образов белковых семейств 49

2 3 Сравнение аминокислотных последовательностей с образами 52

2 4 Сравнение образов с банком Swiss-Prot 54

2 5 Программное обеспечение 55

2 6 Сетевая версия 59

2 7 Ввод данных и представление результатов 59

ГЛАВА 3. Обновление и поддержка банка prof pat 67

ГЛАВА 4. Анализ некоторых особенностей банка prof pat 76

4 1 Разделение случайного и значимого сходства 76

4 2 Сравнение чувствительности и специфичности банка ProfPat при разных параметрах поиска 81

4.3 Количественная оценка чувствительности и специфичности банка ProfPat 86

4 4 Оценка числа белковых семейств, представленных в ProfPat 86

ГЛАВА 5. Сравнение с другими «вторичными» базами данных. 91

ГЛАВА 6. Примеры использования prof pat 99

6 1 Использование банка ProfPat для аннотирования полных геномов 99

6 2 Использование банка ProfPat для аннотирования последовательностей в базах

данных 106

Заключение 107

Выводы 111

Литература

Введение к работе

Актуальность проблемы Последние десятилетия стали свидетелями беспрецедентно быстрого накопления данных о структурах геномов, нуклеотидных последовательностях, аминокислотных последовательностях (АКП) белков и связанного с этим развития биоинформатики Однако для того чтобы эта наука вышла за пределы простого коллекционирования фактов, необходимы согласованные усилия по расшифровке биохимической и биофизической информации, скрытой в этих данных, структурных, функциональных и эволюционных текстов, записанных на языке биологических последовательностей Поэтому способы быстрого и достоверного описания структурных и функциональных особенностей также как родственных связей новых последовательностей* оказываются определяющим фактором многих исследований. Наиболее распространенным способом такого описания до сих пор остается сравнение новых последовательностей с последовательностями, описанными ранее Сравнение может проводиться напрямую с последовательностями из банков первичных структур, таких как GenBank, EMBL, PIR- PSD, Swiss-Prot Но гораздо удобнее и информативнее исследование с помощью «вторичных» банков данных, или «банков данных второго поколения» в которых, в некоторых объектах сконцентрирована информация о целых группах (семействах) родственных белков, наиболее характерных и часто уникальных особенностях этой группы Помимо выигрыша в скорости, которая перестает быть лимитирующим фактором после появления мощных суперкомпьютеров, часто только сравнение с «вторичными» базами может выявить достаточно отдалённое родство или сходство на уровне доменов, поскольку, как правило, проводится поиск локального сходства с короткими, наиболее консервативными участками последовательностей. Доказательством всеобщего признания именно такого способа анализа новых последовательностей может служить большое количество и разнообразие «вторичных» баз данных «Банки данных второго поколения» еще долго будут служить главным инструментом при аннотировании вновь секвенируемых геномов, а проблема их развития и совершенствования оставаться актуальной

В частности, современная протеомика - это крупномасштабное изучение всего набора белков, экспрессируемых в клетке, ткани, органе и организме в целом Однако большинство существующих белковых информационных систем, доступных в

* Далее в тексте предсказание функциональных особенностей и родственных связей белков, кодируемых новыми последовательностями, для краткости будем называть идентификацией аминокислотных последовательностей.

Интернете, обрабатывают за раз по одной последовательности С увеличением числа секвенированных последовательностей получение данных о больших группах белков становится всё более трудоемким процессом Для крупномасштабных исследований геномов необходимы системы, способные обрабатывать большой объем данных.

Цель Целью данной работы являлась разработка банка образов белковых семейств, обеспечивающего высокие чувствительность, специфичность и скорость анализа, а также методов его поддержания и обновления

Научная новизна и практическая ценность.

  1. Создан уникальный банк образов белковых семейств ProfPat, содержащий максимально возможное число объединенных в группы родственных белков базы UniProt. Банк является одним из первых в мире, а также первым и единственным в России «банком второго поколения»

  2. Сравнение ProfPat с другими «вторичными» банками показало, что по чувствительности, специфичности и скорости обработки данных он, по крайней мере, не уступает, а, часто, и превосходит все доступные ресурсы такого рода.

  3. С помощью банка ProfPat проанализированы последовательности открытых рамок трансляции полного генома штамма H37Rv Mycobacterium tuberculosis. Для 44 открытых рамок впервые предсказана функция кодируемого белка

  4. С высокой степенью достоверности произведена идентификация более четырнадцати тысяч ранее не описанных последовательностей гипотетических белков и открытых рамок трансляции базы UniProt. Тем самым подтверждена целесообразность использования банка ProfPat для описания вновь секвенированных последовательностей при создании и обновлении баз первичных последовательностей белков

Банк доступен по адресу http //wwwmgs bionet nsc ru/mgs/programs/prof pat/ и через ftp bionet nsc ru/pub/biology/\ector/prof pat и ftp ebi ac uk/pub/databases/prof pat.

Публикации По теме диссертации опубликовано 7 статей в российских и зарубежных журналах.

7 Апробация работы Банк ProfPat, результаты его исследования и применения представлялись:

  1. как самостоятельные работы на Международном симпозиуме по теоретическим и компьютерным методам исследования генома (Гейдельберг 1996), Международной конференции "Оценка спонсируемых биологических исследований в России в новом тысячелетии" (Новосибирск 1999), Первом международном рабочем совещании "Биоразнообразие и динамика экосистем Северной Евразии: информационные технологии и моделирование" (Новосибирск 2001), Международных конференциях по биоинформатике регуляции и структуры генома - BGRS (Новосибирск 2000, 2002,2004,2006), Международной московской конференции по компьютерной молекулярной биологии - МССМВ'03 (Москва 2003),

  2. как часть разработок ГНЦ ВБ "Вектор" на Рабочих совещаниях "Развитие партнерства с Россией" (Бостон 2001, Москва 2001);

  3. обсуждались на семинарах Института молекулярной биологии ГНЦ ВБ «Вектор» и Европейского Института Биоинформатики

Получено свидетельство об официальной регистрации банка Федеральной службой по интеллектуальной собственности Российской Федерации № 2005620050 от 10 февраля 2005 г

Структура работы Работа состоит из введения, шести глав, заключения, выводов и списка литературы (165 наименований) Материал изложен на 127 страницах, содержит 23 рисунка и 16 таблиц В первой главе, которая носит обзорный характер, рассматриваются основные методы предсказания функции белка по его аминокислотной последовательности, возникающие при этом проблемы и подходы к их решению Вторая глава содержит описание принципов построения банка образов белковых семейств ProfPat на основе информации, содержащейся в базах аминокислотных последовательностей Swiss-Prot и TrEMBL, работы его поисковой системы, а также структуры банка и способов ввода и вывода данных. Третья глава посвящена автоматизированному обновлению базы данных, которое производится по мере выхода новых выпусков порождающих банков. Четвертая и пятая главы содержат анализ особенностей банка ProfPat, определяющих уровень достоверности сделанных с его помощью предсказаний и отличающих его от других известных «вторичных» баз данных В шестой главе приводятся примеры практического использования банка Prof Pat

Благодарности

Считаю своим приятным долгом поблагодарить:

А.Г. Бачинского, научного руководителя диссертации,

А.Н. Наумочкина, А.А. Ярыгина (ГНЦ ВБ «Вектор»), Л.А. Мирошниченко (Институт Математики СО РАН), обеспечивших банк данных большинством программных продуктов,

Д.А. Григоровича (Институт Цитологии и Генетики СО РАН) за обеспечение постоянной поддержки сетевой версии банка,

СИ. Бажана, A3. Максютова, О.И. Серпинского, Д.В. Антонца, О.Е. Белову, Г.В. Шестакову, Е.А. Рыжикова за полезные советы, помощь и поддержку при написании и оформлении диссертации

Методы анализа аминокислотных последовательностей и реализующие их программные продукты

Для прямого сравнения новой аминокислотной последовательности с базами данных часто используются BLAST (Altshul et al, 1990) - набор программ NCB1 для быстрого поиска сходства и выравнивания последовательностей Для поиска более отдаленного сходства существует модификация PSI-BLAST (McGinnis, Madden, 2004) Не менее широко известен пакет программного обеспечения для сравнения и выравнивания последовательностей FASTA (Pearson, Lipman, 1988)

Прежде чем переходить к описанию этих ресурсов, необходимо кратко остановиться на алгоритме локального выравнивания Смита-Ватермана (Smith, Waterman, 1981), поскольку BLAST, FASTA и многие другие, менее известные программы сравнения последовательностей используют при работе различные модификации этого алгоритма.

Алгоритм Смита-Ватермана Пусть выравниваются две последовательности: А и В В каждой позиции выравнивания может произойти одно из трех событий: w (А„ Bj) - замена аминокислотного остатка (частным случаем этого события является совпадение аминокислотных остатков в соответствующих позициях последовательностей, то есть, A, = Bj) ти (А„ А) - делеция в позиции В, ти (A, Bj) - делеция в позиции А, хз - весовой показатель, определяемый в зависимости от выбора метода сравнений, например, по матрице близости аминокислот типа РАМ (Dayhoff et al, 1972) Весовой показатель делеции обычно имеет отрицательное значение и носит название «штрафа» Строится двумерная матрица Н, в которой последовательность А располагается по горизонтали, а последовательность В - по вертикали и таким образом выравнивание отображается обратным проходом (от конца к началу) по этой матрице. Значение каждого элемента вычисляется следующим образом:

To есть выбирается событие, которое даёт максимальный вклад в общий «вес» выравнивания. Условие, что выбранный весовой показатель должен иметь положительное значение - особенность именно локального выравнивания. В противном случае значение элемента матрицы принимается равным О Если при глобальном выравнивании ищется путь, дающий максимальный вес выравнивания, то при локальном выравнивании просто выбирается ячейка с максимальным значением, и от нее производится выравнивание до тех пор, пока не встретится нулевая ячейка Таким образом, участки с низкой гомологией исключаются из рассмотрения.

Этот типичный алгоритм динамического программирования обеспечивает оптимальное для выбранного метода сравнения локальное выравнивание, но основанные на нем компьютерные программы работают слишком медленно, что оказывается неудобным при сравнении последовательности с большой базой данных. Поэтому большинство современных программ поиска сходства используют его лишь на завершающих этапах сравнения, требующих высокой точности FASTA

Это самая первая из программ поиска гомологов в базе данных. Существует целое семейство (FASTA, FASTP, FASTY, FASTX, FASTf, FASTs и др) программ, основанных на одном и том же алгоритме, различающихся только объектами сравнения (ДНК с ДНК-овым банком, транслированная ДНК с белковым и т п )

На первом этапе в последовательности А выбираются слова заданной длины к, и отмечаются все случаи появления этих слов в последовательности В. Длина слов определяет чувствительность и быстродействие программы. Чем длиннее слово, тем меньше исходный набор совпадений. Однако, поскольку полное совпадение - явление довольно редкое даже среди родственных последовательностей, значение к обычно выбирается очень низким - для аминокислотных последовательностей обычно 2

Рассматривается точечная матрица, в которой одна последовательность определяет строки, а другая столбцы

На втором этапе определяется 10 фрагментов диагоналей с максимальной плотностью совпадений, и производится попытка расширить участки сходства, суммируя вес каждого из них, определяемый с помощью матрицы сходства, такой как РАМ или BLOSUM (Henikoff, Henikoff, 1992) с целью достичь заранее заданного порогового значения

Если выявляются несколько исходных сегментов, чей весовой показатель выше порогового значения, они объединяются, формируя более длинный фрагмент выравнивания При этом сегменты отбираются таким образом, чтобы весовой показатель длинного фрагмента по-прежнему оставался максимальным В промежутках между исходными сегментами допускаются вставки и делеции, правда, с учетом того, что штраф на делецию обычно достаточно высок

И, наконец, осуществляется процесс оптимизации, использующий алгоритм локального выравнивания Смита-Ватермана В качестве начальной точки для оптимизации выбираются 32 аминокислотных остатка вокруг исходного сегмента, выявленного на втором этапе сравнения, имеющего максимальный весовой показатель При оптимизации подсчитывается итоговый «вес» выравнивания, по которому из базы данных можно будет отобрать последовательности, наиболее сходные с тестируемой

Базы данных множественных мотивов

Недостаток поиска гомологии по единственному мотиву состоит в том, что сайты активности белков могут состоять из участков, удаленных в аминокислотной последовательности и расположенных по соседству лишь в трехмерной структуре. Кроме того, такие мотивы могут описывать только один домен, в то время как многие белки состоят из двух и более доменов. Для решения этих проблем разработаны базы данных множественных мотивов Поскольку все они используют общий подход к анализу последовательностей, именно методы формирования входящих в них мотивов определяют уровень чувствительности и специфичности каждой базы. PRINTS PRINTS - коллекция белковых мотивов или «отпечатков» (fingerprints). Отпечаток - это группа мотивов, выделенных из консервативных участков выравнивания последовательностей, чьи диагностические возможности усилены многократным сканированием базы данных первичных последовательностей (Attwood et al, 1994) Первоначально это была база OWL (Bleasby et al., 1994), однако в настоящее время порождающим банком базы PRINTS, точнее, ее более современной модификации PRINTS -S, являются Swiss-Prot и TrEMBL (Attwood et al, 2000) Мотивы не пересекаются, хотя в трехмерной структуре могут контактировать. Использование групп независимых линейно или пространственно разделенных мотивов позволяет характеризовать функцию или укладку белка более гибко и полно, чем обычный однокомпонентний мотив.

Формирование отпечатка начинается с выравнивания последовательностей и выделения консервативных участков. Мотив определяется как матрица частоты встречаемости аминокислот в каждой позиции выравненного семейства Далее осуществляется повторяющаяся процедура сканирования порождающего банка с целью пополнения обучающей выборки и уточнения строения мотивов Это происходит до тех пор, пока распознавание последовательностей станет возможным даже когда часть «отпечатка» отсутствует Однако, итоговый «отпечаток» формируется только из последовательностей, содержащих все мотивы (Attwoodet al.,1999)

PRINTS снабжён биологической документацией, касающейся значимости мотивов Программное обеспечение позволяет находить сходство исследуемой АКП с индивидуальными мотивами Задавая число мотивов, с которыми должно обнаруживаться сходство, можно повышать или понижать точность и достоверность предсказания.

Основная функция банка PRINTS и его отличие от других баз данных множественных мотивов состоит в том, что он хорошо приспособлен для анализа больших сильно дивергировавших белковых семейств, разделения их на подсемейства, выявления иерархических отношений внутри суперсемейства (Attwood et al, 2003)

При создании базы данных BLOCKS (Henikoff, Henikoff, 1991) использовались группы выравненных родственных белков Prosite. Позже, для обеспечения полноты данных, ним присоединились семейства ProDom, Pfam-A и PRINTS (Henikoff et al, 2000). Все эти множественные выравнивания анализировались с помощью оригинальной программы построения блоков PROTOMAT, строящей блоки путем расширения в обе стороны коротких мотивов (Smith et al, 1990) В свою очередь, алгоритм Смита с соавторами использует в качестве параметра для оценки мотивов матрицу сходства аминокислот РАМ-250 для каждой позиции выравнивания. Этот же подход применяет и PROTOMAT. Таким образом, каждый блок имеет свой «вес», равный сумме весов каждой позиции, деленной на длину блока Далее остается только выбрать оптимальный набор непрерывных не перекрывающихся блоков, расположенных в одинаковом порядке, с максимальным весом и числом входящих последовательностей выравнивания. Такой набор называется оптимальным путем. Блоки имеют размер от 3 до 60 аминокислотных остатков и могут включать в себя от 2 последовательностей до нескольких сотен, так что сравнивать их довольно трудно. Поэтому полученные блоки подвергались процедуре калибровки. Для этого каждый блок сравнивался с последовательностями банка Swiss-Prot. Результаты анализировались, с тем, чтобы отделить по весовым показателям (Score) последовательности, использованные для создания блока (положительный результат) от всех прочих (отрицательный результат). 99.5 процентиль распределения весов отрицательных результатов была выбрана в качестве нижней границы, а среднее значение весов положительных результатов - в качестве верхней (Положительных результатов в данном случае может быть слишком мало, так что их распределение оказывается искаженным). Отношение верхнего калибровочного значения к нижнему умноженное на 1000 называется «силой» блока и служит количественной оценкой способности блока отделять положительное сходство от случайного

Такие «откалиброванные» блоки являются отличительной особенностью базы BLOCKS. При анализе новой последовательности она сравнивается со всеми блоками, формируя с каждым свою «текущую весовую матрицу» Суммарный вес матрицы делится на нижнее калибровочное значение блока, умножается на 1000, и если полученный результат оказывается больше 1000, сходство считается значимым. Тем не менее, в большинстве случаев, этот вывод требует подтверждения. А главным подтверждением будет выявление в последовательности других блоков того же оптимального пути в должном порядке и на соответствующем расстоянии друг от друга (Henikoff, Henikoff, 1991)

Помимо сравнения новой последовательности с базой для поиска гомологии, программное обеспечение позволяет проводить сравнение заданных блоков с базой первичных структур, аналогичный поиск по базе блоков (так называемое «сравнение блок-с-блоком»), а также получать филогенетические данные и информацию о трехмерной структуре (Henikoff et al., 2000)

В отличие от других методов, которые строят на отдельном участке выравнивания единственный «лучший» мотив, оптимизированный для одного уровня чувствительности и специфичности, оригинальная программа EMOTIF создает множество возможных мотивов с широким спектром этих показателей EMOTIF может строить как высокоспецифичные мотивы, с вероятностью перепредсказания не более 10 І0, так и более чувствительные, охватывающие все входящие в семейство последовательности Эта же программа может использоваться для поиска нескольких высокоспецифичных мотивов, характеризующих разные подгруппы одного семейства Комбинируя такие специфичные наборы разных подгрупп, можно описать семейство в целом

Итак, программа формирует для фрагмента выравнивания все возможные мотивы с учетом как семейства в целом, так и возможности разбиения его на подгруппы. При этом подгруппы могут пересекаться, но каждая должна охватывать определенную долю последовательностей семейства - обычно не менее 30%, но этот параметр может быть изменен

Все полученные мотивы упорядочиваются по степени специфичности, а также доле охваченных последовательностей. Более специфичные мотивы имеют приоритет над менее специфичными, а в случае совпадения этих показателей первенство принадлежит более полному мотиву.

Сравнение аминокислотных последовательностей с образами

По аналогии с паттернами банка PROSITE некоторые позиции могут быть объявлены «пассивными» или «незначимыми». Они не влияют на определение величины Qj, и при использовании образов для них не проводится сравнение (допустимы любые аминокислоты) В нашем случае пассивными позициями считались все, имеющие разнообразие аминокислот выше четырех и/или суммарную частоту встречаемости аминокислот выше 0.2.

Задав некоторое критическое значение частоты Q , для совокупности выравненных белков можно получить набор мотивов R (Q , т, п). Характеристиками мотива являются частота его встречаемости О,, определяющая его специфичность, m -позиция во множественном выравнивании и длина п

При анализе структуры банка PROSITE, было обнаружено, что около 80% паттернов банка укладываются в следующие рамки: до десяти «активных» позиций при общей длине, не превышающей 20 позиций. Эти границы использовались и при выборе мотивов образов ProfPat. Очевидно, что если в качестве характеристики мотива использовать только величину Qj, то будут отбираться самые длинные мотивы, имеющие не менее 10 активных позиций (если они не будут ограничены позициями со вставками/делециями в выравненном семействе). Поэтому, в качестве критерия отбора мотивов, удовлетворяющих пороговой частоте Q , использовалась статистика Tj = -n-1.5 lgQj

Смысл ее заключается в том, что если мотив расширяется за счет позиции, имеющей Р, 0.2, то преимущество отдастся более длинному мотиву, в противном случае, короткому Соответственно, если активная позиция следует за пассивной, то значение Р, для нее не должно превышать 0.05, то есть она должна быть, практически, инвариантной (содержать одну аминокислоту) Для того чтобы обеспечить реализацию эффективного алгоритма сравнения последовательностей с образами, требуется, чтобы каждый мотив содержал непрерывный блок не менее чем из четырех активных позиций

При формировании образов была использована адаптивная процедура выбора порога СИ. Если при фиксированном Q! число неперекрывающихся мотивов, имеющих максимальные значения Т, на сто позиций было меньше двух - порог увеличивался, если больше десяти - уменьшался до тех пор, пока в каждой сотне не оказывалось 2-Ю неперекрывающихся мотивов Однако если порог достигал 10", а число мотивов в сотне позиций все еще было менее двух, то дальнейшего повышения порога не происходило Из всего множества мотивов выбирался набор неперекрывающихся мотивов с минимальным значением S = Т\0.}

Мотивы образов представляются вырожденными словами типа К - [ D, Е ] - F -[I,V]-C-X- [A,S,T]-X-[M,N,D]. Таким образом, первичный образ белкового семейства есть упорядоченная совокупность неперекрывающихся мотивов вида г:А) - Аг-Аз- -Ап, где г - номер позиции выравненной группы белков (обучающей выборки), в которой начинается мотив, А, - множество аминокислот, присутствующих г + і-1 -й позиции обучающей выборки. Для неактивной позиции А, = X допустимы любые аминокислоты. Число "активных позиций" (Aj X) не превышает 10. Число мотивов образа не превышает пяти на каждую сотню позиций выравнивания Мотивы образов представляют интервалы позиций выравненных белков, не содержащие делеций/вставок

Каждый образ сравнивался со всеми аминокислотными последовательностями исходного файла all seq. Если 60% или более мотивов образа обнаруживали сходство с некоторой последовательностью, не содержащейся в других семействах, делалась попытка включения ее в группу, и, если при сравнении ее с последовательностями группы программой CLUSTALV обнаруживалось более чем 30% сходство, группа пополнялась и для нее формировался новый образ Если некоторый мотив образа оказывался малоспецифичным, то есть обнаруживал сходство со многими последовательностями, с которыми не были сходны другие мотивы образа, то он исключался из образа

Основной алгоритм сравнения АКП с базой образов использует конечный автомат Ахо-Корасика(Апо, Corasic, 1975), построенный на множестве частично специфицированных образцов, поиск которых осуществляется во вводимом тексте Он позволяет находить как точное соответствие фрагментов аминокислотных последовательностей мотивам образов с точностью до их вырожденности, так и случаи отдаленного сходства Алгоритм разработан в Институте Математики СО РАН группой В Д. Гусева и практически реализован Л.А Мирошниченко и А А Ярыгиным (ГНЦ ВБ «Вектор»)

При построении автомата в каждом мотиве выбираются четыре смежных позиции - ядро мотива, имеющие минимальное значение произведения Р,- и не содержащие пассивных позиций. Если обнаруживается совпадение текущего фрагмента входной последовательности с одним из образцов автомата, проводится сравнение (до первого несовпадения) остальных позиций мотива и соответствующего фрагмента последовательности

Автомат представлен как ориентированный граф, где вершины - состояния автомата, а дуги - допустимые переходы от одних состояний в другие, помеченные символами алфавита S: обозначения аминокислот. Автомат работает циклически. В каждом цикле считывается один символ текста, который определяет переход автомата от текущего состояния в новое. Поведение автомата характеризуется тремя функциями: функция переходов G (s, а), функция отказов F (s) и функция выходов О (s) Значения этих функций рассчитываются однажды при построении автомата на основе данного набора образцов На Рисунке 2 2 представлены функции автомата, построенного на наборе образцов R = {rl, г2, гЗ, r4, r5} = {he, she, his, her, hers}.

Для выявления отдаленного сходства пользователь задает матрицу близости между аминокислотными остатками (например, одну из семейств РАМ, BLOSUM и др) и D - уровень сходства в пределах мотива Ориентировочно, 100% соответствует точному совпадению с учетом вырожденности мотива, при 95% допускается одно консервативное отличие на 3-5 позиций мотива, при 90% допускается одно полуконсервативное или два консервативных отличия и т.д. Для всех состояний автомата, функция отказа устанавливается равной нулю (переход в начальное состояние) Кроме того, на вход автомата подается не полная последовательность, а специально подготовленные слова

Сравнение чувствительности и специфичности банка ProfPat при разных параметрах поиска

Как отмечалось в Главе 1, в мире существует множество «вторичных» баз данных для аминокислотных последовательностей. Для выявления преимуществ и подтверждения конкурентоспособности банка Prof_Pat, он сравнивался с наиболее известными аналогами. Сравнение проводилось двумя различными способами: по идентификации новых последовательностей с неописанной функцией и по идентификации АКП, не распознанных банком Interpro, включающим в себя целый ряд «вторичных» баз данных.

Первый способ сравнения

Проведено сравнение банка ProfPat с другими известными банками для оценки полноты данных, скорости, чувствительности и специфичности анализа аминокислотных последовательностей С этой целью из файла cumulative_dat за 06 03.2003 базы TrEMBL произвольным образом выбрали 20 АКП, принадлежащих к самым разным таксономическим группам - ох вирусов до человека. Единственное условие отбора - отсутствие какого-либо развернутого описания предполагаемой функции данного белка. Полученный набор последовательностей анализировали через Интернет в интерактивном режиме девятью известными «вторичными» банками, включая ProfPat. Оценивали время работы и число положительных результатов поиска, когда последовательность опознавалась каким-либо семейством (группой, паттерном) соответствующего банка. Параметры сравнения выбирали стандартные, то есть те, которые предлагали создатели банков. Результаты сравнения, наряду с некоторыми другими характеристиками использованных банков, приведены в Таблице 5 1.

Видно, что при использовании банка Prof_Pat результат можно получить значительно быстрее, чем для большинства аналогичных банков С одной стороны, это объясняется тем, что он может обработать за один сеанс сколь угодно большой набор (при необходимости десятки и сотни тысяч), а не единственную последовательность, и, поскольку загрузка данных и считывание результатов -процесс однократный, он меньше зависит от скорости прохождения данных, чем в случае других банков. С другой стороны, не последнюю роль здесь играет и очень быстрый алгоритм поиска ProfPat

Можно возразить, что при работе через Интернет, оценивается скорее эффективность работы каналов, чем банков данных Поэтому сравнивалась также скорость анализа баз данных, установленных на одном и том же локальном компьютере В первую очередь нас интересовал ресурс Interpro, поскольку, во-первых, он объединяет в себе множество баз данных, а во-вторых, так же как ProfPat может работать с группами последовательностей Для сравнения реальной скорости счета локальные версии банков Prof_Pat и InterPro были установлены на одном компьютере, и выяснилось, что на обработку 20 последовательностей ProfPat затрачивает почти в 100 раз меньше времени (см. Табл 5 1)

Что касается чувствительности (количества идентифицированных последовательностей), то по данным Табл 5.1 видно, что по этому параметру банки примерно одинаковы. Выделяется лишь PROSITE, обнаруживший некоторое сродство со всеми последовательностями выборки (20 из 20), но идентифицирующий подчас очень маленькие участки (например: "Protein kinase С phosphorylation site" - 3 аминокислотных остатка, "N-glycosylation site" - 4 аминокислотных остатка)

При анализе результатов сравнения оказалось, что предполагаемая функция белков не всегда определяется одинаково разными банками Чтобы выяснить, какой из этих результатов более достоверен, из банков Swiss-Prot (вып 41) и TrEMBL (вып 23) выбирали последовательности, в описании которых встречались слова (или фразы) из описаний, предложенных другими банками Эти последовательности с помощью программы CLUSTALV напрямую сравнивали с соответствующими последовательностями из изучаемого набора. Одновременно проводили сравнение изучаемых последовательностей с членами опознающих их семейств банка Prof_Pat.

На рис 5 1 приведены примеры этого сравнения, а именно, максимальные (и минимальные для банка ProfPat) уровни выявленного сходства Ясно видно, что в случае положительных результатов изучаемые последовательности гораздо ближе к опознающим их семействам банка ProfPat, чем других банков

Не все случаи несовпадения результатов представляют собой явное противоречие Так последовательность AAN31853 (Arabidopsis thahana) определяется банками Pfam и InterPro, как «AAA ATPase», в то время как ProfPat называет ее «RUBISCO ACTIVASE» (Рис. 5 1) Белки этого семейства действительно имеют соответствующий домен, однако, согласно данным SWISS-PROT, аналогичный домен содержат помимо АТФаз как таковых, некоторые протеиназы, нуклеозидазы, белки связанные с микротрубочками и внутриклеточным транспортом, белки участвующие в делении клетки, не считая нескольких десятков гипотетических белков, функция которых еще не определена Таким образом, предсказание, сделанное банком ProfPat, более конкретно.

Результаты исследования еще нескольких последовательностей, представленные в табл. 5.2, также заслуживают дополнительного обсуждения

1) Последовательность ААН27772, гипотетический белок, принадлежащий Mus musculus. Большинство банков, которые вообще предлагают какую-то классификацию этого белка, определяют его как РНК-распознающий ProfPat же, вместе с IproClass, не отрицая полностью такую возможность, называют его ДНК связывающим TAR-белком. Действительно, уровень сходства этой последовательности с белками данного семейства гораздо выше, чем с любым имеющимся в банке Swiss-Prot/TrEMBL РНК-распознающим белком. Вероятно в нем имеются РНК-распознающие домены, но в целом белок все же принадлежит к семейству TAR-белков, как определяют это ProfPat и IproClass

2) Рассуждая аналогично, можно утверждать, что последовательность ААН30923 (Mm musculus), хотя и вполне вероятно содержит анкириноподобные повторы, относится все же к NFKB-ингибиторам

3) Особенностью последовательности САА99825 {Caenorhabditis elegans) является то, что она с достаточно высокой достоверностью идентифицируется двумя разными способами - как белок, сходный с целой группой белков с неописанной функцией и как калиевый канал проводимости, активируемый кальцием

При этом как по показателю Score для банка ProfPat, так и по уровню сходства при прямом сравнении последовательностей САА99825 гораздо ближе к белкам с неописанной функцией В банке IproClass это были разрозненные гипотетические белки, в банке ProfPat они объединились в семейство, все члены которого содержат в описании идентификатор "F08A10.1" Возможно, в этом нет противоречия. Белок действительно является калиевым каналом, но семейство гипотетических белков банка Prof_Pat, к которому он без сомнения относится, тоже выполняет эту функцию, только она пока не описана Единственная в банке Swiss-Prot/TrEMBL последовательность, уровень сходства с которой выше, чем с последовательностями распознающего ее семейства ProfPat (51.75%) принадлежит фрагменту калиевого канала, а фрагменты белков в ProfPat не представлены.

4) Последовательность CAD67691 (Bovine viral diarrhea virus), по-видимому, является геликазой и как таковая входит в состав вирусного полипротеина, к которому ее с высоким уровнем достоверности относят банки ProfPat и IproClass

5) Единственной неудачей, постигшей банк ProfPat в определении предполагаемой функции неизвестного белка стала последовательность ВАС55180 (Cotesia ruficrus polydnavirus), в то время как несколько других банков определяют ее как лектин, и лишь банк IproClass уточняет, что сходство наблюдается с фрагментом. По-видимому, именно это и является причиной неудачи.