Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

База знаний по цитохромам Р450: разработка и применение Лисица Андрей Валерьевич

База знаний по цитохромам Р450: разработка и применение
<
База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение База знаний по цитохромам Р450: разработка и применение
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Лисица Андрей Валерьевич. База знаний по цитохромам Р450: разработка и применение : разработка и применение : диссертация... д-ра биол. наук : 03.00.28 Москва, 2007 274 с. РГБ ОД, 71:07-3/205

Содержание к диссертации

Введение

2. Обзор литературы 11

2.1. Информационные системы в молекулярной биологии 11

2.1.1. Глобальные информационные ресурсы 11

2.1.3. Медиаторные системы 23

2.1.4. Автоматизация поддержки информационных ресурсов 32

2.2. Информационный анализ первичной структуры белка 35

2.2.1. Выравнивание первичной структуры белков .36

2.2.2. Статистическая оценка результатов выравнивания 43

2.2.3. Информационные характеристики белковых структур 52

2.3. Вычислительные методы классификации белков 56

2.3.1. Классификация белков с применением алгоритмов выравнивания 57

2.3.2. Методы определения сходства белков без выравнивания 62

2.3.3. Пакет программ PHYLIP 64

2.4. Биоинформационные исследования надсемейства Р450 65

2.4.1. Номенклатура надсемейства цитохромов Р450 68

2.4.2. Аннотирование новых генов цитохромов Р450 70

2.4.3. Основные структурные элементы цитохромов Р450 72

2.4.4. Структурно-функциональный подход к классификации цитохромов Р450 75

2.4.5. Цитохромы Р450 в компьютерном конструировании лекарств 78

2.4.6. Обзор информационных ресурсов по тематике цитохромов Р450 80

3. Исходные данные и методы их обработки 85

3.1. Исходные данные 85

3.2. Локальное выравнивание 89

3.3. Парное глобальное выравнивание 92

3.4. Множественное выравнивание 93

3.5. Метод выявления структурно-функциональных мотивов 96

3.6. Кластерный анализ и определение оптимального уровня отсечения 99

3.7. Другие методы 102

4. Результаты и обсуждение 111

4.1. Описание базы знаний по цитохромам Р450

4.1.1. Общие принципы построения информационной системы 111

4.1.2. Главное меню программы 116

4.1.3. Обращения к категориям данных 123

4.1.4. Специальные возможности поиска данных 129

4.1.5. Механизм формирования выборок 131

4.1.6. Функции подготовки отчетов и экспорта данных 132

4.2. Применение базы знаний . 135

4.2.1. Инвентаризация и индексация надсемейства цитохромов Р450 136

4.2.2. Определение кластеров в составе надсемейства 155

4.2.3. Общее и частное в структуре белков надсемейства цитохромов Р450 173

4.2.4. Подходы к конструированию новых форм цитохромов Р450 191

4.2.5. Анализ субстратной специфичности цитохромов Р450 205

4.3. Способы верификации результатов виртуального эксперимента 214

4.3.1. Определение оптимальных параметров выравнивания 215

4.3.2. Определение оптимальной структуры протеомного индекса 225

4.3.3. Оценка достоверности критериев выявления структурно-функциональных мотивов 228

4.4. Технологии внесения новых данных в базу знаний 234

4.4.1. Обновление информации по первичным структурам цитохромов Р450 234

4.4.2. Ввод данных о функциональных свойствах цитохромов Р450 238

5. Выводы 248

6. Список научных работ по теме диссертации 250

7. Список литературы.

Введение к работе

1.1 Актуальность проблемы

Концепция замещения ранее созданных баз данных - статических информационных ресурсов - динамически развивающимися базами знаний обусловлена необходимостью своевременной разноплановой обработки накапливающегося экспериментального материала. Отличительным признаком базы знаний является гибкая структура данных, способная эффективно адаптироваться к быстро меняющимся условиям поставленной задачи. Особенно актуальной такая способность становится в контексте приложений к задачам молекулярной биологии, характеризующимся противоречием между неполнотой отобранных экспериментальных данных и системной целостностью объекта исследования -живого организма

Анализ молекулярных процессов является наиболее детальным способом изучения живых систем, который доступен современным исследователям. Технологически проведение широкомасштабных исследований молекулярных систем стало возможным благодаря созданию высокоэффективных технологий. Одновременно, достижения геномных и постгеномных технологий вывели на первый план задачи, связанные с хранением и обработкой получаемой информации. Качественный скачок в развитии молекулярной биологии, обусловленный внедрением новых технологий и накоплением множества разрозненных, но взаимодополняющих экспериментальных данных, ознаменовался появлением новой научной дисциплины - системной биологии. В рамках системной биологии концепция базы знаний получила признание как формализованный подход для выявления скрытых закономерностей в накопленных данных.

Системные подходы в молекулярной биологии находят свое отражение в
развитии баз знаний на основе исторически сложившихся глобальных
информационных ресурсов: на смену базе данных по первичной структуре белковых
последовательностей SwissProt [] приходит ресурс нового
поколения - база знаний UniProt []; база данных
геномных последовательностей GenBank

[] в настоящее время тоже рассматривается в контексте целого арсенала вспомогательных алгоритмических средств работы с данными, т.е. представляет собой базу знаний, объединяемую техническим понятием «комплекс ресурсов NCBI» []. Вышеперечисленные системы являются проблемно-ориентированными, что подразумевает хранение информации обо всем разнообразии генов и белков.

С существенным отставанием от глобальных систем хранения информации развиваются объектно-ориентированные базы знаний, к которым относится база знаний по цитохромам Р450. Задачей объектно-ориентированных ресурсов является сбор всех имеющихся данных об одном классе белков.

Объектная ориентированность базы знаний по цитохромам Р450 определяет ее уникальность и очерчивает область ее потенциального применения в научных исследованиях. Разработанная структура базы знаний позволяет в рамках одной

системы параллельно накапливать информацию о структурном и функциональном разнообразии цитохромов Р450. Структурный и функциональный потоки ахкумулируют данные независимо друг от друга, формируя объективные предпосылки для развития гипотез о наличии сгруктурно-функциональных взаимосвязей. Развитие гипотезы происходит в контексте определенной статистической или алгоритмической модели, которая строится исходя из одного типа данных, а проверяется на другом. Так, рассматриваемая в работе «островная гипотеза» [Nishikawa, 1993] строения белковых молекул, в рамках базы знаний формализуется в виде статистического метода выявления структурных мотивов двух типов путем сравнительного анализа последовательностей аминокислотных остатков [Lisitsa et а!., 2003]. Найденные структурные мотивы затем используются для корректировки существующей классификации. Вносимые корректировки, т.е. отличия традиционной классификации от варианта, построенного на основе «островной гипотезы», составляют сущность нового знания о структурно-функциональных взаимосвязях в надсемействе цитохромов Р450.

Важным фактором, определяющим значимость представляемой работы, является функциональная роль ферментов надсемейства цитохромов Р450. Реализуемая цитохромами Р450 реакция монооксигеназного катализа является необходимым звеном в обеспечении жизнедеятельности организмов, начиная с простейших и заканчивая многоклеточными эукариотами. Многогранность каталитических особенностей, структурное разнообразие известных генетических форм, широкий арсенал методов экспериментальных исследований делают цитохромы Р450 актуальным объектом для апробации технологии создания объектно-ориентированной базы знаний.

Цель работы - создать информационно-вычислительный ресурс (базу знаний), позволяющий проводить систематизированный анализ общедоступных данных о структурных и функциональных особенностях белков надсемейства цитохромов Р450. База знаний должна предоставлять интегрированную платформу для проведения исследований надсемейства биоинформационными методами. В рамках достижения поставленной цели сформулированы следующие задачи:

  1. Разработать структуру данных и способы автоматизации процедуры пополнения информационного массива; реализовать контекстно-зависимые схемы адаптации структуры данных; обеспечить автоматические средства сопряжения базы знаний с другими информационными системами.

  2. Внести в базу знаний сведения о структуре и функции цитохромов Р450, в полном объеме отражающие современный уровень исследований в данной области.

  3. Интегрировать в базу знаний базовые алгоритмы биоинформатики, предназначенные для сравнительного анализа последовательностей аминокислотных остатков; разработать интерактивные средства работы с этими алгоритмами.

  4. С использованием базы знаний выполнить комплекс работ по анализу структурно-функциональных особенностей цитохромов Р450 и предложить объективные подходы к классификации белков надсемейства.

1.2 Научная новизна и практическая значимость

Впервые показана возможность создания базы знаний и её последующего применения для решения научно-исследовательских задач, связанных с анализом надсемейства цитохромов Р450.

Разработан способ формализации эмпирических знаний, накопленных в результате экспериментов по изучению структуры и функции цитохромов Р450, и предоставлен доступ к широкому спектру биоинформациониых алгоритмов, таких, как алгоритмы выравнивания последовательностей, кластерного анализа, методы построения консенсусных последовательностей и выявления структурно-функциональных мотивов.

Проведены исследования подходов к созданию объективной классификации надсемейства цитохромов Р450 с использованием комбинации хорошо изученных методов биоинформатики. Для этого разработан инструментарий оригинальных методов, включающий:

- метод иерархического выравнивания, позволяющий осуществлять

выравнивание консенсусных последовательностей;

- метод структурно-функционального картирования, предназначенный для

обозначения на аминокислотной последовательности элементов вторичной структуры белка, субстрат-узнающих участков, точечных мутаций, структурно-функциональных мотивов и др.

- метод инвентаризации, позволяющий распределить белки надсемейства по

кластерам и реконструировать последовательность-предшественник для каждого кластера;

- метод индексирования белков, позволяющий сгенерировать целостную модель

эволюционирования белков анализируемой группы от гипотетического белка-прародителя;

- метод выявления структурно-функциональных мотивов, используемый для

обозначения в составе консенсусной последовательности статистически-значимых локальных участков консервативности.

Разработан комплекс подходов и методических приемов, который может быть использован для прогнозирования функциональной специфичности новых форм цитохромов Р450. Информация, содержащаяся в базе знаний, может быть применена при моделировании пространственных структур цитохромов Р450 и при создании структурно-функциональных моделей. Выявленные структурно-функциональные мотивы могут быть использованы при планировании генно-инженерных экспериментов по созданию искусственных форм цитохромов Р450 с новыми функциями. Практическая роль разработанной базы знаний также важна в качестве интерактивного справочного и обучающего пособия.

Впервые для отдельного надсемейства белков представлены результаты
масштабного технологического программирования, ориентированного на

организацию взаимосвязанных сценариев работы пользователя с данными. Разработанные сценарии включают в себя до 8 этапов, на каждом из которых пользователь получает дополнительную информацию об объекте исследования. Эта информация потенциально является основой для построения научных гипотез и

дальнейшего рационального планирования научно-исследовательской работы. Апробированные технологические приемы могут быть перенесены на другие группы белков, кроме цитохромов Р450, и представляют практическую значимость с точки зрения развития современных подходов к обработке молекулярно-биологических данных.

1.3 Основные положения, выносимые на защиту

  1. База знаний обеспечивает интегрированную платформу для хранения и анализа информации о структурно-функциональных особенностях белков надсемейства цитохромов Р450.

  2. База знаний поддерживает основные методы обработки информационного массива и позволяет применять эти методы для выполнения научно-исследовательской работы.

  3. Применение базы знаний позволяет систематизировать методы кластерного анализа первичных структур цитохромов Р450, установить наличие мотивов общего и частного характера и применить найденные мотивы для реализации нового способа классификации белков надсемейства цитохромов Р450.

1.4 Апробация работы

Основные положения диссертационной работы были доложены и обсуждены на симпозиумах и конференциях:

7-th International Conference "Biochemistry & Biophysics of cytochrome P450:

Structure & Function, Biotehnology & Ecological Aspekts (INCO-TNC Joint Stock

Company, 1992);

9-th International Conference "Cytochrome P450: Biochemistry, Biophysics and

Molecular Biology" (Zarich, 1995);

3-th ШВМВ Company Molecular Recognition (Singapore, 1995);

12-th International symposium on microsomes and drug oxidations (Montpellier

France Le Coram, 1998);

International workshop "From Sequence to function: Experimental and Bioinformatic

Studies of Cytochrome P450 Superfamily" (Moscow, 2000);

13 International Symposium on Microsomes and Drug Oxidation.-Stresa-Italy.-

Satellite Symposium of the VII World Conference on Clinical Pharmacology and

Therapeutics (Florence, 2000);

4-th International Conference on Molecular Structural Biology (Vienna, 2001);

12-th International Conference on Cytochrome P450. Biochemistry, Biophysics and

Molecular Biology (France, 2001);

International Meeting on Proteome Analysis (Munchen, 2001);

International Conference Genomics and Bioinformatics for Medicine (StPeterburg-

Moscow, 2002);

14th International Symposium in Microsomes and Drug Oxidation (Sapporo Japan,

2002);

13-th International Conference on Cytochromes P450 (Prague, 2003);

5th International Conference on Molecular Structural Biology (Vienna, 2003);

Сессия ИВТН (Москва, 2003);

X Российский национальный конгресс «Человек и лекарство» (Москва, 2003);

2nd International conference "Genomics, Proteomics and Bioinformatics for

Medicine" (Moscow-Pies-Moscow, 2004);

7* International symposium on Cytochrome P450. Biodiversity and biotechnology

(Japan, 2004);

XII Всероссийская научно-методическая конференция «Телематика'2005»

(Санкт-Петербург, 2005);

14* International conference on Cytochromes P450: biophysics and bioinformatics

(Dallas, USA, 2005);

HUPO 4th annual world congress (Munich, Germany, 2005);

Сессии ИВТН-2006 (Москва, 2006);

5rd International conference on bioinformatics of genome regulation and structure

(Novosibirsk, 2006);

3rd International conference "Genomics, proteomics, bioinformatics and

nanotechnologies for medicine" (Novosibirsk, 2006);

HUPO 5rd annual world congress (Long Beach, California, 2006); Статистика посещения Веб-сайта, на котором размещена база знаний (), фиксирует более 200 обращений в год, из них 80% - от иностранных коллег.

Результаты диссертации легли в основу работы «База знаний по цитохромам Р450: медицинские и биологические аспекты», удостоенной Премии Правительства Российской Федерации в области науки и техники для молодых ученых (раздел «Медицина») за 2006 год. Получено 2 свидетельства о регистрации программных продуктов для ЭВМ (№2004620199, №2006611941).

1.5 Публикации

Материалы диссертационной работы отражены в 63 публикациях: в 25 статьях и 38 материалах российских и международных научных конференций.

1.6 Объем и структура диссертации

Информационный анализ первичной структуры белка

Необходимость в подходах к смысловому анализу научных публикаций возникла значительно позже, чем необходимость в средствах анализа первичных структур белков. Тем не менее, подходы, заложенные в анализе текстов документов и последовательностей символов, кодирующих гены или белки, основаны на одних и тех же принципах. В обоих случаях входной объем информации является избыточным с точки зрения решения конкретной задачи. Например, при создании базы данных KEGG эксперты редуцируют избыточные объемы публикуемых сведений о контексте постановки эксперимента до рафинированного факта, констатирующего принадлежность белков к одному метаболическому пути.

При автоматизации работы эксперта решаются задачи определения релевантности документа и экстракции фактов из текста за счет применения устоявшихся речевых конструкций (шаблонов). При этом разработчики алгоритмов семантического анализа текстов придерживаются правил, которые аксиоматичны для случая текстов на естественных языках. Эти правила присутствуют и в области анализа структурно-функциональных взаимосвязей в генах и белках [Vinga, Almeida, 2003]. Прежде всего, понятие релевантности документов основано на их текстуальном сходстве. Аналогично, сходство функций белков определяется на основании гомологии соответствующих первичных структур. Лексические конструкции, позволяющие проводить формализацию текста на естественном языке, имеют свой аналог - паттерны (в анализе первичной структуры - это мотивы), применяемые для структурного описания механизмов функционирования биомакромолекул.

Аналогия между анализом письменной речи и исследованием первичной структуры биомакромолекул, представленной в виде текста, находит отражение в термине «декодомика». Этот термин, хотя и не получил широкого распространения, тем не менее достаточно хорошо обозначил, что при работе с последовательностями ДНК или белка исследователи прибегают к тем же самым приемам, что и при расшифровке письменных документов на естественных языках.

Далее в этом разделе будут конкретизированы вышеизложенные представления. Прежде всего, выравнивание первичных структур будет рассмотрено как средство установления сходства между белками путем сравнения их первичных структур. Будет показано, что особенности алгоритма выравнивания проявляют себя в виде понятия мотива, таким образом, выравнивание - средство констатации факта сходства структур, а мотив -отражение этого сходства. Наконец, вышеупомянутые аналитические подходы будут обобщены в рамках концепции информационного содержания первичной структуры белков.

Выравнивание последовательностей аминокислотных остатков двух или более белков является основным инструментом для установления структурного сходства. Выявленное структурное сходство затем экстраполируется на сходство функций белков. Таким образом, выравнивание рассматривается как способ прогнозирования функции новых белков путем их сравнения с ранее изученными макромолекулами.

Формально процедура выравнивания направлена на совмещение максимального количества совпадающих друг с другом аминокислотных остатков за счет введения в последовательность вставок. Вставки обозначают события молекулярной эволюции, соответствующие добавлению или выпадению части генетического материала. При проведении сравнения невозможно установить истинную природу состоявшегося события молекулярной эволюции, отображаемого вставкой. Выпадение (делеция) участка в одной последовательности эквивалентно приобретению дополнительного фрагмента (вставки) в другой последовательности. В дальнейшем термин «вставка» обозначает выполняемую алгоритмом выравнивания операцию введения пропуска (гэпа) в последовательность аминокислотных остатков.

Как правило, за исключением тривиальных случаев, наряду с совпадающими остатками в составе выравнивания допускаются замены - т.е. совмещение различных аминокислотных остатков в столбце выравнивания. С позиций молекулярной эволюции данное событие можно условно трактовать как мутационную замену одного остатка на другой.

В алгоритме выравнивания присутствуют два параметра, регулирующие выполнение вышеуказанных операций по введению вставок и замен. Введение вставок регулируется штрафами, а введение замен задается матрицами замен аминокислотных остатков.

В основу создания матриц замен положены наблюдения о том, что в ходе мутационного процесса при определенных типах замен функция белка может оставаться неизменной или изменяться в незначительной степени («молчащие мутации»). С другой стороны, известны и обратные случаи, когда замена одного остатка ведет к существенным конформационным и (или) функциональным нарушениям. Таким образом, можно прийти к заключению о неравнозначности замен. Чаще всего происходит замена остатков, сходных по своим физико-химическим свойствам; другие замены встречаются реже. Информация о частотах встречаемости различных типов замен представляется в виде матриц.

Матрицы замен формируются на основании выравнивания близкородственных последовательностей. При высокой степени сходства результат выравнивания считают достаточно объективным, а присутствующие в его составе единичные замены остатков - действительным отражением молекулярно-эволюционных событий.

Матрица замен симметрична относительно диагонали: строки и столбцы соответствуют аминокислотным остаткам. Значение матрицы на пересечении строки и столбца служит мерой для оценки допустимости замены одного остатка на другой. Анализ эмпирических способов расчета значений матрицы позволяет указать на важные аспекты современных представлений об эволюции белков.

Существуют два различных подхода к вычислению значений матрицы замен аминокислотных остатков. Первый, предложенный в работе [Dayhoff, 1978], основывается на анализе высокогомологичных структур в предположении об их эволюционной родственности. Этот подход положен в основу семейства матриц замен РАМ. Второй подход, положенный в основу формирования матриц типа BLOSUM [Henikoff, Henikoff, 1992], основывается на анализе отдельных консервативных блоков в составе множественного выравнивания.

Классификация белков с применением алгоритмов выравнивания

В основе большинства подходов к классификации белков по сходству их первичных структур лежит применение локального и глобального выравниваний. Глобальное выравнивание применяется для получения численной оценки гомологии между парой белковых последовательностей в составе матрицы попарных сравнений, которая затем обрабатывается алгоритмом кластерного анализа. Локальное выравнивание применяется для поиска гомологичных структур по заданной последовательности-запросу. В результате работы программа BLAST [Karlin, Altschul, 1990] возвращает для каждой найденной последовательности количественную оценку, характеризующую степень сходства с запросом и вероятность обнаружения сходства случайным образом.

Критерии отнесения белка к конкретной классификационной группе формализованы в виде численной оценки выравнивания и связаны исключительно со структурными особенностями сравниваемых белков. Для целей классификации, результаты выравнивания представляются в виде совокупности консервативных мотивов (доменов, паттернов и т.д.). Далее приводится описание основных систем, в которых информация о консервативных участках выравнивания применяется для классификации белков.

Примером системы, в которой решаются задачи классификации последовательностей с использованием методов выравнивания, является система COG (Clusters of Orthologous Groups) [Tatusov et al., 2003]. Система ориентированна на поддержку динамической классификации генов в масштабах целых геномов. Принцип классификации основан на выявлении ортологичных и паралогичных генов, поэтому ресурс COG служит основой для проведения исследований в области сравнительной геномики [Sonnhammer, Koonin, 2002; Wilson et al., 2000]. Реализованная в COG система классификации базируется на двух основных понятиях биологической эволюции - ортологах и паралогах, описывающих коренным образом отличающиеся типы гомологов [Fitch, 1970; Fitch, 2000; Henikoff et al., 1997]. Ортологами являются гены, произошедшие от общего предшественника в результате видовой дивергенции; паралогами называются гомологи, появившиеся в результате дублирования гена-предшественника в составе генома одного вида.

Как правило, ортологи занимают одну и ту же функциональную нишу у различных видов, в то время как паралоги развиваются по пути функциональной дивергенции. Идентификация ортологов требует филогенетического анализа целых семейств гомологичных белков, однако такой анализ достаточно сложен и часто сопровождается появлением артефактов при построении филогенетического дерева.

Для оптимизации процедуры построения филогенетических деревьев был разработан алгоритм ВеТ, который возвращает наиболее гомологичный запросу ген целевого генома [Tatusov et al., 1997; Huynen, Bork, 1998]. Основная предпосылка, лежащая в основе метода, состоит в том, что ортологичные гены более сходны друг с другом, чем любые другие гены в составе заданного генома. Пополнение ресурса происходит в полуавтоматическом режиме: в систему интегрирован алгоритм автоматического поиска возможных групп ортологичных белков с последующей экспертной проверкой и добавлением аннотаций. Областями применения системы COG являются функциональное аннотирование вновь расшифрованных геномов [Slesarev et al., 2002] и широкомасштабные исследования геномной эволюции [Jordan et al., 2001].

Стандартные процедуры выравнивания зачастую не подходят для выяснения принадлежности неизвестного белка к какому-либо классу. Причиной является то, что в ходе выравнивания не используется информация о функционально-значимых областях первичной структуры. Более оправдана идентификация классификационной принадлежности белка на основе компактных групп консервативных аминокислотных остатков, образующих известные мотивы или фингерпринты. Присутствие этих фрагментов обусловлено наличием специфических участков белка, ответственных, например, за поддержание белкового фолда или обеспечение его функциональной активности. Наиболее важные структурные особенности сохраняются в ходе эволюции и могут быть использованы в качестве характеристики белковой группы. Использование паттернов или профилей последовательностей для определения функции белков в настоящее время представляется одним из важнейших инструментальных методов анализа [Doolittle, 1986; Lesk, 1988].

В системе PRINTS [Attwood, 2001] классификация и идентификация белков осуществляется с использованием фингерпринтов. Фингерпринтом считается группа консервативных мотивов последовательности, представляющая уникальную характеристику семейства. В ресурсе депонировано более 2000 белковых фингерпринтов, охватывающих глобулярные, мембранные и другие участки белков [Attwood et al., 2003].

Инструментальные средства анализа, доступные в ресурсе PRINTS, включают в себя как средства поиска последовательностей внутри базы данных с использованием алгоритма локального выравнивания BLAST [Altschul et al., 1990], так и средства выявления фингерпринтов (модуль FingerPRTNTScan, Scordis et al., 1999). Аннотация записи содержит информацию о найденных мотивах, перекрестные ссылки на базы данных (среди которых могут быть ссылки на известные трехмерные структуры), описание функции белка и информацию об ассоциированных с этим белком заболеваниях, также дается техническое описание параметров создания фингерпринтов и набор ключевых слов для поиска.

Вся информация, представленная в PRINTS, собирается и обрабатывается экспертами, что обеспечивает высокое качество данных, но при этом является чрезвычайно трудоемким процессом, поэтому база данных на сегодняшний день отстает по объему от ресурсов, формирующихся в автоматическом режиме. В настоящее время предпринимаются попытки оптимизации процесса внесения новых данных: создан дополнительный модуль prePRINTS (http://wvyw.bioinf.man.ac.uk/prePRINTS/). в функции которого входит автоматическое обнаружение мотивов внутри белкового семейства. В основе работы prePRINTS лежат алгоритмы DIALIGN [Morgenstem, 1999] и CLUSTAL W [Thompson et al., 1994], также основанные на выравнивании.

Кроме фингерпринтов в качестве дескрипторов семейств при решении задач классификации применяются паттерны и профили. Выявленные и аннотированные дескрипторы депонируются в ресурсе PROSITE (http://www.expasy.org/prositeA [Sigrist et al., 2002], созданном в 1988 году. Каждый дескриптор снабжен характеристикой белкового семейства, домена или функционального сайта, которые могут быть идентифицированы с его использованием. Система PROSITE охватывает более 50% данных, присутствующих в ресурсе UniProt. Поиск паттернов и регулярных выражений является часто используемым инструментальным средством, предназначенным для идентификации коротких, высококонсервативных регионов, таких, как каталитические сайты, сайты связывания, посттрансляционные модификации, домены цинковых пальцев и т.д.

Кластерный анализ и определение оптимального уровня отсечения

Для проведения кластерного анализа мы использовали алгоритмы иерархической агломеративной кластеризации. В качестве исходных данных для проведения кластерного анализа использовали матрицу попарных сходств, построенную методом глобального парного выравнивания (см. выше). Матрица попарных сходств транслировалась в матрицу расстояний, путем вычитания значений идентичности из единицы. Агломеративную кластеризацию [Sneath, Sokal, 1973] проводили путем нахождения в матрице дистанций наименьшего значения и объединения соответствующих объектов в состав одного кластера. Для образовавшегося кластера рассчитывали строку расстояний для других объектов. Для расчета расстояния между кластерами R и S использовали методы одиночной связи, полной связи, средней связи. Для метода одиночной связи в качестве расстояния между кластерами использовали расстояние между двумя наиболее близкими объектами X, входящими в состав различных кластеров: При расчете полной связи в качестве межкластерного расстояния брали расстояние между наиболее удаленными объектами: При использовании метода средней связи (он же метод увязки средних, UPGMA - Unweighted Pair Group Method using Arithmetic Averages) рассчитывали среднее значение расстояний между всеми возможными парами объектов, входящих в различные кластеры: где N - число объектов в составе кластера. В составе аналитического модуля базы знаний, предназначенного для проведения кластерного анализа белковых последовательностей, также были реализованы другие методы кластеризации, включая метод Варда и метод межгрупповых связей, использующие квадраты расстояний между объектами и позволяющие формировать кластеры сферической формы. В главе «Результаты и обсуждение» представлены данные, полученные с использованием метода средней связи (если не указано иное). Для выполнения процедуры кластерного анализа использовали следующие функции языка программирования R: he - hclust (distmatrix, method) - функция осуществляет построение иерархии кластеров с учетом заданной матрицы расстояний и метода агломерации. - функция осуществляет представление иерархии в виде дендрограммы. Иерархия представляется во внутреннем формате языка программирования.

Определение оптимального уровня отсечения. Для определения границ кластеров в составе заданной иерархической кластеризации, представленной в виде дендрограммы, применяли три метода: -метод анализа динамики агломерации; -метод соответствия состава кластеров с заданными группами (индекс Джаккарда); -метод анализа расстояний между кластерами (метод Дэвиса-Болдина). Сущность метода анализа динамики агломерации заключается в построении зависимости, отражающей количество кластеров на каждом шаге процедуры объединения кластеров. При этом пологие участки кривой соответствуют низкой динамике образования кластеров и трактуются как фоновый процесс, не имеющий характеристического значения. Задача анализа динамики агломерации заключается в выявлении точек перегиба на построенной кривой, указывающих на резкое возрастание интенсивности объединения объектов в кластеры. Эта точка указывается в качестве оптимального уровня отсечения (останова). Для более точного определения точки перегиба строятся касательные к участкам кривой агломерации, как указано в [Lewi et al., 1992]. Метод соответствия состава кластеров с заданными группами реализуется путем расчета для каждого шага агломерации значения коэффициента

Джаккарда [Halkidi et al., 2001]. Состав групп задается, например, в соответствии с систематическими таксонами, выделяемыми в составе надсемейства цитохромов Р450. Для расчета индекса используются суммарные численные величины, характеризующие взаимоотношения между парами объектов. Просматриваются все пары неидентичных объектов, и подсчитываются следующие величины: А - количество объектов, вошедших в состав одного кластера и принадлежащих к одной группе; В - количество объектов, вошедших в состав одного кластера, но принадлежащих к разным группам; С - количество объектов, отнесенных в разные кластеры, но принадлежащих одной группе; D - количество объектов, отнесенных в разные кластеры и принадлежащих разным группам. Если обозначить общее количество объектов как N, то соблюдается равенство: На каждом шаге работы алгоритма кластерного анализа меняется состав и количество кластеров. Значения величин А, В, С и D изменяются и, соответственно, меняется значение индекса. При анализе зависимости индекса от шага агломерации в качестве оптимального берется уровень отсечения, для которого индекс принимает максимальное значение. Метод анализа расстояний между кластерами применяется путем вычисления значений индекса Дэвиса-Болдина (ДБ-индекс) в зависимости от шага агломерации. Данный индекс характеризует расстояние между кластерами по отношению к дисперсии объектов в составе кластеров [Halkidi et al., 2001]. Для заданного кластера вычисляется среднее расстояние между входящими в него объектами (Int). Далее, вычисляется среднее расстояние между всеми парами объектов внутри и вне кластера (Ext). В качестве значения индекса берется отношение: ДБ-индекс может быть рассчитан как для одного кластера, так и для нескольких. Для характеристики нескольких кластеров используется среднее значение индивидуальных ДБ-индексов для каждого кластера. Для заданной дендрограммы строится зависимость значения ДБ-индекса от шага агломерации. В качестве оптимума берется уровень отсечения с наименьшим значением индекса. Метод структурно-функционального картирования. Структурно-функциональное картирование - методический прием, применяющийся в рамках базы знаний по цитохромам Р450 для аннотирования первичных структур надсемейства. Аннотирование подразумевает разметку на последовательности участков с известными структурно-функциональными особенностями.

Инвентаризация и индексация надсемейства цитохромов Р450

Технологии инвентаризации и индексации направлены на решение задачи объективного представления массива сведений о первичной структуре белков одного надсемейства. Обработка выполняется для набора последовательностей аминокислотных остатков в однобуквенной кодировке, снабженных уникальными идентификаторами согласно требованиям формата FASTA. В ходе инвентаризации доказывается принадлежность каждого из предъявленных белков к одному надсемейству, или, если принимается постулат о том, что предъявленные данные априори относятся к одному надсемейству, то проводится формальное подтверждение его целостности. Для анализа принадлежности белков к надсемейству используется программа локального выравнивания BLAST.

На следующем этапе (см. рис. 12) производится построение иерархической кластеризации белков надсемейства и разбиение исходных данных на соподчиненные группы. Качество процесса автоматического формирования кластеров оценивается путем сравнения их состава с составом заранее известных номенклатурных групп - семейств и подсемейств. Итогом инвентаризации является установление критериев для автоматического формирования семейств и подсемейств.

В настоящем разделе термин «границы кластеров» используется в традиционном понимании, как уровень отсечения, проведенный на дендрограмме кластерного анализа [Черныш, 2000]. Далее, в подразделе 4.2.3. «Общее и частное в структуре белков надсемейства цитохромов Р450» доказывается, что в отношении надсемейства цитохромов Р450 понятие кластера следует трактовать расширенно не только с учетом топологических свойств кластерной дендрограммы, но и с учетом особенностей, присущих кластеризуемым объектам - т.е. последовательностям аминокислотных остатков (в качестве такого рода особенностей рассматривается наличие структурно-функциональных мотивов).

Распределение входных данных по иерархически соподчиненным кластерам позволяет осуществить построение консенсусных последовательностей для каждого кластера. Для этого использовался алгоритм множественного выравнивания и средства оптимизации результатов его работы, указанные в подразделе 4.3.1. «Определение оптимальных значений параметров выравнивания».

Процедура инвентаризации завершается проведением иерархического выравнивания и формированием общего консенсуса для всего надсемейства цитохромов Р450. Функциональное назначение вошедших в консенсус надсемейства элементов обсуждается с целью обоснования концепции наличия мотивов частного и общего в составе структур цитохромов Р450.

На основе результатов инвентаризации проводится построение протеомного индекса надсемейства. Индексирование - это процедура упорядочивания белков согласно унифицированному принципу. В качестве такого рода принципа в данной работе предлагается использовать «расстояние» белка от своего гипотетического прародителя, представляемого в виде консенсусной последовательности. Итогом индексации является присвоение каждому белку уникального трехпозиционного идентификатора.

Контроль целостности надсемейства. Первой задачей инвентаризации является проверка целостности предъявленной выборки белков, направленная на установление их принадлежности к одному надсемейству. Средняя идентичность первичных структур в выборке не превышает 25% и сравнима с таковой для случайно сгенерированных последовательностей сходного с цитохромами Р450 аминокислотного состава [Archakov et al., 1998]. Поставленная задача - установить, действительно ли все включенные в выборку последовательности являются цитохромами Р450, - решалась с применением программы BLAST. Каждая последовательность поочередно становилась целевым поисковым запросом, и в результате поиска фиксировался минимальный вес и максимальная вероятность случайного совпадения. Таким образом, устанавливалась нижняя граница сходства белков надсемейства в терминах оценок, предлагаемых программой BLAST. Оказалось, что минимальный вес, который может быть получен при сравнении двух последовательностей цитохромов Р450, равняется 48, причем вероятность того, что это совпадение носит случайный характер (e-value) равна 10 \ Значение е- value для случайно сгенерированных последовательностей не опускается ниже 10"1-10"2(4). Можно заключить, что белки надсемейства цитохромов Р450 обладают статистическими особенностями, которые могут быть выявлены с использованием процедуры локального выравнивания. В дальнейшем этот тезис получает свое развитие в ходе доказательства существования формальных мотивов общности в первичной структуре цитохромов Р450.

Применение программы BLAST позволило установить, что все без исключения последовательности, содержащиеся в составе базы знаний, являются цитохромами Р450 не только с субъективной, но и со строго с формальной точки зрения. Такой вывод состоятелен с оговоркой, что группа является целостной в терминах способа ее анализа (при помощи программы BLAST). Однако опыт использования этой программы и четкое статистическое обоснование заложенного в ней алгоритма служат аргументами в пользу правомочности заключения о целостности группы.

База знаний по цитохромам Р450 за счет поддерживаемых в ней аналитических механизмов позволяет в автоматическом режиме проводить контроль целостности надсемейства. С практической точки зрения это качество разработанной информационной системы может быть использовано для поиска новых членов надсемейства в глобальных банках данных. Необходимый для этого прикладной инструментарий поддерживается в составе модуля ProtClust, возможности которого рассматриваются в подразделе 4.2.2. «Определение кластеров в составе надсемейства».

Кластерный анализ и определение границ кластеров. Кластерный анализ проводился методом увязки средних [Sneath, Sokal, 1973]. Это один из самых тривиальных методов агломерации, работающий на основе матрицы попарных расстояний. Расстояния между последовательностями оценивались по алгоритму парного выравнивания. В ходе кластеризации на каждом шаге объединяются элементы, расстояние между которыми минимально (или идентичность максимальна).

Похожие диссертации на База знаний по цитохромам Р450: разработка и применение