Содержание к диссертации
Введение
1 Методы извлечения знаний о молекулярных взаимодей ствиях из фактографических баз данных и электронных текстов научных публикаций 15
1.1 Знания и онтологии 15
1.2 Введение в технологию Text-mining 21
1.3 Извлечение знаний из фактографических баз данных . 24
1.4 Классификация документов 24
1.5 Распознавание имён в текстах 26
1.6 Экстрагирование из текстов информации о взаимоотношениях сущностей 28
1.7 Генерирование гипотез 32
1.8 Основные выводы по методам извлечения знаний о молекулярных взаимодействиях из фактографических баз данных
и электронных текстов научных публикаций 33
1.9 Общее понятие ассоциативной или семантической сети . 35
2 Представление и накопление знаний о молекулярных взаимодействиях в виде ассоциативных семантических сетей 38
2.1 Онтологическая модель 38
2.2 Методы представления знаний о молекулярных взаимодействиях в виде ассоциативной семантической сети 39
2.3 Описание типов молекулярно-генетических объектов и связей между ними 42
2.3.1 Описание типов молекулярно-генетических объектов 42
2.3.2 Описание структуры иерархии типов связей 42
4 Развитие словарей и тезаурусов в предметной области 45
2.4.1 Извлечение наименований метаболитов, используемых в базах данных KEGG и ChEBI 47
2.4.2 Извлечение наименований белков, используемых в базе данных SwissProt 49
2.4.3 Извлечение наименований генов, используемых в базе данных Eritrez Gene 50
2.4.4 Извлечение наименований микроРНК, используемых в базе данных MirBase 51
2.4.5 Извлечение наименований заболеваний, используемых в базе данных PharmGKB 51
2.4.6 Извлечение наименований клеточных компонент и биологических процессов, используемых в базах дан ных GO Cellular component и GO Biological processes 52
5 Анализ текстовых источников информации с целью со ставления словарей для описания знаний о молекулярно- генетических объектах и системах 54
2.5.1 Расширение синонимов молекулярно-генетических объектов 55
2.5.2 Извлечение названий новых молекулярно-генетических объектов 55
6 Разработка алгоритмов извлечения знаний по молекулярным взаимодействиям из текстов научных публикаций 56
7 Анализ фактографических баз данных с целью получения знаний о физических молекулярно-генетических взаимодействиях 59
2.7.1 Извлечение информации о взаимодействиях молекулярно-генетических объектов из фактографических баз данных 59
2.7.2 Анализ структуры баз данных MINT и IntAct . 60
2.7.3 Анализ структуры базы данных TRRD 61
2.7.4 Анализ базы данных GeneNet с целью извлечения описаний сетей молекулярно-генетических взаимодействий 61
2.8 Методы анализа ассоциативных сетей знаний с целью получения новых знаний 63
2.9 Функциональная схема системы извлечения знаний о молекулярных взаимодействиях в клетке 68
2.10 Реляционная модель представления ассоциативных сетей . 70
2.10.1 Представление молекулярно-генетических и биологических объектов в базе знаний ассоциативных сетей . 70
2.10.2 Представление связей между молекулярно-генетическими и биологическими объектами в базе знаний ассоциативных сетей 72
2.10.3 Результаты интеграции данных 72
Описание возможностей системы AND 75
3.1 Описание средств разработки 75
3.2 Описание интерфейса и функционала 77
3.2.1 Составление запросов к базе данных ассоциативных сетей 78
3.2.2 Раскладка сети на экране монитора 84
3.2.3 Поиск объектов в сети 85
3.2.4 Редактирование сети 86
3.2.5 Анализ ассоциативных сетей 87
3.2.6 Сохранение сетей 89
3.3 Алгоритмы раскладки графа 90
3.3.1 Система уравнений для первого алгоритма раскладки 91
3.3.2 Система уравнений для второго алгоритма раскладки 93
3.3.3 Решение системы нелинейных уравнений 95
3.3.4 Паралельная схема работы алгоритмов 95
4 Применение разработанной системы AND для анализа человеческого протеома 98
4.1 Предсказание влияния мутации на стабильность белков . 98
4.1.1 Введение 98
4.1.2 Кодирование данных для предсказания изменения термодинамической стабильности 100
4.1.3 Алгоритм модифицированный КРАБ 103
4.2 Алгоритм кластеризации графа 105
4.3 Построение сети взаимосвязи человеческих белков 107
Заключение 111
Литература
- Экстрагирование из текстов информации о взаимоотношениях сущностей
- Методы представления знаний о молекулярных взаимодействиях в виде ассоциативной семантической сети
- Извлечение наименований белков, используемых в базе данных SwissProt
- Извлечение информации о взаимодействиях молекулярно-генетических объектов из фактографических баз данных
Введение к работе
Объект исследования и актуальность темы. Активное применение современных информационных технологий, средств вычислительной техники и методов прикладной математики в области молекулярно-биологичеких и биомедицинских исследований заложили фундаментальную основу развития такого направления как биоинформатика [15].
Широкомасштабное секвепирование геномов, экспериментальные методы протеомики, геномики и транскриптомики обеспечивают колоссальный рост молекулярно-биологической информации, которую принципиально невозможно осмыслить и переработать без использования специальных программно-информационных средств. Во всем мире интенсивно ведутся исследования в области организации биологических систем и технологий, в частности: высокопроизводительных биочиповых (ДНК-микрочипы, белковые, клеточные и тканевые микрочипы, микрочипы на основе малых молекул); протеомных и метаболомных экспериментальных технологий, широко используемых в биомедицине, фармакологии, биотехнологии, агробиологии и других областях. При этом следует отметить, что в настоящее время активное развитие экспериментальных методов идентификации молекулярных взаимодействий на самых разных уровнях организации биологических систем значительно опережает развитие биоинформатических средств поддержки, анализа и интерпретации результатов экспериментов [15]. Всё большую актуальность приобретают вопросы интеграции результатов анализа и интерпретации молекулярно-генетических данных, состоящие в выяснении связи генов, белков и метаболитов с функционированием молекулярно-генетических систем, с молекулярно-биологическими информационными ресурсами при формировании новых знаний в рассматрива емой области. Следует отметить, что знания о молекулярно-генетических взаимодействиях в клетке необходимы для решения широкого круга практически важных задач в области биотехнологии и агробиологии, биомедицины и фармакологии, в частности:
• поиск мишеней для создания лекарственных препаратов;
• оценка потенциальной эффективности и токсичности новых препаратов в доклинических испытаниях;
• идентификация биомаркерных молекул для создания эффективных диагностических систем;
• идентификация важных для продуктивности сельскохозяйственных культур генов;
• выбор генов-кандидатов для генотипирования.
Создание новых и идентификация существующих знаний, их применение на практике для диагностики, предупреждения и лечения различных заболеваний — одна из целей молекулярно-биологических и биомедицинских исследований, а разработка эффективных систем поддержки этих процессов на основе современных информационных технологий и концепции систем управления знаниями — одна из приоритетных задач биоинформатики [15].
На современном этапе из-за высоких темпов роста публикаций и электронных баз данных (БД) в области исследований биологических систем и разработки технологий особую актуальность приобретают вопросы создания адекватного инструментария для систематизации проблемной информации и решения задач идентификации существующих знаний. В частности, в условиях большого потока информации становится все сложнее восстанавливать недостающие связи между молекулярно-генетическими объектами, которые могут приводить к практическому использованию накопленных знаний.
Например, БД данных рефератов научных статей по современным исследованиям в области генетики, молекулярной биологии и биомедицины Pubmed [1] содержит около 15 миллионов публикаций на конец 2006 года и их объем увеличивается в среднем на 500 тысяч статей в год [1]. Созданные в мире тысячи фактографических медико-биологических БД содержат разнообразную информацию о биологических объектах и их взаимодействиях на уровне геномов, клеток и организмов. Объёмы этих БД чрезвычайно велики. Так, БД NCBI Gene [26] содержит 1933023 записей (2006 год), количество которых постоянно увеличивается.
Существуют базы данных содержащие информацию о полиморфизмах, связанных с заболеваниями человека, животных и растений (например, база данных OMIM [48] содержит информацию о 17212 генах, связанных с патологиями человека).
В базе данных Gene Ontology [29] представлено формализованное описание молекулярных функций белков и генов, процессов, в которых они участвуют (130696 биологических процессов и 128548 молекулярных функций для 107701 клеточных компонент).
В базах данных KEGG [28], ЕсоСус [25], MetaCyc [42], GeneNet [ЗО] и др. представлены миллионы фактов о биомедицински и биотехнологиче-ски значимых молекулярно-генетических взаимодействиях, генных сетях, метаболических путях, путях передачи сигналов и др.
Если учесть, что заметная часть информации в БД по данному направлению слабо структурирована и представлена в текстовом виде, то становится ещё более очевидной актуальность соответствующего математического и -программного инструментария.
Создание новых и идентификация существующих знаний как базовые виды деятельности в жизненном цикле знаний рассматриваются в качестве системообразущих объектов в системах управления знаниями (СУЗ). Активные исследования в области создания СУЗ начались с 90-х годов прошлого столетия. Среди авторов публикаций- следует выделить исследова ния О. Bodenreider, К.М. Wiig, Т.Н. Davenport, L. Prusak, S.B. Martins, H. Takeuchi, J.M. Firestone, I. Nonaka, СМ. Климова, T.A. Гавриловой, А.Ф. Тузовского и В.З. Ямпольского.
Анализ работ этих авторов показывает, что одним из основных подходов к созданию СУЗ и его компонент является семантический подход, который основан на использовании методов и технологий по работе со смыслом, семантикой данных, информации и знаниями, таких как онтологии предметных областей, технологии их построения и сопровождения, семантические метаданные, семантический поиск, системы логического вывода, семантическое профилирование знаний экспертов, семантические порталы и сети и т.п. И все это с соответствующей технологической поддержкой в части языков описания, моделей, программных инструментов и систем.
Существуют различные методы представления накопленных знаний, в число которых входят продукционные модели, семантические сети, фреймы и онтологии. Из перечисленных наиболее часто в биологических системах применяются семантические сети и онтологии [13,49,55,65].
Цель работы: разработка комплекса методов, моделей и алгоритмов для создания информационно-программной системы обеспечения поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований на основе автоматизации процесса реконструкции сетей ассоциативных взаимосвязей между молекулярно-генетическими объектами из научных текстов и фактографических баз данных.
Для достижения поставленной цели исследования были поставлены и решены следующие задачи:
1. Выявление состава и структуры знаний с созданием онтологической модели их представления для исследований в области молекулярно-генетических взаимодействий.
Разработка подходов и методов извлечения знаний из текстовых ис точников информации для заданной предметной области.
3. Разработка средств интеграции информации, накопленной в существующих открытых фактографических базах данных.
4. Разработка архитектуры программно-информационной системы для автоматизации реконструкции сетей ассоциативных связей на основе созданной онтологической модели, реализация её в виде программно-информационного комплекса с графическим пользовательским интерфейсом.
5. Апробация технологии применения разработанной программно-информационной системы на примере решения задачи анализа особенностей ассоциативных белковых сетей человека.
Методы исследования. Для решения поставленных задач в работе используются методы системного анализа, теории графов, теории создания систем управления знаниями, объектно-ориентированного проектирования и программирования.
Научная новизна. В диссертационной работе предложен подход к решению задач по обеспечению одного из базовых видов деятельности в жизненном цикле знаний: поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований, который реализован в виде проблемно-ориентированной информационно-программной системы — одной из основных подсистем системы управления знаниями в рассматриваемой области.
Получены следующие основные результаты, обладающие научной новизной:
1. Предложена онтологическая модель для описания молекулярно-генетических объектов, процессов, заболеваний и взаимоотношений между ними.
2. Разработан новый метод извлечения информации о молекулярно-генетических взаимодействиях из текстов рефератов научных статей и общедоступных фактографических баз данных, ориентированных на фармакологию, биотехнологию и биомедицину.
3. На основе предложенных онтологической модели, методов и алгоритмов разработана первая отечественная информационная система Associative Network Discovery (ИС AND), которая по полноте представления типов взаимодействий и извлечённых фактов превосходит аналогичные зарубежные разработки.
4. Разработан метод машинного обучения на основе известного алгоритма КРАБ, адаптированный для предсказания изменения термодинамической стабильности белка при одиночной аминокислотной замене.
5. С использованием созданной ИС и адаптированного метода КРАБ проведён анализ человеческого иротеома на предмет влияния аминокислотных замен на термодинамическую стабильность белков.
Научная и практическая ценность. Разработанная на основе предложенных методов, моделей и алгоритмов ИС AND обеспечивает компьютерную поддержку исследований в таких областях современной науки как молекулярная биология, генетика, биотехнологии, биомедицина, фармакология, агробиология и др. Система позволяет проблемным специалистам легко ориентироваться в огромных гетерогенных хранилищах знаний в области биологии и медицины, быстро извлекать необходимую информацию с достаточно высокой точностью и осуществлять своевременный мониторинг вновь появляющихся фактов. Она может быть полезна для студентов, аспирантов и молодых учёных для быстрого погружения в предметную область и ознакомления с новейшими открытиями, связанными с интересующими исследователя биологическими объектами. ИС AND закладывает базу для создания СУЗ в области молекулярно-биологических исследований.
Реализация и внедрение результатов работы. Система AND внедрена в Институте цитологии и генетики СО РАН (г. Новосибирск) с целью получения новых знаний, проведения прикладных исследований и опытно-конструкторских разработок в таких областях, как системная биология, структурная и функциональная геномика, транскриптомика, про-теомика, метаболомика и др.
Структура работы. Работа состоит из введения, четырёх глав, заключения, выводов, восьми приложений и списка литературы.
В первой главе содержится обзор литературы но способам представления знаний, методам извлечения знаний о молекулярных взаимодействиях из фактографических баз данных и электронных текстов научных публикаций, а также основные понятия технологии Text-mining и систем поддержки принятия решений. Рассматривается только часть задач, которые решаются в рамках технологии Text-mining.
Глава 2 содержит описание онтологической модели представления знаний о взаимосвязях между молекулярно-генетическими объектами, заболеваниями и процессами. В главе описываются методы извлечения информации из доступных фактографических баз данных. А также способы расширения словарей названий молекулярно-генетических объектов, процессов и заболеваний и алгоритмы извлечения фактов взаимодействия между ними из текстов научных статей.
Глава 3 содержит описание архитектуры информационной системы AND. Описаны средства разработки, используемые при создании информационной системы, и графический интерфейс пользователя для взаимодействия с базой данных ANDCell. А также дано описание алгоритмов раскладки ассоциативных сетей в пространстве, реализованные в системе.
Четвёртая глава содержит описание применения разработанной информационной системы AND для анализа человеческого протеома. В главе описаны метод машинного обучения модифицированный КРАБ и алгоритм кластеризации графов. А также проведён анализ кластеров чувствительных к мутациям белков.
В заключении осуждаются и обобщаются основные результаты исследования.
Положения, выносимые на защиту.
1. Онтологическая модель представления знаний о взаимосвязях между молекулярно-генетическими объектами, заболеваниями, процессами и клеточными компонентами.
2. Метод извлечения знаний о молекулярно-генетических взаимодействиях на основе технологии Text-mining.
3. Информационная система обеспечивающая экстракцию и интеграцию знаний о молекулярных взаимодействиях из гетерогенных источников информации.
4. Клиент-серверная архитектура программно-информационной системы AND для автоматизации процессов реконструкции сетей ассоциативных связей на основе созданной онтологической модели.
5. Алгоритмы раскладки графа ассоциативных сетей на плоскости.
6. Метод предсказания изменения термодинамической стабильности белков при одиночных аминокислотных мутациях на основе адаптированного метода КРАБ.
Апробация работы. Результаты работы докладывались и обсуждались на следующих конференциях:
• международная конференция «The Sixth International Conference on Bioinformatics of Genome Regulation and Structure (BGRS 2008)» (Новосибирск, Россия, 2008 г.);
• международная конференция «3-rd Moscow Conference on Computational Molecular Biology» (Москва, Россия, 2007 г.);
• международная конференция «The fourth Moscow International Congress Biotechnology: State of the Art and Prospects of Development» ( Москва, Россия, 2007 г.);
• международная конференция «8th Meeting German / Russian Virtual Network on Computational Systems Biology» (Билефельд, Германия, 2007 г.);
• международная конференция «3-rd International Conference: Basic Science for Medicine» (Новосибирск, Россия, 2006 г.);
• международная конференция «The Fifth International Conference on Bioinforrnatics of Genome Regulation and Structure (BGRS 2006)» (Новосибирск, Россия, 2006 г.);
• российская конференция «VI Всероссийской научно — практической конференции AS 2007 (СИСТЕМЫ АВТОМАТИЗАЦИИ в образовании, науке и производстве)» (Новокузнецк, Россия, 2007 г.).
Экстрагирование из текстов информации о взаимоотношениях сущностей
Основываясь на распознавании имён биологических сущностей в текстах, становится возможным сделать следующий шаг — экстрагировать из текста информацию о взаимоотношениях двух или нескольких сущностей (рис. 1.3). В зависимости от специфичности метода, ассоциация между двумя понятиями может распознаваться либо поверхностно (как факт наличия взаимоотношения), либо более точно с указанием точных параметров (тип и направление взаимодействия объектов).
Как правило, в задаче извлечения информации используют три подхода:
1. Подход, основанный на статистически значимых значениях совместной встречаемости имён биологических объектов в текстах. Этот метод прост в реализации и дает высокое значение полноты поиска, однако точность таких подходов невелика. Кроме того такой подход не позволяет определять параметры взаимоотношений между объектами, такие как тип взаимодействия или его направление.
2. Подход, основанный на правилах или шаблонах. Это так называемый "поверхностный разбор" (Shallow parsing). В этом подходе делается попытка извлечь из предложения информацию, используя неполные связи между словами в предложении.
3. Подход, основанный на описании языка с помощью формальной грамматики. Это так называемый "полный разбор" (Full parsing). Этот подход довольно сложен и требует серьезной подготовки в области компьютерной лингвистики и поэтому не всегда может применяться. Существует большое количество разнообразных грамматик, и способов описать полную структуру предложения. Ярким представителем первого подхода является система PUBGENE SYNONIM яіЯвоио п Рис. 1.3. Пример извлечения информации об ассоциации между молекулярно-юнетическими объектами из текста[40].
Метод, положенный в ее основу позволяет выявлять объекты, имена которых совместно встречаются в текстах рефератов PubMed, ранжировать взаимодействующие пары но значимости (вероятности их взаимодействия) и представлять полученные ассоциации в графическом виде в форме сетей взаимодействий. Максимальная точность метода, используемою в PubGene составляет 71%.
Система PubGene интегрирует различные возможности анализа полученных «литературных сетей», такие как поиск ассоциаций сети с биологическими процессами, наложение данных ДНК-чиповых экспериментов на литературные сети, кластеризация сетей и другие возможности (рис. 1.4).
В качестве иллюстрации второю подхода, основанною на применении шаблонов, можно привести систему SUISEKI [12]. Для определений в тексте названий белков/генов (эти понятия не различаются) в системе используется поиск имён по словарю. Для извлечения информации о взаимодействиях используются шаблоны взаимодействий. Примером шаблона может служить выражение: [proteins] (0-5 words) [verbs (0-5) [proteins]. Выражение в квадратных скобках определяет класс объекта, а в круглых — количество повторений.
Авторы метода SUISEKI приводят следующие оценки точности системы: точность — 50 — 80%, полнота — 40 — 70%. Пределы указывают возможность настройки системы. При увеличении одного показателя другой уменьшается.
Примером системы, использующей полный разбор и лингвистический анализ текста, служит программа MedScan [47] (рис. 1.5), являющаяся частью системы PathwayStudio [51. Данная система можег распознавать в тексте различные типы биологических объектов: белки/гоны (авторы не разделяют между собой эти два понятия) низко молекул ирные вещества, клеточные процессы, лекарства и др.
Определение названий объектов основано на информации из словаря. При распознавании названий объектов в текстах используется разбиение на лексемы словарных названий с одной стороны и текста с другой с Рис. 1.5. Интерфейс модуля анализа текстов MedScan, функциональной части системы PathwayStudio. Слева — список проанализированных предложений с разметкой найденных терминов. Справа вверху — список найденных ассоциаций. Справа внизу — список ассоциаций, выбранных для дальнейшей визуализации.
последующим сравнением полученных наборов лексем. Такой подход позволяет повысить точность распознавания имён объектов по отношению к простому посимвольному сравнению строк. Для извлечения информации о взаимодействии объектов используется полный разбор предложения. Строится множество деревьев описывающих структуру предложения и задаётся набор правил, каждое из которых проверяет правильность каждою построенною дерева. Точность полученных данных составила 91%, а полнота 30-50%.
Система PathwayStudio позволяет представлять взаимодействия между объектами в виде сетей взаимодействий (рис. 1.6). Работа с системой мо-жег включать такие шаги как реконструкция сетей взаимодействий между белками, метаболитами, заболеваниями и молекулярно-генегическими
Методы представления знаний о молекулярных взаимодействиях в виде ассоциативной семантической сети
Для описания взаимоотношений между объектами было составлено иерархическое представление о типах взаимосвязей между объектами. Наиболее широким является представление об ассоциации между объектами, то есть связь между объектами не имеет чётко определённой семантики, а задаёт потенциальную связь, смысл которой может быть уточнён в результате дальнейшего анализа.
На следующем уровне иерархии взаимоотношения между объектами подразделяются на: физические взаимодействия, то есть образование короткоживущих или постоянных молекулярных комплексов. Физические взаимодей ствия могут связывать два или более белков, белок и низкомолекулярное вещество — лиганд, белок и ген (взаимодействие транскрипционного фактора с промоторным районом гена), белок и клеточную компоненту, два или более низкомолекулярных вещества, две или несколько клеточных компонент. химические взаимодействия или реакции регуляторные взаимодействия, то есть влияние одного объекта на другой, коэкспрессия, то есть одновременная экспрессия нескольких генов, которая была вызвана общими регуляторными механизмами, активизирующими экспрессию генов при меняющихся условиях в клетке. лечение — то есть применение молекулярного агента для лечения определённого заболевания. Во взаимодействиях этого типа могут принимать участие белки и низкомолекулярные вещества — лекарства. К химическим взаимодействиям относятся: превращения одних молекул в другие. Такой тип приписывается реакции в том случае если не указан фермент, катализирующий реакцию, а также если реакция протекает без участия катализатора. В превращениях участвуют только низкомолекулярные вещества. К превращениям относятся также взаимодействие между начальным и конечным продуктом метаболического пути, содержащего несколько промежуточных этапов, не описанных в тексте. каталитические реакции, в которых участвуют низкомолекулярные вещества в качестве субстратов и продуктов, а также белок в качестве фермента, осуществляющего катализ этой реакции. расщепление одного белка (субстрата) другим белком (протеолити-ческим ферментом).
Регуляторные взаимодействия могут быть разделены по типу регуляции на: — регуляцию экспрессии генов транскрипционными факторами, а также их лигандами. В эту категорию входят как прямые регуляторные события, то есть регуляция экспрессии гена транскрипционным фактором, физически взаимодействующим с промотором этого гена, так и опосредованные регуляторные влияния ли-гандов этих факторов, а также белков, входящих в регулятор-ный путь, включая рецептор и белки сигнального пути. — регуляцию активности или функции белка, гена, клеточной компоненты или молекулярно-генетического процесса. В качестве регулятора может выступать белок, низкомолекулярное вещество, клеточная компонента. — регуляцию транспорта белков или низкомолекулярных веществ между компартментами клетки, а также секрецию этих молекул из клетки. В качестве регуляторов транспорта могут выступать белок, низкомолекулярное вещество или клеточная компонента. — регуляцию стабильности или деградации молекулярных объектов. Объектом регуляции могут быть молекулярные структуры белков, матричные РНК, считываемые с генов, клеточные компоненты и низкомолекулярные вещества. Регуляторами, как и в предыдущих случаях, могут являться белки, низкомолекулярные вещества, клеточные компоненты и молекулярно-биологические процессы. — Регуляцию молекулярно-биологических процессов и заболеваний. В качестве регуляторов могут выступать белки, низкомо-лекуляриые вещества, гены, процессы и клеточные компоненты
Извлечение наименований белков, используемых в базе данных SwissProt
База данных SwissProt представляет собой набор входов (карточек) каждая их которых соответствует описанию одного белка из определенного организма. В приложении А.З приведён пример записи из базы данных SwissProt. В словарь синонимов белков включалась информация о синонимах названий объектов, указание на организм или ткань, в которой экспрес-сируется этот белок, а также ссылки на базы данных. Данные о синонимах объектов извлекаются из полей DE и GN (Gene и Synonyms). Основным именем белка будет являться название, извлеченное из первой части поля ID (до знака «_»). Информация об организме извлекалась из поля ОС. Источником информации о ссылках на базы данных являлось поле АС, содержащее идентификатор данного белка в базе SwissProt, а также поле DR, содержащее ссылки на другие базы данных по белкам.
База данных Entrez Gene представляет собой набор таблиц, содержащих описательную информацию обо всех известных генах. Для составления словаря синонимов названий генов решено было использовать таблицу Gene-info. В приложении А.4 приведён фрагмент таблицы Gene-info:
Поле Symbol используется для извлечения основного имени гена. Из полей Synonyms, Full name from nomenclature authority и Symbol from nomenclature authority извлекаются синонимы названия гена.
Поле tax_id содержит ссылку на базу данных организмов. Поле dbXrefs содержит ссылки на внешние базы данных . Из этого поля наряду с идентификатором гена в базе Entrez Gene из поля GenelD извлекается информация о ссылках на базы данных.
Для составления словаря названий микроРНК решено было использовать базу данных MirBase, представляющую собой таблицу, описывающую известные микроРНК. Ниже приведён фрагмент базы данных MirBase:
1 MI0000001 cel-let-7 Caenorhabditis elegans let-7 stem-loop UACACUGUGGAUCCGGUGAGGUAGUAGGUUGUAUAGUUUGGAAUAUUACCACCGGUGAACUAUGC AAUUUUCUACCUUACCGGAGACAGAACUCUUCGA let-7 is found on chromosome X in Caenorhabditis elegans [1] and pairs to sites within the 3 untranslated region (UTR) of target mRNAs, specifying the translational repression of these mRNAs and triggering the transition to late-larval and adult stages [2].
2 MI0000002 cel-lin-4 Caenorhabditis elegans lin-4 stem-loop AUGCUUCCGGCCUGUUCCCUGAGACCUCAAGUGUGAGUGUACUAUUGAUGCUUCACACCUGGGCU CUCCGGGUACCAGGACGGUUUGAGCAGAU lin-4 is found on chromosome II in Caenorhabditis elegans [1] and is complementary to sequences in the 3 untranslated region (UTR) of Iin-14 mRNA. lin-4 acts to developmentally repress the accumulation of Iin-14 protein. This repression is essential for the proper timing of numerous events of Caenorhabditis elegans larval development [2].
Из третьего столбца таблицы извлекается название микроРНК, из четвёртого — организм, ее экспрессирующий, из второго — ссылка на идентификатор базы данных MirBase.
Доступ к базе данных PharmGKB осуществляется через web-интерфейс, что обуславливает необходимость создания дополнительного модуля программы-конвертера, осуществляющего по отдельности загрузку каждого входа, описывающего одну болезнь в формате html. Экспертный анализ полученного файла позволяет выявить блоки html-кода, содержащие информацию об основном названии заболевания, его синонимах и идентификаторе в базе данных PharmGKB.
База данных Gene Ontology (GO) состоит из трех разделов: GO Cellular component, GO Biological processes и GO Molecular function. В разделе GO Cellular component содержится информация о названиях клеточных компонент, в GO Biological processes накапливаются данные по названиям биологических процессов, а в GO Molecular function описываются молекулярные функции белков. Также база данных содержит краткую характеристику компонент, процессов и функций. База данных Gene Ontology на настоящий момент признана в мире как наиболее полная онтология о молекулярно-генетических процессах, клеточных и биохимических функциях белков. База данных доступна через интернет в текстовом формате. Примеры записей из базы GO для клеточной компоненты и биологического процесса приведены ниже. Пример записи Клеточная компонента:
Извлечение информации о взаимодействиях молекулярно-генетических объектов из фактографических баз данных
Первым этапом извлечения знаний из фактографических баз данных был экспертный анализ формата каждой базы, выделение объектов и связей, которые должны быть экстрагированы из базы данных и описание способа представления объектов и связей внутри формата (для табличных баз данных — указание столбцов, описывающих объект или связь; для баз данных в формате XML — описание тегов, обозначающих объекты и связи). Описание форматов некоторых фактографических баз данных дано в разделах 2.7.2, 2.7.3 и 2.7.4.
Для извлечения информации о молекулярных взаимодействиях из баз данных были созданы алгоритмы для программ-конвертеров, включающие три основных этапа:
1. Извлечение информации об объектах и связях между ними из локальной версии каждой базы данных с использованием экспертного описания базы данных. Для табличных баз данных — извлечение информации из соответствующих столбцов; для баз данных в формате XML — извлечение информации из соответствующих полей.
2. Семантический анализ полученных данных. На этом этапе происхо дит привязка полученных объектов к имеющимся словарям синони мов названий объектов с использованием ссылок на базы данных. Каждому объекту, извлечённому из базы данных, ставился в соот ветствие объект из словаря по следующему правилу: тип обоих объектов совпадает; оба объекта имеют ссылку на один и тот же идентификатор в соответствующей базе данных.
Привязка белков осуществлялась по идентификаторам базы данных SwissProt, генов — Entrez Gene, метаболитов — ChEBI или KEGG. Привязка микроРНК производилась через уникальные названия этих молекул.
3. Верификация выходных данных и объединение дублирующихся взаи модействий (одинаковых связей, полученных из разных баз данных).
Базы данных MINT [43] и IntAct [35] имеют одинаковый формат и содержат информацию о белок-белковых взаимодействиях, полученную с помощью экспериментов. Информация в этих базах данных хранится в XML формате.
Каждое взаимодействие описывается в базах данных MINT и IntAct с помощью двух структурных блоков. Первый блок включает описание участников взаимодействия. Поле «proteinlnteractor» содержит идентификатор белка в базе данных MINT. Поля «primaryRef» и «secondaryRef» содержат ссылки белка на внешние базы данных.
Второй структурный блок содержит информацию о взаимодействии между описанными ранее объектами. В полях «proteinParticipant» задаются идентификаторы участников взаимодействия, в поле «role» — роль белка-участника во взаимодействии, и в поле «interaction type» — тип взаимодействия. Пример записи базы данных MINT приведён в приложении База данных TRRD [62] содержит информацию о регуляции транскрипции эукариот. База данных TRRD представляет собой набор входов (карточек), каждая из которых соответствует одному гену определённого организма. В приложении А.6 приведён пример описания гена в базе данных TRRD: В поле FullName и ShortName приведены название и синонимы названия гена, в поле DNABankLinks — ссылки на внешние базы данных. В блоках Site описаны сайты связывания транскрипционных факторов, регулирующих работу указанного гена. В поле FactorName содержится название транскрипционного фактора и в поле SwissProtLink — ссылка на базу данных SwissProt для этого транскрипционного фактора. Таким образом, из базы данных TRRD можно извлечь информацию в терминах идентификаторов внешних баз данных о том, какие транскрипционные факторы регулируют экспрессию определенного гена.
База данных GeneNet [30] содержит описание генных сетей про- и эукариот. Информация в базе данных хранится в виде XML файлов, каждый из которых соответствует одной генной сети. Объектами генной сети GeneNet являются гены, белки, метаболиты и микро РНК.