Введение к работе
Актуальность проблемы. Успехи в развитии высокопроизводи
тельных автоматизированных технологий для сбора численных данных
(геномика, транскриптомика, протеомика, метаболомика,
интерактомика и другие омикс-технологии) создали необходимые предпосылки для изучения и моделирования биологических систем на молекулярно-клеточном уровне. В начале XXI столетия возникло новое научное направление - системная биология, которая является междисциплинарной наукой о жизни, исследующей сложные взаимодействия в живых системах (Kitano Н., 2001, 2002).
Системная биология предполагает определенный цикл исследований: теория - аналитическое или компьютерное моделирование для формулировки гипотез о поведении системы - экспериментальная проверка результатов моделирования и, затем, использование полученных данных для описания клетки или клеточных процессов для улучшения компьютерной модели или теории (Covert et al., 2004; Kholodenkoetal.,2005).
Ключевым компонентом, необходимым для успешного развития данного направления, является формальное описание, последующее моделирование и анализ исследуемых биологических систем (Hucka et al, 2004; Le Novere et al, 2009). Данная задача может быть существенно упрощена с точки зрения исследователя-биолога путем использования компьютерных программ, поддерживающих визуальное моделирование - графическое представление биологических систем и процессов в виде диаграмм. Ключевым компонентом визуального моделирования является разработка графического языка, позволяющего формально и полно описать структуру модели и ее поведение (Lee, 2001).
Данный подход был с успехом применен для моделирования сложных физических, электротехнических и программных систем (Бенькович и др. 2002; Lee, 2001; и другие). Однако создание графического языка и компьютерных программ, поддерживающих визуальное моделирование с учетом специфики биологических систем до сих пор является крайне актуальной задачей (Le Novere N. et al., 2009). Таким образом, "разработка практичных и гибких языков для
формального описания биологических систем — это только вопрос времени, и в недалёком будущем эти языки будут преподаваться студентам, изучающим биологию, так же, как формальные подходы преподаются сейчас инженерам — как необходимая основа изучения их специальности" (Лазебник Ю., 2003).
Цели и задачи работы. Цель данной работы - разработка методов и их реализация в виде компьютерной программы для формального описания и визуального моделирования сложных биологических систем на различных иерархических уровнях и с разным уровнем детализации происходящих в них процессов. Для достижения этой цели были поставлены и решены следующие задачи:
Разработать универсальный подход для формального описания структуры и функционирования широкого круга биологических систем на разных иерархических уровнях и с различным уровнем детализации происходящих в них процессов.
Для поддержки парадигмы визуального моделирования разработать методы автоматической генерации программного кода для численного моделирования динамики биологических систем на основе их формального описания в виде диаграмм.
Разработать компьютерную программу, обеспечивающую основные этапы формального описания и визуального моделирования сложных биологических систем, начиная с поиска информации в существующих биологических базах данных и заканчивая построением математических моделей биологических систем и численным моделированием их динамики.
Показать применимость разработанных подходов для формального описания и визуального моделирования различных типов биологических систем.
Научная новизна. С использованием современных методов и технологий (модульная архитектура, мета-модель и объектно-ориентированный подход для представления биологических данных, JavaBeans, BeanExplorer, Apache Lucene и др.) разработана оригинальная компьютерная программа BioUML, которая предоставляет пользователю-биологу максимальные возможности для формального
описания и визуального моделирования по сравнению с доступными в мире аналогами.
Формализовано определение графической нотации и впервые разработан набор типов диаграмм для последовательной реконструкции сложных биологических систем, начиная с неформального представления данных в виде семантических сетей и заканчивая построением строгих математических моделей.
Практическая значимость. Разработанная программа BioUML была использована и используется в настоящее время в качестве информационной платформы в ряде международных и российских проектов для формального описания и построения моделей ряда сложных биологических систем: проект Net2Drug - "From gene regulatory networks to drag prediction" (Шестая рамочная программа EC); проект LipidomicNet - "Lipid droplets as dynamic organelles of fat deposition and release: translational research towards human disease" (Седьмая рамочная программа EC); грант РФФИ № 04-04-49826 «Изучение и формализованное описание процессов, происходящих под влиянием избыточного поступления в организме человека тяжелых металлов, создание концептуальных моделей патогенеза хронических неинфекционных заболеваний легких и оптимизация их лечения»; интеграционный проект СО РАН № 46 «Исследование и моделирование физиологических, молекулярно-генетических и биофизических механизмов формирования артериальной гипертонии с целью создания оптимальных программ ранней диагностики, прогнозирования осложнений и их профилактики»; интеграционный проект СО РАН № 91 «Функция почки как интегральный механизм регуляции артериального давления при артериальной гипертонии: экспериментальное исследование, математическое и компьютерное моделирование"; проект «Комплексное исследование неспецифической реакции организма на развитие злокачественных образований: экспериментальное и теоретическое моделирование» в рамках ведомственной целевой программы «Развитие научного потенциала высшей школы (в 2009-2010) годы.
Программа BioUML может быть использована как поисково-справочная система за счет эффективной интеграции с базами данных, наличия полнотекстового поиска и возможности представления результатов в графическом виде. Пользователями программы BioUML являются научные работники, аспиранты и студенты, занимающихся моделированием биологических систем и работающие в смежных областях: молекулярная биология и генетика, вирусология, генная инженерия, медицина.
Программа BioUML (дистрибутив, исходный код, документация для пользователя и разработчика) свободно доступны с веб-сайта по адресу: .
Апробация работы. Результаты работы были представлены на
следующих российских и международных конференциях: "International
Conference on Systems Biology" - ICSB-2002 (Стокгольм, Швеция),
ICSB-2004 (Гайдельберг, Германия), ICSB-2006 (Йокохама, Япония),
ICSB-2007 (Лонг Бич, США), ICSB-2008 (Ґетеборг, Швеция), ICSB-2010
(Эдинбург, Великобритания); "Биоинформатика регуляции и структуры
генома (BGRS)", Новосибирск, в BGRS-1998, BGRS-2000, BGRS-2002,
BGRS-2004, BGRS-2006, BGRS-2008, BGRS/SB-2010, Новосибирск;
Московская международная конференция "Биотехнологии и
медицина", Москва, 2006; «Молекулярная онкология», Всероссийская конференция с международным участием, Новосибирск, 2008; Международная Московская конференция по компьютерной молекулярной биологии (МССМВ'05), Москва 2005; German Conference on Bioinformatics, GCB'2003, Нойхерберг, Германия, 2003.
Публикации. Материалы диссертационной работы отражены в 21 публикациях, из них 9 статей в рецензируемых журналах, входящих в список ВАК, 2 главы в монографиях, 10 публикаций в рецензируемых трудах конференций. Получено 3 свидетельства на регистрацию программ и баз данных для ЭВМ.
Структура и объем диссертации. Диссертационная работа состоит из введения, 6 глав, заключения и списка литературы содержащего 147 ссылок. Работа изложена на 150 страницах, содержит 57 рисунков и 12 таблиц.