Содержание к диссертации
Введение
Глава 1. Обзор математического моделирования и методов анализа временных характеристик клеточных систем 25
1.1. Моделирование процессов укорочения теломер клеток и анализ пролиферативного старения клеточных популяций 25
1.2. Анализ характеристик процессов экспрессии генов в ходе развития организмов 27
Глава 2. Стохастическая имитационная модель динамики изменений распределения клеток по длинам их теломер 30
2.1. Описание модели в терминах точечных процессов 30
2.2. Анализ адекватности модели при различных параметрах 41
2.3. Программа, реализующая модель динамики распределения клеток по длинам теломер 44
2.4. Анализ результатов моделирования 46
Глава 3. Вариационные траекторные методы анализа временных характеристик процессов экспрессии генов в ходе старения организмов 50
3.1. Формирование и исследование групп генов для одной "пилотной" образующей на основе анализа временных характеристик 52
3.2. Формирование и исследование групп генов для набора "пилотных" образующих ... 62
3.3. Анализ характеристик процессов экспрессии генов для модели в непрерывном времени 65
3.4. Анализ адекватности методов 66
3.5. Описание программ, реализующих методы анализа временных характеристик процессов экспрессии генов 68
Глава 4. Анализ условных средних для процессов с изменением ансамбля реализаций экспрессии генов 70
4.1. Анализ условных средних процессов экспрессии генов при выбытии индивидуумов 70
4.2. Определение уровней причинности генов в выбытии организма из популяции 74
4.3. Вспомогательные оценки параметров в процессах экспрессии генов 82
Вы воды и за кл точение 89
Литература 91
Приложен ие 1 99
Приложение 2 105
- Анализ характеристик процессов экспрессии генов в ходе развития организмов
- Программа, реализующая модель динамики распределения клеток по длинам теломер
- Формирование и исследование групп генов для набора "пилотных" образующих
- Определение уровней причинности генов в выбытии организма из популяции
Введение к работе
Одним из важных и актуальных направлений математического моделирования является исследование поведения временных характеристик многомерных систем с выбыванием. Примерами подобных объектов могут служить системы переменных температур и течений в мировом океане, процессы распространения вирусов в больших компьютерных сетях и др. Временные характеристики представляют собой некоторые параметры (например, значения периодов циклических систем, величины корреляции процессов, параметры обратных связей в системах гомеостаза и т.д.), которые определяют поведение всей системы и со временем либо остаются неизменными, либо изменяются очень медленно. Поэтому, при изучении динамики системы возникает задача выявления и исследования ее временных характеристик. Такого рода исследования чаще всего осуществляются при помощи стандартных методов, разработанных на основе простых статистических процедур. В последние годы появилось большое число работ, посвященных изучению временных характеристик систем методами математического моделирования (см. монографию [67] и библиографию в ней), включающими в себя, в частности, стохастическое описание и компьютерную имитацию. Особенно быстрое развитие такого рода исследований в последние годы наблюдается в моделировании биологических объектов (см., например, [3], [49] и др.).
В связи с интенсивным развитием биотехнологий и, как следствие, возникновением возможности исследовать работу ДНК клеток на новом уровне [15], [27], одной из наиболее интересных и актуальных является задача анализа характеристик системы
регулирования экспрессией генов живых организмов. Данному направлению посвящается нарастающее число работ, в основном зарубежных авторов ([8], [12], [24], [31], [47] и др.).
Система функционирования ДНК клеток представляет собой очень сложный объект. В ходе развития организма в этом объекте можно выделить структурные изменения двух основных типов:
при дифференцировке клеток организма изменяется система управления экспрессией генов, т.е. одни группы совместно экспрессирующих генов расформировываются, и образуются новые группы генов, в связи с чем изменяется баланс белкового синтеза в организме [68];
происходят физические изменения в некодирующих белок концевых участках ДНК (теломерах), В зависимости от этого клетки могут либо постепенно переходить в постмитотическую стадию (когда теломера клетки, укорачиваясь вследствие последовательных митозов и случайных воздействий, сокращается до минимума), либо оставаться на стадии пролиферирующих (способных к делению) клеток.
Современные исследования ДНК клеток, направленные на анализ структурных изменений первого типа, ведутся в разных направлениях. Одни исследования проводятся с целью найти группы генов, связанных какой-то общей функцией и выявить эту функцию [2], [10], [37]. Другие направлены на определение генов и групп генов с экспрессией, меняющейся с возрастом (как с системно убывающей, так и с возрастающей) [7], [23], [26]. Третьи призваны найти гены и группы генов, участвующие в стрессовых, адаптивных, компенсаторных реакциях [11], [14], [42] и т.д. В результате многочисленных исследований процессов, протекающих в клетках, возникли первые массивы данных с уровнями экспрессии генов для
классических объектов: дрожжей, нематод C.elegans, дрозофил и др. Существующие же методы анализа информации по экспрессии генов обладают общим недостатком. Они совсем не принимают во внимание специфику временных изменений уровней экспрессии, которую необходимо учитывать при изучении биологических процессов развития организмов. Поэтому важной является задача построения методов анализа временных характеристик системы экспрессии ДНК клеток.
Не менее актуальным является изучение структурных изменений второго типа, происходящих в ДНК клеток в ходе развития организмов. Еще в 70-е годы было выявлено наличие проблем в репликации концевых структур ДНК (теломер). Тогда же возникли предположения, что эти проблемы должны приводить к укорочению ДНК при последовательных делениях клеток. Данное явление может вызвать прекращение пролиферации нормальных клеток в культуре и ограничивать продолжительность жизни организмов, у которых есть жизненно важные обновляемые клеточные популяции. В настоящее время исследования причин ограничения продолжительности жизни, связанных с укорочением теломер, перешли на качественно новый уровень. Известно, что при дифференцировке клеток в ткани, вследствие укорочения теломер, происходит кардинальные изменения и в процессах экспрессии генов [68]. Поэтому исследование процессов укорочения теломер клеток в ходе развития организмов представляет собой необходимое звено в анализе системы управления экспрессией генов. Важным направлением в этих исследованиях является математическое моделирование механизмов данного биологического явления. В качестве агрегированной временной характеристики здесь выступает длина теломер клеток, а точнее распределение клеток по
длинам теломер. Изменения данной характеристики оказывает непосредственное влияние как на пролиферативную активность клеток, так и на систему управления экспрессией генов. Во многих работах (например, [4], [18], [32], [39], [43] и др.) были предприняты попытки построения математических моделей динамики распределения популяции клеток по длинам теломер. Большинство этих моделей основано на детерминистическом описании. Однако на клетки постоянно и случайным образом оказывает влияние внешняя и внутренняя среда, поэтому детерминистский подход не вполне адекватно отражает суть рассматриваемых явлений.
Не смотря на большое внимание, уделяемое анализу ДНК, исследование динамики изменений временных характеристик системы функционирования ДНК клеток в различных биологических процессах (например, в процессах старения) остается мало изученной областью. Это связано, во-первых, с отсутствием эффективных методов анализа получаемых количественных данных. Эти методы оказались востребованными только в последнее время с появлением новых технологий анализа ДНК. Во-вторых, существующие методы основаны на стандартных статистических процедурах и не учитывают временную специфику получаемых данных. Так во многих последних работах наблюдения экспрессии генов в разных временных точках в процессе развития организмов воспринимаются как данные различных экспериментов. В-третьих, зачастую не учитываются важные особенности исследуемых объектов. Так, в настоящее время во многих работах (см., например, [22], [30]) выводы о функциональном назначении генов строятся на основе выявленных трендов в поведении процессов уровней их экспрессии. Однако не учитывается тот факт, что значения данных трендов могут быть обусловлены смертью
ф индивидуумов в ходе эксперимента. Поэтому при разработке методов
анализа биологических процессов, протекающих в ДНК, необходимо учитывать выбывание объектов из системы в ходе развития. Еще одной спецификой изучения работы ДНК клеток является то, что системы регулирования экспрессии генов даже простых организмов представляют собой объекты с огромным числом (десятки тысяч) процессов, влияющих друг на друга определенным образом, т.е. являются системами очень большой размерности. Поэтому, в качестве временных характеристик систем было бы целесообразно рассматривать параметры, определяющие совместное поведение (например, совместную квадратическую вариацию) процессов уровней экспрессии генов. Стохастические модели и методы являются эффективным инструментом в исследовании динамики временных
^ характеристик многомерных систем с выбыванием. Аналитическое
исследование подобных объектов представляется практически невыполнимой (и, как правило, не имеющей точного решения) задачей. В связи с этим, разработанные в данной работе модели биологических объектов и методы анализа их временных характеристик являются актуальными и имеют прикладное значение. Актуальной также является задача построения алгоритмов, реализующих данные методы, и их воплощение в виде комплекса программ.
Целью работы является разработка методов построения и
анализа стохастических имитационных моделей для исследования
поведения временных характеристик многомерных систем с
выбыванием применительно к изучению процессов
функционирования ДНК клеток, а также разработка алгоритмов,
#
реализующих данные методы, и их воплощение в виде комплекса программ на языках высокого уровня (Borlan C++, Borland Delphi).
Математические модели и методы разрабатываются в семимартингальных терминах. Выбор параметров моделей осуществляется исходя из известной информации о моделируемом объекте. Определение неизвестных коэффициентов проводится с использованием методов оптимального оценивания. При разработке компьютерных моделей используются элементы теории разностных схем и методы стохастического моделирования. Методы анализа совместного поведения процессов экспрессии в больших группах генов основаны на исследовании квадратичных вариаций траекторий в рамках семи мартин гального подхода.
Все основные результаты настоящей диссертационной работы являются новыми. Построены новые стохастические вариационные методы анализа изменений уровней экспрессии генов в процессе старения организмов. Разработана новая имитационная модель динамики распределения клеток по длинам теломер в терминах стохастических дифференциальных уравнений. Методы анализа систем с выбыванием объектов, основанные на исследовании условных средних процессов, также являются новыми.
Теоретической значимостью обладают представленные стохастические вариационные методы анализа изменений уровней экспрессии генов. Данные методы обладают и практической значимостью и нашли свое применение при изучении процессов старения организмов на генетическом уровне. Комплекс программ, реализующий данные методы и предназначенный для хранения, обработки и визуализации количественных данных по экспрессии генов также имеет практическое применение. Теоретической и
практической значимостью обладает стохастическая имитационная модель динамики распределения клеток по длинам теломер, а также реализующий ее комплекс программ, которые применяются при изучении причин ограничения продолжительности жизни клеточных популяций. Методы анализа систем с выбыванием объектов, основанные на исследовании условных средних процессов, также имеют теоретическую и практическую значимость.
По теме диссертации опубликовано 11 работ. Основные результаты диссертации докладывались и обсуждались на следующих конференциях и семинарах:
IX-XI Всероссийские школы-коллоквиумы по стохастическим методам (г.Самара 2001г., г.Ростов-на-Дону 2002г., г.Петрозаводск 2003 г., г. Сочи, 2003 г.)
Международные семинары в Институте демографических исследований Макса-Планка (Германия, г. Росток, 2001-2002 гг.)
Пятая международная конференция «Математическое моделирование физических, экономических, технических, социальных систем и процессов» (Россия, г. Ульяновск 2003 г.)
IX-XI ежегодные научные конференции молодых ученых Ульяновского государственного университета (г. Ульяновск 2001, 2002, 2003 гг.)
Диссертационная работа состоит из введения, четырех глав, выводов и заключения, списка литературы из 72 наименований отечественных и зарубежных источников, а также приложений. Общий объем диссертации составляет 118 страниц. СОДЕРЖАНИЕ РАБОТЫ.
Введение содержит обоснование актуальности рассмотренных в работе вопросов. Здесь же определяются цель, научная новизна и
практическая значимость проводимых исследований, кратко изложено содержание диссертации.
Первая глава содержит краткий обзор работ, проводимых методами математического моделирования в рамках исследований временных характеристик процессов, происходящих в клетках. В 1.1. содержится анализ последних работ (например [4], [18], [32], [39], [43] и др.), посвященных разработке и исследованию математических моделей механизмов укорочения концевых участков ДНК (теломер) клеток. Здесь отмечены основные недостатки существующих моделей и указаны преимущества стохастического подхода к изучению данного биологического явления. В 1.2. приведен обзор литературы (например, [6], [9], [24], [30], [47] и др.), посвященной методам количественного анализа характеристик процессов экспрессии генов. Здесь также отмечены недостатки этих методов при исследовании процессов функционирования ДНК в ходе развития и старения организмов.
Вторая глава, состоящая из четырех параграфов, посвящена построению и анализу математической и имитационной модели динамики распределения популяции клеток по длинам теломер (концевых участков ДНК клеток). При репликации ДНК вследствие деления клетки, а также в силу свободнорадикальных повреждений ДНК, происходит укорочение теломер клеток. Было обнаружено, что клетки, теломеры которых достигают некоторого предела (Hayflick limit [20]) теряют способность к делению. Данное явление приводит к ограничению продолжительности жизни организмов, у которых есть жизненно важные обновляемые клеточные популяции. Последние эксперименты в этой области показывают также, что укорочение теломер ДНК не только ограничивает пролиферативную активность клеток, но и приводит к кардинальным изменениям как экспрессии
і)
отдельных генов, так и всей системы регулирования экспрессии. В результате этого одни группы совместно экспрессирующихся генов могут расформировываться, и при этом образуются новые группы генов совместной экспрессии. Поэтому исследование процессов укорочения теломер клеток в ходе развития организмов представляет собой необходимое звено в анализе онтогенеза ДНК. Важным направлением в этих исследованиях является математическое моделирование механизмов данных биологических процессов.
В 2.1. приведено математическое описание модели динамики распределения клеток по длинам их теломер в терминах точечных процессов. Предполагается (в соответствии с экспериментальными наблюдениями), что популяция клеток состоит из трех классов:
I - пролиферирующие клетки, т.е. способные к делению;
II - коммитированные клетки, т.е. клетки, имеющие особые
характеристики клеточного цикла, которые после определенного
числа циклов деления теряют возможность пролиферации;
III - клетки, утратившие способность к делению.
Количество клеток в каждом из этих классов I, II, III в момент времени t определяется функциями G(t), F(t) и L(f) соответственно. Общее число клеток N(t) в популяции представляет собой сумму этих трех величин:
N(t) = G(t) + F(t) + L(t) (1)
В ходе анализа причин укорочения теломер клеток были выявлены следующие механизм, учитываемые в данной модели:
Регулярное укорочение теломер, возникающее при репликации ДНК вследствие деления клетки;
Укорочение теломеры, вызванное накоплением однонитевых повреждений ДНК свободными радикалами.
Число клеток, способных к пролиферации, в каждый момент времени t > 0 равно:
М
ОД =**('), (2)
где М — максимальная длина теломеры, выраженная числом фрагментов ДНК (последовательность А, С, Т, G), теряемых при делении клетки, g^(0 - число клеток класса I с длиной теломеры к, для всех к = 2, 3,.., М. Значения функций g^ (t), к = 2,3,.., М в каждый момент времени / определяются балансовыми соотношениями (дляА: = 2, 3,.., М)\
к~\ Skit) = S* (0) - д(0 + 2В+Ї (г) - 2Х/0 +
+ Z^MC0-^(/)-z)f(0 (3).
i=k+\ Здесь В^ = ^~ (ж являются точечными процессами, считающими
число актов деления клеток I класса, имеющих длину теломеры к. Процессы Rfc . -[Rjf. At)J - точечные процессы, значения которых
представляют собой число клеток, длина теломеры которых была к, а вследствие свободнорадикальных повреждений стала j. Точечные
процессы Sfr = ^(/)1 представляют собой число клеток класса I с
длиной теломеры к, которые стали коммитированными (клетками
класса II). Процесс D^ =1^ (0І>л ~ число погибших клеток с
длиной теломеры к, для к — 2,3,.., М.
с с с
Все точечные процессы (BY, Rjf ,, S,l, Z)^, А = 2,3,.., М,
j = 1,2,.., М, j*k) в балансовом соотношении (3) представляют
собой семимартингалы [65], которые допускают следующее разложение:
Xt = Xq + At + mt, (4)
где A-(Aj)1^q - процесс ограниченной вариации, a m = (mt)t>Q —
мартингал, причем здесь [m,m]t =Xt ~Xq. Распределения данных
процессов определяются своими компенсаторами [64]. Например,
компенсатор процесса ВУ имеет вид:
t
Bf(t)=fcGgk(s)ds (5)
где b - параметр, определяющий интенсивность скачков (актов
деления клеток) процесса &, т.е.
P)BG (t + A)-BG(t) = \j=bGgic(t) & + <>(&) при Д-»0. Аналогичным
с с
образом определяются компенсаторы процессов Rj* j» Sk и >^ с
параметрами rj , s и d соответственно.
Число коммитированных клеток (класс II) в каждый момент времени t 0 равно:
М N
где ffr ,-(/), = 2,3,.., М, i=l, 2,.., JV, представляет количество клеток,
имеющих телом еру длины к, которым осталось і циклов деления до потери пролиферативной активности. Значения fki(t) определяются
соотношениями:
fk,i (0 = 2iw+1 (o - e,(o - X,-,-(0 +
л/
где /{} - индикаторная функция и ^ = 2,3,.., Л^, j — 1, 2,.., М, у 9і
F F F
/ = 1,2,.,,^. Точечные процессы StJ, й». ,., /) имеют тот же
смысл, что и 5^ , й^., >^ только для коммитированных клеток
(класс И). Индекс і в обозначениях данных процессов представляет число циклов деления, оставшихся до потери клетками способности к
F F F
пролиферации (/ = 1,2,.., JV). Процессы Bf;i ЛГ . ., D, . также представляют собой семимартингалы и определяются своими
F F F
компенсаторами с параметрами Ъ , г,- , и d соответственно.
Например, компенсатор процесса Вк . к = 2, 3,.., М, i = \, 2,.., N имеет
вид:
~ /
в(0=р/*,/(*)А (8)
Компенсаторы остальных процессов определяются аналогичным образом.
Число клеток, потерявших способность к делению (класс III) в каждый момент времени />0 равно:
M-N
ад= Хдс), (9)
к=\
где /^(/) - представляют собой число непролиферирующих клеток, имеющих длину теломеры , для к-\, 2, ..у М-N. Значения функций l^it) определяются соотношениями:
'*(')=
^ N М М N ^
2BiM+2XBi,(M+2>a('>+<*/')
/=2 /=2 ./=2/=1
/{* = !} +
+ 2*f+u(f)-Z>j(/). (10)
Здесь IV = (d, (t)J n - точечный процесс, определяемый
компенсатором с параметром а , и представляющий число погибших клеток с длиной теломеры к, для к — 2,3,.., М — N.
Остальные процессы в соотношении (10) определены выше.
Анализ адекватности представленной математической модели динамики распределения популяции клеток по длинам теломер рассмотрен в 2.2. Адекватность модели с определенным набором параметров реальным данным, наблюдаемым в экспериментах, проводится на основе сопоставления эмпирических и модельных функций распределения клеток по длинам теломер. В качестве критерия достоверности выбранных параметров используется вероятностная метрика Леви-Прохорова [66] с заданным значением
ошибки є :
e*=L(Fexp,Fmod) = mr{Z0;Fexp(x~)-
где Fexp(;e) - функция распределения популяции клеток по длинам теломер, построенная на основе экспериментальных данных,
Fmo (х) - функция распределения, полученная в результате
компьютерного моделирования. Использование данной метрики позволяет сравнивать эмпирические и модельные функции распределения и фиксировать те параметры, при которых отличие одной функции распределения от другой не будет превышать заранее заданную ошибку.
В 2.3. изложены основные методы разработки компьютерной имитационной модели динамики распределения клеток по длинам теломер, математическое описание которой рассмотрено в 2.1. Здесь также рассмотрена часть комплекса программ, реализующая данную модель. Приведена структура программы, а также представлено описание основных алгоритмов и интерфейса.
Основные результаты компьютерного моделирования
рассмотрены в 2.4. По итогам имитационного моделирования
оказалось, что данная модель явилась косвенным подтверждением
физиологического объяснения «предела Хейфлика» Было
исследовано распределение времени достижения данного предела для различных популяций клеток, а также выявлены зависимости времени прекращения пролиферативной активности популяции клеток от параметров клеточного цикла.
Третья глава посвящена построению и исследованию вариационных траекторных методов анализа временных характеристик процессов экспрессии генов в ходе старения организмов.
В 3.1. рассматриваются методы анализа показателей уровней экспрессии генов в процессе развития организма. Данные методы заключаются в формировании группы генов, процесс уровней экспрессии каждого из которых согласован определенным образом с экспрессией одного выбранного «пилотного» гена. Идея, лежащая в основе представленных методов заключается в следующем.
Предположим, что процессы уровней экспрессии «пилотного» и проверяемого генов г} и есть значения непрерывных семимартингалов:
Пусть данные семимартингалы допускают разложение:
X? = X$ + A? + m? , xf=X$ + Af+mf (13)
где А*?, А^> - непрерывные процессы ограниченной вариации, т^, гФ - мартингалы с непрерывными мартингальными составляющими (т^ )
/ у / Y dim7!)
и \trfi\. Следовательно, существуют U/4 , \А\?\, <у^ = -,
dim1*) dlm^ym^J
су = и а1)^ = -. Здесь компоненты А7?, /Р
1 dt ' dt
представляют собой «медленно изменяющиеся» тренды процессов
экспрессии соответствующих генов, а компоненты т7! и гФ -быстроосциллирующий шум. В данном случае согласованность поведения процессов экспрессии «пилотного» и проверяемого генов определяется коэффициентом:
р = д]р1{А71,А$)+д2р2[тТ1,т^1 (14)
Т где р \аР\А^]-— ydAf ~dAf\ - определяет степень согласованности
О
долговременных изменений экспрессии, а
р \тчtmP )= , - согласованность «быстрых
осцилляции» в изменении экспрессии на всем временном интервале
[0,Т], где \гп*1), (т^)я (т*1 ,т?\ - квадратические характеристики
.14
мартингалов . Параметры q\ и #2 определяют веса
соответствующих коэффициентов.
В 3.2. рассматриваются методы формирования и исследования групп генов для набора «пилотных» образующих. Данные методы основаны на понятии так называемого «расстояния» между множеством «пилотных» генов и любым проверяемым геном.
Пусть х = (х\ ,...,) - вектор приращений уровней экспрессии любого проверяемого гена , т.е. х^ =, — 4і~ь гДе 4і ~ уровень экспрессии гена х в момент времени /, для ( = 1,..,и. Аналогично
определим вектора приращений w ,...>у ) уровней экспрессии
«пилотных» генов tjJ': для каждого j = 1,.,., , yj = 77/ -tjfi, где r\f
~ уровень экспрессии «пилотного» гена в момент времени /, для / = 1,.., и.
Далее, расстояние между любым геном и множеством
«пилотных» генов J7/ ,...,77 j определено как евклидово расстояние от вектора приращений х до гиперплоскости, образованной векторами
приращений «пилотных» генов w ,...,у г. Это расстояние равно:
«( * . Л2
Z xi~YjcJyi \ >1
(15)
/-І
В 3.3. рассмотрен анализ характеристик процессов экспрессии генов для модели в непрерывном времени. Пусть = [gt )0<кг и
*7= V?/ )o
соответственно. Пусть наблюдаются процессы t = %t + а^ Wt и
щ~ц1Л-аГІ Wt со стандартными независимыми (и независящими от
и т?) винеровскими процессами $W и ^W - шумами наблюдения (и/или измерения) экспрессии. Тогда в случае п наблюдений при
/e[0,7j (как реализаций процессов ', так и т]11 / = 1,..,л) и
1 п л п
Ли) 1 ^1 Л (и) I Vі І
стандартного усреднения с Q ' = — > / и 7, = — > г/J получаем,
/=]
1=1
что расстояние между генами равно:
\ / п
(16)
Анализ адекватности представленных методов формирования и анализа групп совместно экспрессирующихся генов рассмотрен в 3.4.
В 3.5. изложены основные алгоритмы, реализующие методы анализа количественных данных по уровням экспрессии генов, математическое описание которых рассмотрено в предыдущих параграфах третьей главы. Здесь также представлен комплекс программ, реализующий данные методы.
Четвертая глава посвящена исследованию систем с выбыванием, основанному на анализе условных средних для процессов с изменением ансамбля реализаций экспрессии генов.
В 4.1. представлен анализ условных средних процессов экспрессии генов при выбывании индивидуумов. Пусть (ft,/sF = (F()/a0,P) - стохастический базис с обычными условиями
Деллашери [58], на котором заданы непрерывные процессы
X ' = (^/)(>:0 » і" = 1>—>и» значения которых представляют собой
уровни экспрессии генов в группе. Марковские моменты х1 =(У(й>)), /=1,...,л (шеП) определены как моменты пересечения значений экспрессии генов некоторой критической границы V > 0:
Xі =ы\и>Ъ,Х\^у\ (17)
Предположим, что смерть организма наступает при пересечении
критической границы хотя бы одним процессом Xі, / = 1,...,л, поэтому момент выбытия индивидуума г равен:
г= min (г') (18)
/=1 п
Рассмотрим условное среднее значений экспрессии любого гена
группы при условии, что момент выбытия индивидуума еще не
наступил: и^Я/<г). Предположим, что процессыXі =(Xl()t>Q,
/ = 1,...,п — независимы (отсюда следует, что моменты т', /=1,...,л -также независимы), тогда верна следующая
Теорема 4.1. Пусть на стохастическом базисе (Q, F,F = (Ff)(>0,P) заданы независимые непрерывные процессы ^'=(^/)/>о с ^о = 0> / = 1,...,л, для которых (при V > 0) т1 являются моментами остановки
(т.е. г'(ш)<оо Р-п.н.), и пусть ЕХ\
<оо для V/>0, / = 1,...,л. Тогда
Ft(t)
E(xi\t<X^J^L-y.
1-F,(0 1-/у(0'
(19)
где F i(t) = P(rl
г1 =т1(т), / = 1,...,и.
В 4.2. рассмотрены методы определение уровней причинности
генов в выбытии организма из популяции. При изучении системы
управления экспрессии генов важной является задача оценки для
каждого гена (или группы генов) уровня причинности этого гена при выбытии организма. Уровень причинности (обозначим его Д ) любого гена есть вероятность того, что экспрессия именно этого, определенного гена стала причиной смерти индивидуума.
Пусть на стохастическом базисе (Q, F,F = (F/)/0,P) заданы
непрерывные процессы Xі = (Х\)^о? / = IS...,«> значения которых представляют собой уровни экспрессии генов в группе. Предположим,
что процессы Xі, / = 1,...,п, независимы. Определим т\п' ~т\п\а>), 1 — 1,...,« (соєСЇ) - марковские моменты пересечения значениями
уровней экспрессии соответствующих генов критической границы V>0:
г(«) = г<«) = infj., > о, х\ ;> v] (20)
Момент выбытия индивидуума из популяции ту J равен:
г(м) = min (г<л)) (21)
/=1,...,я
Смерть организма наступает только по одной из причин, а их всего п (так как число генов в рассматриваемой нами критической группе равно п) и все они равновероятны. В связи с этим естественно определить уровень причинности для каждого гена при выбытии
индивидуума как Д,- = —, i=l,...,«.
В приведенных выше обозначениях верна следующая
Теорема 4.2: Пусть значения независимых одинаково распределенных
процессов Xі, / = 1,...,и, представляют собой уровни экспрессии группы генов организма, моменты смерти организма определены в (20) и (21). Тогда уровень причинности выбытия индивидуума для каждого гена определяется следующим соотношением:
где F fw) (t) и F M (t) - функции распределения марковских
(n) (и) моментов т^ ' и тк J соответственно.
Теперь предположим, что критичными для смерти организма
являются две группы генов. Пусть на стохастическом базисе
(Q,F,F = (F()t>Q,P) заданы непрерывные процессы Xі = (^/)/>о>
/-!,...,«!, YJ =(У/)(>0> У = 1,...,^2? с п\+П2=пь значения которых представляют собой уровни экспрессии генов первой и второй группы соответственно. Распределения процессов для разных групп (Xі и YJ) различны, но одинаковы в пределах каждой группы. Аналогично (20) определены марковские моменты г,- ^ =т\п\т), m =7/ О2*)» i~l,„.,nu j = 1,...,и2:
rf0 = inf|r :^0,^/^), 77^ =іп4:/>0,Г/^К2}. (23)
Тогда момент смерти организма равен:
г<я>= rain (г}"Ым)). (24)
i=\,...,ni;j=l,...,n2
В силу данных предположений, уровни причинности для каждой
группы генов при выбытии индивидуума определяются
соотношениями й\~—- и Д2=-^- соответственно. И решением
и и
данной задачи оценки уровней групповой причинности является
следующая
Теорема 4.3: Пусть значения независимых процессов Xі, YJ ,i = l,...,n\, У = 1>—»л2 представляют собой уровни экспрессии генов в соответствующих группах. Пусть моменты смерти организма
определяются соотношениями (23) и (24),
F\i)(0)= X*Q,F'т(0) = ju*0 и ХФр.где FTAt) и F„ (t) -функции
г, щ ' "
распределения соответствующих моментов. Тогда уровни причинности выбытия индивидуума для каждой группы генов определяются следующими равенствами:
Г \
-pt
1-^(-)(0
+ o
V.«,
(25)
Лі=-
( ^
In 1-F <„>(/)
~Xt
(26)
До=-
t(M-A) В 4.3 представлены вспомогательные оценки параметров в
процессах экспрессии генов.
В выводах и заключении сформулированы основные полученные результаты диссертационной работы, подчеркнута их новизна и значимость. Также обозначены задачи, являющиеся предметом дальнейших исследований.
В приложениях представлены таблицы и графики результатов работы компьютерных реализаций рассмотренных математических моделей и методов.
Автор приносит глубокую благодарность своему научному руководителю профессору А.А. Бутову за внимание, проявленное к работе.
Анализ характеристик процессов экспрессии генов в ходе развития организмов
Моделирование клеточных циклов и процессов, приводящих к потере клетками способности к пролиферации, изучалось во многих работах [4], [18], [32], [39], [43]. В этих моделях рассматривались различные способы и подходы к представлению явлений, протекающих в клетках, с помощью математических методов и их компьютерных реализаций. Так в работе [4] построена модель клеточного цикла, основанная на простой конструкции переходов клеток от одной фазы цикла к другой с заданными вероятностями. Здесь получены соотношения клеток, находящихся в разных фазах клеточного цикла. К сожалению, в этой работе не рассматривается пролиферативное старение популяции.
Модель снижения пролиферативного потенциала культуры клеток при развитии, представленная в работе [18], определяется вероятностями изменения состояний клеток (как способных к делению, так и неспособных). В результате моделирования для каждого поколения клеток в этой работе получены соотношения числел делящихся и неспособных к пролиферации клеток. Однако в данной модели не рассматривается природа механизмов, приводящих к потере клетками способности к делению. Похожие результаты дают модели, рассмотренные в работах [34], [43]. Методы моделирования основаны здесь на ветвящихся процессах, что не вполне адекватно отражает природу явлений, протекающих в клетках.
Марковские ветвящиеся процессы также были использованы при построении математической модели укорочения теломер в работе [1]. В результате моделирования здесь получены зависимости соотношения числа делящихся клеток, а также средней длины теломер от достигаемого популяцией PD.
В работе [39] представлена модель, основанная на предположении о том, что основной причиной снижения уровня пролиферативной активности клеток является укорочение их теломер. Причем полагается, что не все теломеры клетки влияют на ее способность к делению, а только их часть. К сожалению, в этой модели предполагается единственный механизм укорочения теломер, возникающий при делении клеток. Однако в реальных культурах наблюдаются и другие причины изменения длины теломер [46].
В настоящей работы рассмотрена математическая модель, позволяющая исследовать различные явления, протекающие в клетках, которые приводят к уменьшению длины теломер и, как следствие, к снижению пролиферативного потенциала популяции. Подобный комплексный подход к рассмотрению механизмов укорочения теломер клеток представлен в статьях [32], [36]. Авторы этих работ помимо систематического укорочения теломер клеток при делении предполагают возможность уменьшения длины теломер вследствие оксидативного стресса. Механизм увеличения скорости укорочения теломер, возникающий при повреждении митохондрий клеток, рассмотрен в [36]. В работе [32] дополнительной причиной уменьшения длины теломер является накопление однонитевых повреждений теломер свободными радикалами. Общим недостатком данных работ является ограниченность численности рассматриваемых клеточных популяций. Например, в модели, представленной в [32], численность популяции не может превосходить 105 клеток. На самом же деле, в типичной ткани в 1 грамме содержится порядка 109 клеток.
Важным отличием модели представленной в настоящей работе от рассмотренных выше является применение семимартингальных методов и теории случайных процессов при построении математического описания механизмов укорочения теломер клеток. Это дает возможность относительно простого построения имитационной модели и ее компьютерной реализации. Семи мартин гал ьный подход позволяет легко изменять структуру модели, добавлять новые зависимости и параметры, а также допускает проверку адекватности и возможность «настройки» модели с целью ее достижения,
В настоящее время уже существует довольно много публикаций, в которых констатируется применение различных алгоритмов объединения генов в группы, основанных на анализе уровней экспрессии [б], [9], [24], [30], [47] и др. Главным в данных алгоритмах, как правило, является понятие так называемого «расстояния» между двумя отдельными генами, определяющее степень зависимости показателей экспрессии этих генов. Таким образом, расстояние представляет собой некоторую меру, определяющую численно насколько «похожими» являются процессы изменений уровней экспрессии двух сравниваемых генов в эксперименте. Примеры различных расстояний, используемых в алгоритмах кластеризации, можно найти в [21], [33]. Рассмотрим некоторые, наиболее часто встречающиеся методы объединения генов в группы, согласно уровням их экспрессии.
Метод иерархической кластеризации наиболее популярен в современных биологических исследованиях в силу простоты его реализации (применение данного метода при анализе числовых данных экспрессии описано в [44], [13]). Алгоритм метода заключается в объединении на каждом шаге самых близких кластеров в древовидную структуру. Расстояние между кластерами определяется чаще всего одним из трех основных способов, и в зависимости от выбора иерархические алгоритмы делятся на три типа. В первом случае расстояние между кластерами К} и /0 определяется как минимум среди всех расстояний между парами элементов JC,- и yj, где XJ(E Kh a yje К.2, во втором - как максимум, и в третьем расстояние определяется как среднее расстояние между всеми парами элементов кластеров. После построения древовидной структуры элементы могут быть разбиты на любое число кластеров посредством прерывания дерева на соответствующем уровне.
Программа, реализующая модель динамики распределения клеток по длинам теломер
Следует отметить, не смотря на то, что интенсивности всех процессов в модели предполагаются неизменными (независящими от времени), реальные временные характеристики, определяющие динамику клеточной популяции, изменяются со временем. Например, скорость увеличения численности популяции (см. рисунок 9 в Приложении 1). Это соответствует экспериментальным наблюдениям [29].
Для реализации и анализа модели динамики распределения клеток по длинам теломер, представленной в данной главе была разработана программа. В качестве основы для написания вычислительного алгоритма, а также интерфейса программы, выбран язык программирования Borland Delphi версии 6.0.
Программа имеет удобный интефейс и ориентирована на широкий круг исследователей, не обладающих специальными знаниями в программировании (в основном биологов). Программа содержит развернутую контекстно-индексную помощь по всем разделам своего применения.
Общий вид интерфейса программы представлен на рисунке 1 в Приложении 1. Главное окно программы состоит из трех частей. Первая часть предназначена для ввода параметров модели. Вторая часть содержит управляющие клавиши ввода начального распределения клеток по длинам теломер, определения параметров вывода результирующих графиков, задания масштаба, сохранения графиков в файл, начала моделирования и выходя из программы. Здесь также находится индикатор процесса моделирования. Третья часть содержит окно для графического вывода результатов моделирования. В программе имеется возможность сохранять полученные кривые распределений в виде графических файлов для последующего анализа.
Для отображения возраста моделируемой клеточной популяции в количестве УЧП предусмотрен вывод графиков численности популяции в логарифмической шкале.
Для компьютерной реализации моделей точечных процессов, участвующих в математическом описании был разработан и применен генератор псевдослучайных чисел, основанный на линейно-конгруэнтных последовательностях [60]. Фрагмент листинга, реализующий генератор представлен в Приложении 1.
Разработанная программа позволяет моделировать динамику изменений распределения клеток по длинам теломер в ходе развития популяции численностью порядка 10 клеток. Время моделирования одной реализации при этом не превосходит двадцати минут (моделирование проводилось на компьютере Pentium И-566 MHz). Заметим, что на самом деле, при моделировании, число клеток популяции не превосходило в среднем 1011 из-за различий в параметрах моделируемых популяций. И построение функции распределения (2.20) по 100 реализациям занимало не более трех часов.
Компьютерное моделирование развития клеточной популяции позволило проследить динамику распределений клеток по длинам их теломер при различных параметрах, которые соответствуют предположениям о приоритете тех или иных факторов, определяющих характер этих распределений. Такими факторами могут быть либо регулярное укорочение теломер из-за недорепликации концов ДНК в процессе деления, либо случайные разрывы, происходящие вследствие нерепарации свободнорадикальных повреждений или, например, воздействия ионизирующей радиации. Так, в ходе моделирования была установлена линейная зависимость средней длины теломер клеток от концентрации свободных радикалов в ткани (см. выше параметры г и /). Данный результат обобщает выводы полученные в работе [41].
Заметим, что теломеры клеток человека и других млекопитающих укорачиваются в разных тканях с различной интенсивностью. Например, в печени при циррозах, скорость укорочения возрастает при усилении пролиферативных процессов. При этом, необходимо учитывать оба фактора укорочения теломер, что позволяет в процессе моделирования воспроизвести особенности реально наблюдаемых распределений.
В некоторых же тканях основную роль в укорочении теломер может играть неспособность клеток репарировать свободнорадикальные повреждения. Поэтому, основным фактором, определяющим динамику распределений клеток по длинам их теломер, является механизм случайных разрывов. Одним из примеров такой популяции клеток, адекватно моделируемой предложенным методом, являются диплоидные фибробласты человека [17].
Построенные распределения клеток по длинам их теломер сопоставлялись с экспериментальными данными, полученными на культурах фибробластов человека [29] с использованием метрики Леви-Прохорова [66]. Было получено качественное соответствие характеров моделируемых и реальных экспериментальных распределений (см. рисунки 1, 2 и рисунки 2-7 в Приложении I), что свидетельствует о возможности дальнейшего применения и развития данного подхода к моделированию воздействий различных факторов на популяции клеток, в частности, на раковые клетки при действии лекарственных препаратов или ионизирующего излучения.
По итогам имитационного моделирования оказалось, что данная модель явилась косвенным подтверждением физиологического объяснения «предела Хейфлика». Было определено среднее время достижения данного предела для популяции фибробластов человека (см. рисинки 8, 9 в Приложении 1). Также выявлены зависимости распределения времени прекращения пролиферативной активности популяции клеток от их распределения по длинам теломер.
На самом деле «предел Хейфлика» трактуется в литературе достаточно примитивно, т.е. как определенное число делений клеток, после которого пролиферация прекращается. Однако, как показала и настоящая работа, развитие клеточной популяции представляет собой сложный процесс, природа которого сама по себе стохастична. Если рассматривать вероятностную суть данного явления, то всегда присутствует некоторое распределение времени прекращения пролиферации клеток, т.е. ее старения.
Формирование и исследование групп генов для набора "пилотных" образующих
Адекватность методов анализа показателей уровней экспрессии генов в процессе развития организма, пердставленных в данной главе, исследовалась на основе сравнения результатов работы этих методов для двух реальных экпериментов [28], [24] (далее будем называть их эксперимент 1 и эксперимент 2 соответственно). Данные эксперименты заключались в измерении уровней экспрессии всех генов червей С. elegans в процессе их старения. Эксперименты были проведены независимо друг от друга. Измерения уровней экспрессии генов производильсь для нематод в возрасте 3 дней, 4 дней, 6-7 дней, 9-11 дней, 12-14 дней и 16-19 дней.
В Таблице 1 Приложения 2 представлена группа генов, сформированная методом (3.3) с г = 0.05 по данным эксперимента 1, где в качестве «пилотного», выбран ген семейства HSP-70. Здесь же представлены результаты применения этого метода к данным эксперимента 2. Сравнивая средние значения «корреляций» между «пилотным» геном и генами, составляющими группы, для двух экспериментов можно отметить, что в том и в другом случае для всех исследуемых групп (см. Таблицы 2-6 в Приложении 2) имеет место высокая, более 0.75, «корреляция» процессов экспрессии генов. Таким образом, в результате обработки данных двух различных экспериментов методом (3.3), получаются одни и те же группы генов связанные с определенным «пилотным» геном. Аналогичные результаты получаются в случае использования методов (3.4) и (3.6) при анализе данных экспериментов 1 и 2 (см Таблицы 1-6 в Приложении 2). А именно, оказалось, что для всех групп (сформированных по «пилотным» генам семейсва HSP70) значение «корреляция» процессов экспрессии «пилотного» гена со всеми остальными генами в группе по модулю не менее 0.75.
При применении наиболее распрастраненного метода иерархической кластеризации [13] с различным определением расстояния между генами [33] к данным экспериментов 1 и 2 были получены практически различные группы генов (см Таблицу 7 в Приложении 2). Это значит, что иерархическая кластеризация приводит к тому, что при одинаковых условиях экспериментов формируются различные группы совместно экспрессирующих генов. Данное обстоятельство не позволяет делать каких-либо выводов на основе результатов работы метода иерархической кластеризации. В связи с этим, можно сделать вывод, что методы, представленные в данной главе, более адекватно отражают специфику экспериментов по изучению процессов экспрессии генов в ходе развития и старения организмов. Для реализации методов анализа показателей уровней экспрессии генов, представленных в этой главе, был создан комплекс прогарамм. Общая схема анализа количественных данных по уровням экспрессии генов в процессах старения преведена на рисунке 4.
В качестве основы для реализации вычислительных алгоритмов использован язык программирования Borland C++ версии 5.02. Комплекс включает в себя следующие программы: - программа, считывающая данные показателей уровней экспрессии из файлов стандартного формата (текстовые файлы с разделенем данных символами табуляци); - программы, реализующие алгоритмы формирования групп генов согласно методам, представленным в 3.1. - программа, представляющая данные о сформированных группах генов в формате, позволяющем визуализацию результатов в стандартных пакетах, таких как Exel и MathCad. Разработанные программы позволяют, достаточно быстро обрабатывать большие массивы данных показателей уровней экспрессии генов. Результаты работы программ легко визуализировать в виде таблиц и графиков в стандартных пакетах Exel и MathCad. Анализ условных средних для процессов с изменением ансамбля реализаций экспрессии генов В настоящей главе изложены математические результаты для анализа «совокупного» (т.е. усредненного в группах совместной экспрессии) поведения трендов процессов уровней экспрессии генов при выбывании лабораторных животных как раз в связи с изменениями в уровнях экспрессии именно этих «критических» для жизни генов. Анализ условных средних процессов экспрессии генов при выбытии индивидуумов В настоящее время во многих работах, посвященных изучению экспрессии генов, выделяются и исследуются группы генов, экспрессирующихся совместно в ходе какого-либо эксперимента (например, при ограничении питания или в процессе старения организмов [5], [30]). Анализ влияния условий эксперимента на показатели экспрессии определенной группы генов проводится на основе изучения значений экспрессии, усредненных именно по данной группе. Однако, биологами не вполне учитывается тот факт, что наблюдаемый экспериментально тренд в средних значениях экспрессии может быть вызван не генетически обусловленными изменениями в уровнях экспрессии в ходе данного эксперимента, а фактом «выбытия» индивидуумов по причине «критичности» для их жизни превышения экспрессии данной группы генов определенной границы (см., например, [30]). Следовательно, недопустимо простое сопоставление уровней экспрессии в группах с разными «скоростями» вымирания по причине различающихся условий эксперимента. Поэтому необходимо рассматривать условные средние значения экспрессии.
Определение уровней причинности генов в выбытии организма из популяции
Целью работы является разработка методов построения и анализа стохастических имитационных моделей для исследования поведения временных характеристик многомерных систем с выбыванием применительно к изучению процессов функционирования ДНК клеток, а также разработка алгоритмов, реализующих данные методы, и их воплощение в виде комплекса программ на языках высокого уровня (Borlan C++, Borland Delphi). Математические модели и методы разрабатываются в семимартингальных терминах. Выбор параметров моделей осуществляется исходя из известной информации о моделируемом объекте. Определение неизвестных коэффициентов проводится с использованием методов оптимального оценивания. При разработке компьютерных моделей используются элементы теории разностных схем и методы стохастического моделирования. Методы анализа совместного поведения процессов экспрессии в больших группах генов основаны на исследовании квадратичных вариаций траекторий в рамках семи мартин гального подхода.
Все основные результаты настоящей диссертационной работы являются новыми. Построены новые стохастические вариационные методы анализа изменений уровней экспрессии генов в процессе старения организмов. Разработана новая имитационная модель динамики распределения клеток по длинам теломер в терминах стохастических дифференциальных уравнений. Методы анализа систем с выбыванием объектов, основанные на исследовании условных средних процессов, также являются новыми.
Теоретической значимостью обладают представленные стохастические вариационные методы анализа изменений уровней экспрессии генов. Данные методы обладают и практической значимостью и нашли свое применение при изучении процессов старения организмов на генетическом уровне. Комплекс программ, реализующий данные методы и предназначенный для хранения, обработки и визуализации количественных данных по экспрессии генов также имеет практическое применение. Теоретической и практической значимостью обладает стохастическая имитационная модель динамики распределения клеток по длинам теломер, а также реализующий ее комплекс программ, которые применяются при изучении причин ограничения продолжительности жизни клеточных популяций. Методы анализа систем с выбыванием объектов, основанные на исследовании условных средних процессов, также имеют теоретическую и практическую значимость.
По теме диссертации опубликовано 11 работ. Основные результаты диссертации докладывались и обсуждались на следующих конференциях и семинарах: IX-XI Всероссийские школы-коллоквиумы по стохастическим методам (г.Самара 2001г., г.Ростов-на-Дону 2002г., г.Петрозаводск 2003 г., г. Сочи, 2003 г.) Международные семинары в Институте демографических исследований Макса-Планка (Германия, г. Росток, 2001-2002 гг.) Пятая международная конференция «Математическое моделирование физических, экономических, технических, социальных систем и процессов» (Россия, г. Ульяновск 2003 г.) IX-XI ежегодные научные конференции молодых ученых Ульяновского государственного университета (г. Ульяновск 2001, 2002, 2003 гг.) Диссертационная работа состоит из введения, четырех глав, выводов и заключения, списка литературы из 72 наименований отечественных и зарубежных источников, а также приложений. Общий объем диссертации составляет 118 страниц. СОДЕРЖАНИЕ РАБОТЫ. Введение содержит обоснование актуальности рассмотренных в работе вопросов. Здесь же определяются цель, научная новизна и практическая значимость проводимых исследований, кратко изложено содержание диссертации.
Первая глава содержит краткий обзор работ, проводимых методами математического моделирования в рамках исследований временных характеристик процессов, происходящих в клетках. В 1.1. содержится анализ последних работ (например [4], [18], [32], [39], [43] и др.), посвященных разработке и исследованию математических моделей механизмов укорочения концевых участков ДНК (теломер) клеток. Здесь отмечены основные недостатки существующих моделей и указаны преимущества стохастического подхода к изучению данного биологического явления. В 1.2. приведен обзор литературы (например, [6], [9], [24], [30], [47] и др.), посвященной методам количественного анализа характеристик процессов экспрессии генов. Здесь также отмечены недостатки этих методов при исследовании процессов функционирования ДНК в ходе развития и старения организмов.
Вторая глава, состоящая из четырех параграфов, посвящена построению и анализу математической и имитационной модели динамики распределения популяции клеток по длинам теломер (концевых участков ДНК клеток). При репликации ДНК вследствие деления клетки, а также в силу свободнорадикальных повреждений ДНК, происходит укорочение теломер клеток. Было обнаружено, что клетки, теломеры которых достигают некоторого предела (Hayflick limit [20]) теряют способность к делению.