Содержание к диссертации
Введение
1 Современные представления о детерминации сегментов у дрозофилы. Обзор литературы . 10
1.1 Эмбриогенез дрозофилы 10
1.2 Сеть генов сегментации 12
1.3 Об использовании мутантов для анализа регуляторных взаимодействий 14
2 Материал и методы 18
2.1 Материал 18
2.2 Методы обработки цифровых изображений 20
2.3 Извлечение характерных признаков из одномерных картин экспрессии 23
2.3.1 Сплайновая аппроксимация 25
2.3.2 Быстрое избыточное двоичное вейвлет-преобразовапие . 26
2.4 Обобщение метода SVM на случай регрессионного оценивания . 28
2.5 Метод генных сетей 32
2.5.1 Базовая концепция модели 32
2.5.2 Уравнения модели 34
2.5.3 Оптимизация параллельным численным отжигом Лама . 36
2.5.4 Биологический анализ генных сетей 37
2.6 Базы данных 38
2.6.1 Реляционная модель данных и реляционные СУБД 38
2.6.2 Информационные технологии создания интерфейсов 39
3 Метод получения количественных данных по экспрессии генов сегментации 41
3.1 Сегментация изображений 42
3.1.1 Приведение изображений в стандартную ориентацию . 43
3.1.2 Построение гладкой маски эмбриона 45
3.1.3 Получение количественных данных 45
3.2 Удаление фонового сигнала 48
3.2.1 Определение неэкспрессирующих областей 50
3.2.2 Выделение опорных точек 51
3.2.3 Аппроксимация фонового сигнала 52
3.2.4 Удаление фона 53
3.2.5 Особые случаи 53
3.2.6 Оценка точности метода 54
3.3 Определение возраста эмбриона 56
3.3.1 Формирование обучающей выборки эмбрионов 59
3.3.2 Предсказание возраста эмбрионов 63
3.4 Регистрация картин экспрессии генов у эмбрионов 64
3.4.1 Аффинное преобразование 65
3.4.2 Оценка точности метода регистрации 67
3.5 Конструирование интегрированных картин экспрессии генов сегментации 69
Динамическая природа позиционной информации 73
4.1 Концепция позиционной информации 73
4.2 Градиенты морфогенов 76
4.3 Модель "французского флага" 78
4.4 Сдвиги областей экспрессии генов сегментации 79
4.5 Динамическая позиционная информация 88
Регуляторные взаимодействия в сети генов gap 91
5.1 Анализ регуляторных механизмов, контролирующих экспрессию ге
нов gap 92
5.1.1 In silico реконструкция сети генов gap 92
5.2 Анализ полученных генных сетей 94
5.2.1 Анализ коэффициентов матрицы регуляторных взаимодействий 95
5.2.2 Графический анализ регуляции в системе генов gap 98
5.2.3 Пять базовых регуляторных механизмов позиционирования областей экспрессии генов gap 103
5.3 Механизм сдвига границ областей экспрессии генов gap Ill
Создание атласа экспрессии генов сегментации во времени и пространстве 117
6.1 Модель данных 118
6.2 Архитектура системы 121
6.2.1 Java-серверы приложений 122
6.2.2 Визуализация количественных и преобразованных данных . 123
6.2.3 Визуализация динамики экспрессии генов 123
6.3 Объем данных 124
6.4 Веб-интерфейс 124
6.5 Практическое использование FlyEx 126
7 Анализ ранее разработанных и новых методов и моделей 128
7.1 Методы получения количественных данных из изображений . 128
7.2 Количественные данные по экспрессии генов сегментации 131
7.3 Математические модели детерминации сегментов и процесса сегментации 133
7.3.1 Модели реакции-диффузии, основанные на модели Тьюринга 133
7.3.2 Модели реакции-диффузии Мейнхардта 134
7.3.3 Модели генных сетей 135
7.3.4 Предыдущие исследования, использовавщие метод генных сетей 136
7.3.5 Представление о системе генов gap как о динамической системе138
7.3.6 Пределы применимости модели 140
Выводы 143
Список литературы
Введение к работе
За последние 25 лет биология развития добилась впечатляющих успехов. Применение генетических методов, а также методов функциональной геномики позволило клонировать большое количество генов, регулирующих процессы развития, выделить их продукты - РНК и белки и проанализировать функции всех этих молекул. Однако, несмотря на огромный объем полученной информации, картина того, каким образом гены контролируют фенотипы тканей, органов и, как следствие, развитие всего организма, до сих пор отсутствует.
Причинная связь между генотипом и фенотипом является сложной. Дело в том, что любая система (ткань, орган и т.п.) формируется в результате процессов и регуляторных механизмов, действующих на разных уровнях организации (от молекулярного до организменного). В каждом из этих процессов участвует большое число гетерогенных компонент (генов, белков, разных типов клеток и т.д.), которые вступают друг с другом в сложные взаимодействия, причём наличие ансамбля взаимодействующих компонент характерно для каждого уровня организации. На результаты таких взаимодействий (часто называемых "новыми сущностями "или "свойствами ансамбля") на любом уровне организации могут сильно влиять гетерогенность состава и взаимодействия биологических компонент на более низком и/или высоком уровнях организации.
Экспериментальная биология еще недавно была нацелена, главным образом, на изучение структуры и функции отдельных биологических компонент. Необходимость анализа свойств ансамблей, их синергии, а также гетерогенность биологических компонент, входящих в ансамбли на каждом уровне организации, требуют привлечения принципиально иных методов исследования. В последние годы в биологии развивается новое направление - системная биология, целью которой является получение информации о биологическом объекте как о системе взаимодействующих компонент и процессов. О важности системного подхода в современной молекулярной биологии можно судить по ряду детальных обзоров и коллективных монографий, см. например (Ратушный et al., 2005; Kolchanov and Hofestadt, 2005; Kitano, 2002).
Фундаментальным понятием биологии развития является морфогенетическое иоле - совокупность клеток, в результате взаимодействия которых формируется орган. Эти взаимодействия приводят к тому, что каждая клетка поля становится детерминированной, выбирая один из многих возможных путей развития, а также занимает определенное положение относительно одной или нескольких точек формирующейся системы. Современные экспериментальные технологии позволяют регистрировать компоненты морфогенетических полей, однако чрезвычайная сложность процессов развития, протекающих в этих полях, требует применения, помимо молекулярно-биологических методов, новых подходов, использующих математическое моделирование, теорию вероятности и статистику, теорию распознавания образов, теорию оптимального управления и вычислительные методы.
В данной работе системный биологический подход применяется для изучения механизмов детерминации сегментов в раннем эмбриогенезе плодовой мушки Drosophila melanogaster.
Актуальность работы. Несмотря на большой объем информации о регуля-торных взаимодействиях генов сегментации (Akam, 1987; Ingham, 1988; Корочкин, 2002), знания о механизмах регуляции этих генов, и в особенности, о механизмах экспрессии генов gap, являются далеко не полными. Это, с одной стороны объясняется неполнотой экспериментальных данных о регуляторных взаимодействиях, с другой - методологическими трудностями, которые возникают, когда вывод о регуляторном взаимодействии у многоклеточного организма делается на основе качественного анализа экспрессии гена у мутантов. Кратко эти трудности можно обозначить как проблемы непротиворечивости, уникальности и полноты предполагаемого регуляторного механизма.
Для доказательства непротиворечивости гипотетического регуляторного механизма требуется учет вклада всех регуляторов исследуемого гена. Современные экспериментальные методы, однако, имеют ограниченную возможность одновременного анализа влияния всех регуляторов на данный ген, поскольку они основаны на анализе картин экспрессии у мутантов, а получение организмов с мутациями более чем в трех регуляторах часто является непростой задачей. Более того, генная сеть у мутантов по определению состоит из неполного, или дефектного набора регуляторных взаимодействий генов. Таким образом, выводы о структуре генной сети дикого типа приходится делать на основании данных многих экспериментов с мутантами. Непротиворечивость же выявленных взаимодействий может быть продемонстрирована только при проверке их в интактном развивающимся организме, содержащем полный набор регуляторов.
Другая проблема, возникающая при интерпретации картин экспрессии у му-
тантов состоит в доказательстве уникальности механизма взаимодействия, т.е. доказательстве того, что данное регуляторное взаимодействие является прямым, а не опосредованным. Такие доказательства требуют проведения дополіпітельньїх экспериментов.
И наконец, существует фундаментальная проблема демонстрации полноты выявленных регуляторных взаимодействий. Действительно, необходимость материнских генов и генов gap - физических компонент морфогенетического поля сегментации - для правильной экспрессии гепов gap не означает достаточности этого набора генов. В принципе доказательство достаточности выявленного регуляторного механизма невозможно без реконструкции системы ab initio из отдельных, хорошо контролируемых компонентов. Очевидно, что современные экспериментальные методы не позволяют провести такую реконструкцию, и, следовательно, она должна быть проведена in silico с помощью математического моделирования и численных расчетов (Ратушный et а]., 2005).
Другой вопрос, один из самых важных в эмбриологии, состоит в выяснении механизма детерминации клеток и частей зародыша. В основе этого механизма лежит активация тех или иных генов в разных клетках, что приводит к возникновению пространственно неоднородной картины экспрессии генов ("узора"или так называемого паттерна). У дрозофилы детерминация сегментов определяет положение парасегментных, а не сегментных границ. Образование иарасегмен-тов предшествует формированию сегментов на более поздних стадиях развития. В морфогенетическом поле сегментации сегментный препаттерн образуют полосы экспрессии генов segment-polarity (Lawrence and Johnston, 1989; Martinez-Arias and Lawrence, 1985; Ingham and Martinez-Arias, 1992; Жимулев, 2003).
Классическое объяснение механизмов детерминации было предложено в 1969 году Л.Волпертом, сформулировавшим теорию позиционной информации (Wolpert, 1969; Wolpert, 1989). Согласно этой теории судьба клетки определяется ее положением в определенном пространственном поле зародыша, в котором существует градиент концентрации некой сигнальной молекулы, называемой морфогеном. Считывание информации о градиенте морфогена и ее интерпретация приводят к дифференциации клеток в том или ином направлении в зависимости от уровня концентрации морфогена.
У дрозофилы продукт материнского координатного гена bed является классическим примером морфогена (Driever and Nusslein-Volhard, 1988b; Driever and Niisslein-Volhard, 1988a; Ephrussi and St Johnston, 2004). Проведенные в последнее время генетические и теоретические исследования указывают на то, что действие одного лишь морфогена Bed недостаточно для возникновения прострвнетвенно
неооднородной картины экспрессии генов в бластодерме дрозофилы. В нашей работе исследована динамика позиционирования областей экспрессии генов сегментации, и на основе полученных данных обсуждается адекватность концептуальной модели Л.Волперта для объяснения механизмов формирования сегментного пре-паттерна в бластодерме дрозофилы.
Понимание принципов организации и функционирования морфогенетического поля сегментации требует детального количественного описания динамики каждой из его компонент. Несмотря па высокую разрешающую способность, метод ДНК чипов так же, как и многие другие методы количественной оценки экспрессии генов (количественный PCR, CAT assays), имеет ограниченное применение для решения этой задачи. Дело в том, что все эти методы используют гомогенаты клеток и, таким образом, теряют информацию об экспрессии генов в пространстве. Перспективным является использование иммунофлуоресцентного маркирования биологических макромолекул в сочетании с лазерной конфокальной микроскопией, которая позволяет получать качественные цифровые изображения картин экспрессии генов, готовые для извлечения количественных данных об экспрессии путем компьютерной обработки.
Очевидно, что качество математического моделирования зависит от качества экспериментальных данных. Как было отмечено Х.Китано (Kitano, 2002) идеальный набор данных должен быть исчерпывающим по полноте оцениваемых компонент, измеряемых параметров и по охвату временной динамики, точным в количественном отношении, а также систематическим. Последнее означает, что способ получения данных разных типов должен допускать их согласованную интеграцию. Хотя эти требования очевидны, в настоящее время лишь немногие наборы данных им удовлетворяют и, поэтому, получение такого набора данных по экспрессии генов сегментации имеет важное значение.
Эффективное использование количественных данных но экспрессии генов сегментации требует организации набора данных в виде базы данных, что обеспечит эффективное хранение и выборку информации, а также облегчит анализ данных, нацеленный на выявление новых биологических закономерностей изучаемого процесса и формулировку новых гипотез для их направленной проверки в экспериментах. Отметим, что по своей сути такая база данных будет пространственно-временным атласом экспрессии генов, поскольку она хранит количественную информацию по экспрессии в разных точках морфогенетического поля и в разные моменты времени.
Цель и задачи исследования состояли в том, чтобы проверить достаточность материнских градиентов Bed, Hb и Cad для правильного позиционирования
областей экспрессии генов gap и выяснить роль взаимной репрессии генов gap в этом процессе. Конкретные задачи исследования состояли в следующем:
Разработать новый конвейерный метод количественной оценки уровня экспрессии главных компонент морфогенетического поля сегментации у дрозофилы - генов сегментации - на основе изображений, полученных с помощью конфокальных микроскопов. Этот метод должен включать сегментацию изображений, удаление фонового сигнала, определение возраста эмбриона, пространственную регистрацию картин экспрессии и интеграцию данных.
Получить исчерпывающий по полноте, точный в количественном отношении и систематический набор количественных данных об экспрессии генов сегментации в каждом ядре каждого индивидуального эмбриона, а также эталонные, интегрированные данные об экспрессии каждого из 14 генов сегментации в каждой области эмбриона в разные моменты времени;
Изучить динамику формирования областей экспрессии генов в морфогенети-ческом поле сегментации путем оценки положения каждой области в разные моменты времени;
Создать математическую модель механизмов регуляции экспрессии генов gap в цикле деления ядер 14А. Примененить эту модель для in silico реконструкции сети генов gap и выявления механизмов, обеспечивающих сдвиги границ областей экспрессии этих генов;
Для облегчения работы теоретиков и биологов с данными создать пространственно-временной атлас экспрессии генов сегментации в виде реляционной базы данных, доступной в сети Интернет.
Научная новизна работы. В настоящей работе впервые
разработан конвейерный метод получения количественных данных по экспрессии генов сегментации из конфокальных изображений картин экспрессии этих генов. Метод включает 5 процедур, а именно, сегментацию изображений, удаление фонового сигнала, определение возраста эмбриона, пространственную регистрацию картин экспрессии и интеграцию данных, которые можно применять последовательно и по отдельности;
получен полный, точный и систематический набор количественных данных об экспрессии генов сегментации в каждом ядре каждого из 1580 индивидуальных эмбрионов, а также интегрированные данные об экспрессии каждого из 14 генов сегментации;
показано, что области экспрессии генов сегментации, локализованные в будущей зародышевой полоске, по мере своего формирования в цикле 14А смещаются к переднему полюсу эмбриона;
предложена математическая модель для предсказания механизмов регуляции экспрессии генов gap в цикле 14А, правильно воспроизводящая временную динамику экспрессии этих генов, степень перекрывания соседних областей экспрессии, а также воспроизводящая сдвиги границ областей экспрессии генов gap в ходе цикла 14А;
исследованы механизмы сдвигов центральной области экспрессии Кг, а также задних областей экспрессии kni, gt и hb по направлению к переднему концу эмбриона;
создан пространственно-временной атлас экспрессии генов сегментации в виде реляционной базы данных FlyEx, доступной по сети Интернет.
Основные положения, выносимые на защиту. На защиту выносятся
Компьютерная обработка цифровых изображений картин экспрессии генов, полученных с помощью конфокального микроскопа и иммунофлуоресцент-ного маркирования биологических макромолекул, может быть использована для получения количественных данных по экспрессии генов in situ.
Количественное описание пространственно-временной динамики компонент морфогенетического поля сегментации необходимо для понимания механизмов его функционирования.
Сдвиги областей экспрессии генов сегментации важны для позиционирования областей экспрессии генов-мишеней и играют важную роль в формировании сегментного препаттерна.
Материнские гены bcd,cad и гены gap Кг, kni, gt, hb, til не только необходимы, но и достаточны для правильной экспрессии генов gap в будущей зародышевой полоске.
Позиционная информация в бластодерме дрозофилы задается динамически меняющейся во времени комбинацией концентраций продуктов материнских и зиготических генов. В каждый момент времени эта комбинация определяется не только материнскими морфогенами, но и сдвигами границ областей экспрессии генов сегментации из-за регуляторных взаимодействий. Это
толкование подразумевает активріьій, а не пассивный способ интерпретации градиента морфогена и размывает границу между формированием и интерпретацией позиционной информации.
Практическое значение работы. Научно-практическая значимость работы состоит в том, что в ней впервые разработан и успешно применен метод конвейерной обработки картин экспрессии генов сегментации с целью получения количественных данных по экспрессии генов. Метод был успешно адаптирован для обработки данных по экспрессии генов сегментации на уровне мРНК (Janssens et al., 2006), для обработки оптических срезов изображений картин экспрессии генов в ядрах эмбриона дрозофилы, а также для маскирования экспрессирующих областей и получения количественных данных по экспрессии генов в раннем развитии коралла Acropora millepora и морского анемона Nematostella vectensis (Kozlov et al., 2007). Все это позволяет считать разработанный метод важным инструментом извлечения количественной информации из изображений картин экспрессии генов. Отметим также, что в силу универсальности большинства процедур разработанный метод может с небольшими модификациями применяться для обработки широкого спектра биологических изображений и, таким образом, представляет интерес для широкого круга ученых в области молекулярной биологии.
В качестве одной из процедур конвейерного метода предложен новый метод определения возраста эмбриона в цикле развития 14А, основанный на анализе динамичных картин экспрессии гена eve, окрашенного у всех эмбрионов, и стандартизации этих картин экспрессии относительно возраста эмбриона, определенного в эксперименте. Этот метод позволяет автоматизировать процедуру предсказания возраста, делает ненужным трудоемкое определение возраста экспериментальным путем и, таким образом, является важным усовершенствованием метода определения возраста эмбриона дрозофилы в раннем эмбриогенезе.
Количественные данные но экспрессии генов сегментации, полученные в данной работе, уникальны по охвату временной динамики, точны, имеют клеточное разрешение и получены в результате систематических и масштабных экспериментов, проводимых в одной лаборатории и с использованием одних и тех же стандартизованных методов. Эта особенность сделала полученные данные исключительно востребованными мировым сообществом, использующим их как в теоретических исследованиях, так и для изучения механизмов сегментации, см. например, Holloway et al., 2003; Pereanu and Hartenstein, 2004; Diambra and da Costa, 2005; Aegerter-Wilmsen et al., 2005; Isalan et al., 2005; Ludwig et al., 2005; Holloway et al., 2006; Krishna et al, 2005; Ochoa-Espinosa et al., 2005; Perkins et al., 2006; Yucel and Small, 2006; Zinzen and Papatsenko, 2007; Bergmann et al., 2007.
Созданный пространственно-временной атлас экспрессии генов сегментации FlyEx является открытым ресурсом, широко используемым мировым сообществом биологов и биоинформатиков. Так например, в 2006 году общее количество обращений к FlyEx составило более 260000.
В работе исследуется центральный вопрос эмбриологии - механизмы детерминации клеток и частей зародыша в морфогенетических полях. Помимо этого, выполненные исследования имеют важное значение для лучшего понимания медицинских аспектов развития, а совокупность разработанных методов и моделей формирует, в конечном итоге, методологическую базу для реконструкции генной сети организма при отсутствии или ограниченном использовании мутагенеза.
Апробация работы. Результаты диссертационной работы были доложены на конференциях: Computational Cell Biology Workshop [CSHL 2007] (Cold Spring Harbor, USA, 2007); Санкт-Петербургской международной конференции по нано-биотехнологии, пленарный доклад, (Санкт-Петербург, 2006); 3 Workshop on Data Integration for the Life Sciences [DILS2006] (Hinxton, UK); 1, 3, 4 и 5 International Conference on Bioinformatics of Genome Regulation and Structure [BGRS'1998, 2002, 2004, 2006], в 2006 г. - приглашенный доклад (Новосибирск, 1998, 2002, 2004 и 2006); 3 и 4 TICSP Workshop on Computational Systems Biology, приглашенные доклады (Tampere, Finland, 2005 и 2006); 2, 3 и 4 International Symposium on Networks in Bioinformatics, в 2005 и 2006 г.г. - приглашенные доклады, [ISNB 2005, 2006, 2007] (Amsterdam, the Netherlands, 2005, 2006 и 2007); NETTAB 2005 workshop, Workflows management: new abilities for the biological information overflow (Naples, Italy, 2005); 2d Integrative Bioinformatics Workshop, приглашенный доклад, (Bielefeld, Germany, 2005); 42, 44, 45 и 46 Annual Drosophila Research Conferences, (Washington DC, San Diego, Washington DC и Chicago, USA, 2001, 2003, 2004 и 2005); Intl. Moscow Conference on Computational Molecular Biology (Moscow, Russia, 2003); 7,10 и 11 Int. Conference on Intelligent Systems for Molecular Biology [ISMB99, ISMB02, ISMB03], в 1999 г. - премия SGI за лучший доклад на конференции, (Heidelberg, Germany, 1999; Edmonton, Canada, 2002; Brisbane, Australia, 2003); Computation in Cells: EPSRC Emerging Computing Paradigms Workshop, приглашенный доклад, (Hertfordshire, UK, 2000) и т.д.
С использованием материалов диссертации автором сделано 2 приглашенных доклада в Lawrence Berkeley National Laboratory, USA (2002 и 2006 гг.), доклад на Московском семинаре по биоинформатике (2006), приглашенные доклады в 2003 г. в Genetics Department, Cambridge University (UK) и в Bioinformatics Research Centre, University of Glasgow (UK), приглашенные доклады в 2005 г. на Bioinformatics Colloquium, Georg-August-Universitat Gottingen (Germany) и на Waterman Seminars,
the Leibniz Institute of Plant Genetics and Crop Plant Research (IPK, Germany), приглашенный доклад в Laurence H. Baker Center for Bioinformatics and Biological Statistics Seminar Series, Iowa University, USA (2001), а также 2 приглашенных лекции на the Les Houches Summer School "Multiple Aspects of DNA and RNA: from biophysics to bioinformatics" (2004). Также сделаны 3 приглашенных доклада на семинарах Dagstuhl: 3d Dagstuhl Seminar for Information and Simulation Systems for the Analysis of Gene Regulation and Metabolic Pathways (2001); Dagstuhl Seminar 04281 "Integrative Bioinformatics - Aspects of the Virtual Cell (2004), Dagstuhl Seminar 03051, "Information and Process Integration: A Life Science Perspective" (2003) и многих других семинарах. Сделан также доклад на семинаре, организованном фирмой Leica, "Современные конфокальные микроскопы фирмы Leica и их применение в биологии " (Санкт-Петербург,2006).
Кроме того результаты работы обсуждались на Санкт-Петербургском семинаре по компьютерной биологии, на семинарах кафедр эмбриологии и генетики Санкт-Петербургского государственного университета и были включены в лекцию на Международной школе-семинаре BGRS "Эволюция, системная биология и суперкомпьютерные вычисления в биоинформатике "в 2005 г. (Новосибирск, Россия).
Публикации. По материалам диссертации опубликовано 45 научных работ (все в соавторстве), в том числе 23 статьи в реферируемых научных журналах.
Структура диссертационной работы. Диссертация состоит из введения, 7 глав, выводов и библиографии (229 наименований). Ее полный объем составляет 165 страниц, количество рисунков 44.
Благодарности. Эту работу я посвящаю моим родителям.
Я благодарю Александра Самсонова за постоянную помощь, поддержку и ободрение. Я глубоко благодарна моему учителю Сергею Георгиевичу Инге-Вечтомову, который на протяжении многих лет помогал мне советами, обратил мое внимание на новый раздел молекулярной биологии - биоинформатику и оказал мне неоценимую помощь при написании данной работы. Я очень благодарна Анастасии Самсоновой и всем моим коллегам из отдела компьютерной биологии Центра перспективных исследований СПбГПУ, без которых эта работа не могла бы быть закончена. Моя особая признательность Константину Николаевичу Козлову и Светлане Юрьевне Сурковой за большую помощь в оформлении работы. Особая признательность моему постоянному соавтору Джону Райницу, который привлек мое внимание к новейшим проблемам молекулярной биологии развития.
Сеть генов сегментации
. К первой относятся материнские координатные гены (Nusslein-Volhard et al., 1987), которые экспрессируются материнским геномом и влияют на развитие переднего, заднего или терминальных районов эмбриона. Гены других групп являются зиготически-ми, т.е.экспрессируются геномом эмбриона (Nusslein-Volhard and Wieschaus, 1980). Мутации генов gap приводят к исчезновению непрерывного блока сегментов, мутации в генах pair-rule затрагивают каждый четный или нечетный сегмент, мутации в генах segment polarity влияют на полярность каждого индивидуального сегмента.
Большинство материнских координатных и зиготических генов сегментации кодируют транскрипционные факторы 2, которые регулируют экспрессию зиготических генов сегментации, присоединяясь к последовательностям в регуляторных районах этих генов. Таким образом, гены сегментации образуют сеть взаимодействующих друг с другом генов-регуляторов. Анализ фенотипов двойных мутантов выявил иерархию регуляторных взаимодействий в этой генной сети (см. обзоры Akam, 1987; Ingham, 1988), в соответствии с которой гены более высоких уровней (например, материнские координатные гены) регулируют гены более низких уровней (например, гены gap), а не наоборот. Помимо этого выявлены существенные регуляторные взаимодействия между генами, принадлежащими к одному уровню иерархии.
Начальные условия экспрессии зиготических генов сегментации задаются пространственными градиентами продуктов материнских координатных генов Biciod (Bed), Hunchback (Hb) и Caudal (Cad) (см. обзор St Johnston and Nusslein-Volhard, 1992). Белок Bed образует градиент концентрации за счет диффузии от переднего конца, где локализацована его мРНК (Prigerio et al., 1986; Berleth et al., 1988; Driever and Nusslein-Volhard, 1988a). Помимо этого, Bed формирует градиент Cad в задней части эмбриона, репрессируя в передней его части трансляцию мРНК cad, которая присутствует повсеместно (Mlodzik et al., 1985; Macdonald and Struhl, 1986; Dubnau and Struhl, 1996; Rivera-Pomar et al., 1996). Аналогично, в задней части эмбриона Nanos (Nos) репрессирует трансляцию присутствующей повсеместно материнской мРНК hb (Tautz et al., 1987; Tautz, 1988; Murata and Wharton, 1995) 3. Дополнительный материнский вклад вносит терминальная система генов (см. обзор Furriols and Casanova, 2003), которая регулирует экспрессию генов сегментации на концах эмбриона посредством действия на зиготические терминальные гены gap tailless (til) и huckebein (hkb) (Weigel et al., 1990). Экспрессия терминальных генов gap не зависит от экспрессии других зиготических генов (Bronner and Jackie, 1991).
Гены gap начинают экспрессироваться во время циклов деления 10-12 (Jackie et al., 1985; Tautz et al., 1987; Mohler et al., 1989; Pritchard and Schubiger, 1996). Ha стадии поздней бластодермы каждый из этих генов экспрессируется в виде одной - трех широких областей экспрессии. Совместно с материнскими координатными генами гены gap регулируют формирование периодической картины экспрессии генов pair-rule (Howard and Ingham, 1986; Harding et al., 1989; Howard and Struhl, 1990; Gutjahr et al, 1993; Klingler and Gergen, 1993; Yu and Pick, 1995). В свою очередь, гены pair-rule определяют первоначальный характер экспрессии генов segment polarity, таких как engrailed (en) и wingless (гид) (Jaynes and Fujioka, 2004; Swantek and Gergen, 2004). Как уже было отмечено выше, у дрозофилы детерминация сегментов определяет положение парасегментных, а не сегментных границ. В морфогенетичсском поле сегментации гены segment polarity непосредственно определяют положение границ парасегмснтов, а полосы экспрессии этих генов образуют сегментный препаттерн (Lawrence and Johnston, 1989; Martinez-Arias and Lawrence, 1985; Ingham and Martinez-Arias, 1992; Жимулев, 2003).
В результате детальных генетических и молекулярных исследований получен большой объем информации о регуляторных взаимодействиях в сети генов сегментации. Однако, знания о механизмах регуляции генов сегментации, и в особенности о механизмах, обеспечивающих экспрессию генов gap, являются далеко не полными. Это с одной стороны объясняется неполнотой экспериментальных данных о регуляторных взаимодействиях, с другой - методологическими трудностями, которые возникают, когда вывод о наличии/отсутствии регуляторного взаимодействия у многоклеточного организма делается на основе качественного анализа экспрессии гена у мутантов.
Чтобы продемонстрировать трудности, возникающие при интерпретации кар тин экспрессии генов у мутантов, рассмотрим, например, известные из литературы данные о регляторном действии Hb на Кг. У эмбрионов, у которых нет материнского Hb и не синтезируется зиготический Hb, передняя граница центральной области экспрессии гена Кг сдвинута по направлению к переднему концу эмбриона (Jackie et al, 1986), при этом уровень экспрессии Кг в этой области ниже по сравнению с эмбрионами дикого типа (рис. 1.1; Harding and Levine, 1988). Более того, у эмбрионов, у которых ген hb находится под контролем промотора hsp70, тепловой шок приводит к экспрессии hb во всем эмбрионе. У таких эмбрионов область экспрессии Кг становится шире, удлиняясь в направлении к заднему концу эмбриона (рис. 1.1; Hiilskamp et al., 1990). Наконец, у эмбрионов, лишенных Bed и материнского Hb, Кг не экспрессируется. Экспрессия Кг восстанавливается при увеличении доз материнского гена hb, причем ширина области экспрессии пропорциональна количеству доз (Schulz and Tautz, 1994; Struhl et al., 1992). Было высказано предположение, что наблюдаемые фенотипы обусловлены двойственной регуляторной ролью Hb, который при низких концентрациях активирует Кг, а при высоких - репрессирует (Hiilskamp et al., 1990; Struhl et al., 1992; Schulz and Tautz, 1994).
Сплайновая аппроксимация
Простейшая аппроксимация (Мясникова et al., 2001) достигается квадратичным сплайном с нефиксированными узлами, для которого выполняется требование непрерывности первой производной в узловых точках. Система узлов, 5 ,) хм, выбирается как множество различных точек на оси х, ограничивающих область каждого пика. Положение узла определяется как переходная точка между соседними пиком и впадиной. Квадратичный сплайн с М узлами имеет вид
Общая оптимизация проводится на двух уровнях: положение узлов определяется при помощи симплекс метода Нелдера и Мида (Press et al., 1992) в сочетании с линейным методом, применяемым для нахождения остальных параметров сплайна. На каждом шаге нелинейной процедуры определяется точный минимум целевой функции 5Ї путем решения системы линейных уравнений для множества текущих значений узлов.
В результате аппроксимации каждая кривая характеризуется множеством узлов {XJ}JLI и параметров сплайна {Cofc}=o и {Cn2}n=v По этим параметрам вычисляется ж-координата к-го экстремума
Вейвлетное разложение (Unscr, 1996) позволяет получать локальную высокочастотную и глобальную крупномаштабпую информацию об объекте. Его применение обеспечивает возможность одновременного исследования данных в физическом (время, координата) и частотном пространствах. Нам необходимо выбрать тип и базис преобразования таким образом, чтобы выделить из сигнала информацию о первой производной исходного сигнала. Такую возможность предоставляет,
Пример вейвлетного разложения картины экспрессии гена eve. Одномерные картины экспрессии eve у эмбрионов третьего (а) и восьмого (г) классов. Аппроксимирующая (low pass) и детализирующая (high pass) последовательности на промежуточном и конечном уровнях разложения для эмбрионов из временного класса 3 (б и в соответственно) и класса 8 (д и е). так называемое, быстрое избыточное двоичное вейвлет-преобразование (fast redundant wavelet transform, FRDWT) (Unser et al., 1994).
Основными свойствами FRDWT являются хорошее подавление шума и точное выделение пространственно локализованных признаков. Сигнал раскладыва 2.3. Извлечение характерных признаков из одномерных картин экспрессии 27 ется на две последовательности: аппроксимирующую (low pass) и детализирующую (high pass)(рис. 2.2). Ввиду избыточности преобразования число элементов каждой последовательности совпадает с числом наблюдений в исходной выборке, что позволяет сохранить полную информацию о локализации экстремумов, содержащуюся в исходном сигнале. На каждом уровне разложения исходный сигнал сглаживается путем удаления шума вплоть до определенной частоты и представляется в виде аппроксимирующей последовательности. Детализирующая составляющая содержит информацию о тех признаках исходного сигнала, которые определяются выбором соответствующего вейвлетного базиса (Unser, 1996). Для определения положения экстремумов, т.е. нулей первой производной, применяем базисные функции, которые включают характеристики первой производной в детализирующую последовательность. Разложение повторяется итеративно, причем на каждом последующем этане вместо исходного сигнала раскладывается соответствующая аппроксимирующая составляющая.
Быстрое избыточное двоичное вейвлет-разложение (FRDWT) функции / определяется для любого целого к )-оо (И /)(а, A;) = a-1 2 J ф ( ) f(x)dx, (2.2) —оо где ф обозначает функцию, комплексно сопряженную функции ф. FRDWT отображает функцию / в две последовательности: аппроксимирующую (low pass) s3(k) = (\Уф/) (2-7, 2Jk) и детализирующую (high pass) r0(k) = (W f) (2J, 23k), где ф(і) - масштабирующая функция, а ф(Ь) функция, называемая вейвлетом. Выбираем вей-влет ф(І) = 11 ехр(—12/2), позволяющий выделить признаки первой производной функции, и ф{Ь) = exp(—t2/2), которая сглаживает исходную функцию.
Для дискретного сигнала разложение может быть представлено в виде дискретных сверток. Так и исходная функция /, и вейвлет ф{Ь) выражаются через линейные комбинации сдвинутых базисных функций.
Сначала для дискретного исходного сигнала /(/г), к Є IN = 0,..., N — 1 вычисляется разложение на начальном уровне +Nb s0(k)= ]Г b(l)f(k + l), l=-Nb где b(l), I = —Nb,..., Nb - ядро инициализации.
Аппроксимирующая последовательность вычисляется как скалярное произведение исходного сигнала с масштабирующей функцией на требуемом уровне раз 2.4. Обобщение метода SVM на случай регрессионного оценивания 28 ложения: +Nh l=-Nh где h(l),l = —Nh,...,Nh - уточняющий фильтр. Детализирующая последовательность вычисляется как свертка Sj с вейвлетом l= Np где p(l),l = —Np,...,Np - коэффициенты дискретного представления вейвлета, обеспечивающего выделение признаков первой производной на данном уровне разложения, J - требуемый уровень разложения. Коэффициенты фильтров b(l), h(l) и р(1) задаются в явном виде. Для к + ml О или iV задаются периодические граничные условия /(-1) = f{N - 1),..., f(N) = /(0),....
Метод SVM (Support Vector machine) представляет собой нелинейное обобщение Generalized Portrait алгоритма, разработанного в 60-х годах Вапником с соавторами (Вапник and Червоненкис, 1974; Вапник, 1979; Vapnik, 1995). Этот алгоритм основан па теории статистического обучения, иначе называемой VC - теорией, которая за последние три десятилетия была тщательно разработана Вапником, Червоненкисом (Вапник and Червоненкис, 1974) и многими другими исследователями, например, Смолой и Шолкопфом (Scholkopf et al., 1998; Scholkopf et al., 1999; Scholkopf and Smola, 2002). Эта теория характеризует свойства обучающих механизмов, которые позволяют адекватно обобщить их на данные, информация о которых получается из косвенных источников.
Несмотря на то, что метод SVM был разработан изначально для распознавания образов, оказалось, что его модификации применимы как в задачах оценивания регрессии, так и в задачах классификации.
Рассмотрим основную задачу применения метода SVM к оценке регрессии. Наша цель заключается в том, чтобы оценить функцию, исходя из имеющихся данных. В задачах оценивания функции мы не можем полностью "доверять" имеющимся данным, т.к. они могли быть получены с некоторым шумом. В большинстве случаев характер шума остается неизвестным, что не мешает строить различные предположения относительно функции.
Построение гладкой маски эмбриона
Завершающим подготовительным этапом перед сегментацией изображений является создание гладкой маски всего эмбриона, которая в точности повторяет форму эмбриона (рис. 3.2). Это процедура осуществляется после поворота и обрезания изображений, т.к. структурные элементы (Gonzalez and Woods, 2002), используемые при этом, чувствительны к ориентации изображений. Вначале строится новое изображение пиксельного максимума на основе предварительно повернутых и обрезанных изображений. Затем к полученному изображению применяется выравнивание гистограммы для максимального усиления контраста, а также медианный фильтр, осуществляющий сглаживание и уменьшение шума. В конечном итоге, с помощью порогового фильтра получается бинарное изображение и к нему применяется трансформация эвклидова расстояния. Эта процедура создает изображение в градации серого, где каждый пиксель маски имеет значение, соответствующее его эвклидову расстоянию от границы. В сочетании с последующим применением медианных и порогового фильтров, это приводит к созданию маски с очертаниями, более соответствующими натуральным контурам эмбриона. С помощью алгоритма Шена-Кастана (Shen and Castan, 1986) выделяется край полученной маски, из которого после заполнения и эрозии получается новая гладкая маска всего эмбриона (рис. 3.2). В конечном итоге, изображения, полученные во всех каналах микроскопа, обрезают по размеру новой гладкой маски (Janssens et al., 2005).
Для извлечения информации об экспрессии генов в каждом ядре эмбриона строится так называемая ядерная маска на основе изображения, прокрашенного на гистоновые белки, если оно имеется, или же на основе пиксельного максимума экспрессии трех остальных генов (рис. 3.3). В данном случае для усиления контраста и уточнения границ ядер применяется локальное выравнивание гистограммы (Gonzalez and Woods, 2002). Гранулированный шум (speckle noise) удаляется алгоритмом Кримминса (Crimmins, 1985), несколько циклов медианной фильтрации производят дальнейшее удаление шума из изображения. Далее, после инвертирования значений всех пикселей, создается изображение водораздела. Область водораздела определяются как территория, занятая одним ядром и ограниченная линией шириной в один пиксель. Каждая область водораздела характеризуется уникальным значением градации серого цвета. В результате применения эрозии и порогового фильтра это изображение преобразуется в бинарное, где границы водораздела имеют значение 0 (рис. 3.3). После умножения этого бинарного изображения на изображение пиксельного максимума или изображение гистоновых белков каждое ядро отделяется от соседних ядер границей из нулевых пикселей. Эта операция позволяет разделить некоторые ядра, на изображении слившиеся между собой. В завершение, эрозия с последующим преобразованием расстояния (Vincent et al., 1997) и пороговым фильтром позволяют удалить из маски посторонние пятна, не являющиеся ядрами эмбриона. Результирующая маска представляет собой бинарное изображение, где области, соответствующие ядрам, имеют значение 1. Полученная бинарная маска используется для извлечения количественных данных об экспрессии генов. Координаты центроида каждого ядра вычисляются с помощью инвариантов моментов (Ни, 1962). Наложение маски на изображения, полученные в каждом канале микроскопа, позволяет вычислить средние концентрации продуктов всех сканированных генов в каждом ядре (Janssens et al., 2005). Конечный результат представляет собой таблиігу, содержащую х и у координаты каждого ядра в процентах длины и ширины эмбриона, а также усредненную интенсивность флуоресценции, или относительный уровень экспрессии для каждого из сканированных у данного эмбриона генов (рис. 3.3). Разработанная процедура извлечения количественной информации из биологических изображений реализована в оригинальном пакете ProStack (Processing of Stacks) для визуального построения сложных процедур обработки данных и изображений.
Качество построения ядерной маски обычно контролируется визуально путем наложения ее на изображение эмбриона, иммунопрокрашенного на гистоны (рис. 3.4 а).
Нами предложен численный метод контроля качества ядерной маски. Оценка строится из предположения, что разброс интенсивностей для пикселей внутри ядра должен быть меньше, чем таковой между пикселями внутри ядра и вне его. Пиксели внутри ядер и вне их рассматриваются как два класса А и В (рис. 3.4 б и в). В этом случае вариацию интенсивностей между классами и внутри классов можно вычислить по следующим формулам:
Очевидно, что даже незначительный уровень фона исказит численное значение уровня экспрессии гена. Более того, уровень фона варьирует от эмбриона к эмбриону и от эксперимента к эксперименту, что не позволяет провести сравнение данных, полученных в разных экспериментах. Помимо этого, уровень неспецифического окрашивания варьирует даже среди картин экспрессии одного гена, полученных с использование разных вторичных антител, сопряженных с разными флуорофорами (рис. 3.5).
Разработанный нами метод удаления фонового сигнала (Myasnikova et al., 2005), основан на наблюдении, что уровень флуоресценции в нуль-мутантах, окрашенных на отсутствующий белок, хорошо аппроксимируется двумерным параболоидом (или, в более общем случае, выпуклой поверхностью второго порядка) (рис. 3.6). Этот параболоид очень близок к симметричному но осям х и у. Параболическое распределение уровня фона объясняется, по всей видимости, свойствами конфокального микроскопа, что следует из экспериментов по изменению установок микроскопа. Было установлено, что увеличение оффеета приводит к уменьшению уровня фонового сигнала в изображении, в то время как уменьшение оффсета приводит к появлению параболического фона с возрастающей кривизной. Основная идея метода удаления фона состоит в определении неэкпрессирующих областей эмбриона, которые затем используются для аппроксимации фонового сигнала с тем, чтобы затем удалить его масштабированием картины экспрессии. Эта процедура выполняется в несколько этапов.
Неэкспрессирующие области - это участки эмбриона, в которых данный ген не экспрессируется в большинстве ядер. Для каждого гена эти участки первоначально определяются на основе тщательного визуального изучения картин экспрессии всех эмбрионов. Неэкспрессирующие области, идентифицированные при таком анализе, затем уточняются на двумерной картине экспрессии каждого эмбриона. Поскольку экспрессия генов сегментации является в основном функцией позиции относительно антериопостериорной (передне-задней) (А-Р) оси эмбриона, она достаточно полно может быть представлена в виде одномерного сигнала.
Градиенты морфогенов
Оказалось (табл. 4.5, рис. 4.7), что в ходе цикла 14А ядра 51 и 62 сдвигаются к переднему концу эмбриона на расстояние, соответствующее половине диаметра ядра. Однако это движение происходит неравномерно: на ранних стадиях цикла, в интервале между временными классами 1 и 3, ядра слегка смещаются к заднему концу эмбриона (табл. 4.5, данные приведены только для ядра 62), а на более поздних интервалах времени ядра меняют направление движения на противоположное. Отметим, что эти интервалы времени приблизительно соответствуют медленной и быстрой (разам инвагинации мембран, сопровождающейся удлинением ядер (Lecuit, 2004; Loncar and Singer, 1995). Дальнейшие доказательства того, что обнаруженные в данной работе сдвиги областей экспрессии не обусловлены движением ядер, можно получить, рассмотрев поведении межполосного промежутка 2/3 гена run и полосы 3 h. В конце цикла 14А, во временном классе 8, картины экспрессии этих генов строго комплементарны и, следовательно, максимум экспрессии h и минимум экспрессии тип локализуются в одном месте (ядре). Однако, как следует из рисунка 4.7, на ранних стадиях этого цикла межполосный промежуток 2/3 run и полоса 3 h локализуются в разных местах эмбриона. Таким образом, в ходе цикла 14А межполосный промежуток 2/3 run и полоса 3 h сдвигаются относительно друг друга. Очевидно, что это явление не может быть обусловлено простым движением ядер.
В противоположность ядрам, расположенным в зародышевой полоске, ядро 31, расположенное в месте формирования головной бороздки, сдвигается к заднему концу эмбриона примерно на расстояние равное двум ядрам (табл. 4.5, рис. 4.7). Этот сдвиг совпадает по направлению и сопоставим по величине с размерами сдвигов областей экспрессии генов сегментации, локализованных в головном отделе эмбриона (Surkova et al., 2007) (см. рис. 4.1 и рис. 4.2). Таким образом, не исключено, что сдвиги областей экспрессии генов сегментации в головном отделе могут быть обусловлены движением ядер.
Изложенные в данном разделе результаты свидетельствуют о том, что области экспрессии генов сегментации, локализованные в презумптивной зародышевой полоске, но мерс своего формирования в цикле 14А смещаются к переднему полюсу эмбриона. Движения ядер в этом районе эмбриона значительно меньше по величине, чем сдвиги областей экспрессии. Этот факт, а также данные о смещении картин экспрессии разных генов сегментации относительно друг друга (данный раздел и Surkova et al., 2007) и об асимметричном расположении областей локализации мРНК генов сегментации относительно областей локализации соответствующих белков (Jaeger et al., 2004b), свидетельствуют о том, что сдвиги областей экспрессии в презумптивнои зародышевой полоске являются следствием регуляции активности генов и не обусловлены движением ядер. Эти сдвиги по порядку величины совпадают с размерами полос экспрессии генов pair-rule (3-5 ядер) (Surkova et al., 2007) и, следовательно, очень важны для позиционирования областей экспрессии генов-мишеней и для формирования сегментного препаттер-на.
Уточненная концепция морфогена и концепция позиционной информации четко разделяют процессы формирования и интерпретации позиционной информации и используют статическую систему координат, налагаемую на абсолютно пассивную ткань-мишень. Результаты изучения формирования областей экспрессии генов сегментации, приведенные в предыдущем разделе, показывают абсолютную неадекватность такой концептуальной модели для описания динамики образования паттерна в бластодерме дрозофилы.
Во-первых, следует отметить, что помимо Bed в бластодерме дрозофилы существует второй материнский градиент - градиент НЬ, и что позиционирование границ генов-мишеней происходит в результате синергстического взаимодействия этих двух градиентов (Driever and Nusslein-Volhard, 1988b; Simpson-Brose et al., 1994; Reinitz et al., 1995a). Хотя эти градиенты формируются относительно разных базисных точек, расположенных в передней и задней частях эмбриона (Berleth et al., 1988; Driever and Nusslein-Volhard, 1988a; Murata and Wharton, 1995; Sonoda and Wharton, 1999; Tautz, 1988), они имеют одинаковую полярность и, следовательно, не могут задать позиционную информацию через отношение своих концентраций.
Кроме того, как ясно из рис. 4.8, концентрация морфогена Bed непостоянна и сильно меняется во времени. Помимо этого, как было показано в предыдущем разделе, области экспрессии генов gap и pair-rule, являющихся мишенями действия материнских градиентов, меняют свое положение по мере развития. Все это означает, что позиционную информацию нельзя рассматривать как некое по стоянное, заданное концентрацией морфогена позиционное число, задающее положение границ областей экспрессии генов-мишеней. Наоборот, наши результаты свидетельствуют о том, что позиционная информация не является статичной, а постоянно и быстро меняется. Как будет показано в главе 5 сдвиги и уточнение границ экспрессии генов gap происходят за счет взаимной регуляции этих генов и не зависят от действия материнских градиентов и диффузии продуктов генов gap между ядрами. Материнские градиенты и гены gap совместно определяют положение границ генов pair-rule, которые тоже сдвигаются по мере развития. Разумно предположить, что такие сдвиги областей экспрессии влияют на позиционирование полос экспрессии генов segment polarity и, тем самым, на позиционирование границ нарасегментов (Ingham and Martinez-Arias, 1992).
В свете всего вышесказанного, позиционную информацию в бластодерме дрозофилы следует рассматривать как динамически меняющуюся во времени комбинацию концентраций продуктов материнских и зиготических генов. В каждый момент времени эта комбинация определяется не только материнскими морфоге-нами, но и сдвигами границ областей экспрессии генов сегментации из-за регу-ляторных взаимодействий генов-мишеней.