Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка методов картирования генов на основе родословных сложной структуры Белоногова Надежда Михайловна

Разработка методов картирования генов на основе родословных сложной структуры
<
Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры Разработка методов картирования генов на основе родословных сложной структуры
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Белоногова Надежда Михайловна. Разработка методов картирования генов на основе родословных сложной структуры : диссертация ... кандидата биологических наук : 03.02.07 / Белоногова Надежда Михайловна; [Место защиты: Ин-т цитологии и генетики СО РАН].- Новосибирск, 2010.- 122 с.: ил. РГБ ОД, 61 10-3/737

Содержание к диссертации

Введение

Глава 1 Общие принципы картирования локусов комплексных признаков 9

1.1 Анализ сцепления 9

1.2 Анализ ассоциаций 13

Глава 2 Оптимизация подсчета функции правдоподобия больших родословных 17

2.1. Введение в проблему и постановка задачи 17

2.2. Процедура свертки 18

2.3. Алгоритм оптимального порядка свертки 21

2.4 Число возможных генотипов 23

2.5 Проверка эффективности алгоритма 23

Глава 3 Анализ ассоциаций с учетом эффекта родительского происхождения аллелей 26

3.1 Обзор литературы и постановка задачи 26

3.1.1 Эффект родительского происхождения аллелей 26

3.1.2 Существующие методы анализа ассоциаций с учетом родительского эффекта 28

3.1.3 Метод измеренных генотипов как основа для более мощного теста на эффект родителя 28

3.2 Описание метода 30

3.3 Эффективность метода 33

3.3.1 Эффективность реконструкции гаплотипов 34

3.3.2 Ошибки первого рода и мощность для тестов на основе GRAMMAR и TDT при анализе эффекта родителя 35

3.3.3 Поиск эффекта родителя методом GRAMMAR при разных моделях наследования признака 42

3.4 Обсуждение 44

Глава 4 Картирование генов, контролирующих рост взрослого человека 48

4.1. Обзор литературы и постановка задачи 48

4.2. Материалы и методы 51

4.2.1. Родословная 51

4.2.2. Генотипирование 52

4.2.3. Методы анализа 52

4.2.4. Анализируемый признак 54

4.3. Результаты и обсуждение 55

4.3.1. Аллельный эффект 55

4.3.2. Эффект родительского происхождения аллелей 59

Глава 5 Картирование генов, контролирующих индекс массы тела взрослого человека 67

5.1. Обзор литературы и постановка задачи 67

5.2. Материалы и методы 71

5.3. Результаты и обсуждение 73

5.3.1. Аллельный эффект 73

5.3.2 Эффект родительского происхождения аллелей 78

Заключение 85

Выводы 93

Литература 94

Приложение 105

Введение к работе

Актуальность исследования

Картирование генетических локусов, контролирующих различные признаки животных и человека, является важной и актуальной проблемой современной генетики. За последние годы были успешно секвенированы геномы многих видов, и все же функции большинства генов и фенотипическое проявление их аллельных вариантов во многом остаются неизвестными. Картирование генов, контролирующих проявление признака - необходимый этап генетического анализа, позволяющий соотнести фенотипическую черту с конкретной последовательностью нуклеотидов ДНК. Успешное картирование генетических вариантов позволяет глубже понять механизмы развития многих распространенных заболеваний, своевременно разработать и применить эффективные терапевтические или профилактические меры и методы ранней диагностики.

За последние десятилетия генетика значительно продвинулась в этом направлении. С помощью рекомбинационного анализа были картированы многие локусы, в том числе участвующие в контроле таких широко распространенных заболеваний как диабет, болезнь Альцгеймера, некоторые формы рака (Risch, 2000; Gulcher et al., 2001; Botstein and Risch, 2003). Главным образом были картированы гены большого эффекта, оказывающие сильное влияние на фенотип. Однако, основная часть наследуемых признаков относится к категории комплексных, то есть формируется при совместном участии большого числа генов, каждый из которых в отдельности оказывает незначительный эффект (Lohmueller et al., 2003; Hirschhorn and Daly, 2005; Collins, 2007). Поиск аллелей малого эффекта - важная задача генетической эпидемиологии, поскольку предполагается, что такие аллели играют существенную роль в развитии многих распространенных болезней, в том числе, гипертонии, сахарного диабета, ишемической болезни сердца, нейродегенеративньтх заболеваний и многих форм рака (Hirschhorn and Daly, 2005; Mayeux, 2005).

Между тем, картирование генетических вариантов со слабо выраженным эффектом сопряжено с рядом трудностей. Чтобы достичь необходимой мощности статистических тестов, нужны большие выборки, включающие десятки и сотни тысяч людей. В результате формируются большие массивы данных, обработка которых создает вычислительные проблемы. Многие существующие пакеты программ не в состоянии работать с выборками такого размера. Кроме того, не всегда удается определить модель наследования сложного признака или хотя бы примерное число генов, участвующих в его формировании. В настоящее время не существует статистических методов, достаточно полно учитывающих специфику комплексных болезней и обладающих высокой мощностью, чтобы надежно картировать генетические локусы, контролирующие сложные признаки.

В качестве объекта для исследований такого рода особый интерес представляют изолированные популяции человека. Известно, что в таких популяциях редкие аллельные варианты встречаются с относительно высокой частотой, что увеличивает шансы успешно картировать их позицию в геноме (Terwilliger et al., 1998; Peltonen, 2000; Peltonen et al, 2000; Chapman and Thompson, 2001; Rannala, 2001). В последние годы в нескольких странах Европы были сформированы большие массивы данных по изолированным популяциям человека (см., например, Aulchenko et al., 2004). Однако анализировать данные такого объема практически невозможно с применением существующих методов. Исследователи вынуждены дробить родословную на фрагменты и анализировать их как независимые родословные, теряя при этом генетическую информацию. Таким образом, прогресс в данной области существенно зависит от разработки новых эффективных аналитических методов, которые позволили бы извлечь максимум полезной информации из доступного материала.

Цели и задачи исследования

Целью исследования является разработка новых, эффективных методов статистического анализа, позволяющих картировать гены комплексных признаков человека.

Для достижения цели были поставлены следующие задачи:

1. Разработать новые методы и алгоритмы анализа, повышающие эффективность картирования локусов комплексных признаков на материале больших родословных, включающие: а. алгоритм оптимизации подсчета функции правдоподобия на материале большой родословной;

7 b. метод поиска эффекта родительского (материнского/отцовского) происхождения аллелей на больших родословных. 2. С помощью существующих и новых методов картирования провести анализ некоторых комплексных признаков человека: роста и индекса массы тела. Научная новизна

Разработан ряд новых методов и алгоритмов, позволяющих оптимизировать процесс поиска генов комплексных признаков на родословных сложной структуры: разработан и реализован в виде компьютерной программы алгоритм оптимизации подсчета функции правдоподобия большой родословной, на ряде примеров показано, что он ускоряет вычислительные процедуры в 1.8-3.2 раза; описана модель генетического контроля количественного признака, включающая эффект родительского (материнского/отцовского) происхождения аллелей, и на ее базе создан метод картирования генов, позволяющий быстро производить полногеномный анализ с использованием большого числа генетических маркеров; показано, что разработанный метод обладает большей мощностью, чем существующие аналоги.

С использованием существующих и новых методов картирования проведен анализ комплексных признаков человека: роста и индекса массы тела. Обнаружены новые сайты локализации генов, контролирующих эти признаки. Впервые показана ассоциация анализируемых признаков с рядом локусов, обладающих эффектом родительского происхождения аллелей.

Теоретическая и практическая ценность

В рамках подхода генетического картирования предложены новые алгоритмы и модели, их свойства проверены в модельном эксперименте и на реальных данных.

Впервые полногеномный анализ ассоциаций произведен с учетом эффекта родительского происхождения аллелей. В результате анализа комплексных признаков человека найдены новые генетические варианты, в том числе показана ассоциация индекса массы тела с генами молекул клеточной адгезии LOC338667/CDON, NLGN1, CNTNAP5 и CNTN3, влияющими на развитие и функционирование нервной системы. Результаты анализа подтверждают существующие представления о механизмах генетического контроля роста и индекса массы тела человека и роли регуляторных

8 генов в определении разнообразия по данным признакам. В перспективе, полученные результаты будут способствовать прогрессу в области диагностики генетической предрасположенности к ожирению, диабету, раку, когнитивным расстройствам и другим распространенным заболеваниям.

Личный вклад автора

Разработка алгоритмов и методов генетического анализа, реализация их в виде компьютерных программ, а также весь статистический анализ выполнены автором самостоятельно. Материал (родословная, значения признаков и генотипов большого числа маркеров) был собран и любезно предоставлен сотрудниками Медицинского центра Эразмус (Роттердам) в рамках совместного исследования РФФИ-NWO.

Апробация работы

Результаты работы докладывались на Европейской Конференции по Генетике Человека (Ницца, 2007) и на Съезде Вавиловского Общества Генетики и Селекции (Москва, 2009).

Структура и объем работы

Работа состоит из 5 глав, введения, заключения и выводов, содержит 12 рисунков, 15 таблиц и приложение. Объем работы - 122 страницы.

Публикации

По теме диссертации опубликовано 9 работ, в том числе статьи в журналах "Computational Biology and Chemistry", "Human Genetics", "European Journal of Human Genetics", "Annals of Human Genetics".

Анализ ассоциаций

Интервал, в котором удается картировать генетический локус методами рекомбинацио иного анализа, обычно составляет несколько сантиморганов. Участок генома такого размера может содержать десятки кандидатных генов. Для дальнейшего уточнения локализации гена была создана группа методов поиска аллельных ассоциаций на популяционном материале, или поиска неравновесия по сцеплению (рис. 1.3). Предполагается, что неродственные люди из одной популяции связаны очень дальним родством, общие по происхождению участки хромосом у них очень короткие, но гены, лежащие в них, можно обнаружить с помощью неравновесия по сцеплению с ближайшими генетическими маркерами (см., например, Cordell and Clayton, 2005; Collins, 2007). При анализе количественных признаков на неравновесие по сцеплению зависимость между генотипом по маркерному локусу и фенотипом ищется с помощью методов дисперсионного или регрессионного анализа. Разрешающая способность анализа ассоциаций позволяет напрямую идентифицировать полиморфный локус, влияющий на признак. В целом, к настоящему времени достигнут значительный прогресс в картировании генов малого эффекта, контролирующих комплексные признаки, путем анализа неравновесия по сцеплению по всему геному на огромных популяционных выборках (Dong et al., 2008; Grant and Hakonarson, 2008; Pearson and Manolio, 2008; Johnson and O Donnell, 2009).

Проблема анализа популяционных данных в том, что выборки должны быть действительно огромными для того, чтобы обеспечить приемлемую мощность анализа (см., например, Visscher, 2008). Кроме того, физическое сцепление маркера и локуса, контролирующего признак, является не единственной причиной неравновесия по сцеплению. Смещение оценок при анализе ассоциаций может возникнуть из-за неоднородности анализируемой выборки (Knowler et al., 1988; Campbell et al., 2005). Если в выборке присутствует неоднородность в отношении социального статуса, национальной, этнической принадлежности людей, то это может послужить причиной аллельной ассоциации, не обусловленной сцеплением (Freedman et al., 2004; Marchini et al., 2005).

Один из путей решения этой проблемы - поиск неравновесия по сцеплению на выборках родственных особей с помощью методов на основе TDT (Transmission/Disequilibrium Test, Spielman et al., 1993). Целая группа таких методов позволяет анализировать количественные признаки: FBAT (Laird et al., 2000; Rabinowitz and Laird, 2000), QTDT (Abecasis et al., 2000a; Abecasis et al., 2000b), PDT (Monks and Kaplan, 2000). Тесты данной группы устойчивы к неоднородности выборки за счет того, что анализируется только внутрисемейная компонента дисперсии признака и игнорируется межсемейная компонента, которая может содержать эффекты неоднородности. Благодаря этому свойству тесты на основе TDT получили широкое распространение. Существующие программные пакеты позволяют производить такими методами сканирование всего генома на родословных большого размера за приемлемое время. Изучены свойства данных методов в отношении целого ряда аналитических моделей. Это позволяет исследователю учитывать при анализе многие особенности наследования признака, повышает статистическую мощность картирования.

Семейный материал оказался благодатной почвой для поиска аллельных ассоциаций по целому ряду причин (Laird and Lange, 2008; Benyamin et al., 2009). В отличие от случайной выборки из популяции, семейные данные несут в себе информацию как о сцеплении, так и о неравновесии по сцеплению. Это дает исследователю возможность произвести на одной и той же выборке и анализ сцепления, и анализ ассоциаций, в любой последовательности или даже одновременно, совмещая преимущества обоих подходов. Даже если производится только анализ ассоциаций, то велики шансы того, что найденная на семейном материале ассоциация обусловлена именно сцеплением. Район, в котором неравновесие по сцеплению оказалось значимым, хможно протестировать на сцепление на той же выборке. Как и при анализе сцепления, особо ценными для анализа ассоциаций являются семейные выборки, собранные в изолированных популяциях человека (Terwilliger et al., 1998; Peltonen, 2000; Chapman and Thompson, 2001; Rannala, 2001).

При всех достоинствах методы на основе TDT имеют один общий недостаток -невысокую мощность. Эти подходы изначально разрабатывались для анализа одного или нескольких маркеров. Они теряют мощность потому, что опираются на информацию о единственном маркере, как для того, чтобы получить свидетельство ассоциации, так и для защиты от эффектов неоднородности. При этом игнорируется часть дисперсии признака, которая может быть обусловлена не только нежелательными эффектами неоднородности, но и физическим сцеплением маркера с локусом, контролирующим признак.

В отличие от физического сцепления, эффекты неоднородности затрагивают не конкретный локус, а весь геном. При наличии достаточного числа маркеров существуют методы, позволяющие оценить масштаб эффектов неоднородности в исследуемой выборке и даже внести соответствующие поправки (Devlin and Roeder, 1999; Pritchard ct al., 2000; Price et al., 2006). Сделав это, исследователь может позволить себе использовать тест на неравновесие по сцеплению, неустойчивый к эффектам неоднородности выборки. Дисперсия, объясняемая генотипом маркерного локуса, при этом не подразделяется на внутри- и межсемейную. Тестируется на значимость вся имеющаяся информация о неравновесии по сцеплению в выборке, и мощность теста значительно возрастает. Такой подход к анализу неравновесия по сцеплению на семейных данных иногда называют методом измеренных генотипов, MG (Measured Genotype) (Hopper and Mathews, 1982; Boerwinkle et al., 1986; George and Elston, 1987; Aulchenko et al., 2007a).

В последнее время, когда стало доступным генотипирование по сотням тысяч генетических маркеров, метод MG привлекает все большее внимание. Однако применение его к полногеномному анализу ассоциаций на больших родословных сильно ограничено возможностями современных вычислительных машин, и исследователи вынуждены разрезать большие родословные на фрагменты (см., например, Lowe et al., 2009). Недавно был найден путь решения данной проблемы (Amin et al., 2007; Aulchenko et al., 2007a; Chen and Abecasis, 2007), однако свойства предложенного подхода проверены пока лишь на ограниченном круге моделей, а примеры использования его на практике ограничены единичными исследованиями (например, Polasek et al., 2009). Многие аналитические модели, доступные в пакетах QTDT и FBAT, до сих пор не разработаны в рамках MG.

Таким образом, прогресс на пути анализа ценного генетического материала -больших родословных из изолированных популяций человека - сильно тормозится по причине недостаточной разработанности методической базы, как при анализе сцепления, так и при поиске аллельных ассоциаций.

Алгоритм оптимального порядка свертки

Порядок свертки определяет, какой тип свертки будет использован для каждой ЯР. Время вычисления значения функции правдоподобия, соответствующее данному порядку свертки, рассчитывается как суммарное время вычисления значения функции по всем ЯР при заданном типе их свертки. Оптимальный порядок свертки соответствует минимальному времени расчета значения функции правдоподобия для всей родословной. Чтобы найти оптимальный порядок свертки родословной без петель, представим ее в качестве направленного графа Н, где ЯР являются вершинами, а направленным ребрам присвоены веса (рис. 2.1С). Например, соседние ядерные родословные ЯРі и ЯР2, имеющие общего коннектора К\.г, будут представлены вершинами V\ и V2, соединенными двумя противоположно направленными ребрами, С\-2 и Сг-ь Веса ребер С\.г и С2.\ определяются временем вычисления свертки ЯРі или ЯР2 на коннектора К\.2 и задаются формулами (2.2) и (2.3). Выберем одну из вершин графа, VR, и создадим простой взвешенный граф Т, где ЯР - вершины, и две соседние ЯР соединены ребром тогда и только тогда, если между ними есть ребро в графе Н. Вес ребра между V\ и Pj в графе Т равен весу того из двух соответствующих ребер графа Н, которое направлено в сторону FR. Граф Т — взвешенное корневое дерево, корень которого - вершина FR (рис. 2. ID). Любая вершина графа Н может служить корнем для построения взвешенного корневого дерева. Операция свертки равносильна обрезанию листа графа Т, то есть вершины, связанной только с одной другой вершиной. Свертка начинается с листьев и завершается у корня. Известно, что существует единственный путь между любой вершиной и корнем дерева Т. Поэтому порядок обрезания листьев полностью определяется выбором корневой вершины.

Таким образом, мы можем рассчитать время вычисления, С, для свертки родословной как сумму весов всех ребер Т плюс время свертки корневой ЯР. Корневое дерево с минимальным значением С соответствует оптимальному порядку свертки. В общем случае, любую вершину графа Н можно рассматривать как потенциальный корень, и значения С нужно было бы посчитать для всех возможных корневых деревьев Т. Но учитывая тот факт, что граф Н был построен на основе родословной, некоторые вершины можно исключить из списка возможных решений. Оптимальным может быть только такой порядок свертки, при котором оба родителя корневой ЯР являются основателями в исходной родословной. Действительно, если один из родителей выбранной ЯР имеет предков в родословной, то эта ЯР может быть свернута на родителя, и выбор соседней ЯР в качестве корня может оказаться более эффективным. Решение гарантированно окажется среди ЯР, в которых родители не имеют предков в родословной. Поэтому достаточно сравнить значения С только для тех деревьев Т, корни которых соответствуют таким ЯР. Таким образом, предлагаемый алгоритм поиска оптимального порядка свертки родословной включает следующие этапы. 1) Родословная представляется в виде графа Я, где ЯР служат вершинами. 2) Вес каждого ребра Сч графа Н определяется как время вычисления свертки ядерной родословной / на коннектора ij (формулы (2.2) и (2.3)). 3) Определяется набор потенциальных решений - набор ЯР, в которых родители не имеют предков в исходной родословной. 4) Для каждой ЯР из этого набора создается взвешенное корневое дерево Т, общий вес С рассчитывается как сумма весов всех ребер C,.j графа Т плюс время вычисления свертки корневой ЯР на родителя (формула (2.2)). 5) Оптимальный порядок свертки соответствует дереву с минимальным общим весом. Данный алгоритм был реализован в компьютерной программе Ped-Peel, доступной по интернет-адресу http://mga.bionet.nsc.ra/soMndex.html. Набор возможных генотипов состоит из комбинаций всех возможных ненаблюдаемых генотипов, контролирующих признак, и известного маркерного генотипа. В простейшем случае для диаллельного локуса, контролирующего признак (аллели А и а), число комбинаций возможных генотипов равно трем для гомозиготного маркера (АМ\1АМЪ АМ\1аМ\ и аМ\/аМ\) и четырем для гетерозиготного (АМ\/АМ2, АМ\1аМг, АМг1аМ\ и аМ\1аМг). Если особь не генотипирована, рассматриваются все возможные маркерные генотипы. В этом случае число комбинаций возможных генотипов равно 0.5h(h + 1), где h - число возможных гаплотипов, посчитанное как произведение числа аллелей локуса, контролирующего признак, и числа аллелей маркерного локуса. Информация о родословной позволяет исключить некоторые генотипы из числа возможных. Но если несколько поколений предков в родословной не генотипированы, приходится рассматривать все возможные генотипы для этих предков. Их число равно 10 для диаллельного маркера, 55 для маркера с 5 аллелями и 210 для маркера с 10 аллелями. Чтобы продемонстрировать эффективность нашего алгоритма, мы протестировали его на трех больших родословных разного размера и с разным числом генотипированных особей (табл. 1.1). Родословные содержали множественные петли, которые были разрезаны. Происхождение родословных и техника разрезания петель описаны в работе (Axenovich et al., 2007). Мы рассмотрели маркер с пятью аллелями. Число возможных генотипов было равно четырем для генотипированных особей и 55 для негенотипированных. Время подсчета функции правдоподобия было оценено для всех возможных порядков свертки. Характеристика распределений этой величины для трех родословных дана в таблице 1.1. Во всех трех случаях существовал единственный порядок свертки, соответствующий минимальному времени вычисления функции. При любом другом порядке время вычисления значительно превышало этот минимум: не менее 6.53 х 104 вместо 3.05 х 104 для родословной человека и не менее 1.24 х Ю7 вместо 4.13 х 106 для родословной чернобурой лисы. Для родословной песца различие между минимальным временем вычисления и вторым минимумом было небольшим, но большая часть значений (333 из 359) превышала 6.56 х 10б при минимуме 4.60 х 106. Таким образом, при произвольном выборе порядка свертки всех трех родословных очень низка вероятность того, что время вычисления функции будет минимальным или близким к минимальному. Таблица 1.1 показывает, что среднее время вычисления при случайном выборе порядка свертки в 1.8-3.2 раз больше минимального. Следовательно, предлагаемый алгоритм может существенно сократить время вычисления значения функции правдоподобия. Предлагаемый алгоритм может быть легко внедрен в существующие пакеты программ по анализу сцепления, использующие метод Эльстона—Стюарта для вычисления значений функции правдоподобия. Обычно порядок свертки определяется на предварительных этапах анализа и потом используется в процессе картирования. Описанный алгоритм будет особенно полезен, если значение функции правдоподобия вычисляется неоднократно, например, при оценке генетических параметров или проверке большого числа маркерных локусов на сцепление.

Ошибки первого рода и мощность для тестов на основе GRAMMAR и TDT при анализе эффекта родителя

Ошибки первого рода при уровне значимости 0.05 для сравниваемых методов показаны на рисунке 3.2. Ошибки первого рода для тестов на основе TDT находятся в хорошем соответствии с номинальным 5%-ным уровнем, тогда как для тестов на основе GRAMMAR эти значения были ниже. Самым консервативным оказался тест на основной аллельный эффект, использующий GRAMMAR для родословной ИПС, состоящей из больших сибств. Наблюдалась слабая тенденция к снижению ошибки первого рода с повышением наследуемости. 95% квантили распределения статистики и точные значения ошибок первого рода при уровнях значимости а = 0.05 и а = 0.01 показаны в таблице 3.3. наследуемости 50% и 80%, мощность GR-G недооценена по причине консервативности теста.

Значение средней статистики теста GR-G было близко к сумме соответствующих статистик GR-A и GR-P (табл. 3.4). Средняя статистика TDT-G часто была ниже, чем сумма средних значений х2 для TDT-A и TDT-P, особенно для родословной ERF.

Мощность GR-G была значительно выше, чем GR-A (рис. 3.3, сплошная и пунктирная черные линии). Разница в мощности увеличивалась с наследуемостью и с числом близких родственников в родословной (ИПС ЯР ERF). Введение эффекта родителя в модель анализа методом TDT не давало подобных результатов. Для родословных ЯР и ИПС мощность детекции импринтированного локуса с помощью TDT-G была близка к мощности традиционного аллельного теста TDT-A (рис. 3.3, серые кривые). Однако на родословной ERF мощность TDT-G сильно упала. В действительности мощность этого теста была еще ниже, чем показано на рисунке 3.3, поскольку 16-29% тестов TDT-G и TDT-P не было выполнено из-за нехватки данных. По умолчанию пакет QTDT не анализирует выборки с 30 информативных особей. Среднее число информативных мейозов было 26.3 среди неуспешных реализаций TDT-G и TDT-P и 40.3 среди успешных.

До сих пор мы рассматривали полностью аддитивную модель, где локус количественного признака проявлял как аллельный эффект, так и эффект родителя. Чтобы исследовать свойства предлагаемой процедуры в ситуации, когда исследуемый локус не импринтпровап, мы произвели аналогичное моделирование, но без эффекта родителя. При таком сценарии вероятность детектировать эффект родителя с помощью GR-P была на уровне ошибки I рода. Тест GR-A был мощнее, чем GR-G (рис. 3.4), поскольку его статистика распределена с одной, а не с двумя степенями свободы. Статистика теста GR-P также не возрастала при анализе неимпринтированного локуса с доминантным аллельным эффектом (данные не показаны). Действительно, если рассмотреть линейную регрессию (3.6) в отсутствие эффекта родителя, легко показать, что где pi, у\ - те же, что в уравнении (3.6); NAB iVBA її N- численности гетерозигот АВ и ВА и общий размер выборки. В ситуации доминирования изменятся величины Е{у] АВ) и Е(у] ВА) по отношению к матожиданиям признака у гомозигот. Но при условии, что Е(у \АВ) = Е{у] \ ВА) и NAB NBA, E{pt) и E(piy"i) стремятся к 0 при больших N. В этом случае Е{ріу]) = Е(рі)Е(у і) = 0 и векторы р и у независимы.

Следовательно, они не коррелируют между собой, далее когда локус проявляет доминантный аллельный эффект.

Анализ методом GRAMMAR требует значительно меньше времени, чем анализ методом измеренных генотипов и, следовательно, позволяет производить полногеномное картирование (Aulchenko et al., 2007а). Единственный дополнительный этап, который требуется для введения в модель эффекта родителя при таком анализе, это реконструкция гаплотипов. В нашем исследовании этот этап занимал 60, 20 и 2 секунды на репликацию для родословных ERF, ИПС и ЯР. Мы также пробовали произвести гаплотипирование реальных генотипических данных по 5249 SNP маркерам, типированным по всему геному для членов родословной ERF. Генотипы были загружены в программу MERLIN единым файлом. Гаплотипирование на одном процессоре заняло 130 минут. Следовательно, можно ожидать, что гаплотипирование 500 000 SNP маркеров займет порядка 9 дней, или в несколько раз быстрее, если одновременно использовать несколько процессоров. Другие промежуточные этапы, такие как чтение информации о гаплотипах и запись ее в вектор родительского происхождения аллелей, занимают значительно меньше времени - от нескольких минут (в нашем исследовании) до нескольких часов, если речь идет о полногеномном сканировании. Таким образом, реконструкция.гаплотипов по всему геному может быть произведена в приемлемый срок даже для больших одословных. Поскольку этот этап требуется сделать лишь один раз для всех анализируемых признаков. предлагаемый метод вполне применим для полногеномного сканирования.

Эффект родительского происхождения аллелей

По результатам анализа 13 локусов имели значение р 5 х 10 5. Позиции этих локусов показаны в таблице 4.5. В таблице В приложения представлены ближайшие кандидатные гены.

Самое высокое значение хи-квадрат соответствовало значению р = 6.16 х 10 7. Соответствующий этой точке SNP маркер находится в интроне локуса LOC392288 (рис. 4.2А). Предположительно, локус кодирует белок, схожий с MAP1LC3B (ассоциированный с микротрубочками белок 1, легкая цепь 3 бета). Белок MAP1LC3B - один из трех человеческих ортологов белка аутофагосомы Atg8 дрожжей (Tanida et al, 2004), принимает участие в процессе аутофагии - массовой деградации клеточных белков и органелл, которая осуществляется клеточными лизосомами. Аутофагия играет важную роль в ходе развития эмбриона, когда наряду с образованием новых тканей и органов происходит активное разрушение провизорных структур. Активная экспрессия MAP1LC3B была обнаружена в тканях сердца, мозга, скелетных мышц, семенников, а также в трансфицированных клетках почек эмбриона человека. Белок MAP1LC3B является субъединицей комплексов MAPI А и MAP IB -ассоциированных с микротрубочками белков, каждый из которых состоит из одной тяжелой и нескольких легких цепей. MAPI А и MAP 1В вовлечены в процесс сборки микротрубочек на определенном этапе нейрогенеза, им отводят существенную роль в развитии и функционировании нервной системы (МІМ 600178, МІМ 157129). Интересно, что ген MAP1LC3B находится в локусе 16q24.2 (87.42-87.44Mb) - в точке, где нашей группой был обнаружен самый сильный сигнал при анализе сцепления на материале ERF (85.53 Mb, Axenovich et аі., 2009). Не исключено, что сигнал сцепления обусловлен именно полиморфными вариантами MAP1LC3B. В этом случае можно предположить, что в разнообразие по росту в популяции ERF существенный вклад вносит полиморфизм по генам MAP путем влияния на интенсивность процессов аутофагии и темпы нейрогенеза.

Альтернативными кандидатными генами в локусе 9р22 могут быть ACER2 и RPS6. Продукт гена ACER2 - щелочная керамидаза 2, фермент мембраны аппарата Гольджи, он активно экспрессируется в соединительной и мышечной тканях у взрослых, а таюке в тканях эмбриона и плаценте. ACER2 регулирует уровень сфингозина и сфингозин-1-фосфата (S1P), контролируя гидролиз керамидов (Xu et al., 2006; Sun et al., 2009). SIP играет важную роль в развитии нервной системы, кровеносных сосудов и, возможно, плаценты (Mizugishi et al., 2005; Xu et al., 2006). Он опосредует многие клеточные реакции, в том числе стимулирует пролиферацию, активность, подвижность, дифференцировку клеток, их адгезию к фибронектину и коллагену. Сфингозин имеет противоположный эффект. Изменяя уровень экспрессии ACER2, удавалось изменить соотношение сфингозпна к S1P, что влияло на интенсивность клеточного роста и адгезии (Xu et al., 2006; Sun et al., 2009). RPS6 -рибосомный белок S6, основной субстрат для протеинкиназ в эукариотических рибосомах. Пять остатков серина на С-конце молекулы подвержены фосфорилированию различными протеинкиназами. Фосфорилирование индуцируется целым рядом стимулов, включая сигналы от факторов роста, активаторов опухолевого роста, митогенов. При остановке роста происходит дефосфорилирование. Белок RPS6, возможно, участвует в контроле клеточного роста и пролиферации путем селективной трансляции определенных классов мРНК (МІМ 180460).

Второй по значимости локус лежит на 4-й хромосоме (рис. 4.2В). В пределах 200 Kb от точки сигнала лежат гены MIR572, LOC64S446 и HS3ST1. Ген MIR572 кодирует малую ядерную РНК. Продукт LOC643446 схож по последовательности с РНК-связывающим белком SI (Rnpsl) мыши. LOC643446 содержит сайт распознавания РНК - распространенный домен, вовлеченный в посттранскрипционный процессинг мРНК и рРНК, экспорт и поддержание стабильности РНК. Судя по приблизительным профилям экспрессии, локус LOC643446 активно экспрессируется практически во всех органах и тканях, особенно на самых ранних этапах эмбриогенеза (до стадии бластоцисты, включительно), у детей и подростков, и значительно меньше у взрослых людей и новорожденных (UniGene Hs.507343). Ген HS3ST1 кодирует фермент аппарата Гольджи гепарансульфат-О-глюкозаминил-З-О-сульфотрансферазу 1, участвующий в синтезе антикоагулянтного гепарансульфата (HS-act). Ген экспрессируется почти во всех органах и тканях (UniGene Hs.507348). Ген HS3ST1 на 93% идентичен мышиному гомологу HsSstl. Интересно, что мыши, нокаутные по Hs3stl, не проявили прокоагулянтного фенотипа, несмотря на то, что уровень HS-act в тканях был существенно снижен (HajMohammadi et al., 2003). Вместо этого у мышиных эмбрионов наблюдалась высокая постнатальная смертность, зависимая от генетического фона, и дозозависимая внутриматочная задержка роста, без каких-либо признаков коагулопатии. По сравнению с мышиными эмбрионами дикого типа, эмбрионы Hs3stl+/- и Hs3stl-/- в последний день до рождения весили на 8% и 20% меньше, соответственно. Постнатальная смертность также была выше у мышей с генотипом Hs3stl-/—, чем Hs3stl+/ . Авторы предположили, что смертность после рождения является следствием виутриматочной задержки роста и обусловлена «контролем качества», который производят кормящие самки, убивая слабых детенышей в первую неделю их жизни (HajMohammadi et al., 2003). На основе данного эксперимента был сделан вывод, что тканевый уровень HS-act, вопреки ожиданиям, не играет существенной роли в поддержании гемостаза. Возможно, гепарансульфат HS-act имеет другие функции, либо сам ген Hs3stl участвует в других процессах помимо синтеза HS-act. Ген Hs3stl экспрессировался у эмбрионов мышей на всех стадиях развития, но пока не ясно, каков механизм влияния Hs3stl на темпы эмбрионального роста у мышей (HajMohammadi et al., 2003). Не исключено, однако, что посредством аналогичного механизма ген HS3ST1 может влиять и на рост человека.

SNP маркер rs і 1981330 находится в интроне гена ZNF775 (рис. 4.2С), продукт которого принадлежит к обширному семейству факторов транскрипции, содержащих домен типа «цинковых пальцев» (zinc finger proteins). Пока неизвестно, транскрипцию каких генов регулирует ZNF775. Ассоциация с ростом для локусов, содержащих подобные факторы транскрипции, была показана ранее (ZBTB38, ZNF462, JAZF, Gudbjartsson et al., 2008; Johansson et al., 2009b). Аллель гена ZBTB38 показал самую значимую ассоциацию с ростом в работе (Gudbjartsson et al., 2008). Этот аллель также положительно коррелировал с экспрессией гена в клетках крови и жировой ткани (Gudbjartsson et al., 2008).

Похожие диссертации на Разработка методов картирования генов на основе родословных сложной структуры