Содержание к диссертации
Введение
1. Обзор литературы 10
1.1 Генетика нейродегенеративных заболеваний 10
1.1.1 Моногенные нейродегенеративные заболевания, вызванные динамическими мутациями в одном гене 14
1.1.2 Моногенные нейродегенеративные заболевания, обусловленные различными мутациями в одном гене 14
1.1.3 Моногенные нейродегенеративные заболевания, вызванные различными типами мутаций в нескольких генах. 16
1.1.4 Нейродегенеративные заболевания со смешанной генетической структурой 32
1.2 Современные методические подходы к выявлению генетических причин развития наследственных заболеваний 46
2. Методы 57
2.1 Анализируемые выборки 57
2.1.1 Спиномозжечковая атаксия 57
2.1.2 Пациенты с болезнью Паркинсона 58
2.2. Выделение ДНК 59
2.3. Оценка копийности экзонов гена PRKN 60
2.4 Множественная лигазная полимеразная реакция и фрагментный анализ 60
2.5 Полноэкзомное секвенирование 60
2.6 Полимеразная цепная реакция и секвенирование по Сэнгеру 61
2.7 Биоинформатический анализ полученных данных 64
3. Результаты и обсуждение 65
3.1 Поиск генетических причин развития СМА в российской семье 65
3.2 Анализ вклада гетерозиготных мутаций в гене PRKN в развитие болезни Паркинсона у спорадических больных 68
3.3 Полноэкзомное секвенирование 73
3.3.1 Анализ мутаций у пациентов с предполагаемой аутосомно-доминантной формой болезни Паркинсона при помощи МЛПР 73
3.3.2 Полноэкзомное секвенирование в изучении генетических факторов риска развития болезни Паркинсона 75
Заключение 87
Выводы 89
Список сокращений 90
Список литературы 92
- Генетика нейродегенеративных заболеваний
- Современные методические подходы к выявлению генетических причин развития наследственных заболеваний
- Анализ вклада гетерозиготных мутаций в гене PRKN в развитие болезни Паркинсона у спорадических больных
- Полноэкзомное секвенирование в изучении генетических факторов риска развития болезни Паркинсона
Генетика нейродегенеративных заболеваний
Нейродегенеративные заболевания (НДЗ) представляют собой гетерогенную группу хронических фатальных заболеваний нервной системы, характеризующихся прогрессирующей гибелью нейронов мозга. На сегодняшний день в мире насчитывается более 45 миллионов людей, преимущественно пожилого возраста, страдающих от различных НДЗ, что делает данную группу заболеваний важной как с социальной, так и с медицинской точек зрения. Для различных НДЗ характерна гибель нейронов в специфических областях головного или спинного мозга, проявляющаяся в виде множественных двигательных и/или когнитивных нарушений, а также клиническая гетерогенность.
На сегодняшний день получены убедительные доказательства вклада генетических факторов в патогенез различных заболеваний человека, в том числе и нейродегенеративных. Развитие НДЗ обусловлено рядом различных генетических нарушений: динамических мутаций, мутаций с изменением копийности гена или отдельных его экзонов, точковых мутаций и др. При этом нейродегенеративные заболевания обладают различной степенью генетической гетерогенности. Так, одни заболевания могут быть вызваны одной или несколькими мутациями, расположенными в одном конкретном гене, в то время как для других заболеваний описаны мутации сразу в нескольких генах в рамках одной нозологии.
Таким образом, с точки зрения генетической гетерогенности можно выделить четыре основные категории НДЗ:
- моногенные НДЗ, обусловленные динамическими мутациями в одном гене (хорея Гентингтона, спинобульбарная мышечная атрофия, дентато-рубро-паллидо-льюисова атрофия, атаксия Фридрейха и др.);
- моногенные НДЗ, которые могут вызываться рядом различных мутаций в одном гене (ДОФА-независимая дистония, болезнь Вильсона-Коновалова, болезнь Александера и др.);
- моногенные НДЗ, для которых характерны исключительно семейная форма наследования и ряд мутаций различных типов в нескольких генах (ДОФА-зависимая дистония, болезнь Шарко-Мари-Тута, спиномозжечковая атаксия и др.);
- НДЗ со смешанной генетической структурой, характеризующихся наличием как семейных, так и спорадических форм заболевания (болезнь Паркинсона, болезнь Альцгеймера, боковой амиотрофический склероз, рассеянный склероз).
Патологическое увеличение числа копий (экспансия) тандемных повторов является особым типом мутаций, называемых «динамическими» [1]. В их основе лежит нестабильность микро- и минисателлитных повторов ДНК, локализованных в значимых областях генов. Подобные экспансии приводят к нарушению нормального функционирования гена, причем конкретные механизмы данных нарушений, такие как потеря функции или гаплонедостаточность гена с экспансией или же приобретение новой функции в результате экспансии, будут различны при разных типах динамических мутаций. Различия определяются, в основном, функциональной значимостью той области гена, в которой расположен нестабильный повтор, а также типом самого повтора (Табл. 1). По характеру наследования болезни, вызываемые динамическими мутациями (болезни экспансии) могут быть как аутосомными, так и Х-сцепленными в зависимости от локализации мутантного гена. Общая характеристика этой группы заболеваний представлена в Таблице 1. В целом, заболевания с экспансией повторов обладают целым рядом особенностей.
Благодаря большому числу проведенных исследований стало известно о существовании взаимосвязи между количеством повторов и возрастом начала проявления первых неврологических симптомов [2-4]. Например, для болезни Хантингтона (БХ) было показано, что количество CAG-повторов у здоровых лиц варьирует, в среднем, от 17 до 20, 27-35 повторов не приводят к возникновению заболевания, однако являются фактором риска развития БХ при дальнейшем росте их числа в последующих поколениях. Увеличение количества повторов до 40 приводит к возникновению поздней формы БХ, а дальнейший рост их числа (60 и более) приводит к развитию ювенильной формы заболевания [5]. В среднем, увеличение числа повторов в каждом следующем поколении приводит к уменьшению возраста начала развития БХ на 8 лет [6].
Известно также, что экспансия повторов напрямую коррелирует не только с возрастом начала развития заболевания, но и с его тяжестью [7]. Так, при БХ наиболее часто встречающиеся 40-50 повторов приводят к появлению классических симптомов (хорея и другие двигательные нарушения, а также различные нарушения когнитивных функций), проявляющихся в возрасте 40-45 лет. Более длинные CAG-повторы (более 50) приводят к возникновению ювенильной формы БХ [8], для которой характерны брадикинезия, являющаяся классическим симптомом при болезни Паркинсона, а также повышение частоты эпилептических приступов. По всей видимости, увеличение числа повторов приводит к нарушению функционирования не только специфических субпопуляций нейронов в определенных отделах мозга, но и затрагивает другие отделы, что в свою очередь выражается в появлении симптомов, неспецифических для заболевания. Например, для ювенильной формы БХ характерна более обширная область поражения головного мозга, включающая в себя не только характерные для взрослой формы патологические изменения в стриатуме, некоторых областях коры головного мозга и подкорковом белом веществе [9-11], но и мозжечок, таламус, гиппокамп и ядра ствола мозга [12-14]. Таким образом, при заболеваниях, вызываемых динамическими мутациями, в ряду поколений происходит увеличение числа повторов, которое напрямую коррелирует с уменьшением возраста дебюта заболевания и нарастанием его тяжести. Данное явление получило название генетической антиципации. Помимо вышеперечисленных особенностей, для болезней экспансии характерен геномный импринтинг. Так, при БХ и дентато-рубро-паллидо-льюисовой атрофии экспансия числа повторов происходит в процессе мужского гаметогенеза [15, 16], а при синдроме ломкой Х хромосомы и атаксии Фридрейха типична передача по материнской линии [17, 18].
Таким образом, для большинства болезней, вызываемых динамическими мутациями, характерны следующие основные особенности: (1) корреляция числа повторов с возрастом начала заболевания и его тяжестью, (2) антиципация и (3) геномный импринтинг.
Современные методические подходы к выявлению генетических причин развития наследственных заболеваний
Фундаментальная задача генетики как науки заключается в установлении взаимосвязей между фенотипом и генотипом. В области генетики человека решение данной задачи представляется особенно трудным, поскольку большинство экспериментальных методов, таких как скрещивания, мутагенез, селекция или трансформация ДНК, неприменимы к человеческому организму. Какого-либо основного метода для сопоставления генотипа и фенотипа не существовало вплоть до 1980 года, когда и был впервые предложен анализ сцепления генов. В последние годы с использованием данного подхода, а затем уже с изобретением и совершенствованием методов секвенирования был совершен технологический прорыв в области молекулярной генетики, позволивший достичь существенного прогресса в понимании генетической природы наследственных болезней. Новые технологии позволили разработать большое количество генетических маркеров, картировать, а затем и секвенировать многие гены, связанные как с моногенными, так и со сложными заболеваниями. Остановимся подробнее на ключевых методах.
Основным методом выявления генетических причин развития того или иного наследственного заболевания является анализ сцепления генов, который приобрел распространение в 1980-е годы с появлением метода анализа полиморфизма длин рестрикционных фрагментов (ПДРФ) [265]. После этого случился еще один качественный скачок, произошедший в 1990-е годы с появлением микросателлитных маркеров [265, 266]. Наиболее успешно данный подход показал себя при выявлении участков хромосом, содержащих гены редких менделевских заболеваний [267-269]. Новая эпоха в генотипировании началась с изобретением метода секвенирования, позволившего определять генетические причины развития заболеваний уже на уровне нуклеотидной последовательности [270]. Для некоторых генов, имеющих небольшие размеры, метод прямого секвенирования с успехом применялся и продолжает применяться как основной метод сканирования мутаций [271-275]. Анализ сцепления генов по-прежнему актуален и используется при выявлении редких мутаций с высокой пенетрантностью. Однако для проведения анализа косегрегации требуются большие семьи, и он совершенно неприменим при работе с малыми семьями или в тех случаях, когда искомая мутация подвергается негативному отбору и может не проявляться в ряду поколений. Следует также отметить, что и зачастую используемый при этом классический метод секвенирования при всех своих положительных особенностях, таких как высокая доступность и точность, не лишен очевидных недостатков. Наиболее значимым из них является низкая производительность, иначе говоря, невысокое количество последовательностей ДНК, получаемых в результате одного запуска прибора [276]. Очевидно, что для дальнейшего развития молекулярной генетики был необходим очередной качественный скачок, произошедший с появлением высокопроизводительного секвенирования следующего поколения.
Появление технологий высокопроизводительного секвенирования позволило существенно ускорить поиски новых генетических факторов, связанных с развитием наследственных заболеваний. Данные технологии, обобщаемые термином «секвенирование следующего поколения» (NGS), эффективные, относительно недорогие и довольно разнообразны по своей методологии, однако их объединяет одна общая черта - так называемая «массовая параллельность», позволяющая получать большие объемы данных единовременно. По сравнению с методом Сэнгера, последовательности ДНК, получаемые при помощи NGS, невелики по своей длине и точности прочтения индивидуальных ридов, однако все эти недостатки компенсируются за счет большого количества прочтений одного и того же участка последовательности. В зависимости от секвенируемой целевой последовательности выделяют полногеномное (Whole Genome Sequencing, WGS), полноэкзомное секвенирование (Whole Exome Sequencing, WES), а также более узконаправленное целевое, или таргетное секвенирование [277, 278].
Сравнивая эти три варианта секвенирования, становится, казалось бы, очевидным, что WGS является наиболее продвинутой технологией, которая дает в руки исследователям наиболее полный объем данных (Табл. 7). Вдобавок к этому, WGS обладает более равномерным покрытием экзомной области, позволяет выявлять варианты, расположенные в интронных областях, а также дает возможность легко выявлять любые структурные изменения в геноме, в том числе относительно небольшие (например, делеции одного экзона) [279]. Однако, несмотря на постоянное совершенствование данной технологии, её преимущества являются довольно спорными, если принять во внимание стоимость, превышающую (при хорошем покрытии) стоимость WES в 3 раза, а также время, необходимое на проведение анализа большого объема получаемых данных (около 4 миллионов вариантов). Все эти недостатки являются серьезным ограничением для широкого применения WGS.
Технология WES обладает более низкой стоимостью по сравнению с WGS, отсутствием необходимости интерпретации вариантов, расположенных в некодирующей части генома. Еще одно её преимущество связано с тем фактом, что более 85% мутаций, связанных с развитием того или иного заболевания, расположены именно в экзоме, который составляет при этом лишь 2% от полного генома человека [280]. Анализ панелей отдельных генов является хорошей альтернативой WES и позволяет существенно сократить расходы на секвенирование, однако данный подход является оправданным лишь в том случае, если ген, связанный с развитием исследуемого заболевания, был включен в панель. Другими преимуществами данной технологии являются возможность исключить любые случайные сопутствующие находки и обеспечить высокое покрытие анализируемых участков генома. Целевые панели успешно применяются в области прикладной медицинской генетики для проведения клинической диагностики [281-283].
На сегодняшний день технология WES получила наиболее широкое распространение и успешно применяется как в семьях с большой родословной, так и при изучении малых семей или отдельных пациентов, то есть в тех случаях, где классический анализ сцепления не работает. WES позволяет расширить спектр мутаций в известных генах [284-287], но наиболее интересной сферой применения данной технологии является поиск новых генов, вовлеченных в патогенез того или иного заболевания. Такой поиск может быть основан на анализе структурных вариантов кандидатных генов, отобранных на основе биоинформатических и экспериментальных данных, например, на выявлении белков, взаимодействующих с известными белками, участвующими в патологическом процессе. Таким образом, на данный метод возлагаются большие надежды, однако он не лишен собственных ограничений, которые следует принимать во внимание.
Так, необходимо учитывать тот факт, что WES идентифицирует более 20 тысяч ОНП в одном анализируемом образце [288], а потому требует разработки и применения определенной стратегии для отбора узкого круга потенциально патогенных вариантов. При анализе больших семей с несколькими поколениями в родословной успешно применяются стратегии отбора, основанные на сегрегации, что существенно упрощает поиск вариантов, являющихся причиной развития заболевания [136, 137, 191, 202, 289, 290]. Однако данный подход является неэффективным при анализе небольших семей и вовсе не подходит для анализа выборок, состоящих из неродственных пациентов, что приводит к появлению огромного количества кандидатных вариантов. Другой подход к анализу данных NGS основан на использовании контрольной выборки условно здоровых лиц путём проведения сравнительного анализа данной выборки с выборкой, состоящей из пациентов с изучаемым заболеванием [291]. Однако данный подход является неприменимым ко многим заболеваниям с поздним клиническим дебютом, а также продолжительной досимптомной и ранней симптомной стадиями. Всё это осложняет формирование и использование контрольной выборки, а анализ такой выборки в итоге не представляет особой целесообразности в генетическом аспекте, поскольку не исключено наличие в ней редких патогенных вариантов из-за присутствия лиц с недиагностированными ранними стадиями заболевания. В настоящее время существует большое количество программ, позволяющих оценивать патогенность выявляемых вариантов по различным параметрам, однако ни одна из них не является совершенной.
Анализ вклада гетерозиготных мутаций в гене PRKN в развитие болезни Паркинсона у спорадических больных
Принято считать, что мутации в гене PRKN приводят к развитию аутосомно-рецессивной формы БП, однако всё большее число исследований свидетельствует о том, что гетерозиготность по мутациям в данном гене может являться фактором риска развития данного заболевания [125, 319-321]. На сегодняшний день, большинство работ, посвященных оценке влияния гетерозиготных мутаций в гене PRKN на риск развития БП, связано с анализом точковых мутаций [125, 127, 322-324]. Однако характерной особенностью спектра мутаций PRKN является высокая частота мутаций с изменением копийности (делеции и дупликации), захватывающих как отдельные экзоны, так и целые группы экзонов. Именно такие мутации вносят серьезный вклад в нарушение структуры белка и могут быть намного более патогенными, нежели точковые мутации [325].
Мутации с изменением копийности различных экзонов гена PRKN были выявлены нами при помощи количественной ПЦР в реальном времени у ряда больных БП. В связи с этим возник вопрос, характеризуется ли БП у данных пациентов скрытой АР формой. Для того, чтобы проверить выдвинутое предположение, мы провели поиск и повторный скрининг мутаций с изменением копийности среди больных спорадической формой БП. Были обнаружены как гетерозиготные делеции экзонов этого гена (у 15 пациентов), так и гетерозиготные дупликации (у 8 пациентов) (Табл. 12). Среди данных 23 пациентов у 21 больных были выявлены гетерозиготные делеции или дупликации 1-2 соседних экзонов, а 2 больных имели протяженные делеции или дупликации. Так, у одного из них была выявлена дупликация 8-12 экзонов, у другого - делеция 9-12 экзонов. Поскольку данные изменения затрагивают довольно протяженные участки гена, мы можем предположить, что у данных больных наблюдается компаундная гетерозиготность по мутациям с изменением копийности в гене паркина. При этом для двух больных были выявлены изменения копийности для четырех и пяти экзонов. Это позволяет предполагать, что данные изменения затрагивают обе хромосомы, поэтому они были исключены из дальнейшего анализа.
У всех больных с делециями/дупликациями одного-двух соседних экзонов гена PRKN было проведено ресеквенирование всех экзонов этого гена с целью поиска возможных точковых мутаций. В результате у шестерых больных были выявлены однонуклеотидные полиморфизмы (Табл. 13). Анализ на наличие точковых мутаций не выявил ни одного описанного ранее патогенетически значимого варианта. Были выявлены два однонуклеотидных полиморфизма, приводящих к несинонимичной замене: g. 0531638 G A p. Ser.167Asn и g. 1345980 G C p. Val380Leu. Однако в настоящее время показано, что эти варианты являются частыми полиморфизмами, не влияющими на риск развития БП [123, 125, 326]. Также было выявлено два полиморфизма в 3 -нетранслируемой области гена: g. 1383356 C T, 652 C T и g. 1384000 A G, 1296 A G. В настоящий момент нет информации о возможной роли данных вариантов в развитии БП, но скорее всего они не могут оказывать сильного влияния на функционирование гена паркина.
Таким образом, полученные нами данные указывают на то, что гетерозиготные мутации с изменением копийности могут играть определенную роль в патогенезе БП. Наши данные согласуются с данными других исследователей [327-329]. Кроме того, показано, что в контрольных выборках гетерозиготные мутации с изменением копийности выявляются крайне редко -частота их встречаемости составляет от 0 до 1.09% [125-127, 320, 323, 330, 331]. Все это позволяет рассматривать гетерозиготные мутации с изменением копийности как доминантные мутации, приводящие к развитию БП с поздним клиническим дебютом.
Полноэкзомное секвенирование в изучении генетических факторов риска развития болезни Паркинсона
VCF-файлы, полученные в результате анализа образцов ДНК 48 пациентов с БП, анализировались в SVS: были отобраны все гетерозиготные варианты (в соответствии с предполагаемым аутосомно-доминантным характером наследования) с качеством генотипирования GQ 99 и покрытием, составляющим не менее 50 прочтений (Рис. 6). Общее количество таких вариантов для 48 образцов составило 201442 варианта.
Анализ данных по отдельным выявленным гетерозиготным вариантам выявил сильные отличия в соотношении двух аллельных вариантов при их прочтении в ходе секвенирования. Предположение о наличии ложноположительных гетерозигот было проверено секвенированием по Сенгеру отдельных экзонов гена LRRK2. В связи с этим был разработан алгоритм отсева ложноположительных гетерозигот на начальном этапе анализа первичных данных. Этот алгоритм основан на использовании параметров (в соответствии с номенклатурой формата .vcf файлов VCF4.1): DP – апроксимированная глубина прочтения (количество картированных в данной позиции прочтений за исключением прочтений с низким качеством), AD1 и AD2 – апроксимированная глубина прочтений по первому и второму аллелю, соответственно. Критерии отбора подбирались эмпирически, т.е. гетерозиготные позиции с разной глубиной прочтения и соотношением AD1/AD2 проверялись с помощью метода Сенгера (Табл. 15).
В результате были выбраны следующие критерии отбора достоверных гетерозиготных позиций: «DP50, AD1-AD2/DP 0.3». Гетерозиготные варианты, не соответствующие указанным критериям, отбрасывались как недостоверные.
Далее были отобраны все новые или редкие несинонимичные варианты, у которых частота встречаемости минорного аллеля (Minor Allele Frequency, MAF) в базе данных проекта «1000 геномов» (http://www.1000genomes.org) и базе данных проекта по секвенированию экзома (ESP, https://esp.gs.washington.edu/drupal/) не превышала 1%. В результате было выявлено 19086 гетерозиготных несинонимичных вариантов, расположенных в кодирующей области 5651 гена. Ни у одного из проанализированных пациентов не было обнаружено двух различных мутаций в одном гене.
Для сужения круга кандидатных вариантов были использованы биоинформатические ресурсы, оценивающие потенциальную патогенность анализируемых вариантов при помощи анализа как непосредственно эволюционной консервативности (SIFT, PROVEAN, MutationAssessor, FATHMM, LRT), так и консервативности в совокупности с изменениями структурно функциональных свойств белка (PolyPhen-2 HVAR и PolyPhen-2 HDIV, MutationTaster,), а также две программы с комбинированным алгоритмом анализа (MetaLR и MetaSVM). Для дальнейшего анализа оставляли миссенс- и нонсенс варианты, которые расценивались как патогенные не менее чем 4 программами, что позволило сократить количество потенциальных вариантов почти в 5 раз (до 1504 вариантов в 1235 генах).
На данном этапе анализа были выявлены три патогенетически значимых варианта в известных генах, вовлеченных в патогенез БП (Табл. 16). Все они являются миссенс-мутациями и были описаны ранее.
Для еще большего сужения круга поиска производилось дополнительное аннотирование при помощи программ предсказания патогенности CADD и REVEL, которые представляют собой нейронные сети, интегрирующие и комбинирующие целый ряд различных алгоритмов аннотации и обученные на специальных учебных выборках для выявления потенциально патогенных вариантов. Значения показателей, используемые данными программами в качестве критерия патогенности, были подобраны нами на основе объективных требований к уровню жесткости отбора: CADD score 20 позволил отобрать варианты, принадлежащие к 1% наиболее патогенных в человеческом геноме; показатель REVEL score 0.75 обеспечил высокую специфичность аннотации редких вариантов и позволил еще больше сузить круг поиска до 185 вариантов в 170 генах. Все выявленные на предыдущем этапе варианты были проанализированы в Pathway Studio v. 11.4 (Elsevier, США). Гены отбирались с использованием ключевых слов «болезнь Паркинсона» и «нейрон» (Рис. 7). В результате было выявлено 23 гена (Рис. 7, Табл. 17); 7 из них ассоциированы с обоими ключевыми словами: FXN, MFN2, MYOC, NPC1, PSEN1, RET, SPG7.
Наличие потенциально патогенетически значимых вариантов во всех 23 генах было проанализировано у 48 пациентов с БП. Потенциально патогенетически значимые варианты были выявлены у 21 пациента, что составляет 43.75% от общего количества проанализированных больных БП. У четверых пациентов (8.33 %) было выявлено по два гена с потенциально патогенетически значимыми вариантами. При этом необходимо отметить, что практически во всех генах идентифицировано по одному потенциально патогенетически значимому варианту, и только для гена SCN3A было выявлено три варианта, встречающихся по одному разу у трех пациентов.
Таким образом, разработанный алгоритм отсева ложноположительных гетерозиготных вариантов значительно сокращает количество анализируемых данных, тем самым облегчая работу уже на первых этапах проведения исследования. Программы, используемые для оценки потенциальной патогенности выявленных вариантов, представлены в количестве, достаточном для составления достоверного представления о патогенности анализируемых вариантов, т.к. они основаны на различных способах составления «предсказания», в том числе и на комбинированных.