Содержание к диссертации
Введение
ЧАСТЬ I. Обзор литературы.
ГЛАВА I.1. Молекулярная биология ВИЧ .
I.1.1. История открытия ВИЧ. 4
I.1.2. Морфология вириона ВИЧ 6
I.1.3. Структура генома ВИЧ 11
I.1.4. Механизм действия обратной транскриптазы 11
I.1.5. Жизненный цикл ВИЧ. 14
ГЛАВА I.2. Молекулярная вариабельность ВИЧ .
I.2.1. Генетическая изменчивость ВИЧ 17
I.2.2. Антигенная изменчивость ВИЧ. 18
ГЛАВА I.3. Биологические свойства ВИЧ .
I.3.1. Скорость и уровень репродукции ВИЧ in vitro. 21
I.3.2. Синцитиеобразующая активность ВИЧ. 22
I.3.3. Клеточный тропизм ВИЧ 23
I.3.4. Биохимические изменения, происходящие в инфицированной клетке. 26
ЧАСТЬ II. Материалы и методы 29
ЧАСТЬ III. Собственные исследования.
глава III.1. Анализ генетической изменчивости с помощью дискретной однопараметрической модели .
III.1.1. Процедура оцифровки символьных последовательностей и ее свойства. 37
III.1.2. Положения и вывод основного уравнения дискретной однопараметрической модели генетической изменчивости 41
III.1.3. Общие свойства основного уравнения дискретной однопараметрической модели генетической изменчивости 52
ГЛАВА III.2. Анализ вариабельности аминокислотных последовательностей v3-петли gp120, принадлежащих различным таксонам ВИЧ-1.
III.2.1. Точечные оценки для некоторых характеристик функции распределения аминокислотных замен в пределах таксонов ВИЧ-1 57
III.2.2. Иерархическая структура аминокислотных последовательностей V3-петли gp120 различных таксонов ВИЧ-1 70
III.2.3. Дистантности между множествами пептидных фрагментов из аминокислотных последовательностей V3-петли gp120 различных таксонов ВИЧ-1
III.2.4. Функции распределения хэмминговых расстояний между аминокислотными последовательностями V3-петли gp120, принадлежащими различным таксонам ВИЧ-1 103
ГЛАВА III.3. Анализ вариабельности фенотипических свойств первичных изолятов ВИЧ-1 .
III.3.1. Анализ биологических характеристик первичных изолятов ВИЧ-1 с помощью метода главных компонент 112
III.3.2. Взаимосвязь между скоростью и уровнем репродукции, а также цитодеструктивными свойствами первичных изолятов ВИЧ-1 118
III.3.3. Оценка чувствительности первичных изолятов ВИЧ-1 к
химиопрепаратам 130
ГЛАВА III.4. Изменение оксидоредуктазной активности клеток в ответ на инфекцию первичными изолятами ВИЧ-1 .
III.4.1. Повышение качества МТТ-метода с помощью микродозаторных наконечников специальной конструкции 142
III.4.2. Дегидрогеназная активность ВИЧ-инфицированных клеток при анализе результатов МТТ-теста 147
III.4.3. Оксидоредуктазная активность инфицированных клеток и биологические свойства различных вариантов ВИЧ-1. 153
Выводы 161
Список квалификационных работ, выполненных под научным руководством соискателя 162
Список научных публикаций по теме диссертации 163
Библиографический список
- Механизм действия обратной транскриптазы
- Антигенная изменчивость ВИЧ.
- Положения и вывод основного уравнения дискретной однопараметрической модели генетической изменчивости
- Иерархическая структура аминокислотных последовательностей V3-петли gp120 различных таксонов ВИЧ-1
Введение к работе
Актуальность проблемы. Вирус иммунодефицита человека (ВИЧ) этиологически связан с синдромом приобретенного иммунодефицита (СПИД) - летальным заболеванием, уже приведшим к смерти 18 млн. человек. В настоящее время, пандемия ВИЧ представляет реальную угрозу существованию человечества. К началу 1998 года на планете насчитывалось более 30 млн. ВИЧ-инфицированных, из которых около 860 тыс. выявлено в Северной Америке; 310 тыс. - в Карибском бассейне; 1.3 млн. - в Латинской Америке; 210 тыс. - в Северной и Восточной Африке; 21 млн. - в субсахариальной Африке; 5.8 млн. - в Северной и Северо-восточной Азии; 420 тыс. - в Восточной Азии и Океании; 12 тыс. - в Австралии и Новой Зеландии; 480 тыс. - в Западной Европе; 190 тыс. - в Восточной Европе и Центральной Азии (в том числе, 8 тыс. - в России). Эти данные отражают официальную статистику ВОЗ и UNAIDS1, в то время как, по оценкам специалистов, реальные цифры в несколько раз выше, особенно -для развивающихся стран и государств на территории бывшего СССР, напряженная социально-экономическая обстановка в которых не позволяет осуществлять комплекс мер по мониторингу эпидемии в полном объеме.
Чрезвычайно высокая генетическая изменчивость этого вируса (10-3-10-4 мутаций / на геном / на цикл репликации), приводящая к широкому антигенному и фенотипическому разнообразию вариантов ВИЧ-1, является основным препятствием на пути разработки лекарственных препаратов и эффективной анти-ВИЧ вакцины. Поэтому исследования биологических свойств изолятов ВИЧ-1 и их классификация -помимо фундаментального - имеют несомненное практическое значение. Это и определяет актуальность данной работы, направленной на анализ подходов, используемых при изучении вариабельности ВИЧ.
Цель работы. Целью данной работы является анализ и развитие подходов к изучению вариабельности ВИЧ на различных уровнях системной организации: генетическом, антигенном и фенотипическом (включая биохимические изменения, происходящие в инфицированной клетке).
Научная новизна работы. Предложена дискретная однопараметрическая модель генетической изменчивости (глава III.1). Будучи свободна от априорных предположений о непрерывности марковского процесса появления нуклеотидных замен, эта модель является более предпочтительной для изучения процессов интенсивной изменчивости на достаточно коротких временных интервалах, чем модель Джукса-Кантора2, а также ее двух- и трехпараметрические модификации3.
Предложено заменять символьные последовательности их оцифровками (бинарными векторами) специального вида, сохраняющими соответствие (с точностью до коэффициента) между хэмминговой метрикой на множестве символьных последовательностей и евклидовой метрикой на множестве их оцифровок. Такой подход позволяет применить к анализу символьных последовательностей стандартные статистические процедуры. В частности (глава III.2), с его помощью изучены функции распределения аминокислотных замен V3-петли gp120 различных таксонов ВИЧ-1; дополнительно к известному понятию консенсус, впервые введены понятия
1 Данные получены с официального сервера UNAIDS:
2 Jukes T.H. and Cantor C.R. Mammalian protein metabolism III / Ed. H.N. Munro. New York: Academic Press,
1969. - P. 21-132.
3 Kimura M. Estimation of evolutionary distances between homologous nucleotide sequences // Proc. Natl. Acad.
Sci. - 1981. - V. 78. - P. 454-458.
“субконсенсус” и “выборочное среднее” для множеств символьных последовательностей; взаимное расположение характеристик изменчивости таксонов ВИЧ-1 визуализировано посредством многомерного шкалирования; показано, что в многомерном пространстве изменчивости субтипы ВИЧ-1 представляют собой сложные топологические структуры, а не простые шарообразные скопления; исследована функция распределения хэмминговых расстояний между аминокислотными последовательностями V3-петли gp120, принадлежащими различным таксонам ВИЧ-1.
Исследована взаимосвязь между характеристиками различных фенотипических свойств первичных изолятов ВИЧ-1 in vitro (глава III.3). Показано, что помимо “классических” r/h- (приводящих к быстрому накоплению больших количеств вирусных антигенов) и s/l-изолятов (приводящих к медленному накоплению небольших количеств вирусных антигенов) существуют r/l- и s/h-изоляты, а также класс изолятов с промежуточными свойствами. Проведен анализ динамики накопления вирусных антигенов и предложена методика оценки цитодеструктивного действия вируса, а также предложен способ определения эффективности химиопрепаратов на основе интерполяционных методов.
Исследована динамика оксидоредуктазной активности ряда перевиваемых клеточных линий в ответ на острую инфекцию in vitro вариантами ВИЧ-1 с различными биологическими свойствами (глава III.4). Показано, что на ранней стадии после заражения в инфицированных клетках происходит сдвиг оксидоредуктазной активности в сторону её увеличения, причём указанный сдвиг больше по абсолютной величине и продолжительности для r/h-, и меньше - для s/l-вариантов ВИЧ-1; на поздних стадиях происходит снижение уровня оксидоредуктазной активности ВИЧ-инфицированных клеток по сравнению с неинфицированным контролем, что отражает цитодеструктивные возможности вируса. Интенсивность указанных выше изменений монотонно (но не прямопропорционально) возрастает с увеличением заражающей дозы.
Научно-практическое значение работы. 1) Разработан комплекс информационных технологий, включающих как собственные программные продукты (Borland Pascal 6.0), так и систему макросов Excel 5.0 и Win Statisticа 4.3. 2) Разработана процедура сравнения дистантности пептидных фрагментов V3-петли gp120, позволяющая предсказывать эффективность V3-имитирующих пептидов при серотипирования ВИЧ. 3) Предложена специальная конструкция микродозаторных наконечников, позволяющая повысить качество МТТ-метода. 4) Предложена конструкция сменного нефрикционного мембранного фильтра, предотвращающего контаминацию клеточных культур и обеспечивающего свободный газообмен между внутренним объемом культуральной посуды и внешней средой. 5) Предложены модификации формул для вычисления индексов протекции химиопрепарата на основе результатов МТТ-теста с учётом изменения дегидрогеназной активности ВИЧ-инфицированных клеток.
Структура и объем работы. Диссертационная работа изложена на 137 страницах машинописного текста, включая 13 таблиц, 23 рисунка, и состоит из разделов: “Введение”, “Обзор литературы” (часть I), “Материалы и методы” (часть II), “Результаты и обсуждение” (часть III), “Выводы”.
Механизм действия обратной транскриптазы
В июне 1981 году дежурный оператор Национального Центра по контролю заболеваемости (CDC - Center for the Disease Control) в Атланте (США) принял очередное сообщение из регионального офиса этой организации, расположенного в Лос-Анджелесе. В сообщении содержалась информация о необычной клинической картине заболевания, обнаруженного у молодых мужчин-гомосексуалистов из одного и того же сообщества: у всех пациентов была выявлена саркома Капоши - редкая форма патологии, характерная лишь для лиц пожилого возраста. Некоторые из новых пациентов, к тому же, страдали тяжелой формой пневмонии, вызванной условно-патогенным микроорганизмом Pneumocystis carinii, не имея при этом в анамнезе диагноза врожденного или вторичного иммунодефицита. Анализ имевшейся в CDC базы данных показал, что подобная информация месяцем ранее поступала из Нью-Йорка. Ориентировка, в срочном порядке разосланная во все региональные отделения CDC, уже через два месяца позволила выявить 111 пациентов с описанным клиническим статусом [Gottlieb M.S., 1981; Masur H., 1981].
Таким образом, август 1981 г. принято считать началом отсчета эпидемии СПИДа (Синдром Приобретенного Иммунодефицита). Дальнейшее развитие событий показало, что СПИД развивается не только у мужчин, имеющих гомосексуальные контакты, но и у женщин и детей. Появление СПИДа у таких групп населения, как внутривенные наркоманы, больные гемофилией, получающие массированны переливания крови и ее продуктов, проститутки, а также факты, когда у болевших СПИДом родителей рождался и заболевал СПИДом ребенок, дали основания полагать, что СПИД обуславливается неким инфекционным (вероятно, вирусным), агентом. Интенсивный поиск этиологического агента СПИДа привел к тому, что в 1983-1984 гг. в лаборатории Люка Монтанье (Франция) и - независимо - Роберта Галло (США) и Джея Леви (США) были изолированы ретровирусы человека, ассоциированные со СПИДом. Первоначальные названия этого вируса были: Lymphoadenopathy-Associated Virus (LAV; [Barre-Sinussi F., 1983]), Human T-Lymphotropic Virus type III (HTLV-III; [Gallo R.C., 1983]) и AIDS-Related Virus (ARV; [Levy J.A., 1984, 1993]). Проведенный позднее анализ нуклеотидных последовательностей вирусов, изолированных тремя исследовательскими группами, показал, что все они являются штаммами одного вируса.
Имевшая место непродолжительная терминологическая дискуссия (см. подробности в [Gallo R.C., 1988]) была прекращена в 1986 г. на II Международной Конференции по проблеме СПИДа, где было решено назвать возбудителя СПИДа его сегодняшним «именем» - вирус иммунодефицита человека (ВИЧ). Однако уже в том же году потребовалось разделить ВИЧ на два типа, так как появилось сообщение [Clavel F., 1986] об изоляции от двух пациентов из Западной Африки нового ретровируса, ассоциированного со СПИДом: на основании клинических симптомов у обоих больных был диагностирован СПИД, однако тестирование их сывороток на антитела к ВИЧ-1 в иммуноферментном анализе дало отрицательный результат, а в иммуноблоте - сомнительный. Авторами было показано, что новый вирус родственен ВИЧ-1, и он был назван ВИЧ-2. В настоящее время большинство случаев ВИЧ-2 инфекции приходится на районы Западной Африки, однако они зафиксированы и в других странах [Clavel F., 1987]. В Советском Союзе первые случае инфекции ВИЧ-2 были описаны Покровским с соавт. в 1988 г. [Покровский В.В., 1988] (а дифференциальные диагностикумы разработаны Карамовым Э.В. и Лукашовым В.В. [Карамов Э.В., 1992; Лукашов В.В., 1992]). Дискуссии о патогенности ВИЧ-2 закончились признанием того факта, что вирус второго, также, как и первого типа, в конечном счете, обуславливает развитие СПИДа у инфицированного [Clavel F., 1987]. Несмотря на скорее оригинальные, нежели серьезные, возражения [Duesberg P., 1989], в настоящее время твердо установлено, что ВИЧ является этиологическим агентом СПИДа. В настоящее время выявлены следующие пути трансмиссии ВИЧ [Хаитов Р.М., 1992; Новохатский А.С., 1992]: половые (включая гомосексуальные) контакты; гемотрансфузия, переливание форменных элементов крови и пересадка органов; вертикальный, т.е. от инфицированной матери - ребенку. В соответствие с этим, выделяют следующие группы риска ВИЧ: лица, ведущие беспорядочную половую жизнь (прежде всего, - проститутки и наркоманы); наркоманы, вводящие наркотики внутривенно; лица, получающие множественные переливания крови или ее продуктов. Справедливости ради, следует отметить, что предпринимаемые меры, как то: ужесточение правил, регламентирующих проверку донорской крови, и изучение новых серотипов ВИЧ, контроль за обязательной стерилизацией медицинских инструментов и широкое распространение их одноразовых аналогов (включая их бесплатное распространение среди представителей групп риска), привели к тому, что процент лиц, инфицированных при переливании крови и ее препаратов, имеет постоянную тенденцию к снижению [Новохатский А.С., 1992]. Вопрос о происхождении ВИЧ до сих пор вызывает горячие споры специалистов. Тот факт, что нуклеотидные последовательности некоторых вариантов ВИЧ-2 ближе к аналогичным последовательностям вируса иммунодефицита обезьян, SIV (Simian Immunodeficiency Virus), по-видимому, свидетельствует о том, что именно обезьяньи вирусы иммунодефицита предшественником ВИЧ [Fultz P.N., 1990].Вместе с тем, до сих пор неизвестны промежуточные формы между SIV и ВИЧ [Хаитов Р.М., 1992]. В настоящее предполагается, что SIV мог проникнуть в человеческую популяцию, например, вследствие традиционного поведения некоторых африканских племен (вплоть до недавнего времени, в племенах буньямуленге и хуту существовала традиция переливания крови открытым способом от крупного самца шимпанзе или бабуина в разрез на бедре, что якобы способствовало увеличению мужской силы охотника [Африка, 1987]). Другим путем проникновения SIV в человеческую популяцию могла бы быть искусственная адаптация этого вируса к культурам человеческих клеток (например, до сих пор популярна недоказанная версия о том, что SIV был использован в качестве вектора для вакцины против гепатита В, созданной в Национальном Институте Здравоохранения (NIH – National Institute of Health) США, которую широко использовали в 70-х годах для предотвращения распространения гепатита среди гомосексуалистов в Америке и Африке [многочисленные частные сообщения]).
Проблема ВИЧ-инфекции и СПИДа сегодня в той или иной степени
затрагивает все страны мира. В связи с тем, что пандемия ВИЧ сегодня приобрела общемировой характер, на первый план в борьбе с этой инфекцией выдвигается не только изучение молекулярно-биологических особенностей ВИЧ, но и осуществление комплекса мер по контролированию эпидемиологического процесса во всех регионах Земного Шара.
Антигенная изменчивость ВИЧ.
Чрезвычайно высокая генетическая изменчивость ВИЧ приводит к широкому разнообразию фенотипических свойств первичных изолятов этого вируса, и в частности - уровня и скорости репродукции. Современная классификация ВИЧ включает в себя rapid/high- (r/h-) и slow/low- (s/l-) варианты, то есть сильные/быстрые и слабые/медленные) [Fenyo E.M., 1988]. R/h-варианты ВИЧ характеризуются высоким репликативным потенциалом - за короткий срок продукция вирионов при культивировании in vitro быстро достигает своего максимума. Они способны вызывать хроническую инфекцию в культурах клеток лимфобластоидного и моноцитарного ряда. Для s/l-вариантов ВИЧ характерен низкий уровень репродукции, достигающий своего максимума за длительный период [Asjo A., 1986]. R/h- и s/l-варианты ВИЧ обладают также различными уровнями цитопатогенности. Кроме того, показано существование вирусных вариантов с промежуточными репликативными характеристиками [Щелканов М.Ю., 1998; Пашкова Т.А., 1998].
Полученные изоляты ВИЧ от одного и того же пациента на протяжении определенного времени показывают, что отбор идет в сторону более агрессивных по отношению к макроорганизму вариантов (Fiore J.R., 1990; Сахурия И.Б., 1998). От бессимптомных пациентов высеваются изоляты ВИЧ, для которых, как правило, свойственна относительно медленная и низкопродуктивная репликация (так называемые “slow/low” варианты, то есть “медленные/слабые”). По мере того как заболевание прогрессирует, от того же пациента изолируются варианты ВИЧ с быстрой и продуктивной репликацией (“rapid/high”, то есть “быстрые/сильные”).
Вообще говоря, отнесение вирусного варианта к одной из категорий – r/h или s/l – проводится на основе изучения репродукционных свойств соответствующих первичных изолятов ВИЧ в экспериментах in vitro. При этом, молчаливо предполагается, что свойства первичных изолятов совпадают со свойствами соответствующих вирусных вариантов in vivo. Однако, это предположение может, вообще говоря, и не выполняться в силу эффекта «бутылочного горлышка» при закреплении изолята in vitro, а также из-за различий биохимического спектра (в первую очередь – репертуара поверхностных рецепторов) клеток в организме и в культуре клеток [Адамс Р., 1983]. Вместе с тем, репродукционные свойства вирусных вариантов in vivo могут быть оценены при сочетании количественной ДНК- и РНК-ПЦР [Ёлов А.А., 1994; Yolov A.A., 1995], однако сопоставление характеристик первичных изолятов in vitro и соответствующих вариантов ВИЧ-1 in vivo, в настоящее время, еще не получило широкого распространения. Кроме того, репродукционные свойства различных вирусных вариантов могут значительно различаться в различных клеточных линиях [Сахурия И.Б., 1998] (см. также I.3.3).
Синцитиеобразование является одним из наиболее частых проявлений вирус-индуцированной цитопатологии. В синцитий вовлекаются клетки, несущие поверхностные гликопротеины gp41 и gp120, и взаимодействующие с клетками, несущими на своей поверхности рецептор CD4 и необходимые корецепторы (см. I.3.3). Появление поверхностных гликопротеинов на наружной клеточной мембране возможно либо непосредственно после проникновения ВИЧ в клетку, опосредованного слиянием мембран вируса и клетки (первичные синцитии); либо в результате экспрессии вирусных белков после появления ДНК провирусов (вторичные синцитии) [Fenyo E.M., 1988; Fiore J.R., 1990; Хаитов Р.М., 1992].
Синцитиеобразование является удобным маркером вирусной инфекции in vitro. При этом, первичные изоляты ВИЧ, пассируемые in vitro, принято подразделять на синцитиеобразующие (SI; Syncytium-Induced) и несинцитиеобразующие (NSI; Non-Syncytium-Induced) (которые было бы правильнее называть синцитиенеобразующими, чтобы не путать несинцитиеобразующие варианты с симпластообразующими – см. далее). Синцитиобразующая активность ВИЧ модулируется аминокислотной последовательностью V3-петли gp120 [Human retroviruses and AIDS, 1996]. Различные клеточные линии обладают различной предрасположенностью к синцитиеобразованию. По-видимому, это объясняется не только морфологическими различиями клеточных культур [Пашкова Т.А., 1998], но и различиями в репертуаре поверхностных рецепторов [Dalgleish A.G., 1984; Berger E.A., 1997].
Показано, что в процессе ВИЧ-инфекции появляются варианты ВИЧ, обладающие все более выраженной синцитиеобразующей активностью [Хаитов Р.М., 1992]. Более того, показано, что появление SI-вариантов является неблагоприятным прогностическим признаком [Leitner T., 1996].
Большинство r/h-вариантов ВИЧ-1 являются SI, а s/l – NSI [Fenyo E.M., 1988; Fiore J.R., 1990]. Однако не исключено, что эта закономерность объясняется не только свойствами самого вируса, но и некоторыми методическими неточностями: репродукция SI-изолята может быть детектирована гораздо раньше, чем NSI-, в силу простоты визуального обнаружения маркеров вирусной инфекции в первом случае. Во всяком случае, это соображение следует учитывать при фенотипировании ВИЧ – тем более, что выраженное синцитиеобразование может наблюдаться и среди s/l-изолятов [Сахурия И.Б., 1998].
Вообще говоря, существует два морфологически различных типа ВИЧ индуцированных новообразований в культуре клеток in vitro: первый представляет собой оптически плотные скопления клеток, причем клети в таких скоплениях не обоществляют свои мембраны полностью и являются полуслившимися; новообразования второго типа представляют собой многоядерные клетки, образованные в результате слияния и полного обобществления своих мембран группой клеток. И первый и второй тип новообразований принято называть единым термином «синцитий», хотя второй часто снабжают дополнительной характеристикой – например, «пузырь», «баллон», «blobs», «balloons», «giant cells» [Fenyo E.M., 1988; Fiore J.R., 1990; Щелканов М.Ю., 1998; Еремин В.Ф., 1998]. Вероятно, было правильно называть первый из описанных выше типов ВИЧ-индуцированных новообразований собственно синцитиями, а второй – симпластами [Соловьев В.Д., 1979], однако такой подход еще не получил повсеместного распространения, в первую очередь, по причине недостаточности строгих морфологических исследований.
Тропизм вируса зависит, с одной стороны, от естественного разнообразия ВИЧ, с другой стороны, от природного разнообразия клеток-мишеней и способов их инфицирования. Как уже отмечалось при описании жизненного цикла ВИЧ ( I.1.5), этот вирус имеет основной рецептор на клетках - CD4. Прямое связывание вирусного оболочечного белка gp120 с молекулой CD4 на клетке или растворимой формой CD4 было продемонстрировано в 1984 году (Dalgleish A.G., 1984), причем эта связь является высокоавидной: константа диссоциации gp120 и CD4 составляет 109 М-1. Работы по направленному мутагенезу выявили, что в непосредственном связывании с gp120 задействован участок молекулы CD4 с 31 по 57 аминокислоту. Кроме области непосредственного связывания есть также участки, модификация которых дистантно влияет на реакционную способность самого сайта связывания, вплоть до полного исчезновения этой реакционной способности (Mizukami T., 1988).
Положения и вывод основного уравнения дискретной однопараметрической модели генетической изменчивости
Под алфавитом будем понимать упорядоченное множество допустимых символов, в котором каждый элемент а характеризуется еще и собственным номером па(а). В данной работе мы используем следующий алфавит для аминокислотных последовательностей: Q = [ А, С, D, Е, F, G, Н, I, К, L, М, N, Р, Q, R, S, Т, V, W, Y, ., X ]. (2) П = 22, т.к. к символам 20 аминокислот добавлены стандартные обозначения “.” и “X” для делеции и неизвестной аминокислоты, соответственно. В случае нуклеотидных последовательностей, могут быть использованы различные типы алфавитов: Q1=[A,T,G,C]; (3а) Q2=[A,T,G,Q.]; (3б) Q3=[A,T,G,Q.,X], (3в) где А, Т, G, С - стандартные обозначения нуклеотидов. При таким подходе, можно без ограничения общности рассматривать только последовательности равной длины, так как, в противном случае, всегда можно дополнить меньшую последовательность до большей символами делеции.
Введем теперь бинарный (состоящий только из нулей и единиц) вектор Ых), b(x) = [/ ], 7 = 1.. П, PJ єE V/, (4) (где S = [0; 1] - бинарный алфавит), по следующему правилу: 1, ifj = m-(i-1) + nn(a )} . J3J=\ i nv vi = 1.i У/ = 1і-П (5) [0, if j \n\-(i-1) + nn(a )j Соотношения (4) и (5) задают отображение х - Ъ(х), которое мы будем называть оцифровкой х и писать: Ь(х) = Епит(х). (6)
Оцифровка является частным случаем шифрования. Однако, в отличие от последнего, она обеспечивает однозначность соответствия не только исходной и зашифрованной (оцифрованной) символьных последовательностей, но также и их метрик. Базовой метрикой для множества символьных последовательностей является расстояние Хэмминга [Hamming R.W., 1980] (число несовпадающих символов на соответствующих позициях), а числовых векторов - евклидово расстояние [Кудрявцев Л.Д., 1989].
Метрика Хэмминга в пространстве символьных последовательностей в два раза меньше квадрата евклидовой метрики в пространстве их оцифровок.
Доказательство: Пусть хи у - символьные последовательности, составленные из элементов словаря Q : х = [а ], / = 1..4 a eQV/ , (7а) у = [Х], / = 1..Ы, X efiVi . (7б)
3 Данное утверждение, а также понятие оцифровки в форме (III.1.1-5) было введено автором совместно со студентом ФФХБ МФТИ Цветковым Ф.О. (ныне - аспирант Института молекулярной биологии им. В.А. Энгельгардта РАН). Здесь и далее, без потери общности = \у\ (см. выше). Пусть бинарные вектора Ь(х)и Ъ(у) таковы, что К ) = [0 ] = Епит(х), Ь(у) = [у] ] = Епит(у), j = 1. \х\ Q, JBJ , уJ є Е V/, (8) Хэммингово расстояние между хи у, обозначаемое далее как Нат(х,у), можно представить в следующем виде: 7=1 Х\ Нат(Х,у) = а (9) где 8аЪ - дельта-символ Кронекера. Квадрат евклидового расстояния Euc2(b(x),b(y)) между векторами Ь(х)и Ь(у) определяется известной формулой: Еис2 (Ъ(х),Ъ(У))= Z(PJ-У ) . (10) Перегруппируем правую часть (10): z( - )2=2:2:K1)Q+/- 1)Q1 . (11) j=1 k=1 i=1 При любом фиксированном k0 (1 k0 \x\), имеет место альтернатива: 1) либо существует такое /0 (1 /0 Q), что ftk0-m+h = у(К-1)с\+к =1, и 0-1)q+/ = у( 0-1№/ = 0 при любом 7 /0 (когда а 0 = я 0 ), и тогда 2( 0-1 _у( 0-1 +Л =0; (12) /=1 2) либо существуют такие /1и /2 (1 l1 iQ, 1 /2 iQ, /1 /2 ), что (Ьг1) к = r(K-m+h =1 а также (ь-1w = 0 при любом 7 7 г( 0-1)«и = 0 любом / /2 (когда а"0 Х0 ), и тогда (13) Иными словами, для любого Аг(1 Аг Ы): g/ -1)QH _7( -1)И+Л2 =\0,ifak Як\ 2(1 _ ) (14) /=1 [2, // аг Л I Подставляя (14) в (11) и (10), имеем 2 0),b(y) 2 = 2 Y(1 -8 к к) = 2Нат(х,у), (15) что завершает доказательство. Очевидно, что Етап -отображение однозначно и всегда имеет также однозначное обратное отображение, Епит1, т.е. по Ъ(х) можно всегда однозначно восстановить х, и наоборот. Пусть теперь Х = {хк}, к = 1..\Х\, есть множество векторов типа (1), а = {&,}, / = 1,2...Щ,- множество бинарных векторов размерности -П. Множество В называется оцифровкой множества X, т.е. В = Епит(Х), (16) если для любого хк е! существует такое й;є5, что Ь, = Епит(хк), и наоборот, для любого й;є5 существовует хк єХ такое, что t =Епит1(Ъ1). Если ввести теперь для любых b1 и b2 из B хэмминг-приведенное евклидово расстояние HTED(b1,b2 ) как HTEIXK ъ2) = Еис2АЛ) , (17) то HTED(b1,b2 ) будет совпадать с хэмминговым расстоянием между соответствующими символьными прообразами, если и b1 , и b2 одновременно являются оцифровками. В противном случае, это не так. Однако, выражение (17) дает удачные аналог хэммингова расстояния (см. (15)) для произвольных числовых (не обязательно бинарных) векторов.
Положения и вывод основного уравнения дискретной однопараметрической модели генетической изменчивости. Сравнительный анализ нуклеотидных последовательностей находит широкое применение в молекулярной биологии 1) для изучения степени их гомологичности per se; 2) в целях выявления функционально- или структурно-важных фрагментов; 3) для выяснения их эволюционной близости. Для решения первой из этих задач достаточно хэмминговой метрики [Hamming R.W., 1980], h, равной количеству несовпадающих символов в соответствующих позициях сравниваемых последовательностей. Решение второй и третьей задач должно существенно опираться на природу изучаемых процессов изменчивости. В частности, при анализе генетической изменчивости следует учитывать возможность множественных повторных замен, которая была впервые учтена в формуле Джукса-Кантора [Jukes T.H., 1969]: ЗІ з А: = -ІПпТтч— 2ДҐ, () І4 х 4 \х\-Нагп(х,у) где х - длина последовательности; Я - вероятность нуклеотидных замен. Широкое распространение получили двух- и трёхпараметрические модификации (1), предложенные Мотоо Кимурой [Kimura M., 1981]. Основной математической предпосылкой при выводе формулы (1), а также её двух- и трёхпараметрических модификаций [Jukes T.H., 1969; Kimura M., 1981] является допущение о непрерывности марковского процесса изменчивости нуклеотидных последовательностей. Это предположение накладывает известные ограничения на применимость подобных моделей: они становятся непригодными для описания случайных процессов (в нашем случае - генетической изменчивости) с высокой интегральной интенсивностью [Ван Кампен Н.Г., 1990]. В своей работе М. Кимура предлагает устранять этот недостаток с помощью поправочных вычислительных схем [Kimura M., 1981], которые, впрочем, носят эмпирический характер и не затрагивают существа проблемы. Таким образом, формула Джукса-Кантора не вполне корректна для анализа изменчивости РНК содержащих вирусов, частота мутаций которых достигает величины 10-3-10-4 нуклеотидных замен/на геном/на цикл репликации [Holland J., 1982], что намного отличается от таковой в соматических клетках (10-8-10-11 нуклеотидных замен/на геном/на цикл репликации [Wilson A.C., 1987]). Среди РНК-содержащих вирусов, наибольшее внимание исследователей привлекает изменчивость Вируса
Иммунодефицита Человека (ВИЧ) [Barre-Sinoussi F., 1983], являющегося этиологическим агентом неизлечимого летального Синдрома Приобретенного Иммунодефицита (СПИД), так как она является основным препятствием на пути разработки эффективной терапии и вакцины против этой инфекции, распространение которой в настоящее время имеет характер пандемии. Высокий уровень изменчивости ВИЧ связан с ошибками обратной транскриптазы [Preston B.D., 1988] и генетическими рекомбинациями между различными вариантами вируса [Human retroviruses and AIDS, 1996] на фоне быстрого чередования вирусных поколений [Wei X.P., 1995]. В случае ВИЧ, ситуация осложняется ещё и тем, что даже незначительные в количественном отношении мутации могут привести к значительным изменениям репликативной потенциала вируса [Human retroviruses and AIDS, 1996]. Кроме того, ВИЧ пантропен, причём скорость его репродукции в различных органах и тканях различна [Levy J.A., 1993]. Поэтому вероятность нуклеотидных замен в единицу времени не является постоянной величиной и может существенно изменяться с течением времени. Поэтому моделирование процесса изменчивости ВИЧ как случайного процесса с постоянной мощностью некорректно.
Иерархическая структура аминокислотных последовательностей V3-петли gp120 различных таксонов ВИЧ-1
Обратите внимание, что в то время, как $ є S V/ = 1.. Q, \/к = 1.. \Х\ , О р] 1 V/ = 1..JC-Q, (9) причем Д = 1 о Д= 2 V152=1..Z, V/ = 1..JC-Q. (10) Таким образом, среднее значение оцифровок, вообще говоря, не является оцифровкой и не может быть интерпретировано в терминах символьных последовательностей (отображение Епит\ х ) лишено смысла). Однако это не вызывает затруднений в рамках хэмминг-приведенного пространства (см. замечание после (III.1.1-17)).
Хэмминг-приведенные расстояния между выборочными средними, консенсусами и субконсенсусами различных таксонов приведены в табл.III.3. Для всех без исключения таксонов X и Y ВИЧ-1 имеет неравенство HTED( x , у ) HTED(xmiX,ym:ix), т.е. направления изменчивости (не путать с направлением эволюции!) сходятся. Следовательно, расширение границ изменчивости приводит к снижению различий между таксонами, понимаемых в смысле (1).
Приведение самих значений Д , j = 1.1188, для десяти таксонов ВИЧ-1 заняло бы слишком много места и потому не обладало бы достаточной наглядностью. Мы предлагаем другой, более наглядный метод представления х , который заключается в следующем: если имеют место (4)-(7), то, проведя интерполяцию по точкам в координатах /, иа(а.)и /г , мы получим поверхность, высоты пиков которой равны соответствующим элементам среднего значения. Эту поверхность лучше всего представлять в виде контурной карты, показанной на рис.Ш.4. «Архипелаг изменчивости» визуализирует х и облегчает его анализ. Центральный мотив GPGQ-26 является наиболее частым для большинства субтипов за исключением O (GPMA-26) и B (GPGR-26, хотя GPGQ-26 тоже встречается). Однако только для субтипа C тетрамер GPGQ-26 является безальтернативным вариантом, что согласуется с резким снижением иммунореактивности сывороток от пациентов, инфицированных С-субтипом ВИЧ-1, к синтетическим пептидам с точечными заменами Q-26 [Ярославцева Н.Г., 1997]. Все таксоны ВИЧ-1 (за исключением O и D) содержат высоко-консервативный несвязанный тетрамер G-23...G-25...G-41...A-49, замены в котором близки к фоновым. Характерно, что функциональные группы аминокислот, входящих в состав указанного тетрамера, обладают минимальным стерическим фактором. Это облегчает образование изгиба в окрестности консервативного верхушечного P-24 и снижает стерические затруднения вблизи дисульфидной связи. Наиболее часто встречающаяся замена в 49-ой позиции, P-49, также способствует снятию стерических напряжений в основании петли, уводя белковую цепь за счет своего гарантированного изгиба от “цистеинового мостика”. Вблизи G-41 отсутствуют жесткие поворотные структуры, но, по-видимому, там все же либо имеется изгиб, либо обеспечивается возможность его образования на определенных этапах функционирования V3-петли, так как правое плечо V3- петли (позиции 25-51) длиннее левого (позиции 2-23). При этом, большое количество альтернатив для G-41 в субтипе D может объясняться большим числом конформационных вариантов (и, возможно, вариантов функционирования) вследствие высокой вариабильности окрестных аминокислот. Отсутствие консервативного G-41 в группе O может объясняться нежесткостью центрального мотива GPMA-26. По-видимому, таксоны D и O могут оказаться наиболее сложными объектами для однозначного серотипирования: первый -в силу аминокислотного и конформационного разнообразия в позициях 29-45; второй -в силу нежесткости своей вторичной структуры вцелом.
Зная х , можно стандартным образом определить выборочный центральный момент второго порядка (оценку дисперсии {ріа(Х)}) для таксона X, обозначаемый как М2(Х). Если имеют место (20-23), то 1 х! - 1 ШХ)=Т 1ТІ:(ІЇ- Р )2- do \Х\ j=1 к=1 Если бы все аминокислотные замены были равновероятны, то распределение аминокислотных замен имело бы шарообразную форму, и центром такого шара для произвольного таксона X ВИЧ-1 следовало бы признать его выборочное среднее х . Радиус, ограничивающий область основного сосредоточения представителей таксона, имеет порядок JM2(X); в хэмминг-приведенном пространстве, с учетом доказанной выше теоремы, этот радиус, обозначаемый как HTR(X), будет определяться следующим выражением (см. (III.1.1-17)): HTR(X) = М2(Х) . (12) При этом возможны три случая: 1) два шарообразных скопления не пересекаются (когда расстояние между их центрами больше суммы их радиусов), т.е., в нашем случае: HTED( х , у ) HTR(X) + HTR(Y); (13) 2) шарообразное скопление X включает 7, если: HTED( х , у ) + HTR(Y) HTR(X); (14) 3) шарообразные скопления X и 7 пересекаются своими периферическими участками, если: HTED( х , у ) HTR(X) + HTR(Y) HTED( x , y ) + HTR(Y) HTR(X) v С помощью табл.III.4, в которой приведены значения HTR(X) для различных таксонов X ВИЧ-1, легко видеть, что шары заведомо пересекаются для подавляющего большинства пар таксонов ВИЧ-1 X и Y из группы M . Характер их пересечения показан в табл.III.5. Таблица III.4. Выборочные центральные моменты, асимметрия и хэмминг-приведенный радиус для различных таксонов ВИЧ-1.